logo

Pristranskost in varianca v strojnem učenju

Strojno učenje je veja umetne inteligence, ki strojem omogoča analizo podatkov in napovedovanje. Če pa model strojnega učenja ni natančen, lahko povzroči napake napovedi, te napake napovedi pa so običajno znane kot pristranskost in varianca. Pri strojnem učenju bodo te napake vedno prisotne, saj vedno obstaja majhna razlika med napovedmi modela in dejanskimi napovedmi. Glavni cilj analitikov ML/podatkovne znanosti je zmanjšati te napake, da bi dobili natančnejše rezultate. V tej temi bomo razpravljali o pristranskosti in varianci, kompromisu pristranskosti in variance, premajhnem in prevelikem opremljanju. Toda preden začnemo, najprej razumemo, kaj so napake v strojnem učenju?

Pristranskost in varianca v strojnem učenju

Napake pri strojnem učenju?

Pri strojnem učenju je napaka merilo, kako natančno lahko algoritem naredi napovedi za prej neznan nabor podatkov. Na podlagi teh napak se izbere model strojnega učenja, ki lahko najbolje deluje na določenem naboru podatkov. Pri strojnem učenju obstajata predvsem dve vrsti napak, in sicer:

    Zmanjšane napake:Te napake je mogoče zmanjšati, da se izboljša natančnost modela. Takšne napake lahko nadalje razvrstimo v pristranskost in varianco.
    Pristranskost in varianca v strojnem učenju Nepopravljive napake:Te napake bodo vedno prisotne v modelu

ne glede na to, kateri algoritem je bil uporabljen. Vzrok teh napak so neznane spremenljivke, katerih vrednosti ni mogoče zmanjšati.

Kaj je Bias?

Na splošno model strojnega učenja analizira podatke, v njih najde vzorce in naredi napovedi. Med usposabljanjem se model nauči teh vzorcev v naboru podatkov in jih uporabi za testiranje podatkov za napovedovanje. Med napovedovanjem se pojavi razlika med predvidenimi vrednostmi modela in dejanskimi/pričakovanimi vrednostmi , in ta razlika je znana kot napake pristranskosti ali napake zaradi pristranskosti . Opredelimo ga lahko kot nezmožnost algoritmov strojnega učenja, kot je linearna regresija, da zajamejo pravo razmerje med podatkovnimi točkami. Vsak algoritem se začne z določeno mero pristranskosti, ker pride do pristranskosti zaradi predpostavk v modelu, zaradi česar je ciljno funkcijo enostavno naučiti. Model ima bodisi:

git pull izvorni mojster
    Nizka pristranskost:Model z nizko pristranskostjo bo dal manj predpostavk o obliki ciljne funkcije.Visoka pristranskost:Model z visoko pristranskostjo daje več predpostavk in model ne more več zajeti pomembnih značilnosti našega nabora podatkov. Model z visoko pristranskostjo tudi ne more dobro delovati na novih podatkih.

Na splošno ima linearni algoritem veliko pristranskost, saj se zaradi njega hitro učijo. Enostavnejši ko je algoritem, večjo pristranskost bo verjetno uvedel. Medtem ko ima nelinearni algoritem pogosto nizko pristranskost.

Nekaj ​​primerov algoritmov strojnega učenja z nizko pristranskostjo so odločitvena drevesa, k-najbližji sosedje in podporni vektorski stroji . Hkrati je algoritem z visoko pristranskostjo Linearna regresija, linearna diskriminantna analiza in logistična regresija.

Načini za zmanjšanje visoke pristranskosti:

Velika pristranskost se pojavi predvsem zaradi precej preprostega modela. Spodaj je nekaj načinov za zmanjšanje velike pristranskosti:

  • Povečajte vhodne funkcije, ker je model premalo opremljen.
  • Zmanjšajte obdobje ureditve.
  • Uporabite bolj zapletene modele, kot je vključitev nekaterih polinomskih funkcij.

Kaj je napaka variance?

Varianca bi določila količino variacije v napovedi, če bi bili uporabljeni različni podatki o usposabljanju. Preprosto povedano, varianca pove, koliko se naključna spremenljivka razlikuje od svoje pričakovane vrednosti. V idealnem primeru se model ne bi smel preveč razlikovati od enega nabora podatkov za usposabljanje do drugega, kar pomeni, da mora biti algoritem dober pri razumevanju skritega preslikave med vhodnimi in izhodnimi spremenljivkami. Napake variance so bodisi nizko varianco ali visoko varianco.

Nizka varianca pomeni, da obstaja majhna razlika v napovedi ciljne funkcije s spremembami v nizu podatkov o usposabljanju. Ob istem času, Visoka varianca kaže veliko variacijo v napovedi ciljne funkcije s spremembami v naboru podatkov o usposabljanju.

Model, ki kaže visoko varianco, se veliko nauči in dobro deluje z naborom podatkov za usposabljanje in ne posplošuje dobro z nevidnim naborom podatkov. Posledično daje tak model dobre rezultate z naborom podatkov za usposabljanje, vendar kaže visoke stopnje napak na naboru testnih podatkov.

10 ml v oz

Ker se pri visoki varianci model nauči preveč iz nabora podatkov, to vodi do prekomernega opremljanja modela. Model z visoko varianco ima naslednje težave:

  • Model z veliko variacijo vodi do prekomernega opremljanja.
  • Povečajte kompleksnost modela.

Običajno imajo nelinearni algoritmi veliko prilagodljivosti, da se prilegajo modelu, imajo visoko varianco.

Pristranskost in varianca v strojnem učenju

Nekateri primeri algoritmov strojnega učenja z nizko varianco so: Linearna regresija, logistična regresija in linearna diskriminantna analiza . Hkrati so algoritmi z visoko varianco odločitveno drevo, podporni vektorski stroj in K-najbližji sosedje.

Načini za zmanjšanje visoke variance:

  • Zmanjšajte vhodne funkcije ali število parametrov, ker je model preveč opremljen.
  • Ne uporabljajte preveč zapletenega modela.
  • Povečajte podatke o vadbi.
  • Povečajte rok za regulacijo.

Različne kombinacije pristranskosti variance

Obstajajo štiri možne kombinacije pristranskosti in varianc, ki jih predstavlja spodnji diagram:

Pristranskost in varianca v strojnem učenju
    Nizka pristranskost, nizka varianca:
    Kombinacija nizke pristranskosti in majhne variance kaže idealen model strojnega učenja. Vendar praktično ni mogoče.Nizka pristranskost, visoka varianca:Z nizko pristranskostjo in visoko varianco so napovedi modela v povprečju nedosledne in natančne. Ta primer se zgodi, ko se model uči z velikim številom parametrov in tako vodi do prekomerno opremljanje Visoka pristranskost, nizka varianca:Z visoko pristranskostjo in nizko varianco so napovedi skladne, vendar v povprečju netočne. Ta primer se zgodi, ko se model ne uči dobro z naborom podatkov za usposabljanje ali uporablja malo številk parametra. To vodi do premajhna oprema težave v modelu.Visoka pristranskost, visoka varianca:
    Z visoko pristranskostjo in visoko varianco so napovedi nedosledne in v povprečju tudi netočne.

Kako prepoznati visoko varianco ali veliko pristranskost?

Visoko varianco je mogoče ugotoviti, če ima model:

Pristranskost in varianca v strojnem učenju
  • Nizka napaka pri usposabljanju in visoka napaka pri testiranju.

Visoko pristranskost je mogoče prepoznati, če ima model:

  • Visoka napaka pri usposabljanju in testna napaka je skoraj podobna napaki pri usposabljanju.

Kompromis pristranskosti in variance

Med gradnjo modela strojnega učenja je zelo pomembno, da poskrbimo za pristranskost in varianco, da se izognemo prevelikemu in premajhnemu prilagajanju modela. Če je model zelo preprost z manj parametri, ima lahko nizko varianco in visoko pristranskost. Če ima model veliko število parametrov, bo imel visoko varianco in nizko pristranskost. Torej je potrebno vzpostaviti ravnotežje med napakami pristranskosti in variance, to ravnotežje med napako pristranskosti in napako variance pa je znano kot kompromis Bias-Variance.

standardni odklon numpy
Pristranskost in varianca v strojnem učenju

Za natančno napoved modela potrebujejo algoritmi nizko varianco in majhno pristranskost. Vendar to ni mogoče, ker sta pristranskost in varianca medsebojno povezana:

  • Če zmanjšamo varianco, bo to povečalo pristranskost.
  • Če zmanjšamo pristranskost, bo to povečalo varianco.

Kompromis pristranskosti in variance je osrednje vprašanje pri nadzorovanem učenju. V idealnem primeru potrebujemo model, ki natančno zajema pravilnosti podatkov o usposabljanju in se hkrati dobro posplošuje z nevidnim naborom podatkov. Na žalost to ni mogoče storiti hkrati. Ker se lahko algoritem z veliko varianco dobro obnese s podatki o usposabljanju, vendar lahko vodi do prekomernega opremljanja s šumnimi podatki. Medtem ko algoritem z visoko pristranskostjo ustvari precej preprost model, ki morda niti ne zajame pomembnih pravilnosti v podatkih. Zato moramo najti dobro točko med pristranskostjo in varianco, da naredimo optimalen model.

Zato je Kompromis pristranskosti in variance je iskanje najboljše točke za vzpostavitev ravnotežja med napakami pristranskosti in variance.