Strojno učenje je veja umetne inteligence, ki strojem omogoča analizo podatkov in napovedovanje. Če pa model strojnega učenja ni natančen, lahko povzroči napake napovedi, te napake napovedi pa so običajno znane kot pristranskost in varianca. Pri strojnem učenju bodo te napake vedno prisotne, saj vedno obstaja majhna razlika med napovedmi modela in dejanskimi napovedmi. Glavni cilj analitikov ML/podatkovne znanosti je zmanjšati te napake, da bi dobili natančnejše rezultate. V tej temi bomo razpravljali o pristranskosti in varianci, kompromisu pristranskosti in variance, premajhnem in prevelikem opremljanju. Toda preden začnemo, najprej razumemo, kaj so napake v strojnem učenju?
Napake pri strojnem učenju?
Pri strojnem učenju je napaka merilo, kako natančno lahko algoritem naredi napovedi za prej neznan nabor podatkov. Na podlagi teh napak se izbere model strojnega učenja, ki lahko najbolje deluje na določenem naboru podatkov. Pri strojnem učenju obstajata predvsem dve vrsti napak, in sicer:
ne glede na to, kateri algoritem je bil uporabljen. Vzrok teh napak so neznane spremenljivke, katerih vrednosti ni mogoče zmanjšati.
Kaj je Bias?
Na splošno model strojnega učenja analizira podatke, v njih najde vzorce in naredi napovedi. Med usposabljanjem se model nauči teh vzorcev v naboru podatkov in jih uporabi za testiranje podatkov za napovedovanje. Med napovedovanjem se pojavi razlika med predvidenimi vrednostmi modela in dejanskimi/pričakovanimi vrednostmi , in ta razlika je znana kot napake pristranskosti ali napake zaradi pristranskosti . Opredelimo ga lahko kot nezmožnost algoritmov strojnega učenja, kot je linearna regresija, da zajamejo pravo razmerje med podatkovnimi točkami. Vsak algoritem se začne z določeno mero pristranskosti, ker pride do pristranskosti zaradi predpostavk v modelu, zaradi česar je ciljno funkcijo enostavno naučiti. Model ima bodisi:
git pull izvorni mojster
Na splošno ima linearni algoritem veliko pristranskost, saj se zaradi njega hitro učijo. Enostavnejši ko je algoritem, večjo pristranskost bo verjetno uvedel. Medtem ko ima nelinearni algoritem pogosto nizko pristranskost.
Nekaj primerov algoritmov strojnega učenja z nizko pristranskostjo so odločitvena drevesa, k-najbližji sosedje in podporni vektorski stroji . Hkrati je algoritem z visoko pristranskostjo Linearna regresija, linearna diskriminantna analiza in logistična regresija.
Načini za zmanjšanje visoke pristranskosti:
Velika pristranskost se pojavi predvsem zaradi precej preprostega modela. Spodaj je nekaj načinov za zmanjšanje velike pristranskosti:
- Povečajte vhodne funkcije, ker je model premalo opremljen.
- Zmanjšajte obdobje ureditve.
- Uporabite bolj zapletene modele, kot je vključitev nekaterih polinomskih funkcij.
Kaj je napaka variance?
Varianca bi določila količino variacije v napovedi, če bi bili uporabljeni različni podatki o usposabljanju. Preprosto povedano, varianca pove, koliko se naključna spremenljivka razlikuje od svoje pričakovane vrednosti. V idealnem primeru se model ne bi smel preveč razlikovati od enega nabora podatkov za usposabljanje do drugega, kar pomeni, da mora biti algoritem dober pri razumevanju skritega preslikave med vhodnimi in izhodnimi spremenljivkami. Napake variance so bodisi nizko varianco ali visoko varianco.
Nizka varianca pomeni, da obstaja majhna razlika v napovedi ciljne funkcije s spremembami v nizu podatkov o usposabljanju. Ob istem času, Visoka varianca kaže veliko variacijo v napovedi ciljne funkcije s spremembami v naboru podatkov o usposabljanju.
Model, ki kaže visoko varianco, se veliko nauči in dobro deluje z naborom podatkov za usposabljanje in ne posplošuje dobro z nevidnim naborom podatkov. Posledično daje tak model dobre rezultate z naborom podatkov za usposabljanje, vendar kaže visoke stopnje napak na naboru testnih podatkov.
10 ml v oz
Ker se pri visoki varianci model nauči preveč iz nabora podatkov, to vodi do prekomernega opremljanja modela. Model z visoko varianco ima naslednje težave:
- Model z veliko variacijo vodi do prekomernega opremljanja.
- Povečajte kompleksnost modela.
Običajno imajo nelinearni algoritmi veliko prilagodljivosti, da se prilegajo modelu, imajo visoko varianco.
Nekateri primeri algoritmov strojnega učenja z nizko varianco so: Linearna regresija, logistična regresija in linearna diskriminantna analiza . Hkrati so algoritmi z visoko varianco odločitveno drevo, podporni vektorski stroj in K-najbližji sosedje.
Načini za zmanjšanje visoke variance:
- Zmanjšajte vhodne funkcije ali število parametrov, ker je model preveč opremljen.
- Ne uporabljajte preveč zapletenega modela.
- Povečajte podatke o vadbi.
- Povečajte rok za regulacijo.
Različne kombinacije pristranskosti variance
Obstajajo štiri možne kombinacije pristranskosti in varianc, ki jih predstavlja spodnji diagram:
Kombinacija nizke pristranskosti in majhne variance kaže idealen model strojnega učenja. Vendar praktično ni mogoče.
Z visoko pristranskostjo in visoko varianco so napovedi nedosledne in v povprečju tudi netočne.
Kako prepoznati visoko varianco ali veliko pristranskost?
Visoko varianco je mogoče ugotoviti, če ima model:
- Nizka napaka pri usposabljanju in visoka napaka pri testiranju.
Visoko pristranskost je mogoče prepoznati, če ima model:
- Visoka napaka pri usposabljanju in testna napaka je skoraj podobna napaki pri usposabljanju.
Kompromis pristranskosti in variance
Med gradnjo modela strojnega učenja je zelo pomembno, da poskrbimo za pristranskost in varianco, da se izognemo prevelikemu in premajhnemu prilagajanju modela. Če je model zelo preprost z manj parametri, ima lahko nizko varianco in visoko pristranskost. Če ima model veliko število parametrov, bo imel visoko varianco in nizko pristranskost. Torej je potrebno vzpostaviti ravnotežje med napakami pristranskosti in variance, to ravnotežje med napako pristranskosti in napako variance pa je znano kot kompromis Bias-Variance.
standardni odklon numpy
Za natančno napoved modela potrebujejo algoritmi nizko varianco in majhno pristranskost. Vendar to ni mogoče, ker sta pristranskost in varianca medsebojno povezana:
- Če zmanjšamo varianco, bo to povečalo pristranskost.
- Če zmanjšamo pristranskost, bo to povečalo varianco.
Kompromis pristranskosti in variance je osrednje vprašanje pri nadzorovanem učenju. V idealnem primeru potrebujemo model, ki natančno zajema pravilnosti podatkov o usposabljanju in se hkrati dobro posplošuje z nevidnim naborom podatkov. Na žalost to ni mogoče storiti hkrati. Ker se lahko algoritem z veliko varianco dobro obnese s podatki o usposabljanju, vendar lahko vodi do prekomernega opremljanja s šumnimi podatki. Medtem ko algoritem z visoko pristranskostjo ustvari precej preprost model, ki morda niti ne zajame pomembnih pravilnosti v podatkih. Zato moramo najti dobro točko med pristranskostjo in varianco, da naredimo optimalen model.
Zato je Kompromis pristranskosti in variance je iskanje najboljše točke za vzpostavitev ravnotežja med napakami pristranskosti in variance.