Nadzorovano učenje je vrsta strojnega učenja, pri katerem se stroji usposabljajo z uporabo dobro 'označenih' podatkov o usposabljanju in na podlagi teh podatkov stroji predvidijo rezultat. Označeni podatki pomenijo, da so nekateri vhodni podatki že označeni s pravilnim izhodom.
Pri nadzorovanem učenju podatki o usposabljanju, posredovani strojem, delujejo kot nadzornik, ki uči stroje, da pravilno napovejo rezultat. Uporablja isti koncept, kot se učenec uči pod nadzorom učitelja.
Nadzorovano učenje je postopek zagotavljanja vhodnih in pravilnih izhodnih podatkov modelu strojnega učenja. Cilj algoritma za nadzorovano učenje je poiščite funkcijo preslikave za preslikavo vhodne spremenljivke (x) z izhodno spremenljivko (y) .
V resničnem svetu se lahko nadzorovano učenje uporablja za Ocena tveganja, klasifikacija slik, odkrivanje prevar, filtriranje neželene pošte itd.
Kako deluje nadzorovano učenje?
Pri nadzorovanem učenju se modeli usposabljajo z uporabo označenega nabora podatkov, kjer se model uči o vsaki vrsti podatkov. Ko je proces usposabljanja zaključen, se model testira na podlagi testnih podatkov (podmnožica učnega niza), nato pa napove rezultat.
Delovanje nadzorovanega učenja je mogoče zlahka razumeti s spodnjim primerom in diagramom:
združi javanski niz
Recimo, da imamo nabor podatkov različnih vrst oblik, ki vključuje kvadrat, pravokotnik, trikotnik in mnogokotnik. Prvi korak je, da moramo usposobiti model za vsako obliko.
- Če ima dana oblika štiri stranice in so vse stranice enake, bo označena kot a kvadrat .
- Če ima dana oblika tri stranice, bo označena kot a trikotnik .
- Če ima dana oblika šest enakih strani, bo označena kot šesterokotnik .
Sedaj, po treningu, testiramo naš model s testnim kompletom, naloga modela pa je, da prepozna obliko.
Stroj je že naučen na vseh vrstah oblik in ko najde novo obliko, jo razvrsti na podlagi številnih strani in napove rezultat.
Koraki, vključeni v nadzorovano učenje:
- Najprej določite vrsto nabora podatkov o usposabljanju
- Zberite označene podatke o vadbi.
- Razdelite nabor podatkov o usposabljanju na usposabljanje nabor podatkov, nabor testnih podatkov in nabor validacijskih podatkov .
- Določite vhodne značilnosti nabora podatkov za usposabljanje, ki mora imeti dovolj znanja, da lahko model natančno napove izhod.
- Določite ustrezen algoritem za model, kot je podporni vektorski stroj, odločitveno drevo itd.
- Izvedite algoritem na naboru podatkov za usposabljanje. Včasih potrebujemo validacijske nize kot kontrolne parametre, ki so podmnožica naborov podatkov za usposabljanje.
- Ocenite natančnost modela tako, da zagotovite testni niz. Če model napove pravilen izhod, kar pomeni, da je naš model točen.
Vrste nadzorovanih algoritmov strojnega učenja:
Nadzorovano učenje lahko nadalje razdelimo na dve vrsti težav:
1. Regresija
Regresijski algoritmi se uporabljajo, če obstaja povezava med vhodno spremenljivko in izhodno spremenljivko. Uporablja se za napovedovanje zveznih spremenljivk, kot so vremenska napoved, tržni trendi itd. Spodaj je nekaj priljubljenih regresijskih algoritmov, ki spadajo pod nadzorovano učenje:
- Linearna regresija
- Regresijska drevesa
- Nelinearna regresija
- Bayesova linearna regresija
- Polinomska regresija
2. Razvrstitev
Klasifikacijski algoritmi se uporabljajo, ko je izhodna spremenljivka kategorična, kar pomeni, da obstajata dva razreda, kot sta Da-Ne, Moški-Ženski, True-false itd.
Filtriranje neželene pošte,
- Naključni gozd
- Odločitvena drevesa
- Logistična regresija
- Podporni vektorski stroji
Opomba: o teh algoritmih bomo podrobno razpravljali v naslednjih poglavjih.
Prednosti nadzorovanega učenja:
- S pomočjo nadzorovanega učenja lahko model predvidi rezultat na podlagi predhodnih izkušenj.
- Pri nadzorovanem učenju lahko imamo natančno predstavo o razredih predmetov.
- Model nadzorovanega učenja nam pomaga pri reševanju različnih problemov iz realnega sveta, kot npr odkrivanje goljufij, filtriranje neželene pošte itd.
Slabosti nadzorovanega učenja:
- Modeli nadzorovanega učenja niso primerni za reševanje kompleksnih nalog.
- Nadzorovano učenje ne more napovedati pravilnega rezultata, če se testni podatki razlikujejo od nabora podatkov o usposabljanju.
- Usposabljanje je zahtevalo veliko računskih časov.
- Pri nadzorovanem učenju potrebujemo dovolj znanja o razredih predmetov.