Strojno učenje je področje računalništva, ki daje računalnikom možnost učenja, ne da bi bili eksplicitno programirani. Nadzorovano učenje in nenadzorovano učenje sta dve glavni vrsti strojno učenje .
noter nadzorovano učenje , se stroj uri na nizu označenih podatkov, kar pomeni, da so vhodni podatki združeni z želenim izhodom. Stroj se nato nauči predvideti izhod za nove vhodne podatke. Nadzorovano učenje se pogosto uporablja za naloge, kot so klasifikacija, regresija in odkrivanje predmetov.
Pri nenadzorovanem učenju se stroj uri na nizu neoznačenih podatkov, kar pomeni, da vhodni podatki niso združeni z želenim izhodom. Stroj se nato nauči najti vzorce in razmerja v podatkih. Učenje brez nadzora se pogosto uporablja za naloge, kot je npr grozdenje , zmanjšanje dimenzionalnosti in odkrivanje anomalij.
Kaj je nadzorovano učenje?
Nadzorovano učenje je vrsta algoritem strojnega učenja ki se uči iz označenih podatkov. Označeni podatki so podatki, ki so označeni s pravilnim odgovorom ali klasifikacijo.
Nadzorovano učenje, kot že ime pove, vključuje prisotnost supervizorja kot učitelja. Nadzorovano učenje je, ko učimo ali usposabljamo stroj z uporabo podatkov, ki so dobro označeni. Kar pomeni, da so nekateri podatki že označeni s pravilnim odgovorom. Nato stroj dobi nov niz primerov (podatkov), tako da algoritem nadzorovanega učenja analizira podatke o usposabljanju (niz primerov usposabljanja) in iz označenih podatkov ustvari pravilen rezultat.
Na primer, označeni nabor podatkov slik slona, kamele in krave bi imel vsako sliko označeno s Elephant , Camelor Cow.

Ključne točke:
- Nadzorovano učenje vključuje usposabljanje stroja iz označenih podatkov.
- Označeni podatki so sestavljeni iz primerov s pravilnim odgovorom ali klasifikacijo.
- Stroj se nauči razmerja med vhodi (slike sadja) in izhodi (nalepke sadja).
- Izurjen stroj lahko nato naredi napovedi na novih, neoznačenih podatkih.
primer:
Recimo, da imate košaro s sadjem, ki jo želite identificirati. Stroj bi najprej analiziral sliko, da bi izluščil značilnosti, kot so njena oblika, barva in tekstura. Nato bi te lastnosti primerjal z značilnostmi sadežev, ki jih je že spoznal. Če so značilnosti nove slike najbolj podobne lastnostim jabolka, bi stroj predvidel, da je sadež jabolko.
razlika med tigrom in levom
Na primer , recimo, da ste dobili košaro, polno različnih vrst sadja. Zdaj je prvi korak, da usposobite stroj z vsemi različnimi sadeži enega za drugim, takole:
- Če je oblika predmeta zaobljena in ima vdolbino na vrhu, je rdeče barve, bo označen kot – Apple .
- Če je oblika predmeta dolg ukrivljen valj, ki ima zeleno-rumeno barvo, bo označen kot – Banana .
Recimo, da ste po treningu podatkov dali nov ločen sadež, recimo banano iz košare, in prosili, da ga identificirate.
Ker se je stroj stvari že naučil iz prejšnjih podatkov in jih mora ta čas pametno uporabiti. Najprej bo sadje razvrstil po obliki in barvi ter potrdil ime sadja kot BANANA in ga uvrstil v kategorijo Banana. Tako se stroj nauči stvari iz podatkov o usposabljanju (košara, ki vsebuje sadje) in nato uporabi znanje za testne podatke (novo sadje).
Vrste nadzorovanega učenja
Nadzorovano učenje je razvrščeno v dve kategoriji algoritmov:
- Regresija : Problem regresije je, ko je izhodna spremenljivka realna vrednost, kot so dolarji ali teža.
- Razvrstitev : Težava pri klasifikaciji je, ko je izhodna spremenljivka kategorija, kot je rdeča ali modra, bolezen ali brez bolezni.
Nadzorovano učenje obravnava ali se uči z označenimi podatki. To pomeni, da so nekateri podatki že označeni s pravilnim odgovorom.
1- Regresija
Regresija je vrsta nadzorovanega učenja, ki se uporablja za napovedovanje nenehnih vrednosti, kot so cene nepremičnin, cene delnic ali odliv strank. Regresijski algoritmi se naučijo funkcije, ki preslika vhodne funkcije v izhodno vrednost.
operatorji v programiranju python
Nekateri pogosti regresijski algoritmi vključujejo:
- Linearna regresija
- Polinomska regresija
- Podporna vektorska strojna regresija
- Regresija drevesa odločitev
- Naključna gozdna regresija
2- Razvrstitev
Klasifikacija je vrsta nadzorovanega učenja, ki se uporablja za napovedovanje kategoričnih vrednosti, na primer, ali bo stranka odpadla ali ne, ali je e-poštno sporočilo vsiljena pošta ali ne ali ali medicinska slika prikazuje tumor ali ne. Klasifikacijski algoritmi se naučijo funkcije, ki preslika vhodne značilnosti v porazdelitev verjetnosti po izhodnih razredih.
Nekateri pogosti algoritmi za razvrščanje vključujejo:
- Logistična regresija
- Podporni vektorski stroji
- Odločitvena drevesa
- Naključni gozdovi
- Naivni Baye
Ocenjevanje modelov nadzorovanega učenja
Ocenjevanje modelov nadzorovanega učenja je pomemben korak pri zagotavljanju, da je model natančen in posplošljiv. Obstaja vrsta različnih meritve ki se lahko uporabijo za vrednotenje modelov nadzorovanega učenja, vendar so nekateri najpogostejši:
Za regresijo
- Povprečna kvadratna napaka (MSE): MSE meri povprečno kvadratno razliko med napovedanimi in dejanskimi vrednostmi. Nižje vrednosti MSE kažejo na boljšo zmogljivost modela.
- Korenska povprečna kvadratna napaka (RMSE): RMSE je kvadratni koren MSE, ki predstavlja standardno deviacijo napak napovedi. Podobno kot MSE nižje vrednosti RMSE kažejo na boljšo zmogljivost modela.
- Povprečna absolutna napaka (MAE): MAE meri povprečno absolutno razliko med predvidenimi in dejanskimi vrednostmi. V primerjavi z MSE ali RMSE je manj občutljiv na odstopanja.
- R-kvadrat (koeficient določitve): R-kvadrat meri delež variance v ciljni spremenljivki, ki jo razlaga model. Višje vrednosti R-kvadrata kažejo na boljše prileganje modela.
Za razvrstitev
- Natančnost: Natančnost je odstotek napovedi, ki jih model izvede pravilno. Izračuna se tako, da se število pravilnih napovedi deli s skupnim številom napovedi.
- Natančnost: Natančnost je odstotek pozitivnih napovedi modela, ki so dejansko pravilne. Izračuna se tako, da se število resničnih pozitivnih napovedi deli s skupnim številom pozitivnih napovedi.
- Odpoklic: Priklic je odstotek vseh pozitivnih primerov, ki jih model pravilno identificira. Izračuna se tako, da se število resničnih pozitivnih primerov deli s skupnim številom pozitivnih primerov.
- Rezultat F1: Rezultat F1 je tehtano povprečje natančnosti in priklica. Izračuna se tako, da se vzame harmonična sredina natančnosti in odpoklica.
- Matrika zmede: Matrika zmede je tabela, ki prikazuje število napovedi za vsak razred, skupaj z dejanskimi oznakami razreda. Uporablja se lahko za vizualizacijo delovanja modela in prepoznavanje področij, kjer ima model težave.
Aplikacije nadzorovanega učenja
Nadzorovano učenje se lahko uporablja za reševanje najrazličnejših problemov, vključno z:
- Filtriranje neželene pošte: Algoritme nadzorovanega učenja je mogoče usposobiti za prepoznavanje in razvrščanje neželene elektronske pošte glede na njihovo vsebino, kar uporabnikom pomaga pri izogibanju neželenim sporočilom.
- Razvrstitev slike: Nadzorovano učenje lahko samodejno razvrsti slike v različne kategorije, kot so živali, predmeti ali prizori, kar olajša naloge, kot so iskanje slik, moderiranje vsebine in priporočila za izdelke na podlagi slik.
- Medicinska diagnoza: Nadzorovano učenje lahko pomaga pri medicinski diagnozi z analizo podatkov o pacientih, kot so medicinske slike, rezultati testov in anamneza pacienta, da prepozna vzorce, ki kažejo na določene bolezni ali stanja.
- Odkrivanje goljufij: Modeli nadzorovanega učenja lahko analizirajo finančne transakcije in prepoznajo vzorce, ki kažejo na goljufivo dejavnost, s čimer finančnim institucijam pomagajo preprečiti goljufije in zaščititi svoje stranke.
- Obdelava naravnega jezika (NLP): Nadzorovano učenje igra ključno vlogo pri nalogah NLP, vključno z analizo razpoloženja, strojnim prevajanjem in povzemanjem besedila, kar strojem omogoča učinkovito razumevanje in obdelavo človeškega jezika.
Prednosti nadzorovanega učenja
- Nadzorovano učenje omogoča zbiranje podatkov in ustvarja podatke iz prejšnjih izkušenj.
- Pomaga optimizirati merila uspešnosti s pomočjo izkušenj.
- Nadzorovano strojno učenje pomaga pri reševanju različnih vrst računalniških težav v resničnem svetu.
- Izvaja naloge klasifikacije in regresije.
- Omogoča oceno ali preslikavo rezultata na nov vzorec.
- Imamo popoln nadzor nad izbiro števila razredov, ki jih želimo v podatkih o usposabljanju.
Slabosti nadzorovanega učenja
- Klasificiranje velikih podatkov je lahko zahtevno.
- Usposabljanje za nadzorovano učenje zahteva veliko računalniškega časa. Torej zahteva veliko časa.
- Nadzorovano učenje ne more obvladati vseh kompleksnih nalog v strojnem učenju.
- Čas računanja je za nadzorovano učenje ogromen.
- Potrebuje označen niz podatkov.
- Potreben je proces usposabljanja.
Kaj je nenadzorovano učenje?
Nenadzorovano učenje je vrsta strojnega učenja, ki se uči iz neoznačenih podatkov. To pomeni, da podatki nimajo nobenih že obstoječih oznak ali kategorij. Cilj nenadzorovanega učenja je odkrivanje vzorcev in odnosov v podatkih brez kakršnih koli izrecnih navodil.
Nenadzorovano učenje je usposabljanje stroja z uporabo informacij, ki niso niti tajne niti označene, in omogoča algoritmu, da deluje na podlagi teh informacij brez vodenja. Tu je naloga stroja združevanje nerazvrščenih informacij glede na podobnosti, vzorce in razlike brez predhodnega usposabljanja podatkov.
Za razliko od nadzorovanega učenja učitelj ni na voljo, kar pomeni, da stroj ne bo deležen usposabljanja. Zato je naprava omejena na to, da sama najde skrito strukturo v neoznačenih podatkih.
Z nenadzorovanim učenjem lahko preučite zbrane podatke o živalih in ločite med več skupinami glede na lastnosti in dejanja živali. Te skupine lahko ustrezajo različnim živalskim vrstam, kar vam omogoča, da bitja kategorizirate brez odvisnosti od oznak, ki že obstajajo.

Ključne točke
set proti zemljevidu
- Nenadzorovano učenje omogoča modelu odkrivanje vzorcev in odnosov v neoznačenih podatkih.
- Algoritmi združevanja v gruče združujejo podobne podatkovne točke na podlagi njihovih inherentnih značilnosti.
- Ekstrakcija funkcij zajame bistvene informacije iz podatkov, kar modelu omogoči smiselno razlikovanje.
- Povezava oznak dodeli kategorije grozdom na podlagi ekstrahiranih vzorcev in značilnosti.
Primer
Predstavljajte si, da imate model strojnega učenja, usposobljen na velikem naboru podatkov neoznačenih slik, ki vsebujejo pse in mačke. Model še nikoli ni videl podobe psa ali mačke in za te živali nima že obstoječih oznak ali kategorij. Vaša naloga je, da z nenadzorovanim učenjem prepoznate pse in mačke v novi, nevideni podobi.
Na primer , predpostavimo, da ima podobo s psi in mačkami, ki jih še nikoli ni videl.
Tako stroj nima pojma o značilnostih psov in mačk, zato ga ne moremo kategorizirati kot 'pse in mačke'. Lahko pa jih kategorizira glede na njihove podobnosti, vzorce in razlike, tj. zgornjo sliko lahko zlahka kategoriziramo na dva dela. Prvi lahko vsebuje vse slike psi v njih in drugi del lahko vsebuje vse slike, ki imajo mačke v njih. Tukaj se prej niste ničesar naučili, kar pomeni, da ni podatkov o usposabljanju ali primerov.
Modelu omogoča, da deluje samostojno, da odkrije vzorce in informacije, ki prej niso bili odkriti. Ukvarja se predvsem z neoznačenimi podatki.
Vrste nenadzorovanega učenja
Nenadzorovano učenje je razvrščeno v dve kategoriji algoritmov:
- Grozdenje : Problem združevanja v gruče je, če želite odkriti inherentne skupine v podatkih, kot je združevanje strank glede na nakupovalno vedenje.
- Združenje : Problem učenja asociacijskih pravil je, kjer želite odkriti pravila, ki opisujejo velike dele vaših podatkov, na primer ljudje, ki kupijo X, običajno kupijo tudi Y.
Grozdenje
Združevanje v gruče je vrsta nenadzorovanega učenja, ki se uporablja za združevanje podobnih podatkovnih točk. Algoritmi združevanja v gruče delujejo tako, da iterativno premikajo podatkovne točke bližje njihovim središčem gruč in dlje od podatkovnih točk v drugih gručah.
- Ekskluzivno (predelitev)
- Aglomerativni
- Prekrivanje
- Verjetnostni
Vrste združevanja v gruče: -
- Hierarhično združevanje v gruče
- K-pomeni grozdenje
- Analiza glavnih komponent
- Razčlenitev singularne vrednosti
- Neodvisna analiza komponent
- Gaussovi mešani modeli (GMM)
- Prostorsko združevanje aplikacij s šumom na podlagi gostote (DBSCAN)
Učenje asociacijskih pravil
Učenje asociacijskih pravil je vrsta nenadzorovanega učenja, ki se uporablja za prepoznavanje vzorcev v podatkih. Asociacijsko pravilo učni algoritmi delujejo tako, da iščejo razmerja med različnimi elementi v naboru podatkov.
Nekaj pogostih algoritmov za učenje asociacijskih pravil vključuje:
- Apriorni algoritem
- Algoritem Eclat
- FP-algoritem rasti
Vrednotenje modelov nenadzorovanega učenja
Ocenjevanje modelov učenja brez nadzora je pomemben korak pri zagotavljanju, da je model učinkovit in uporaben. Vendar pa je lahko večji izziv kot ocenjevanje modelov nadzorovanega učenja, saj ni temeljnih resničnih podatkov, s katerimi bi lahko primerjali napovedi modela.
Obstaja več različnih meritev, ki jih je mogoče uporabiti za ovrednotenje nenadzorovanih učnih modelov, vendar so nekatere najpogostejše:
- Rezultat silhuete: Rezultat silhuete meri, kako dobro je vsaka podatkovna točka združena v gruče s svojimi člani gruče in ločena od drugih gruč. Razpon je od -1 do 1, pri čemer višji rezultati kažejo na boljše združevanje v gruče.
- Rezultat Calinski-Harabasz: Calinski-Harabasz rezultat meri razmerje med varianco med grozdi in varianco znotraj grozdov. Razpon je od 0 do neskončnosti, pri čemer višji rezultati kažejo na boljše združevanje v gruče.
- Prilagojeni indeks Rand: Prilagojeni Randov indeks meri podobnost med dvema skupinama. Razpon je od -1 do 1, pri čemer višji rezultati kažejo na več podobnih skupin.
- Davies-Bouldinov indeks: Davies-Bouldinov indeks meri povprečno podobnost med grozdi. Razpon je od 0 do neskončnosti, pri čemer nižji rezultati kažejo na boljše združevanje v gruče.
- Rezultat F1: Rezultat F1 je tehtano povprečje natančnosti in priklica, ki sta dve meritvi, ki se običajno uporabljata pri nadzorovanem učenju za vrednotenje klasifikacijskih modelov. Vendar se lahko rezultat F1 uporablja tudi za vrednotenje nenadzorovanih učnih modelov, kot so modeli grozdenja.
Aplikacija nenadzorovanega učenja
Nenadzorovano učenje je mogoče uporabiti za reševanje najrazličnejših težav, vključno z:
- Odkrivanje anomalij: nenadzorovano učenje lahko prepozna nenavadne vzorce ali odstopanja od običajnega vedenja v podatkih, kar omogoča odkrivanje goljufij, vdorov ali sistemskih napak.
- Znanstvena odkritja: nenadzorovano učenje lahko odkrije skrita razmerja in vzorce v znanstvenih podatkih, kar vodi do novih hipotez in spoznanj na različnih znanstvenih področjih.
- Priporočilni sistemi: nenadzorovano učenje lahko prepozna vzorce in podobnosti v vedenju in preferencah uporabnikov ter priporoči izdelke, filme ali glasbo, ki so v skladu z njihovimi interesi.
- Segmentacija strank: nenadzorovano učenje lahko identificira skupine strank s podobnimi značilnostmi, kar podjetjem omogoča ciljno usmerjene tržne akcije in učinkovitejše izboljšanje storitev za stranke.
- Analiza slik: nenadzorovano učenje lahko združuje slike glede na njihovo vsebino, kar olajša naloge, kot so klasifikacija slik, zaznavanje predmetov in iskanje slik.
Prednosti nenadzorovanega učenja
- Ne zahteva označevanja podatkov o usposabljanju.
- Zmanjšanje dimenzionalnosti je mogoče enostavno doseči z nenadzorovanim učenjem.
- Sposoben najti prej neznane vzorce v podatkih.
- Nenadzorovano učenje vam lahko pomaga pridobiti vpoglede iz neoznačenih podatkov, ki jih drugače morda ne bi mogli dobiti.
- Učenje brez nadzora je dobro pri iskanju vzorcev in odnosov v podatkih, ne da bi nam povedali, kaj naj iščemo. To vam lahko pomaga izvedeti nove stvari o svojih podatkih.
Slabosti nenadzorovanega učenja
- Težko je izmeriti natančnost ali učinkovitost zaradi pomanjkanja vnaprej določenih odgovorov med usposabljanjem.
- Rezultati so pogosto manj točni.
- Uporabnik mora porabiti čas za interpretacijo in označevanje razredov, ki sledijo tej klasifikaciji.
- Učenje brez nadzora je lahko občutljivo na kakovost podatkov, vključno z manjkajočimi vrednostmi, odstopanji in šumnimi podatki.
- Brez označenih podatkov je lahko težko oceniti uspešnost modelov nenadzorovanega učenja, zaradi česar je težko oceniti njihovo učinkovitost.
Nadzorovano in nenadzorovano strojno učenje
| Parametri | Nadzorovano strojno učenje | Nenadzorovano strojno učenje |
|---|---|---|
| Vhodni podatki | Algoritmi se učijo z uporabo označenih podatkov. | Algoritmi se uporabljajo za podatke, ki niso označeni |
| Kompleksnost računanja | Enostavnejša metoda | Računalniško zapleteno |
| Natančnost | Zelo natančno | Manj natančno |
| Št. razredov | Število razredov je znano | Število razredov ni znano |
| Analiza podatkov | Uporablja analizo brez povezave | Uporablja analizo podatkov v realnem času |
| Uporabljeni algoritmi | Linearna in logistična regresija, naključni gozd, večrazredna klasifikacija, odločitveno drevo, podporni vektorski stroj, nevronska mreža itd. funkcije v c | K-Means združevanje v gruče, hierarhično združevanje v gruče, KNN, apriorni algoritem itd. |
| Izhod | Podan je želeni rezultat. | Želeni rezultat ni podan. |
| Podatki o usposabljanju | Za sklepanje o modelu uporabite podatke o usposabljanju. | Podatki o usposabljanju se ne uporabljajo. |
| Kompleksni model | Večjih in kompleksnejših modelov kot z nadzorovanim učenjem se ni mogoče naučiti. | Z nenadzorovanim učenjem se je mogoče naučiti večjih in kompleksnejših modelov. |
| Model | Naš model lahko testiramo. | Našega modela ne moremo testirati. |
| Imenuje se kot | Nadzorovano učenje imenujemo tudi klasifikacija. | Nenadzorovano učenje imenujemo tudi grozdenje. |
| Primer | Primer: optično prepoznavanje znakov. | Primer: Poiščite obraz na sliki. |
| Nadzor chmod 755 | nadzorovano učenje potrebuje nadzor za usposabljanje modela. | Učenje brez nadzora ne potrebuje nobenega nadzora za usposabljanje modela. |
Zaključek
Nadzorovano in nenadzorovano učenje sta dve močni orodji, ki ju je mogoče uporabiti za reševanje najrazličnejših problemov. Nadzorovano učenje je zelo primerno za naloge, kjer je želeni rezultat znan, medtem ko je nenadzorovano učenje zelo primerno za naloge, kjer želeni rezultat ni znan.
Pogosto zastavljena vprašanja (FAQ)
1. Kakšna je razlika med nadzorovanim in nenadzorovanim strojnim jezikom?
Nadzorovano in nenadzorovano učenje sta dva temeljna pristopa k strojnemu učenju, ki se razlikujeta po podatkih o usposabljanju in učnih ciljih.
- Učenje pod nadzorom vključuje usposabljanje modela strojnega učenja na označenem naboru podatkov, kjer ima vsaka podatkovna točka ustrezno oznako ali izhodno vrednost. Algoritem se nauči preslikati vhodne podatke v želeni izhod, kar mu omogoča napovedovanje novih, še nevidenih podatkov.
- Učenje brez nadzora , na drugi strani pa obravnava neoznačene nize podatkov, kjer podatkovne točke nimajo povezanih oznak ali izhodnih vrednosti.
2. Kaj je nadzorovano učenje?
Nadzorovano učenje je vrsta strojnega učenja, kjer se algoritem uri na označenem naboru podatkov, kjer ima vsaka podatkovna točka ustrezno oznako ali izhodno vrednost. Algoritem se nauči preslikati vhodne podatke v želeni izhod, kar mu omogoča napovedovanje novih, še nevidenih podatkov.
3. Kateri so običajni algoritmi za nadzorovano učenje?
Pogosti algoritmi za nadzorovano učenje vključujejo:
- Razvrstitev: Uporablja se za dodeljevanje kategorij podatkovnim točkam. Primeri vključujejo podporne vektorske stroje (SVM), logistično regresijo in odločitvena drevesa.
- Regresija: Uporablja se za napovedovanje zveznih številskih vrednosti. Primeri vključujejo linearno regresijo, polinomsko regresijo in grebensko regresijo.
4. Kateri so običajni algoritmi za nenadzorovano učenje?
Pogosti algoritmi za nenadzorovano učenje vključujejo:
- Združevanje v gruče: Združevanje podatkovnih točk v skupine glede na njihovo podobnost. Primeri vključujejo združevanje k-sredstev v gruče in hierarhično združevanje v gruče.
- Zmanjšanje dimenzij: Zmanjšanje števila funkcij v naboru podatkov ob ohranjanju najpomembnejših informacij. Primeri vključujejo analizo glavnih komponent (PCA) in samodejne kodirnike.
5. Kaj je nenadzorovano učenje?
Nenadzorovano učenje je vrsta strojnega učenja, kjer se algoritem uri na neoznačenem nizu podatkov, kjer podatkovne točke nimajo ustreznih oznak ali izhodnih vrednosti. Algoritem se nauči prepoznati vzorce in strukture v podatkih brez izrecnih navodil.
6. Kdaj uporabiti nadzorovano učenje v primerjavi z nenadzorovanim učenjem?
Uporabite nadzorovano učenje, ko imate označen nabor podatkov in želite narediti napovedi za nove podatke. Uporabite nenadzorovano učenje, ko imate neoznačen nabor podatkov in želite prepoznati vzorce ali strukture v podatkih.