Odločitvena drevesa so priljubljeno in močno orodje, ki se uporablja na različnih področjih, kot so strojno učenje, podatkovno rudarjenje in statistika. Zagotavljajo jasen in intuitiven način sprejemanja odločitev na podlagi podatkov z modeliranjem odnosov med različnimi spremenljivkami. Ta članek govori o tem, kaj so odločitvena drevesa, kako delujejo, njihovih prednostih in slabostih ter njihovi uporabi.
podjetje proti podjetju
Kaj je drevo odločanja?
A drevo odločitev je struktura, podobna diagramu poteka, ki se uporablja za sprejemanje odločitev ali napovedi. Sestavljen je iz vozlišč, ki predstavljajo odločitve ali preizkuse atributov, vej, ki predstavljajo izid teh odločitev, in listnih vozlišč, ki predstavljajo končne rezultate ali napovedi. Vsako notranje vozlišče ustreza preizkusu atributa, vsaka veja ustreza rezultatu preizkusa in vsako listno vozlišče ustreza oznaki razreda ali neprekinjeni vrednosti.
Struktura odločitvenega drevesa
- Korensko vozlišče : Predstavlja celoten nabor podatkov in prvotno odločitev, ki jo je treba sprejeti.
- Notranja vozlišča : Predstavlja odločitve ali preizkuse atributov. Vsako notranje vozlišče ima eno ali več vej.
- Podružnice : Predstavlja rezultat odločitve ali preizkusa, ki vodi do drugega vozlišča.
- Listni vozli : Predstavlja končno odločitev ali napoved. Na teh vozliščih ne pride do nadaljnjih delitev.
Kako delujejo drevesa odločanja?
Postopek ustvarjanja odločitvenega drevesa vključuje:
- Izbira najboljšega atributa : Z uporabo metrike, kot je Ginijeva nečistoča, entropija ali pridobitev informacij, se izbere najboljši atribut za razdelitev podatkov.
- Razdelitev nabora podatkov : Nabor podatkov je razdeljen na podnabore na podlagi izbranega atributa.
- Ponavljanje postopka : Postopek se ponovi rekurzivno za vsako podmnožico, pri čemer se ustvari novo notranje vozlišče ali listno vozlišče, dokler ni izpolnjen kriterij zaustavitve (npr. vsi primerki v vozlišču pripadajo istemu razredu ali je dosežena vnaprej določena globina).
Meritve za razdelitev
- Nečistoča Gini : meri verjetnost nepravilne klasifikacije novega primerka, če je bil naključno razvrščen glede na porazdelitev razredov v naboru podatkov.
ext{Gini} = 1 – sum_{i=1}^{n} (p_i)^2 , kje pi je verjetnost, da bo primerek razvrščen v določen razred.
- Entropija : meri količino negotovosti ali nečistoče v naboru podatkov.
-
ext{Entropy} = -sum_{i=1}^{n} p_i log_2 (p_i) , kje pi je verjetnost, da bo primerek razvrščen v določen razred.
-
- Pridobitev informacij : meri zmanjšanje entropije ali Ginijeve nečistoče, potem ko je nabor podatkov razdeljen na atribut.
ext{InformationGain} = ext{Entropy}_ ext{parent} – sum_{i=1}^{n} left( fracD_iD ast ext{Entropy}(D_i) ight) , kje Od je podmnožica D po razdelitvi z atributom.
Prednosti odločitvenih dreves
- Enostavnost in interpretabilnost : Odločitvena drevesa je enostavno razumeti in interpretirati. Vizualna predstavitev natančno odraža človeške procese odločanja.
- Vsestranskost : Lahko se uporablja za naloge klasifikacije in regresije.
- Ni potrebe po skaliranju funkcij : Odločitvena drevesa ne zahtevajo normalizacije ali skaliranja podatkov.
- Obravnava nelinearne odnose : Sposobnost zajemanja nelinearnih odnosov med funkcijami in ciljnimi spremenljivkami.
Slabosti odločitvenih dreves
- Prekomerno opremljanje : Odločitvena drevesa lahko zlahka preveč prilagodijo podatke o usposabljanju, še posebej, če so globoka z veliko vozlišči.
- Nestabilnost : Majhne razlike v podatkih lahko povzročijo, da se ustvari popolnoma drugačno drevo.
- Pristranskost do funkcij z več ravnmi : Funkcije z več nivoji lahko prevladujejo v drevesni strukturi.
Obrezovanje
Premagati preoblikovanje, obrezovanje uporabljajo se tehnike. Obrezovanje zmanjša velikost drevesa z odstranitvijo vozlišč, ki zagotavljajo malo moči pri razvrščanju primerkov. Obstajata dve glavni vrsti obrezovanja:
preimenovanje mape v linuxu
- Predhodno obrezovanje (zgodnja zaustavitev) : zaustavi rast drevesa, ko izpolnjuje določene kriterije (npr. največja globina, najmanjše število vzorcev na list).
- Naknadno obrezovanje : Odstrani veje s popolnoma zraslega drevesa, ki ne zagotavljajo pomembne moči.
Uporaba dreves odločanja
- Poslovno odločanje : Uporablja se pri strateškem načrtovanju in dodeljevanju virov.
- Skrb za zdravje : Pomaga pri diagnosticiranju bolezni in predlaganju načrtov zdravljenja.
- Finance : Pomaga pri kreditnem točkovanju in oceni tveganja.
- Trženje : Uporablja se za segmentiranje strank in napovedovanje vedenja strank.
Uvod v drevo odločanja
- Odločitveno drevo v strojnem učenju
- Prednosti in slabosti regresije drevesa odločanja v strojnem učenju
- Odločitveno drevo v programskem inženirstvu
Implementacija v posebnih programskih jezikih
- Julija :
- Klasifikatorji drevesa odločanja v Juliji
- R :
- Odločitveno drevo v programiranju R
- Odločitveno drevo za regresijo v programiranju R
- Klasifikatorji drevesa odločanja v programiranju R
- Python :
- Python | Regresija drevesa odločanja z uporabo sklearn
- Python | Implementacija odločitvenega drevesa
- Klasifikacija besedila z uporabo dreves odločanja v Pythonu
- Posredovanje kategoričnih podatkov v Sklearn Decision Tree
- MATLAB :
- Kako zgraditi drevo odločitev v MATLAB?
Koncepti in metrike v drevesih odločanja
- Metrike :
- ML | Ginijeva nečistoča in entropija v odločitvenem drevesu
- Kako izračunati pridobitev informacij v drevesu odločanja?
- Kako izračunati pričakovano vrednost v drevesu odločitev?
- Kako izračunati napako pri usposabljanju v drevesu odločanja?
- Kako izračunati Ginijev indeks v drevesu odločanja?
- Kako izračunati entropijo v odločitvenem drevesu?
- Kriteriji delitve :
- Kako določiti najboljšo razdelitev v drevesu odločanja?
Algoritmi in različice drevesa odločanja
- Splošni algoritmi drevesa odločanja :
- Algoritmi drevesa odločanja
- Napredni algoritmi :
- C5.0 Algoritem odločitvenega drevesa
Primerjalna analiza in razlike
- Z drugimi modeli :
- ML | Logistična regresija proti klasifikaciji drevesa odločanja
- Razlika med naključnim gozdom in odločitvenim drevesom
- KNN proti odločitvenemu drevesu v strojnem učenju
- Odločitvena drevesa proti algoritmom združevanja v gruče proti linearni regresiji
- Znotraj konceptov drevesa odločanja :
- Razlika med odločitveno tabelo in odločitvenim drevesom
- Odločitev Make-Buy ali Tabela odločitev
Uporaba dreves odločanja
- Posebne aplikacije :
- Napovedovanje bolezni srca | Algoritem odločitvenega drevesa | Videoposnetki
Optimizacija in zmogljivost
- Obrezovanje in preopremljanje :
- Obrezovanje odločitvenih dreves
- Prekomerno opremljanje v modelih drevesa odločanja
- Obravnavanje težav s podatki :
- Ravnanje z manjkajočimi podatki v modelih drevesa odločanja
- Nastavitev hiperparametrov :
- Kako prilagoditi drevo odločanja v nastavitvi hiperparametrov
- Razširljivost :
- Razširljivost in indukcija drevesa odločanja pri rudarjenju podatkov
- Vpliv globine :
- Kako globina odločitvenega drevesa vpliva na natančnost
Inženiring in izbira funkcij
- Izbira funkcij z uporabo odločitvenega drevesa
- Reševanje problema multikolinearnosti z odločitvenim drevesom
Vizualizacije in interpretabilnost
- Kako vizualizirati drevo odločanja iz naključnega gozda