logo

Ginijev indeks v strojnem učenju

Uvod

Strojno učenje je preoblikovalo način, na katerega obdelujemo in pregledujemo podatke, algoritmi dreves odločitev pa so znana odločitev za naloge klasifikacije in regresije. Ginijev indeks, drugače imenovan Ginijeva nečistoča ali Ginijev koeficient, je pomembna mera nečistoče, ki se uporablja v algoritmih odločitvenega drevesa. V tem članku bomo izčrpno raziskali idejo Ginijevega indeksa, njegovo numerično formulo in uporabo v strojnem učenju. Prav tako bomo primerjali Ginijev indeks in druge mere nečistoč, govorili o njegovih omejitvah in prednostih ter pregledali kontekstualne analize njegovih aplikacij v resničnem svetu. Končno bomo tukaj predstavili prihodnje ležaje za raziskave.

Kaj je Ginijev indeks?

Ginijev indeks je delež nečistosti ali neenakosti v statističnih in denarnih nastavitvah. V strojnem učenju se uporablja kot mera nečistoč v algoritmih drevesa odločanja za naloge klasifikacije. Ginijev indeks meri verjetnost, da bo naključno izbrani test napačno razvrstil algoritem odločitvenega drevesa, njegova vrednost pa se giblje od 0 (popolnoma čist) do 1 (popolnoma nečist).

Formula Gini indeksa

Ginijev indeks je delež nečistosti ali neenakosti kroženja, ki se redno uporablja kot merilo nečistoč v algoritmih drevesa odločanja. V zvezi z odločitvenimi drevesi se Ginijev indeks uporablja za določitev najboljše funkcije za razdelitev podatkov na vsako vozlišče drevesa.

Formula za Ginijev indeks je naslednja:

Ginijev indeks v strojnem učenju

kjer je pi verjetnost, da ima stvar mesto v določenem razredu.

Na primer, razmisliti bi morali o vprašanju binarne klasifikacije z dvema razredoma An in B. Če je verjetnost razreda An p in verjetnost razreda B (1-p), lahko Ginijev indeks izračunamo kot :

Vrednost Ginijevega indeksa se giblje od 0,0 do 0,5 za probleme binarne klasifikacije, pri čemer 0,0 prikazuje popolnoma čisto vozlišče (vsi primeri imajo mesto v podobnem razredu), 0,5 pa prikazuje popolnoma nečisto vozlišče (testi so enakomerno porazdeljeni v oba razreda ).

Uporaba Ginijevega indeksa pri težavah s klasifikacijo

Indeks Gini se na splošno uporablja kot merilo nečistoče v algoritmih odločitvenega drevesa za težave s klasifikacijo. V odločitvenih drevesih vsako vozlišče obravnava element, cilj pa je razdeliti podatke v podmnožice, ki so v bistvu tako čiste, kot je mogoče pričakovati. Merilo nečistoče (kot je Ginijev indeks) se uporablja za določitev najboljše delitve na vsakem vozlišču.

Za ponazoritev tega bi morali razmisliti o primeru odločitvenega drevesa za vprašanje binarne klasifikacije. Drevo ima dva elementa: starost in dohodek, cilj pa je predvideti ne glede na to, ali bo posameznik verjetno kupil artikel. Drevo je zgrajeno z uporabo Ginijevega indeksa kot merila nečistoče.

V korenskem vozlišču se Ginijev indeks izračuna glede na verjetnost, da imajo primeri mesto v razredu 0 ali 1. Vozlišče je razdeljeno glede na komponento, ki ima za posledico največje znižanje Ginijevega indeksa. Ta cikel se rekurzivno ponovi za vsako podmnožico, dokler ni izpolnjen ukrep zaustavitve.

Odločitvena drevesa

Odločitveno drevo je dobro znan algoritem strojnega učenja, ki se uporablja tako za naloge klasifikacije kot regresije. Model se oblikuje tako, da se nabor podatkov rekurzivno razdeli na skromnejše podnabore glede na vrednosti poudarkov informacij, ki so določeni tako, da omejijo nečistoče naslednjih podnaborov.

Na vsakem vozlišču drevesa se sprejme odločitev glede na vrednosti enega od poudarkov informacij, s končnim ciljem, da so naslednji podnabori v bistvu tako čisti, kot bi lahko resnično pričakovali. Čistost podmnožice se redno ocenjuje z mero nečistoče, na primer z Ginijevim indeksom ali entropijo.

Algoritem odločitvenega drevesa je mogoče uporabiti za naloge binarne in večrazredne klasifikacije ter regresijske naloge. Pri nalogah binarne klasifikacije odločitveno drevo razdeli nabor podatkov v dve podmnožici glede na vrednost binarne funkcije, kot je da ali ne. Pri večrazrednih klasifikacijskih nalogah odločitveno drevo razdeli nabor podatkov v številne podnabore glede na vrednosti neposredne funkcije, kot je rdeča, zelena ali modra.

Ginijev indeks v primerjavi z drugimi merami nečistoč

Poleg Ginijevega indeksa obstajajo še druge mere nečistoč, ki se običajno uporabljajo v algoritmih odločitvenega drevesa, na primer entropija in pridobitev informacij.

Entropija:

V strojnem učenju je entropija delež nepravilnosti ali ranljivosti v skupini podatkov. Na splošno se uporablja kot merilo nečistoč v algoritmih drevesa odločanja, poleg Ginijevega indeksa.

V algoritmih odločitvenega drevesa se entropija uporablja za odločanje o najboljši komponenti za razdelitev podatkov na vsakem vozlišču drevesa. Cilj je najti element, ki ima za posledico največje zmanjšanje entropije, kar se nanaša na komponento, ki daje največ informacij o vprašanju klasifikacije.

Ginijev indeks v strojnem učenju

Medtem ko se entropija in Ginijev indeks običajno uporabljata kot merila nečistoč v algoritmih odločitvenega drevesa, imata različne lastnosti. Entropija je bolj občutljiva za kroženje imen razredov in bo na splošno zagotovila bolj prilagojena drevesa, medtem ko je Ginijev indeks manj občutljiv na prisvajanje razrednih oznak in bo na splošno ustvaril bolj omejena drevesa z manj razcepi. Odločitev o ukrepu nečistoče je odvisna od posamezne težave in lastnosti podatkov.

Pridobitev informacij:

Pridobivanje informacij je dejanje, ki se uporablja za oceno narave razcepa med gradnjo odločitvenega drevesa. Cilj odločitvenega drevesa je razdeliti podatke na podmnožice, ki so v bistvu tako homogene, kolikor si je mogoče zamisliti, kot je ciljna spremenljivka, tako da se lahko naslednje drevo uporabi za natančna pričakovanja glede novih podatkov. Pridobitev informacij meri zmanjšanje entropije ali nečistoče, ki ga povzroči delitev. Funkcija z najbolj omembe vrednim pridobivanjem informacij je izbrana kot najboljša lastnost za razdelitev na vsako vozlišče odločitvenega drevesa.

Pridobivanje informacij je običajno vključen ukrep za ocenjevanje narave razcepov v odločitvenih drevesih, vendar se nanj ni treba osredotočiti. Prav tako se lahko uporabijo različne mere, na primer Ginijev indeks ali stopnja napačne klasifikacije. Odločitev o razdelitvi temelji na glavni zadevi in ​​atributih nabora podatkov, ki se uporablja.

Primer Ginijevega indeksa

Razmisliti bi morali o vprašanju binarne klasifikacije, kjer imamo nabor podatkov 10 primerov z dvema razredoma: 'Pozitivno' in 'Negativno'. Od 10 primerov jih je 6 v razredu 'Pozitivno', 4 pa v razredu 'Negativno'.

Za izračun Ginijevega indeksa nabora podatkov najprej izračunamo verjetnost vsakega razreda:

p_1 = 6/10 = 0,6 (pozitivno)

p_2 = 4/10 = 0,4 (negativno)

Nato na tej točki uporabimo formulo Ginijevega indeksa za izračun nečistoče nabora podatkov:

Gini(S) = 1 - (p_1^2 + p_2^2)

= 1 - (0,6^2 + 0,4^2)

= 0,48

Torej je Ginijev indeks nabora podatkov 0,48.

Trenutno predpostavimo, da moramo nabor podatkov razdeliti na element 'X', ki ima dve potencialni vrednosti: 'A' in 'B'. Nabor podatkov smo razdelili na dva podnabora glede na komponento:

Podmnožica 1 (X = A): 4 pozitivne, 1 negativna

Podmnožica 2 (X = B): 2 pozitivna, 3 negativna

Za izračun zmanjšanja Ginijevega indeksa za to razdelitev najprej izračunamo Ginijev indeks vsake podmnožice:

Gini(S_1) = 1 - (4/5)^2 - (1/5)^2 = 0,32

Gini(S_2) = 1 - (2/5)^2 - (3/5)^2 = 0,48

Nato uporabimo formulo pridobivanja informacij za izračun zmanjšanja Ginijevega indeksa:

IG(S, X) = Gini(S) - ((5/10 * Gini(S_1)) + (5/10 * Gini(S_2)))

= 0,48 - ((0,5 * 0,32) + (0,5 * 0,48))

= 0,08

Torej je pridobitev informacij (tj. zmanjšanje Ginijevega indeksa) za razdelitev nabora podatkov na osvetlitev 'X' 0,08.

V tem primeru, če izračunamo pridobitev informacij za vse elemente in izberemo tistega z najbolj omembe vrednim pridobitvijo informacij, bo ta komponenta izbrana kot najboljša komponenta za razdelitev v korenskem vozlišču odločitvenega drevesa.

Prednosti:

Ginijev indeks je široko vključena mera za ocenjevanje narave razcepov v drevesih odločanja in uživa nekaj prednosti pred različnimi merami, na primer entropijo ali stopnjo napačne klasifikacije. Tukaj je del glavnih prednosti uporabe indeksa Gini:

java regex za

Računalniško učinkovito: Ginijev indeks je manj zapletena in računsko hitrejša mera v nasprotju z drugimi merami, na primer entropijo, ki vključuje izračun logaritmov.

Intuitivna interpretacija: Indeks Gini je enostaven za razlago. Meri verjetnost, da bi bil naključno izbrani primer iz nabora nepravilno razvrščen, če bi bil naključno označen glede na prenos razreda v naboru.

Dobro za binarno klasifikacijo: Ginijev indeks je še posebej močan pri problemih binarne klasifikacije, kjer ima ciljna spremenljivka samo dva razreda. V takšnih primerih je znano, da je Ginijev indeks bolj stabilen kot drugačna merila.

Robustno do razrednega neravnovesja: Indeks Gini je manj občutljiv na neravnovesje razredov v primerjavi z različnimi merami, na primer natančnostjo ali stopnjo napačne klasifikacije. To je zato, ker je Ginijev indeks odvisen od splošnega obsega primerov v vsakem razredu v nasprotju z dokončnimi številkami.

Manj nagnjeni k prekomernemu opremljanju: Indeks Gini bo na splošno naredil bolj skromna drevesa odločanja v nasprotju z različnimi merami, zaradi česar je manj nagnjen k pretiranemu opremljanju. To je zato, ker bo Ginijev indeks na splošno dajal prednost funkcijam, ki tvorijo skromnejše pakete podatkov, kar zmanjšuje možnosti prekomernega opremljanja.

Slabosti:

Medtem ko ima Ginijev indeks nekaj prednosti kot delitvena mera za drevesa odločanja, ima tudi nekaj slabosti. Tukaj je del glavnih slabosti uporabe indeksa Gini:

Pristranskost do funkcij s številnimi kategorijami: Indeks Gini se bo na splošno nagibal k funkcijam s številnimi kategorijami ali vrednostmi, saj lahko naredijo več razdelitev in paketov podatkov. To lahko povzroči prekomerno opremljanje in bolj zapleteno drevo odločitev.

Ni dobro za zvezne spremenljivke: Indeks Gini ni primeren za zvezne spremenljivke, saj zahteva diskretizacijo spremenljivke v kategorije ali bine, kar lahko povzroči izgubo informacij in zmanjšano natančnost.

Ne upošteva interakcij funkcij: Indeks Gini razmišlja samo o individualni daljnovidni sili vsake značilnosti in ignorira interakcije med značilnostmi. To lahko povzroči slabe delitve in manj natančne napovedi.

Ni idealno za nekatere nize podatkov: včasih Ginijev indeks morda ni idealno merilo za ocenjevanje narave razcepov v odločitvenem drevesu. Na primer, v primeru, da je ciljna spremenljivka izjemno nagnjena ali neuravnotežena, bi lahko bila primernejša drugačna merila, na primer pridobitev informacij ali delež pridobitve.

Nagnjenost k pristranskosti v prisotnosti manjkajočih vrednosti: Indeks Gini je lahko pristranski v prisotnosti manjkajočih vrednosti, saj se na splošno nagiba k funkcijam z manj manjkajočimi vrednostmi, ne glede na to, ali niso najbolj informativne.

Realne aplikacije indeksa Gini

Indeks Gini je bil uporabljen v različnih aplikacijah strojnega učenja, na primer pri lokaciji izsiljevanja, kreditnem točkovanju in delitvi strank. Na primer, pri odkrivanju izsiljevanja se lahko Ginijev indeks uporabi za razlikovanje načrtov v izmenjavi podatkov in prepoznavanje bizarnih načinov obnašanja. Pri kreditnem točkovanju se Ginijev indeks lahko uporabi za predvidevanje verjetnosti neplačila glede na spremenljivke, kot so dohodek, razmerje neporavnanega dolga do plačila domov in evidenca odplačila posojila. Pri delitvi strank se Ginijev indeks lahko uporabi za združevanje strank glede na njihov način vedenja in nagnjenja.

Prihodnje raziskave

Ne glede na njegovo brezmejno uporabo v algoritmih odločitvenega drevesa je Ginijev indeks še vedno dovolj za raziskave. Eno področje raziskav je napredek novih meril za nečistoče, ki lahko obravnavajo omejitve Ginijevega indeksa, kot je njegova nagnjenost k dejavnikom z več stopnjami. Še eno področje raziskav je racionalizacija algoritmov odločitvenega drevesa z uporabo Ginijevega indeksa, na primer uporaba tehnik opreme za delo na natančnosti odločitvenega drevesa.

Zaključek

Ginijev indeks je pomembna mera nečistoč, ki se uporablja v algoritmih odločitvenega drevesa za naloge razvrščanja. Meri verjetnost, da bo naključno izbrani test napačno razvrstil algoritem odločitvenega drevesa, njegova vrednost pa se giblje od 0 (popolnoma čist) do 1 (popolnoma nečist). Indeks Gini je preprost in izvedljiv, računsko produktiven in močan do izjem. Uporabljen je bil v različnih aplikacijah v strojnem učenju, na primer pri odkrivanju napačnih navedb, kreditnem točkovanju in delitvi strank. Medtem ko ima Ginijev indeks nekaj omejitev, je še vedno dovolj raziskav o njegovem izboljšanju in izboljšanju novih meril za nečistoče.