logo

Gručenje v strojnem učenju

Grozdenje ali analiza gruče je tehnika strojnega učenja, ki združuje neoznačen nabor podatkov. Lahko ga opredelimo kot 'Način združevanja podatkovnih točk v različne skupine, sestavljene iz podobnih podatkovnih točk. Predmeti z možnimi podobnostmi ostanejo v skupini, ki ima manj ali nič podobnosti z drugo skupino.«

To naredi tako, da v neoznačenem naboru podatkov najde nekaj podobnih vzorcev, kot so oblika, velikost, barva, obnašanje itd., in jih razdeli glede na prisotnost in odsotnost teh podobnih vzorcev.

Je an nenadzorovano učenje metoda, zato algoritmu ni zagotovljen nadzor in obravnava neoznačen nabor podatkov.

Po uporabi te tehnike združevanja v gruče je vsaka gruča ali skupina opremljena z ID-jem gruče. Sistem ML lahko uporabi ta ID za poenostavitev obdelave velikih in zapletenih nizov podatkov.

linux free ipconfig

Tehnika združevanja v gruče se običajno uporablja za statistična analiza podatkov.

Opomba: združevanje v gruče je podobno kot algoritem za razvrščanje , vendar je razlika v vrsti nabora podatkov, ki ga uporabljamo. Pri klasifikaciji delamo z označenim naborom podatkov, medtem ko pri združevanju v gruče delamo z neoznačenim naborom podatkov.

Primer : Razumejmo tehniko združevanja v gruče na primeru nakupovalnega središča iz resničnega sveta: Ko obiščemo katero koli nakupovalno središče, lahko opazimo, da so stvari s podobno uporabo združene skupaj. Na primer majice so združene v en del, hlače pa v druge oddelke, podobno so na oddelkih z zelenjavo, jabolka, banane, mango itd., združeni v ločene oddelke, tako da lahko stvari zlahka najdemo. Na enak način deluje tudi tehnika združevanja v grozde. Drugi primeri združevanja v gruče so združevanje dokumentov glede na temo.

Tehnika grozdenja se lahko široko uporablja pri različnih nalogah. Nekatere najpogostejše uporabe te tehnike so:

  • Delitev trga
  • Statistična analiza podatkov
  • Analiza družbenih omrežij
  • Segmentacija slike
  • Odkrivanje anomalij itd.

Poleg teh splošnih uporab ga uporablja Amazon v svojem sistemu priporočil, da zagotovi priporočila glede na preteklo iskanje izdelkov. Netflix to tehniko uporablja tudi za priporočanje filmov in spletnih serij svojim uporabnikom glede na zgodovino ogledov.

Spodnji diagram pojasnjuje delovanje algoritma za združevanje v gruče. Vidimo lahko, da so različni sadeži razdeljeni v več skupin s podobnimi lastnostmi.

Gručenje v strojnem učenju

Vrste metod združevanja v gruče

Metode grozdenja so na splošno razdeljene na Trdo združevanje v gruče (podatkovna točka pripada samo eni skupini) in Mehko združevanje v gruče (podatkovne točke lahko pripadajo tudi drugi skupini). Obstajajo pa tudi drugi različni pristopi grozdenja. Spodaj so glavne metode združevanja v gruče, ki se uporabljajo pri strojnem učenju:

četrtletja v letu
    Particioniranje v gruče Združevanje na podlagi gostote Gručenje na podlagi distribucijskega modela Hierarhično združevanje v gruče Mehko združevanje v gruče

Particioniranje v gruče

To je vrsta združevanja v gruče, ki podatke razdeli v nehierarhične skupine. Znan je tudi kot centroidna metoda . Najpogostejši primer particioniranja v gruče je Algoritem združevanja v skupine K-Means .

Pri tej vrsti je nabor podatkov razdeljen na niz k skupin, kjer se K uporablja za določitev števila vnaprej določenih skupin. Središče gruče je ustvarjeno tako, da je razdalja med podatkovnimi točkami ene gruče najmanjša v primerjavi s središčem druge gruče.

git pull sintaksa
Gručenje v strojnem učenju

Združevanje na podlagi gostote

Metoda združevanja v gruče na podlagi gostote povezuje območja z visoko gostoto v gruče, poljubno oblikovane porazdelitve pa se oblikujejo, dokler je mogoče povezati gosto regijo. Ta algoritem to naredi tako, da prepozna različne grozde v naboru podatkov in poveže območja z visoko gostoto v grozde. Gosta območja v podatkovnem prostoru so med seboj ločena z redkejšimi območji.

Ti algoritmi se lahko soočijo s težavami pri združevanju podatkovnih točk v skupine, če ima nabor podatkov različne gostote in velike dimenzije.

Gručenje v strojnem učenju

Gručenje na podlagi distribucijskega modela

Pri metodi združevanja v gruče na podlagi distribucijskega modela so podatki razdeljeni glede na verjetnost, kako nabor podatkov pripada določeni distribuciji. Razvrščanje v skupine se izvede s predpostavko nekaterih skupnih porazdelitev Gaussova porazdelitev .

Primer te vrste je Algoritem pričakovano-maksimiziranega združevanja v gruče ki uporablja Gaussove mešane modele (GMM).

Gručenje v strojnem učenju

Hierarhično združevanje v gruče

Hierarhično združevanje v gruče se lahko uporablja kot alternativa za particionirano združevanje v gruče, saj ni potrebe po vnaprejšnjem podajanju števila gruč, ki jih je treba ustvariti. Pri tej tehniki je nabor podatkov razdeljen na gruče, da se ustvari drevesna struktura, ki se imenuje tudi a dendrogram . Opazovanja ali poljubno število grozdov lahko izberete tako, da drevo odrežete na pravilni ravni. Najpogostejši primer te metode je Aglomerativni hierarhični algoritem .

Gručenje v strojnem učenju

Mehko združevanje v gruče

Mehko združevanje v gruče je vrsta mehke metode, pri kateri lahko podatkovni objekt pripada več kot eni skupini ali gruči. Vsak nabor podatkov ima niz koeficientov članstva, ki so odvisni od stopnje članstva v gruči. Algoritem mehkih C-sredstev je primer te vrste združevanja v gruče; včasih je znan tudi kot algoritem mehkih k-povprečij.

Algoritmi združevanja v gruče

Algoritme združevanja v gruče lahko razdelimo glede na njihove modele, ki so razloženi zgoraj. Objavljene so različne vrste algoritmov za združevanje v gruče, vendar se jih pogosto uporablja le nekaj. Algoritem združevanja v gruče temelji na vrsti podatkov, ki jih uporabljamo. Na primer, nekateri algoritmi morajo uganiti število gruč v danem naboru podatkov, medtem ko morajo nekateri najti najmanjšo razdaljo med opazovanjem nabora podatkov.

Tukaj razpravljamo predvsem o priljubljenih algoritmih združevanja v gruče, ki se pogosto uporabljajo v strojnem učenju:

številčenje abecede
    Algoritem K-Means:Algoritem k-means je eden najbolj priljubljenih algoritmov združevanja v gruče. Nabor podatkov razvrsti tako, da vzorce razdeli v različne skupine enakih varianc. V tem algoritmu je treba določiti število grozdov. Je hiter z manj potrebnimi izračuni, z linearno kompleksnostjo O(n). Algoritem srednjega premika:Algoritem srednjega premika poskuša najti zgoščena območja v gladki gostoti podatkovnih točk. Je primer modela, ki temelji na centroidu, ki deluje na posodabljanju kandidatov za centroid, ki je središče točk znotraj dane regije.Algoritem DBSCAN:Stoji za prostorsko združevanje aplikacij s šumom na podlagi gostote . Je primer modela na podlagi gostote, podobnega srednjemu premiku, vendar z nekaj izjemnimi prednostmi. V tem algoritmu so območja z visoko gostoto ločena z območji z nizko gostoto. Zaradi tega lahko grozde najdemo v poljubni obliki.Združevanje pričakovanj in maksimiziranja z uporabo GMM:Ta algoritem se lahko uporablja kot alternativa za algoritem k-means ali za tiste primere, kjer lahko K-means ne uspe. V GMM se predpostavlja, da so podatkovne točke Gaussovo porazdeljene.Aglomerativni hierarhični algoritem:Aglomerativni hierarhični algoritem izvaja hierarhično združevanje od spodaj navzgor. Pri tem se vsaka podatkovna točka na začetku obravnava kot ena gruča in se nato zaporedoma združi. Hierarhijo gruče lahko predstavimo kot drevesno strukturo.Razmnoževanje afinitete:Od drugih algoritmov za združevanje v gruče se razlikuje po tem, da ne zahteva podajanja števila gruč. Pri tem vsaka podatkovna točka pošilja sporočilo med parom podatkovnih točk do konvergence. Ima O(N2T) časovna kompleksnost, ki je glavna pomanjkljivost tega algoritma.

Aplikacije združevanja v gruče

Spodaj je nekaj splošno znanih aplikacij tehnike gručenja v strojnem učenju:

    Pri identifikaciji rakavih celic:Algoritmi združevanja v skupine se pogosto uporabljajo za identifikacijo rakavih celic. Rakotvorne in nerakaste nize podatkov razdeli v različne skupine.V iskalnikih:Iskalniki delujejo tudi na tehniki združevanja v gruče. Rezultat iskanja se prikaže glede na predmet, ki je najbližji iskalni poizvedbi. To naredi tako, da podobne podatkovne objekte združi v eno skupino, ki je daleč od drugih različnih objektov. Točen rezultat poizvedbe je odvisen od kakovosti uporabljenega algoritma za združevanje v gruče.Segmentacija strank:Uporablja se v tržnih raziskavah za segmentacijo kupcev na podlagi njihove izbire in preferenc.V biologiji:Uporablja se v biološkem toku za razvrščanje različnih vrst rastlin in živali s tehniko prepoznavanja slik.V rabi zemljišča:Tehnika združevanja v gruče se uporablja za identifikacijo območja podobne rabe zemljišč v bazi podatkov GIS. To je lahko zelo koristno, da ugotovimo, za kakšen namen naj se določeno zemljišče uporablja, torej za kakšen namen je bolj primerno.