Grozdenje ali analiza gruče je tehnika strojnega učenja, ki združuje neoznačen nabor podatkov. Lahko ga opredelimo kot 'Način združevanja podatkovnih točk v različne skupine, sestavljene iz podobnih podatkovnih točk. Predmeti z možnimi podobnostmi ostanejo v skupini, ki ima manj ali nič podobnosti z drugo skupino.«
To naredi tako, da v neoznačenem naboru podatkov najde nekaj podobnih vzorcev, kot so oblika, velikost, barva, obnašanje itd., in jih razdeli glede na prisotnost in odsotnost teh podobnih vzorcev.
Je an nenadzorovano učenje metoda, zato algoritmu ni zagotovljen nadzor in obravnava neoznačen nabor podatkov.
Po uporabi te tehnike združevanja v gruče je vsaka gruča ali skupina opremljena z ID-jem gruče. Sistem ML lahko uporabi ta ID za poenostavitev obdelave velikih in zapletenih nizov podatkov.
linux free ipconfig
Tehnika združevanja v gruče se običajno uporablja za statistična analiza podatkov.
Opomba: združevanje v gruče je podobno kot algoritem za razvrščanje , vendar je razlika v vrsti nabora podatkov, ki ga uporabljamo. Pri klasifikaciji delamo z označenim naborom podatkov, medtem ko pri združevanju v gruče delamo z neoznačenim naborom podatkov.
Primer : Razumejmo tehniko združevanja v gruče na primeru nakupovalnega središča iz resničnega sveta: Ko obiščemo katero koli nakupovalno središče, lahko opazimo, da so stvari s podobno uporabo združene skupaj. Na primer majice so združene v en del, hlače pa v druge oddelke, podobno so na oddelkih z zelenjavo, jabolka, banane, mango itd., združeni v ločene oddelke, tako da lahko stvari zlahka najdemo. Na enak način deluje tudi tehnika združevanja v grozde. Drugi primeri združevanja v gruče so združevanje dokumentov glede na temo.
Tehnika grozdenja se lahko široko uporablja pri različnih nalogah. Nekatere najpogostejše uporabe te tehnike so:
- Delitev trga
- Statistična analiza podatkov
- Analiza družbenih omrežij
- Segmentacija slike
- Odkrivanje anomalij itd.
Poleg teh splošnih uporab ga uporablja Amazon v svojem sistemu priporočil, da zagotovi priporočila glede na preteklo iskanje izdelkov. Netflix to tehniko uporablja tudi za priporočanje filmov in spletnih serij svojim uporabnikom glede na zgodovino ogledov.
Spodnji diagram pojasnjuje delovanje algoritma za združevanje v gruče. Vidimo lahko, da so različni sadeži razdeljeni v več skupin s podobnimi lastnostmi.
Vrste metod združevanja v gruče
Metode grozdenja so na splošno razdeljene na Trdo združevanje v gruče (podatkovna točka pripada samo eni skupini) in Mehko združevanje v gruče (podatkovne točke lahko pripadajo tudi drugi skupini). Obstajajo pa tudi drugi različni pristopi grozdenja. Spodaj so glavne metode združevanja v gruče, ki se uporabljajo pri strojnem učenju:
četrtletja v letu
Particioniranje v gruče
To je vrsta združevanja v gruče, ki podatke razdeli v nehierarhične skupine. Znan je tudi kot centroidna metoda . Najpogostejši primer particioniranja v gruče je Algoritem združevanja v skupine K-Means .
Pri tej vrsti je nabor podatkov razdeljen na niz k skupin, kjer se K uporablja za določitev števila vnaprej določenih skupin. Središče gruče je ustvarjeno tako, da je razdalja med podatkovnimi točkami ene gruče najmanjša v primerjavi s središčem druge gruče.
git pull sintaksa
Združevanje na podlagi gostote
Metoda združevanja v gruče na podlagi gostote povezuje območja z visoko gostoto v gruče, poljubno oblikovane porazdelitve pa se oblikujejo, dokler je mogoče povezati gosto regijo. Ta algoritem to naredi tako, da prepozna različne grozde v naboru podatkov in poveže območja z visoko gostoto v grozde. Gosta območja v podatkovnem prostoru so med seboj ločena z redkejšimi območji.
Ti algoritmi se lahko soočijo s težavami pri združevanju podatkovnih točk v skupine, če ima nabor podatkov različne gostote in velike dimenzije.
Gručenje na podlagi distribucijskega modela
Pri metodi združevanja v gruče na podlagi distribucijskega modela so podatki razdeljeni glede na verjetnost, kako nabor podatkov pripada določeni distribuciji. Razvrščanje v skupine se izvede s predpostavko nekaterih skupnih porazdelitev Gaussova porazdelitev .
Primer te vrste je Algoritem pričakovano-maksimiziranega združevanja v gruče ki uporablja Gaussove mešane modele (GMM).
Hierarhično združevanje v gruče
Hierarhično združevanje v gruče se lahko uporablja kot alternativa za particionirano združevanje v gruče, saj ni potrebe po vnaprejšnjem podajanju števila gruč, ki jih je treba ustvariti. Pri tej tehniki je nabor podatkov razdeljen na gruče, da se ustvari drevesna struktura, ki se imenuje tudi a dendrogram . Opazovanja ali poljubno število grozdov lahko izberete tako, da drevo odrežete na pravilni ravni. Najpogostejši primer te metode je Aglomerativni hierarhični algoritem .
Mehko združevanje v gruče
Mehko združevanje v gruče je vrsta mehke metode, pri kateri lahko podatkovni objekt pripada več kot eni skupini ali gruči. Vsak nabor podatkov ima niz koeficientov članstva, ki so odvisni od stopnje članstva v gruči. Algoritem mehkih C-sredstev je primer te vrste združevanja v gruče; včasih je znan tudi kot algoritem mehkih k-povprečij.
Algoritmi združevanja v gruče
Algoritme združevanja v gruče lahko razdelimo glede na njihove modele, ki so razloženi zgoraj. Objavljene so različne vrste algoritmov za združevanje v gruče, vendar se jih pogosto uporablja le nekaj. Algoritem združevanja v gruče temelji na vrsti podatkov, ki jih uporabljamo. Na primer, nekateri algoritmi morajo uganiti število gruč v danem naboru podatkov, medtem ko morajo nekateri najti najmanjšo razdaljo med opazovanjem nabora podatkov.
Tukaj razpravljamo predvsem o priljubljenih algoritmih združevanja v gruče, ki se pogosto uporabljajo v strojnem učenju:
številčenje abecede
Aplikacije združevanja v gruče
Spodaj je nekaj splošno znanih aplikacij tehnike gručenja v strojnem učenju: