logo

Hierarhično združevanje v podatkovno rudarjenje

Hierarhično združevanje v gruče se nanaša na nenadzorovan učni postopek, ki določa zaporedne gruče na podlagi predhodno definiranih gruč. Deluje prek združevanja podatkov v drevo gruč. Hierarhična statistika združevanja v gruče z obravnavanjem vsake podatkovne točke kot posamezne gruče. Končna točka se nanaša na drugačen nabor gruč, kjer je vsaka gruča drugačna od druge gruče, objekti v vsaki gruči pa so enaki drug drugemu.

Obstajata dve vrsti hierarhičnega združevanja v gruče

  • Aglomerativno hierarhično združevanje v gruče
  • Razdeljujoče grozdenje

Aglomerativno hierarhično združevanje

Aglomerativno združevanje v gruče je ena najpogostejših vrst hierarhičnega združevanja v gruče, ki se uporablja za združevanje podobnih predmetov v gruče. Aglomerativno gnezdenje je znano tudi kot AGNES (Agglomerative Nesting). Pri aglomerativnem združevanju v gruče vsaka podatkovna točka deluje kot posamezen grozd in na vsakem koraku so podatkovni objekti združeni v skupine po metodi od spodaj navzgor. Na začetku je vsak podatkovni objekt v svoji gruči. Pri vsaki ponovitvi se grozdi kombinirajo z različnimi grozdi, dokler ne nastane en grozd.

Aglomerativni hierarhični algoritem združevanja v gruče

zanka for v bashu
  1. Ugotovite podobnost med posamezniki in vsemi drugimi skupinami. (Poišči matriko bližine).
  2. Vsako podatkovno točko obravnavajte kot posamezno gručo.
  3. Združite podobne grozde.
  4. Ponovno izračunajte matriko bližine za vsako gručo.
  5. Ponavljajte 3. in 4. korak, dokler ne dobite ene same gruče.

Razumejmo ta koncept s pomočjo grafičnega prikaza z uporabo dendrograma.

kako pretvoriti niz v celo število java

S pomočjo dane demonstracije lahko razumemo, kako dejanski algoritem deluje. Tu ni bil opravljen izračun, v nadaljevanju se predpostavlja vsa bližina med grozdi.

Recimo, da imamo šest različnih podatkovnih točk P, Q, R, S, T, V.

Hierarhično združevanje v podatkovno rudarjenje

Korak 1:

Upoštevajte vsako abecedo (P, Q, R, S, T, V) kot posamezno skupino in poiščite razdaljo med posamezno skupino in vsemi drugimi skupinami.

razvrščeni arraylist java

2. korak:

Zdaj združite primerljive gruče v eno samo gručo. Recimo, da sta gruči Q in gruči R podobni drug drugemu, tako da ju lahko združimo v drugem koraku. Končno dobimo gruče [ (P), (QR), (ST), (V)]

3. korak:

Tukaj ponovno izračunamo bližino v skladu z algoritmom in združimo dve najbližji gruči [(ST), (V)] skupaj, da tvorimo nove gruče kot [(P), (QR), (STV)]

jasmine davis kot otrok

4. korak:

Ponovite isti postopek. Grozdi STV in PQ sta primerljivi in ​​združeni v nov grozd. Zdaj imamo [(P), (QQRSTV)].

5. korak:

Končno se preostala dva grozda združita v en sam grozd [(PQRSTV)]

Razdiralno hierarhično združevanje v gruče

Razdeljujoče hierarhično združevanje je ravno nasprotje aglomerativnega hierarhičnega združevanja. Pri divizivnem hierarhičnem združevanju v gruče se vse podatkovne točke štejejo za posamezno gručo in v vsaki ponovitvi se podatkovne točke, ki niso podobne, ločijo od gruče. Ločene podatkovne točke se obravnavajo kot posamezen grozd. Končno nam ostane N grozdov.

Hierarhično združevanje v podatkovno rudarjenje

Prednosti hierarhičnega združevanja v gruče

  • Je preprost za izvedbo in v nekaterih primerih daje najboljše rezultate.
  • Je enostaven in ima za posledico hierarhijo, strukturo, ki vsebuje več informacij.
  • Ni nam treba vnaprej določiti števila grozdov.

Slabosti hierarhičnega združevanja v gruče

  • Lomi velike grozde.
  • Težko je rokovati z različno velikimi grozdi in konveksnimi oblikami.
  • Občutljiv je na hrup in izstope.
  • Algoritma ni mogoče nikoli spremeniti ali izbrisati, ko je bil že narejen.