logo

Apriorni algoritem

Apriorni algoritem se nanaša na algoritem, ki se uporablja za izračun povezovalnih pravil med objekti. Pomeni, kako sta dva ali več predmetov med seboj povezana. Z drugimi besedami, lahko rečemo, da je apriorni algoritem pravilo asociacije, ki analizira, da so ljudje, ki so kupili izdelek A, kupili tudi izdelek B.

Primarni cilj apriornega algoritma je ustvariti asociacijsko pravilo med različnimi objekti. Asociacijsko pravilo opisuje, kako sta dva ali več predmetov med seboj povezana. Apriorni algoritem se imenuje tudi pogosto rudarjenje vzorcev. Na splošno algoritem Apriori upravljate z bazo podatkov, ki je sestavljena iz ogromnega števila transakcij. Razumejmo apriorni algoritem s pomočjo primera; Recimo, da greste na Big Bazar in kupite različne izdelke. Kupcem pomaga pri lažjem nakupu njihovih izdelkov in povečuje prodajno uspešnost Big Bazarja. V tej vadnici bomo razpravljali o apriornem algoritmu s primeri.

Uvod

Vzamemo primer, da bolje razumemo koncept. Zagotovo ste opazili, da prodajalec v piceriji pripravi kombinacijo pice, brezalkoholne pijače in grisine. Svojim strankam, ki kupijo te kombinacije, ponuja tudi popust. Ali kdaj pomislite, zakaj to počne? Meni, da kupci, ki kupijo pico, kupijo tudi brezalkoholne pijače in grisine. Vendar pa z izdelavo kombinacij strankam olajša delo. Hkrati povečuje tudi svojo prodajno uspešnost.

Podobno greste v Big Bazar, kjer boste našli piškote, čips in čokolado skupaj. Kaže, da trgovec strankam olajša nakup teh izdelkov na istem mestu.

Zgornja dva primera sta najboljša primera Pravil združenja v

  • Podpora
  • Zaupanje
  • Dvig
  • Vzemimo primer, da razumemo ta koncept.

    mylivecricket

    Zgoraj smo že razpravljali; potrebujete ogromno bazo podatkov, ki vsebuje veliko število transakcij. Recimo, da imate 4000 transakcij strank na Big Bazarju. Izračunati morate podporo, samozavest in dvig za dva izdelka in lahko rečete piškoti in čokolada. To je zato, ker stranke pogosto kupujejo ta dva artikla skupaj.

    Od 4000 transakcij jih 400 vsebuje piškote, medtem ko 600 vključuje čokolado, teh 600 transakcij pa vključuje 200, ki vključuje piškote in čokolade. Z uporabo teh podatkov bomo ugotovili podporo, zaupanje in dvig.

    Podpora

    Podpora se nanaša na privzeto priljubljenost katerega koli izdelka. Podporo najdete kot količnik deljenja števila transakcij, ki sestavljajo ta izdelek, s skupnim številom transakcij. Zato dobimo

    Podpora (Piškoti) = (Transakcije v zvezi s piškoti) / (Skupaj transakcij)

    = 400/4000 = 10 odstotkov.

    Zaupanje

    Zaupanje se nanaša na možnost, da so kupci skupaj kupili piškote in čokolade. Torej morate število transakcij, ki vključujejo piškote in čokolade, deliti s skupnim številom transakcij, da pridobite zaupanje.

    torej

    Zaupanje = (Transakcije, ki se nanašajo na piškote in čokolado) / (Skupne transakcije, ki vključujejo piškote)

    = 200/400

    = 50 odstotkov.

    To pomeni, da je 50 odstotkov kupcev, ki so kupili piškote, kupilo tudi čokolado.

    Dvig

    Razmislite o zgornjem primeru; dvig se nanaša na povečanje deleža prodaje čokolad, ko prodajate piškote. Matematične enačbe dviga so podane spodaj.

    Dvig = (Zaupanje (Piškoti - čokolade)/ (Podpora (Piškoti)

    = 50/10 = 5

    To pomeni, da je verjetnost, da bodo ljudje kupili tako piškote kot čokolado skupaj, petkrat večja kot da bi kupili piškote same. Če je vrednost dviga nižja od ena, je malo verjetno, da bodo ljudje kupili oba elementa skupaj. Večja kot je vrednost, boljša je kombinacija.

    Kako deluje apriorni algoritem v podatkovnem rudarjenju?

    Ta algoritem bomo razumeli s pomočjo primera

    Razmislite o scenariju Big Bazar, kjer je nabor izdelkov P = {riž, stročnice, olje, mleko, jabolko}. Baza podatkov obsega šest transakcij, kjer 1 predstavlja prisotnost produkta, 0 pa odsotnost produkta.

    Številka transakcije riž utrip Olje Mleko Apple
    t1 1 1 1 0 0
    t2 0 1 1 1 0
    t3 0 0 0 1 1
    t4 1 1 0 1 0
    t5 1 1 1 0 1
    t6 1 1 1 1 1

    Apriorni algoritem naredi dane predpostavke

    • Vse podmnožice nabora pogostih postavk morajo biti pogoste.
    • Podnabori nabora redkih postavk morajo biti redki.
    • Popravite mejno raven podpore. V našem primeru smo ga popravili na 50 odstotkov.

    Korak 1

    Naredite tabelo pogostnosti vseh izdelkov, ki se pojavljajo v vseh transakcijah. Zdaj skrajšajte tabelo pogostnosti, da dodate samo tiste izdelke z mejno stopnjo podpore nad 50 odstotkov. Poiščemo podano frekvenčno tabelo.

    protokol udp
    Izdelek Pogostost (število transakcij)
    Riž (R) 4
    Utrip (P) 5
    Olje (O) 4
    Mleko (M) 4

    Zgornja tabela prikazuje izdelke, ki jih stranke pogosto kupujejo.

    2. korak

    Ustvarite pare izdelkov, kot so RP, RO, RM, PO, PM, OM. Dobili boste podano frekvenčno tabelo.

    Nabor predmetov Pogostost (število transakcij)
    RP 4
    RO 3
    RM 2
    PO 4
    popoldne 3
    O 2

    3. korak

    Izvajanje enakega praga podpore 50 odstotkov in upoštevajte izdelke, ki so več kot 50 odstotkov. V našem primeru je več kot 3

    Tako dobimo RP, RO, PO in PM

    4. korak

    Zdaj pa poiščite komplet treh izdelkov, ki jih stranke kupijo skupaj. Dobimo dano kombinacijo.

    1. RP in RO dajeta RPO
    2. PO in PM dajeta POM

    5. korak

    Izračunajte frekvenco obeh nizov elementov in dobili boste podano tabelo frekvenc.

    Nabor predmetov Pogostost (število transakcij)
    RPO 4
    POM 3

    Če uveljavite predpostavko o pragu, lahko ugotovite, da je kupčev nabor treh izdelkov RPO.

    Razmislili smo o preprostem primeru za razpravo o apriornem algoritmu pri rudarjenju podatkov. V resnici najdete na tisoče takih kombinacij.

    Kako izboljšati učinkovitost apriornega algoritma?

    Za učinkovitost algoritma Apriori se uporabljajo različne metode

    Štetje nabora elementov na osnovi zgoščene vrednosti

    Pri štetju nabora elementov, ki temelji na zgoščevanju, morate izključiti nabor k-postavk, katerega ekvivalentno število vedra zgoščevanja je najmanjše od praga, je nabor redkih elementov.

    Zmanjšanje transakcij

    Pri zmanjševanju transakcij postane transakcija, ki ne vključuje nobenega pogostega nabora elementov X, pri naslednjih pregledih neuporabna.

    Apriorni algoritem v podatkovnem rudarjenju

    Razpravljali smo že o primeru apriornega algoritma v zvezi s pogostim ustvarjanjem nabora elementov. Apriori algoritem ima veliko aplikacij v podatkovnem rudarjenju.

    Primarne zahteve za iskanje asociacijskih pravil pri rudarjenju podatkov so podane spodaj.

    Uporabite surovo silo

    Analizirajte vsa pravila in poiščite stopnjo podpore in zaupanja za posamezno pravilo. Nato odstranite vrednosti, ki so nižje od praga podpore in ravni zaupanja.

    Dvostopenjski pristopi

    Pristop v dveh korakih je boljša možnost za iskanje asociacijskih pravil kot metoda Brute Force.

    Korak 1

    V tem članku smo že razpravljali o tem, kako ustvariti tabelo pogostnosti in izračunati nabore elementov, ki imajo večjo podporno vrednost od vrednosti podpore praga.

    2. korak

    razred proti objektu v Javi

    Če želite ustvariti povezovalna pravila, morate uporabiti binarno particijo pogostih naborov elementov. Izbrati morate tiste, ki imajo najvišjo stopnjo zaupanja.

    V zgornjem primeru lahko vidite, da je bila kombinacija RPO pogost nabor elementov. Zdaj pa ugotovimo vsa pravila z uporabo RPO.

    RP-O, RO-P, PO-R, O-RP, P-RO, R-PO

    Vidite lahko, da obstaja šest različnih kombinacij. Torej, če imate n elementov, bosta 2n- 2 pravila združenja kandidatov.

    Prednosti apriornega algoritma

    • Uporablja se za izračun velikih naborov postavk.
    • Preprosto za razumevanje in uporabo.

    Slabosti apriornih algoritmov

    • Apriori algoritem je draga metoda za iskanje podpore, saj mora izračun iti skozi celotno bazo podatkov.
    • Včasih potrebujete ogromno število pravil kandidatov, zato postane računsko dražje.