logo

Kaj je CRISP v podatkovnem rudarjenju?

CRISP-DM pomeni medpanožni standardni postopek za podatkovno rudarjenje. Metodologija CRISP-DM zagotavlja strukturiran pristop k načrtovanju projekta podatkovnega rudarjenja. Je robustna in dobro preizkušena metodologija. Ne zahtevamo lastništva nad njim. Nismo si ga izmislili. Smo pretvornik njegove močne praktičnosti, prilagodljivosti in uporabnosti pri uporabi analitike za reševanje poslovnih težav. To je zlata nit, ki se vleče skozi skoraj vsako srečanje s stranko.

Ta model je idealizirano zaporedje dogodkov. V praksi se lahko številne naloge izvajajo v drugačnem vrstnem redu in pogosto se bo treba vrniti na prejšnje naloge in ponoviti določena dejanja. Model ne poskuša zajeti vseh možnih poti skozi proces podatkovnega rudarjenja.

Kako CRISP pomaga?

CRISP DM ponuja načrt, ponuja najboljše prakse in zagotavlja strukture za boljše in hitrejše rezultate uporabe podatkovnega rudarjenja, tako da podjetju pomaga slediti med načrtovanjem in izvajanjem projekta podatkovnega rudarjenja.

Faze CRISP-DM

CRISP-DM ponuja pregled življenjskega cikla podatkovnega rudarjenja kot model procesa. Model življenjskega cikla obsega šest faz, pri čemer puščice označujejo najpomembnejše in najpogostejše odvisnosti med fazami. Zaporedje faz ni strogo. In večina projektov se po potrebi premika naprej in nazaj med fazami. Model CRISP-DM je prilagodljiv in ga je mogoče preprosto prilagoditi.

Na primer, če vaša organizacija želi odkriti pranje denarja, boste verjetno presejali velike količine podatkov brez posebnega cilja modeliranja. Namesto modeliranja se bo vaše delo osredotočilo na raziskovanje in vizualizacijo podatkov, da bi odkrili sumljive vzorce v finančnih podatkih. CRISP-DM vam omogoča, da ustvarite model podatkovnega rudarjenja, ki ustreza vašim potrebam.

Vključuje opise tipičnih faz projekta, naloge, vključene v vsako fazo, in razlago odnosov med temi nalogami.

Kaj je CRISP v podatkovnem rudarjenju

Faza 1: Poslovno razumevanje

Prva stopnja procesa CRISP-DM je razumevanje, kaj želite doseči s poslovnega vidika. Vaša organizacija ima lahko konkurenčne cilje in omejitve, ki jih je treba ustrezno uravnotežiti. Cilj te faze procesa je odkriti pomembne dejavnike, ki vplivajo na rezultat projekta. Zanemarjanje tega koraka lahko pomeni veliko truda, vloženega v ustvarjanje pravih odgovorov na napačna vprašanja.

Kakšni so želeni rezultati projekta?

    Postavite si cilje:Opišite svoj glavni cilj s poslovnega vidika. Morda obstajajo tudi druga povezana vprašanja, ki bi jih radi omenili. Na primer, vaš glavni cilj je lahko obdržati trenutne stranke s predvidevanjem, kdaj bodo nagnjeni k prehodu h konkurentu.Izdelajte načrt projekta:Opišite načrt za doseganje podatkovnega rudarjenja in poslovnih ciljev. Načrt mora določati korake, ki jih je treba izvesti v preostalem delu projekta, vključno z začetnim izborom orodij in tehnik.Merila poslovne uspešnosti:Tukaj boste določili merila, ki jih boste uporabili za ugotavljanje, ali je bil projekt uspešen s poslovnega vidika. Ti bi morali biti v idealnem primeru specifični in merljivi, na primer zmanjšati poraz strank na določeno raven. Vendar pa bo včasih morda treba imeti bolj subjektivna merila, kot je podajanje koristnih vpogledov v razmerja.

Ocenite trenutno stanje

veriženje naprej

To vključuje podrobnejše ugotavljanje dejstev o virih, omejitvah, predpostavkah in drugih dejavnikih, ki jih boste morali upoštevati pri določanju cilja analize podatkov in načrta projekta.

    Popis virov:Navedite vire, ki so na voljo projektu, vključno z:
    • Osebje (poslovni strokovnjaki, podatkovni strokovnjaki, tehnična podpora, strokovnjaki za podatkovno rudarjenje)
    • Podatki (fiksni izvlečki, dostop do živih, skladiščenih ali operativnih podatkov)
    • Računalniški viri (platforme strojne opreme)
    • Programska oprema (orodja za rudarjenje podatkov, druga ustrezna programska oprema)
    Zahteve, predpostavke in omejitve:Navedite vse zahteve projekta, vključno s časovnim načrtom dokončanja, zahtevano razumljivostjo in kakovostjo rezultatov ter morebitnimi pomisleki glede varnosti podatkov in pravnimi vprašanji. Prepričajte se, da imate dovoljenje za uporabo podatkov. Navedite predpostavke projekta. To so lahko predpostavke o podatkih, ki jih je mogoče preveriti med rudarjenjem podatkov, lahko pa vključujejo tudi nepreverljive predpostavke o poslovanju, povezanem s projektom. Slednje je pomembno navesti, če vplivajo na veljavnost rezultatov. Navedite omejitve projekta. To so lahko omejitve glede razpoložljivosti virov, lahko pa vključujejo tudi tehnološke omejitve, kot je velikost nabora podatkov, ki ga je praktično uporabiti za modeliranje.Tveganja in nepredvideni dogodki:Navedite tveganja ali dogodke, ki bi lahko zadržali projekt ali povzročili njegov neuspeh. Navedite ustrezne načrte ukrepov ob nepredvidljivih dogodkih, na primer, kaj boste sprejeli, če pride do teh tveganj ali dogodkov?Terminologija:Sestavite glosar terminologije, pomembne za projekt. To bo na splošno sestavljeno iz dveh komponent:
    • Glosar ustrezne poslovne terminologije je del poslovnega razumevanja, ki je na voljo projektu. Sestavljanje tega glosarja je uporabna vaja za 'pridobivanje znanja' in izobraževanje.
    • Glosar terminologije podatkovnega rudarjenja je ilustriran s primeri, ki so pomembni za poslovni problem.
    Stroški in koristi:Izdelajte analizo stroškov in koristi za projekt, ki primerja stroške projekta s potencialnimi koristmi za podjetje, če bo uspešen. Ta primerjava mora biti čimbolj specifična. Na primer, v komercialnem položaju bi morali uporabiti finančne ukrepe.

Določite cilje podatkovnega rudarjenja

Poslovni cilj navaja cilje v poslovni terminologiji. Cilj podatkovnega rudarjenja navaja cilje projekta v tehničnem smislu. Poslovni cilj je lahko na primer Povečanje kataloške prodaje obstoječim strankam. Cilj podatkovnega rudarjenja bi lahko bil napovedati, koliko pripomočkov bo stranka kupila glede na njihove nakupe v zadnjih treh letih, demografske podatke (starost, plača, mesto itd.) in ceno artikla.

    Merila poslovne uspešnosti:Opisuje načrtovane rezultate projekta, ki omogočajo doseganje poslovnih ciljev.Kriteriji uspešnosti podatkovnega rudarjenja:Določa merila za uspešen izid projekta. Na primer določena stopnja napovedne natančnosti ali profil nagnjenosti k nakupu z dano stopnjo 'dviga'. Tako kot pri merilih poslovnega uspeha bo morda treba tudi ta opisati s subjektivnimi izrazi, pri čemer je treba identificirati osebo ali osebe, ki dajejo subjektivno presojo.

Izdelajte načrt projekta

Opišite predvideni načrt za doseganje ciljev podatkovnega rudarjenja in poslovnih ciljev. Vaš načrt mora določati korake, ki jih je treba izvesti v preostalem delu projekta, vključno z začetnim izborom orodij in tehnik.

1. Projektni načrt: Navedite faze, ki jih je treba izvesti v projektu, z njihovim trajanjem, potrebnimi viri, vložki, izhodi in odvisnostmi. Kjer je mogoče, poskusite eksplicitno navesti obsežne iteracije v procesu podatkovnega rudarjenja, na primer ponovitve faz modeliranja in vrednotenja.

Kot del projektnega načrta je pomembno analizirati odvisnosti med časovnimi načrti in tveganji. Rezultate teh analiz izrecno označite v načrtu projekta, najbolje z ukrepi in priporočili, če se tveganja pokažejo. Odločite se, katera strategija ocenjevanja bo uporabljena v fazi ocenjevanja.

java vzorčna koda

Vaš projektni načrt bo dinamičen dokument. Na koncu vsake faze boste pregledali napredek in dosežke ter ustrezno posodobili načrt projekta. Posebne točke pregleda za te posodobitve bi morale biti del načrta projekta.

2. Začetna ocena orodij in tehnik: Na koncu prve faze bi morali opraviti začetno oceno orodij in tehnik. Na primer, izberete orodje za podatkovno rudarjenje, ki podpira različne metode za različne stopnje procesa. Orodja in tehnike je pomembno oceniti zgodaj v procesu, saj lahko izbira orodij in tehnik vpliva na celoten projekt.

Faza 2: Razumevanje podatkov

Druga faza procesa CRISP-DM zahteva, da pridobite podatke, navedene v virih projekta. To začetno zbiranje vključuje nalaganje podatkov, če je to potrebno za razumevanje podatkov. Na primer, če uporabljate posebno orodje za razumevanje podatkov, je povsem smiselno, da svoje podatke naložite v to orodje. Če pridobite več virov podatkov, morate razmisliti, kako in kdaj jih boste integrirali.

    Začetno poročilo o zbiranju podatkov:Navedite pridobljene vire podatkov, njihove lokacije, uporabljene metode za njihovo pridobitev in vse težave, na katere ste naleteli. Zabeležite težave, na katere ste naleteli, in vse dosežene rešitve. To bo pomagalo pri prihodnjem podvajanju tega projekta in izvedbi podobnih prihodnjih projektov.

Opišite podatke

Preglejte 'bruto' ali 'površinske' lastnosti pridobljenih podatkov in poročajte o rezultatih.

    Poročilo o opisu podatkov:Opišite podatke, ki so bili pridobljeni, vključno z njihovo obliko, količino, identiteto polj in vsemi drugimi odkritimi značilnostmi površine. Ocenite, ali pridobljeni podatki izpolnjujejo vaše zahteve.

Raziščite podatke

Na tej stopnji boste obravnavali vprašanja podatkovnega rudarjenja s tehnikami poizvedovanja, vizualizacije podatkov in poročanja. Ti lahko vključujejo:

  • Porazdelitev ključnih lastnosti
  • Odnosi med pari ali majhnim številom atributov
  • Rezultati preprostih združevanj
  • Lastnosti pomembnih podpopulacij
  • Enostavne statistične analize

Te analize lahko neposredno obravnavajo vaše cilje podatkovnega rudarjenja. Lahko prispevajo k ali izboljšajo opis podatkov in poročila o kakovosti ter se vključijo v transformacijo in druge korake priprave podatkov, ki so potrebni za nadaljnjo analizo.

    Poročilo o raziskovanju podatkov:Opišite rezultate vašega raziskovanja podatkov, vključno s prvimi ugotovitvami ali začetnimi hipotezami in njihovim vplivom na preostanek projekta. Če je to primerno, lahko sem vključite grafe in risbe, da označite značilnosti podatkov, ki kažejo na nadaljnji pregled zanimivih podatkovnih podnaborov.

Preverite kakovost podatkov

Preglejte kakovost podatkov in obravnavajte vprašanja, kot so:

lev v primerjavi s tigrom
  • Ali so podatki popolni ali zajemajo vse zahtevane primere?
  • Ali je pravilna ali vsebuje napake in če so napake, kako pogoste so?
  • Ali v podatkih manjkajo vrednosti? Če da, kako so zastopani, kje se pojavljajo in kako pogosti so?

Poročilo o kakovosti podatkov

Navedite rezultate preverjanja kakovosti podatkov. Če obstajajo težave s kakovostjo, predlagajte možne rešitve. Rešitve težav s kakovostjo podatkov so na splošno močno odvisne od podatkov in poslovnega znanja.

Faza 3: Priprava podatkov

V tej fazi projekta se odločite, katere podatke boste uporabili za analizo. Merila, ki jih lahko uporabite pri sprejemanju te odločitve, vključujejo ustreznost podatkov za vaše cilje podatkovnega rudarjenja, kakovost podatkov in tehnične omejitve, kot so omejitve količine podatkov ali tipov podatkov.

    Utemeljitev za vključitev/izključitev:Navedite podatke, ki jih želite vključiti/izključiti, in razloge za te odločitve.

Očistite svoje podatke

Ta naloga vključuje dvig kakovosti podatkov na raven, ki jo zahtevajo tehnike analize, ki ste jih izbrali. To lahko vključuje izbiro čistih podnaborov podatkov, vstavljanje ustreznih privzetih vrednosti ali ambicioznejše tehnike, kot je ocenjevanje manjkajočih podatkov z modeliranjem.

    Poročilo o čiščenju podatkov:Opišite, katere odločitve in ukrepe ste sprejeli za reševanje težav s kakovostjo podatkov. Upoštevajte morebitne transformacije podatkov, narejene za namene čiščenja, in njihov možen vpliv na rezultate analize.

Sestavite zahtevane podatke

Ta naloga vključuje konstruktivne operacije priprave podatkov, kot je izdelava izpeljanih atributov, celotnih novih zapisov ali pretvorjenih vrednosti za obstoječe atribute.

    Izpeljani atributi:To so novi atributi, sestavljeni iz enega ali več obstoječih atributov v istem zapisu. Na primer, lahko uporabite spremenljivki dolžine in širine za izračun nove spremenljivke površine.Ustvarjeni zapisi:Tukaj opisujete ustvarjanje vseh popolnoma novih zapisov. Na primer, morda boste morali ustvariti zapise za stranke, ki v zadnjem letu niso kupile. Nobenega razloga ni bilo za takšne zapise v neobdelanih podatkih. Kljub temu bi bilo morda smiselno predstaviti, da določene stranke izrecno niso opravile nič nakupov za namene modeliranja.

Integrirajte podatke

Te metode združujejo informacije iz več baz podatkov, tabel ali zapisov, da ustvarijo nove zapise ali vrednosti.

    Združeni podatki:Združevanje tabel se nanaša na združevanje dveh ali več tabel z različnimi informacijami o istih objektih. Na primer, maloprodajna veriga ima lahko eno tabelo s podatki o splošnih značilnostih vsake trgovine (npr. površina, vrsta trgovskega centra), drugo tabelo s povzetimi podatki o prodaji (npr. dobiček, odstotek spremembe prodaje v prejšnjem letu) in druga s podatki o demografiji okolice. Vsaka od teh tabel vsebuje en zapis za vsako trgovino. Te tabele je mogoče združiti v novo tabelo z enim zapisom za vsako trgovino, ki združuje polja iz izvornih tabel.Združevanja:Združevanja so operacije, pri katerih se nove vrednosti izračunajo s povzemanjem informacij iz več zapisov ali tabel. Na primer, pretvorba tabele nakupov strank, kjer je en zapis za vsak nakup, v novo tabelo in en zapis za vsako stranko, s polji, kot so število nakupov, povprečni znesek nakupa, odstotek naročil, zaračunanih kreditni kartici, odstotek artiklov v napredovanju itd.

Faza 4: Modeliranje

Izberite tehniko modeliranja: kot prvi korak boste izbrali osnovno tehniko modeliranja, ki jo boste uporabljali. Čeprav ste morda že izbrali orodje med fazo razumevanja poslovanja, boste na tej stopnji izbrali posebno tehniko modeliranja, npr. gradnja odločitvenega drevesa s C5.0 ali generiranje nevronske mreže s širjenjem nazaj. Če je uporabljenih več tehnik, izvedite to nalogo posebej za vsako tehniko.

    Tehnika modeliranja:Dokumentirajte osnovno tehniko modeliranja, ki jo boste uporabili.Predpostavke modeliranja:Številne tehnike modeliranja dajejo posebne predpostavke o podatkih, na primer, da imajo vsi atributi enakomerno porazdelitev, da niso dovoljene manjkajoče vrednosti, da mora biti atribut razreda simboličen itd. Zabeležite vse predpostavke.

Ustvari testno zasnovo

Preden zgradite model, morate ustvariti postopek ali mehanizem za testiranje kakovosti in veljavnosti modela. Na primer, pri nadzorovanih nalogah podatkovnega rudarjenja, kot je klasifikacija, je običajno uporabiti stopnje napak kot merila kakovosti za modele podatkovnega rudarjenja. Zato nabor podatkov običajno ločite na nize in testne nize, zgradite model na nizu vlakov in ocenite njegovo kakovost na ločenem testnem nizu.

    Oblikovanje testa:Opišite načrtovani načrt za usposabljanje, testiranje in ocenjevanje modelov. Glavna komponenta načrta je določanje, kako razdeliti razpoložljivi nabor podatkov na nabore podatkov za usposabljanje, testiranje in validacijo.

Zgradite model

Zaženite orodje za modeliranje na pripravljenem naboru podatkov, da ustvarite enega ali več modelov.

metoda podniza java
    Nastavitve parametrov:Pri vsakem orodju za modeliranje je pogosto na voljo veliko število parametrov, ki jih je mogoče prilagoditi. Navedite parametre, njihove vrednosti in razloge za izbiro nastavitev parametrov.Modeli:To so modeli, izdelani z orodjem za modeliranje, ne poročilo o modelih.Opisi modelov:Opišite nastale modele, poročajte o interpretaciji modelov in dokumentirajte morebitne težave pri njihovem pomenu.

Oceni model

Interpretirajte modele v skladu s svojim znanjem domene, merili uspešnosti podatkovnega rudarjenja in želeno zasnovo testa. Ocenite uspešnost uporabe tehnik modeliranja in odkrivanja, nato pa se pozneje obrnite na poslovne analitike in strokovnjake za področje, da bi razpravljali o rezultatih podatkovnega rudarjenja v poslovnem kontekstu. Ta naloga upošteva samo modele, medtem ko faza ocenjevanja upošteva tudi vse druge rezultate, nastale med projektom.

Na tej stopnji morate modele razvrstiti in oceniti glede na kriterije ocenjevanja. Tukaj morate čim bolj upoštevati poslovne cilje in merila uspeha. V večini projektov podatkovnega rudarjenja se posamezna tehnika uporabi več kot enkrat, rezultati podatkovnega rudarjenja pa se ustvarijo z več različnimi tehnikami.

    Ocena modela:Povzame rezultate te naloge, našteje kvalitete vaših ustvarjenih modelov (npr. v smislu natančnosti) in med seboj razvrsti njihovo kakovost.Spremenjene nastavitve parametrov:Glede na oceno modela jih pregledajte in prilagodite za naslednjo izvedbo modeliranja. Ponavljajte gradnjo in ocenjevanje modela, dokler niste trdno prepričani, da ste našli najboljši model(-e). Dokumentirajte vse takšne revizije in ocene.

5. faza: Evalvacija

Ocenite svoje rezultate: prejšnji koraki vrednotenja so obravnavali dejavnike, kot sta natančnost in splošnost modela. Med tem korakom boste ocenili stopnjo, do katere model izpolnjuje vaše poslovne cilje, in skušali ugotoviti, ali obstaja kakšen poslovni razlog, zakaj je ta model pomanjkljiv. Druga možnost je preizkusiti model na testnih aplikacijah v resnični aplikaciji, če to dopuščajo časovne in proračunske omejitve. Faza vrednotenja vključuje tudi oceno vseh drugih rezultatov podatkovnega rudarjenja, ki ste jih ustvarili. Rezultati podatkovnega rudarjenja vključujejo modele, ki so nujno povezani s prvotnimi poslovnimi cilji, in vse druge ugotovitve, ki niso nujno povezane s prvotnimi poslovnimi cilji, lahko pa tudi razkrijejo dodatne izzive, informacije ali namige za prihodnje usmeritve.

    Ocena rezultatov podatkovnega rudarjenja:Povzemite rezultate ocenjevanja v merilih poslovne uspešnosti, vključno s končno izjavo o tem, ali projekt že izpolnjuje začetne poslovne cilje.Odobreni modeli:Po oceni modelov po kriterijih poslovne uspešnosti postanejo generirani modeli, ki ustrezajo izbranim kriterijem, odobreni modeli.

Postopek pregleda

Na tej točki se zdi, da so dobljeni modeli zadovoljivi in ​​zadovoljujejo poslovne potrebe. Zdaj je primerno, da opravite temeljitejši pregled dejavnosti rudarjenja podatkov, da ugotovite, ali obstaja pomemben dejavnik ali naloga, ki je bila nekako spregledana. Ta pregled zajema tudi vprašanja zagotavljanja kakovosti. Na primer: ali smo pravilno zgradili model? Ali smo uporabili samo atribute, ki jih smemo uporabljati in so na voljo za prihodnje analize?

    Pregled postopka:Povzemite pregled procesa in poudarite aktivnosti, ki ste jih zamudili, in tiste, ki bi jih bilo treba ponoviti.

Določite naslednje korake

Glede na rezultate ocenjevanja in pregled procesa se zdaj odločite, kako boste nadaljevali. Ali končate ta projekt in nadaljujete z uvajanjem, začnete z nadaljnjimi ponovitvami ali vzpostavite nove projekte podatkovnega rudarjenja? Prav tako morate pregledati svoja preostala sredstva in proračun, kar lahko vpliva na vaše odločitve.

    Seznam možnih dejanj:Navedite možne nadaljnje ukrepe ter razloge za in proti vsaki možnosti.Odločitev:Opišite odločitev, kako nadaljevati, skupaj z utemeljitvijo.

Faza 6: Uvajanje

Načrtujte uvajanje: V fazi uvajanja boste vzeli rezultate ocenjevanja in določili strategijo za njihovo uvajanje. Če je bil identificiran splošni postopek za ustvarjanje ustreznega(-ih) modela(-ov), je ta postopek dokumentiran tukaj za poznejšo uvedbo. Smiselno je razmisliti o načinih in sredstvih uvajanja v fazi poslovnega razumevanja, ker je uvajanje ključnega pomena za uspeh projekta. Tu napovedna analitika pomaga izboljšati operativno stran vašega podjetja.

    Načrt uvajanja:Povzemite svojo strategijo uvajanja, vključno s potrebnimi koraki in kako jih izvesti.

Načrtujte spremljanje in vzdrževanje

Spremljanje in vzdrževanje sta pomembna vprašanja, če rezultat podatkovnega rudarjenja postane del vsakodnevnega poslovanja in njegovega okolja. S skrbno pripravo strategije vzdrževanja se izognemo nepotrebno dolgim ​​obdobjem nepravilne uporabe rezultatov podatkovnega rudarjenja. Projekt potrebuje podroben načrt postopka spremljanja za spremljanje uporabe rezultatov podatkovnega rudarjenja. Ta načrt upošteva posebno vrsto namestitve.

    Načrt spremljanja in vzdrževanja:Povzemite strategijo spremljanja in vzdrževanja, vključno s potrebnimi koraki in kako jih izvesti.

Izdelajte končno poročilo

Na koncu projekta boste napisali končno poročilo. Odvisno od načrta uvedbe je to poročilo lahko le povzetek projekta in njegovih izkušenj (če še niso bile dokumentirane kot stalna dejavnost) ali pa je lahko končna in celovita predstavitev rezultatov podatkovnega rudarjenja.

    Končno poročilo:To je končno pisno poročilo o angažiranju podatkovnega rudarjenja. Vključuje vse predhodne rezultate, povzemanje in organizacijo rezultatov.Končna predstavitev:Pogosto bo po projektu organiziran sestanek, na katerem bodo rezultati predstavljeni stranki.

Pregled projekta

kako pretvoriti niz v celo število java

Ocenite, kaj je šlo prav in kaj narobe, kaj je bilo narejeno dobro in kaj je treba izboljšati.

    Dokumentacija izkušenj:Povzemite pomembne izkušnje, pridobljene med projektom. Ta dokumentacija lahko na primer vključuje vse pasti, na katere ste naleteli, zavajajoče pristope ali namige za izbiro najprimernejših tehnik podatkovnega rudarjenja v podobnih situacijah. V idealnih projektih dokumentacija izkušenj zajema tudi vsa poročila, ki so jih posamezni člani projekta napisali v prejšnjih fazah projekta.