CRISP-DM pomeni medpanožni standardni postopek za podatkovno rudarjenje. Metodologija CRISP-DM zagotavlja strukturiran pristop k načrtovanju projekta podatkovnega rudarjenja. Je robustna in dobro preizkušena metodologija. Ne zahtevamo lastništva nad njim. Nismo si ga izmislili. Smo pretvornik njegove močne praktičnosti, prilagodljivosti in uporabnosti pri uporabi analitike za reševanje poslovnih težav. To je zlata nit, ki se vleče skozi skoraj vsako srečanje s stranko.
Ta model je idealizirano zaporedje dogodkov. V praksi se lahko številne naloge izvajajo v drugačnem vrstnem redu in pogosto se bo treba vrniti na prejšnje naloge in ponoviti določena dejanja. Model ne poskuša zajeti vseh možnih poti skozi proces podatkovnega rudarjenja.
Kako CRISP pomaga?
CRISP DM ponuja načrt, ponuja najboljše prakse in zagotavlja strukture za boljše in hitrejše rezultate uporabe podatkovnega rudarjenja, tako da podjetju pomaga slediti med načrtovanjem in izvajanjem projekta podatkovnega rudarjenja.
Faze CRISP-DM
CRISP-DM ponuja pregled življenjskega cikla podatkovnega rudarjenja kot model procesa. Model življenjskega cikla obsega šest faz, pri čemer puščice označujejo najpomembnejše in najpogostejše odvisnosti med fazami. Zaporedje faz ni strogo. In večina projektov se po potrebi premika naprej in nazaj med fazami. Model CRISP-DM je prilagodljiv in ga je mogoče preprosto prilagoditi.
Na primer, če vaša organizacija želi odkriti pranje denarja, boste verjetno presejali velike količine podatkov brez posebnega cilja modeliranja. Namesto modeliranja se bo vaše delo osredotočilo na raziskovanje in vizualizacijo podatkov, da bi odkrili sumljive vzorce v finančnih podatkih. CRISP-DM vam omogoča, da ustvarite model podatkovnega rudarjenja, ki ustreza vašim potrebam.
Vključuje opise tipičnih faz projekta, naloge, vključene v vsako fazo, in razlago odnosov med temi nalogami.
Faza 1: Poslovno razumevanje
Prva stopnja procesa CRISP-DM je razumevanje, kaj želite doseči s poslovnega vidika. Vaša organizacija ima lahko konkurenčne cilje in omejitve, ki jih je treba ustrezno uravnotežiti. Cilj te faze procesa je odkriti pomembne dejavnike, ki vplivajo na rezultat projekta. Zanemarjanje tega koraka lahko pomeni veliko truda, vloženega v ustvarjanje pravih odgovorov na napačna vprašanja.
Kakšni so želeni rezultati projekta?
Ocenite trenutno stanje
veriženje naprej
To vključuje podrobnejše ugotavljanje dejstev o virih, omejitvah, predpostavkah in drugih dejavnikih, ki jih boste morali upoštevati pri določanju cilja analize podatkov in načrta projekta.
- Osebje (poslovni strokovnjaki, podatkovni strokovnjaki, tehnična podpora, strokovnjaki za podatkovno rudarjenje)
- Podatki (fiksni izvlečki, dostop do živih, skladiščenih ali operativnih podatkov)
- Računalniški viri (platforme strojne opreme)
- Programska oprema (orodja za rudarjenje podatkov, druga ustrezna programska oprema)
- Glosar ustrezne poslovne terminologije je del poslovnega razumevanja, ki je na voljo projektu. Sestavljanje tega glosarja je uporabna vaja za 'pridobivanje znanja' in izobraževanje.
- Glosar terminologije podatkovnega rudarjenja je ilustriran s primeri, ki so pomembni za poslovni problem.
Določite cilje podatkovnega rudarjenja
Poslovni cilj navaja cilje v poslovni terminologiji. Cilj podatkovnega rudarjenja navaja cilje projekta v tehničnem smislu. Poslovni cilj je lahko na primer Povečanje kataloške prodaje obstoječim strankam. Cilj podatkovnega rudarjenja bi lahko bil napovedati, koliko pripomočkov bo stranka kupila glede na njihove nakupe v zadnjih treh letih, demografske podatke (starost, plača, mesto itd.) in ceno artikla.
Izdelajte načrt projekta
Opišite predvideni načrt za doseganje ciljev podatkovnega rudarjenja in poslovnih ciljev. Vaš načrt mora določati korake, ki jih je treba izvesti v preostalem delu projekta, vključno z začetnim izborom orodij in tehnik.
1. Projektni načrt: Navedite faze, ki jih je treba izvesti v projektu, z njihovim trajanjem, potrebnimi viri, vložki, izhodi in odvisnostmi. Kjer je mogoče, poskusite eksplicitno navesti obsežne iteracije v procesu podatkovnega rudarjenja, na primer ponovitve faz modeliranja in vrednotenja.
Kot del projektnega načrta je pomembno analizirati odvisnosti med časovnimi načrti in tveganji. Rezultate teh analiz izrecno označite v načrtu projekta, najbolje z ukrepi in priporočili, če se tveganja pokažejo. Odločite se, katera strategija ocenjevanja bo uporabljena v fazi ocenjevanja.
java vzorčna koda
Vaš projektni načrt bo dinamičen dokument. Na koncu vsake faze boste pregledali napredek in dosežke ter ustrezno posodobili načrt projekta. Posebne točke pregleda za te posodobitve bi morale biti del načrta projekta.
2. Začetna ocena orodij in tehnik: Na koncu prve faze bi morali opraviti začetno oceno orodij in tehnik. Na primer, izberete orodje za podatkovno rudarjenje, ki podpira različne metode za različne stopnje procesa. Orodja in tehnike je pomembno oceniti zgodaj v procesu, saj lahko izbira orodij in tehnik vpliva na celoten projekt.
Faza 2: Razumevanje podatkov
Druga faza procesa CRISP-DM zahteva, da pridobite podatke, navedene v virih projekta. To začetno zbiranje vključuje nalaganje podatkov, če je to potrebno za razumevanje podatkov. Na primer, če uporabljate posebno orodje za razumevanje podatkov, je povsem smiselno, da svoje podatke naložite v to orodje. Če pridobite več virov podatkov, morate razmisliti, kako in kdaj jih boste integrirali.
Opišite podatke
Preglejte 'bruto' ali 'površinske' lastnosti pridobljenih podatkov in poročajte o rezultatih.
Raziščite podatke
Na tej stopnji boste obravnavali vprašanja podatkovnega rudarjenja s tehnikami poizvedovanja, vizualizacije podatkov in poročanja. Ti lahko vključujejo:
- Porazdelitev ključnih lastnosti
- Odnosi med pari ali majhnim številom atributov
- Rezultati preprostih združevanj
- Lastnosti pomembnih podpopulacij
- Enostavne statistične analize
Te analize lahko neposredno obravnavajo vaše cilje podatkovnega rudarjenja. Lahko prispevajo k ali izboljšajo opis podatkov in poročila o kakovosti ter se vključijo v transformacijo in druge korake priprave podatkov, ki so potrebni za nadaljnjo analizo.
Preverite kakovost podatkov
Preglejte kakovost podatkov in obravnavajte vprašanja, kot so:
lev v primerjavi s tigrom
- Ali so podatki popolni ali zajemajo vse zahtevane primere?
- Ali je pravilna ali vsebuje napake in če so napake, kako pogoste so?
- Ali v podatkih manjkajo vrednosti? Če da, kako so zastopani, kje se pojavljajo in kako pogosti so?
Poročilo o kakovosti podatkov
Navedite rezultate preverjanja kakovosti podatkov. Če obstajajo težave s kakovostjo, predlagajte možne rešitve. Rešitve težav s kakovostjo podatkov so na splošno močno odvisne od podatkov in poslovnega znanja.
Faza 3: Priprava podatkov
V tej fazi projekta se odločite, katere podatke boste uporabili za analizo. Merila, ki jih lahko uporabite pri sprejemanju te odločitve, vključujejo ustreznost podatkov za vaše cilje podatkovnega rudarjenja, kakovost podatkov in tehnične omejitve, kot so omejitve količine podatkov ali tipov podatkov.
Očistite svoje podatke
Ta naloga vključuje dvig kakovosti podatkov na raven, ki jo zahtevajo tehnike analize, ki ste jih izbrali. To lahko vključuje izbiro čistih podnaborov podatkov, vstavljanje ustreznih privzetih vrednosti ali ambicioznejše tehnike, kot je ocenjevanje manjkajočih podatkov z modeliranjem.
Sestavite zahtevane podatke
Ta naloga vključuje konstruktivne operacije priprave podatkov, kot je izdelava izpeljanih atributov, celotnih novih zapisov ali pretvorjenih vrednosti za obstoječe atribute.
Integrirajte podatke
Te metode združujejo informacije iz več baz podatkov, tabel ali zapisov, da ustvarijo nove zapise ali vrednosti.
Faza 4: Modeliranje
Izberite tehniko modeliranja: kot prvi korak boste izbrali osnovno tehniko modeliranja, ki jo boste uporabljali. Čeprav ste morda že izbrali orodje med fazo razumevanja poslovanja, boste na tej stopnji izbrali posebno tehniko modeliranja, npr. gradnja odločitvenega drevesa s C5.0 ali generiranje nevronske mreže s širjenjem nazaj. Če je uporabljenih več tehnik, izvedite to nalogo posebej za vsako tehniko.
Ustvari testno zasnovo
Preden zgradite model, morate ustvariti postopek ali mehanizem za testiranje kakovosti in veljavnosti modela. Na primer, pri nadzorovanih nalogah podatkovnega rudarjenja, kot je klasifikacija, je običajno uporabiti stopnje napak kot merila kakovosti za modele podatkovnega rudarjenja. Zato nabor podatkov običajno ločite na nize in testne nize, zgradite model na nizu vlakov in ocenite njegovo kakovost na ločenem testnem nizu.
Zgradite model
Zaženite orodje za modeliranje na pripravljenem naboru podatkov, da ustvarite enega ali več modelov.
metoda podniza java
Oceni model
Interpretirajte modele v skladu s svojim znanjem domene, merili uspešnosti podatkovnega rudarjenja in želeno zasnovo testa. Ocenite uspešnost uporabe tehnik modeliranja in odkrivanja, nato pa se pozneje obrnite na poslovne analitike in strokovnjake za področje, da bi razpravljali o rezultatih podatkovnega rudarjenja v poslovnem kontekstu. Ta naloga upošteva samo modele, medtem ko faza ocenjevanja upošteva tudi vse druge rezultate, nastale med projektom.
Na tej stopnji morate modele razvrstiti in oceniti glede na kriterije ocenjevanja. Tukaj morate čim bolj upoštevati poslovne cilje in merila uspeha. V večini projektov podatkovnega rudarjenja se posamezna tehnika uporabi več kot enkrat, rezultati podatkovnega rudarjenja pa se ustvarijo z več različnimi tehnikami.
5. faza: Evalvacija
Ocenite svoje rezultate: prejšnji koraki vrednotenja so obravnavali dejavnike, kot sta natančnost in splošnost modela. Med tem korakom boste ocenili stopnjo, do katere model izpolnjuje vaše poslovne cilje, in skušali ugotoviti, ali obstaja kakšen poslovni razlog, zakaj je ta model pomanjkljiv. Druga možnost je preizkusiti model na testnih aplikacijah v resnični aplikaciji, če to dopuščajo časovne in proračunske omejitve. Faza vrednotenja vključuje tudi oceno vseh drugih rezultatov podatkovnega rudarjenja, ki ste jih ustvarili. Rezultati podatkovnega rudarjenja vključujejo modele, ki so nujno povezani s prvotnimi poslovnimi cilji, in vse druge ugotovitve, ki niso nujno povezane s prvotnimi poslovnimi cilji, lahko pa tudi razkrijejo dodatne izzive, informacije ali namige za prihodnje usmeritve.
Postopek pregleda
Na tej točki se zdi, da so dobljeni modeli zadovoljivi in zadovoljujejo poslovne potrebe. Zdaj je primerno, da opravite temeljitejši pregled dejavnosti rudarjenja podatkov, da ugotovite, ali obstaja pomemben dejavnik ali naloga, ki je bila nekako spregledana. Ta pregled zajema tudi vprašanja zagotavljanja kakovosti. Na primer: ali smo pravilno zgradili model? Ali smo uporabili samo atribute, ki jih smemo uporabljati in so na voljo za prihodnje analize?
Določite naslednje korake
Glede na rezultate ocenjevanja in pregled procesa se zdaj odločite, kako boste nadaljevali. Ali končate ta projekt in nadaljujete z uvajanjem, začnete z nadaljnjimi ponovitvami ali vzpostavite nove projekte podatkovnega rudarjenja? Prav tako morate pregledati svoja preostala sredstva in proračun, kar lahko vpliva na vaše odločitve.
Faza 6: Uvajanje
Načrtujte uvajanje: V fazi uvajanja boste vzeli rezultate ocenjevanja in določili strategijo za njihovo uvajanje. Če je bil identificiran splošni postopek za ustvarjanje ustreznega(-ih) modela(-ov), je ta postopek dokumentiran tukaj za poznejšo uvedbo. Smiselno je razmisliti o načinih in sredstvih uvajanja v fazi poslovnega razumevanja, ker je uvajanje ključnega pomena za uspeh projekta. Tu napovedna analitika pomaga izboljšati operativno stran vašega podjetja.
Načrtujte spremljanje in vzdrževanje
Spremljanje in vzdrževanje sta pomembna vprašanja, če rezultat podatkovnega rudarjenja postane del vsakodnevnega poslovanja in njegovega okolja. S skrbno pripravo strategije vzdrževanja se izognemo nepotrebno dolgim obdobjem nepravilne uporabe rezultatov podatkovnega rudarjenja. Projekt potrebuje podroben načrt postopka spremljanja za spremljanje uporabe rezultatov podatkovnega rudarjenja. Ta načrt upošteva posebno vrsto namestitve.
Izdelajte končno poročilo
Na koncu projekta boste napisali končno poročilo. Odvisno od načrta uvedbe je to poročilo lahko le povzetek projekta in njegovih izkušenj (če še niso bile dokumentirane kot stalna dejavnost) ali pa je lahko končna in celovita predstavitev rezultatov podatkovnega rudarjenja.
Pregled projekta
kako pretvoriti niz v celo število java
Ocenite, kaj je šlo prav in kaj narobe, kaj je bilo narejeno dobro in kaj je treba izboljšati.