Vadnica PySpark nudi osnovne in napredne koncepte Spark. Naša vadnica PySpark je zasnovana za začetnike in profesionalce.
java je instanceof
PySpark je Python API za uporabo Spark. Spark je odprtokodni računalniški sistem v gruči, ki se uporablja za rešitev velikih podatkov. To je bliskovito hitra tehnologija, ki je zasnovana za hitro računanje.
Naša vadnica za PySpark vključuje vse teme Spark z uvodom v PySpark, namestitev PySpark, arhitekturo PySpark, podatkovni okvir PySpark, PySpark Mlib, PySpark RDD, filter PySpark in tako naprej.
Kaj je PySpark?
PySpark je API za Python za podporo Pythona z Apache Spark. PySpark zagotavlja knjižnica Py4j, s pomočjo te knjižnice je mogoče Python enostavno integrirati z Apache Spark. PySpark igra bistveno vlogo, ko mora delati z obsežnim naborom podatkov ali jih analizirati. Zaradi te funkcije je PySpark zelo zahtevno orodje med podatkovnimi inženirji.
Ključne značilnosti PySpark
Spodaj so navedene različne funkcije PySpark:
PySpark zagotavlja izračun v realnem času za veliko količino podatkov, ker se osredotoča na obdelavo v pomnilniku. Prikazuje nizko zakasnitev.
Ogrodje PySpark je primerno za različne programske jezike, kot je Scala, Java, Python in R. Zaradi svoje združljivosti je prednostno ogrodje za obdelavo ogromnih naborov podatkov.
Ogrodje PySpark zagotavlja zmogljivo predpomnjenje in dobro obstojnost diska.
PySpark nam omogoča doseganje visoke hitrosti obdelave podatkov, ki je približno 100-krat hitrejša v pomnilniku in 10-krat hitreje na disku.
Programski jezik Python je dinamično tipkan, kar pomaga pri delu z RDD. Več o RDD z uporabo Pythona bomo izvedeli v nadaljnji vadnici.
Kaj je Apache Spark?
Apache Spark je odprtokodno porazdeljeno računalniško ogrodje grozdov uvedel Apache Software Foundation. Je splošni motor za analizo, obdelavo in računanje velikih podatkov. Zgrajen je za visoko hitrost, enostavno uporabo, ponuja preprostost, pretočno analizo in deluje tako rekoč povsod. Lahko analizira podatke v realnem času. Zagotavlja hitro računanje velikih podatkov.
The hitro računanje pomeni, da je hitrejši od prejšnjih pristopov za delo z velikimi podatki, kot je npr MapReduce. Glavna značilnost Apache Spark je njegova gruča v pomnilniku računalništvo, ki poveča hitrost obdelave aplikacije.
Uporablja se lahko za več stvari, kot je izvajanje porazdeljenega SQL, ustvarjanje podatkovnih cevovodov, vnašanje podatkov v bazo podatkov, izvajanje algoritmov strojnega učenja, delo z grafi ali podatkovnimi tokovi in še veliko več.
Zakaj PySpark?
Velika količina podatkov se ustvari brez povezave in na spletu. Ti podatki vsebujejo skrite vzorce, neznane popravke, tržne trende, želje strank in druge koristne poslovne informacije. Iz neobdelanih podatkov je treba izluščiti dragocene informacije.
Potrebujemo učinkovitejše orodje za izvajanje različnih vrst operacij z velikimi podatki. Obstajajo različna orodja za izvajanje več nalog na ogromnem naboru podatkov, vendar ta orodja niso več tako privlačna. Potrebnih je nekaj razširljivih in prilagodljivih orodij za vdiranje velikih podatkov in njihovo korist.
Razlika med Scalo in PySpark
Apache Spark je uradno napisan v programskem jeziku Scala. Oglejmo si bistveno razliko med Pythonom in Scalo.
Sr. | Python | Scala |
---|---|---|
1. | Python je interpretiran, dinamičen programski jezik. | Scala je statično tipiziran jezik. |
2. | Python je objektno usmerjen programski jezik. | V Scali moramo določiti vrsto spremenljivke in objektov. |
3. | Python je enostaven za učenje in uporabo. | Scala se je nekoliko težje naučiti kot Python. |
4. | Python je počasnejši od Scale, ker je tolmačen jezik. | Scala je 10-krat hitrejša od Pythona. |
5. | Python je odprtokodni jezik in ima ogromno skupnost, ki ga izboljšuje. | Scala ima tudi odlično skupnost, vendar manjšo od Pythona. |
6. | Python vsebuje veliko število knjižnic in popolno orodje za podatkovno znanost in strojno učenje. | Scala nima takega orodja. |
Eno najbolj neverjetnih orodij, ki pomaga pri obdelavi velikih podatkov, je Apache Spark. Kot vemo, je Python eden najbolj razširjenih programskih jezikov med podatkovnimi znanstveniki, podatkovno analitiko in na različnih področjih. Zaradi njegove preprostosti in interaktivnega vmesnika mu podatkovni znanstveniki zaupajo izvajanje analize podatkov, strojnega učenja in številnih drugih nalog na velikih podatkih s pomočjo Pythona.
Torej bi bila kombinacija Pythona in Sparka zelo učinkovita za svet velikih podatkov. Zato je skupnost Apache Spark pripravila orodje, imenovano PySpark to je Python API za Apache Spark.
Uporaba PySpark v resničnem življenju
Podatki so bistvena stvar za vsako industrijo. Večina industrij dela na velikih podatkih in najema analitike, da iz neobdelanih podatkov pridobijo koristne informacije. Oglejmo si vpliv PySpark na več industrij.
1. Zabavna industrija
razvrščanje java mehurčkov
Zabavna industrija je eden največjih sektorjev, ki raste v smeri spletnega pretakanja. Priljubljena spletna platforma za zabavo Netflix uporablja Apache spark za obdelavo v realnem času za prilagojene spletne filme ali spletne serije svojim strankam. Obdeluje cca. 450 milijard dogodkov na dan, ki se pretakajo v aplikaciji na strani strežnika.
2. Komercialni sektor
Komercialni sektor prav tako uporablja sistem za obdelavo v realnem času Apache Spark. Banke in druga finančna področja uporabljajo Spark za pridobitev strankinega profila družbenih medijev in analizo za pridobitev koristnih vpogledov, ki lahko pomagajo sprejeti pravo odločitev.
Pridobljeni podatki se uporabljajo za oceno kreditnega tveganja, ciljane oglase in segmentacijo strank.
Spark igra pomembno vlogo pri Odkrivanje goljufij in se pogosto uporablja pri nalogah strojnega učenja.
3. Zdravstveno varstvo
Apache Spark se uporablja za analizo bolnikovih zapisov skupaj s podatki prejšnjih zdravstvenih poročil, da se ugotovi, kateri bolnik se bo po odpustu s klinike verjetno soočil z zdravstvenimi težavami.
4. Trgovina in e-poslovanje
Vodilna spletna mesta za e-trgovino, kot so Flipkart, Amazon itd., uporabljajo Apache Spark za ciljano oglaševanje. Druge spletne strani, kot je npr Ali Baba zagotavlja ciljno usmerjene ponudbe, izboljšano uporabniško izkušnjo in optimizira splošno delovanje.
5. Turistična industrija
Turistična industrija pogosto uporablja Apache Spark za zagotavljanje nasvetov milijonom popotnikov s primerjavo na stotine turističnih spletnih mest.
V tej vadnici smo spoznali uvod v PySpark, več o PySparku bomo izvedeli v nadaljnji vadnici.
Predpogoji
Preden se naučite PySpark, morate imeti osnovno predstavo o programskem jeziku in ogrodju. Zelo koristno bo, če dobro poznate programski jezik Apache Spark, Hadoop, Scala, distribucijski datotečni sistem Hadoop (HDFS) in Python.
Občinstvo
Naša vadnica PySpark je zasnovana tako, da pomaga začetnikom in profesionalcem.
Težave
Zagotavljamo vam, da s to vadnico PySpark ne boste našli nobenih težav. Če pa je kakšna napaka, jo prosim objavite v kontaktnem obrazcu.