Vadnica Apache Spark nudi osnovne in napredne koncepte Spark. Naša vadnica Spark je zasnovana za začetnike in profesionalce.
Spark je enoten analitični mehanizem za obsežno obdelavo podatkov, vključno z vgrajenimi moduli za SQL, pretakanje, strojno učenje in obdelavo grafov.
Naša vadnica za Spark vključuje vse teme Apache Spark z uvodom v Spark, namestitev Spark, arhitekturo Spark, komponente Spark, RDD, primere Spark v realnem času in tako naprej.
Kaj je Spark?
Apache Spark je odprtokodno računalniško ogrodje gruče. Njegov glavni namen je obdelava podatkov, ustvarjenih v realnem času.
Spark je bil zgrajen na vrhu Hadoop MapReduce. Optimiziran je bil za delovanje v pomnilniku, medtem ko alternativni pristopi, kot je Hadoopov MapReduce, zapisuje podatke na trde diske računalnika in z njih. Torej Spark obdela podatke veliko hitreje kot druge alternative.
Zgodovina Apache Spark
Spark je začel leta 2009 Matei Zaharia v AMLabu UC Berkeley. Leta 2010 je bil odprtokoden pod licenco BSD.
Leta 2013 je projekt kupila Apache Software Foundation. Leta 2014 se je Spark pojavil kot projekt Apache najvišje ravni.
Funkcije Apache Spark
hitro | - Zagotavlja visoko zmogljivost za paketne in pretočne podatke z uporabo najsodobnejšega razporejevalnika DAG, optimizatorja poizvedb in mehanizma za fizično izvajanje.
Enostaven za uporabo | - Omogoča pisanje aplikacije v Javi, Scali, Pythonu, R in SQL. Zagotavlja tudi več kot 80 operaterjev na visoki ravni.
Splošnost | - Zagotavlja zbirko knjižnic, vključno s SQL in DataFrames, MLlib za strojno učenje, GraphX in Spark Streaming.
Lahka | - Je lahek enoten analitični mehanizem, ki se uporablja za obdelavo podatkov v velikem obsegu.
Teče povsod | - Z lahkoto deluje na Hadoop, Apache Mesos, Kubernetes, samostojno ali v oblaku.
Uporaba Spark
Integracija podatkov: | Podatki, ki jih ustvarijo sistemi, niso dovolj dosledni, da bi jih združili za analizo. Za pridobitev doslednih podatkov iz sistemov lahko uporabimo postopke, kot je ekstrahiranje, preoblikovanje in nalaganje (ETL). Spark se uporablja za zmanjšanje stroškov in časa, potrebnega za ta postopek ETL.
Obdelava toka: | Vedno je težko ravnati s podatki, ustvarjenimi v realnem času, kot so dnevniške datoteke. Spark je dovolj sposoben upravljati tokove podatkov in zavrača morebitne goljufive operacije.
Strojno učenje: | Pristopi strojnega učenja postanejo bolj izvedljivi in vse bolj natančni zaradi povečanja količine podatkov. Ker je spark sposoben shranjevati podatke v pomnilnik in lahko hitro izvaja ponavljajoče se poizvedbe, olajša delo na algoritmih strojnega učenja.
Interaktivna analitika: | Spark lahko hitro ustvari odziv. Torej, namesto izvajanja vnaprej določenih poizvedb, lahko podatke obravnavamo interaktivno.
Predpogoj
Preden se naučite Spark, morate imeti osnovno znanje Hadoopa.
Občinstvo
Naša vadnica Spark je zasnovana tako, da pomaga začetnikom in profesionalcem.
Težave
Zagotavljamo vam, da s to vadnico Spark ne boste našli nobenih težav. Če pa je kakšna napaka, jo prosim objavite v kontaktnem obrazcu.