Prečo je Spark budúcou veľkou dátovou platformou

Obsah

Čo je to Apache Spark?
Prečo je Spark tak dôležitý ako Hadoop
Čo sú jedinečné vlastnosti iskier?
Prečo Spark nie je náhradou za Hadoop
Čo si spoločnosti myslia o Spark a Hadoop
Praktické implementácie
záver

Zdroj: Snake3d / Dreamstime.com

Zobrať:

Apache Spark je open-source nástroj pre spracovanie veľkých dát, ktoré sa plazia na (a v niektorých ohľadoch, prekonávajú) Hadoop.

Apache Hadoop je dlhodobo základom veľkých dátových aplikácií a považuje sa za základnú dátovú platformu pre všetky ponuky týkajúce sa veľkých dát. Databáza a výpočty v pamäti však získavajú na popularite kvôli rýchlejšiemu výkonu a rýchlym výsledkom. Apache Spark je nový rámec, ktorý využíva funkcie v pamäti na zabezpečenie rýchleho spracovania (takmer 100-krát rýchlejšie ako Hadoop). Takže produkt Spark sa čoraz viac používa vo svete veľkých údajov a hlavne na rýchlejšie spracovanie.

Čo je to Apache Spark?

Apache Spark je open-source framework pre spracovanie obrovských objemov dát (veľké dáta) s rýchlosťou a jednoduchosťou. Je vhodný pre analytické aplikácie založené na veľkých údajoch. Spark môže byť použitý v prostredí Hadoop, samostatne alebo v cloude. Bol vyvinutý na Kalifornskej univerzite a neskôr ponúknutý nadácii Apache Software Foundation. Patrí teda do komunity s otvoreným zdrojom a môže byť veľmi nákladovo efektívna, čo ďalej umožňuje amatérskym vývojárom ľahkú prácu. (Ak sa chcete dozvedieť viac o otvorenom zdroji Hadoops, prečítajte si článok Aký je vplyv otvoreného zdroja na ekosystém Apache Hadoop?)

Hlavným účelom programu Spark je, že ponúka vývojárom aplikačný rámec, ktorý pracuje okolo centrovanej dátovej štruktúry. Spark je tiež mimoriadne silný a má vrodenú schopnosť rýchlo spracovať veľké množstvo údajov v krátkom čase, a tak ponúka mimoriadne dobrý výkon.Vďaka tomu je oveľa rýchlejšia ako to, o ktorom sa hovorí, že je jeho najbližším konkurentom, Hadoop.

Prečo je Spark tak dôležitý ako Hadoop

Apache Spark bol vždy známy ako trumf Hadoop vo viacerých funkciách, čo pravdepodobne vysvetľuje, prečo je tak dôležité. Jedným z hlavných dôvodov by bolo zvážiť rýchlosť spracovania. V skutočnosti, ako už bolo uvedené vyššie, Spark ponúka približne stokrát rýchlejšie spracovanie ako MapReduce spoločnosti Hadoop pre rovnaké množstvo údajov. V porovnaní s Hadoopom tiež využíva podstatne menej zdrojov, čím sa stáva nákladovo efektívny.

Ďalším kľúčovým aspektom, v ktorom má Spark navrch, je z hľadiska kompatibility so správcom prostriedkov. Je známe, že Apache Spark beží s Hadoopom, tak ako to robí MapReduce, ale ten je v súčasnosti kompatibilný iba s Hadoop. Pokiaľ však ide o Apache Spark, môže pracovať s inými správcami zdrojov, ako sú YARN alebo Mesos. Vedci údajov to často uvádzajú ako jednu z najväčších oblastí, v ktorých Spark Hadoopa skutočne prekonáva.

Pokiaľ ide o ľahké používanie, Spark sa opäť stáva oveľa lepším ako Hadoop. Spark má API pre niekoľko jazykov ako Scala, Java a Python, okrem toho, že má rád program Spark SQL. Je pomerne jednoduché písať užívateľom definované funkcie. Taktiež sa môže pochváliť interaktívnym režimom na spúšťanie príkazov. Hadoop, na druhej strane, je napísaný v Jave a získal si povesť, že je dosť ťažké ho programovať, hoci má nástroje, ktoré mu v tomto procese pomáhajú. (Ak sa chcete dozvedieť viac o programe Spark, prečítajte si článok Ako Apache Spark pomáha rýchlemu vývoju aplikácií.)

Čo sú jedinečné vlastnosti iskier?

Apache Spark má niektoré jedinečné vlastnosti, ktoré ho skutočne odlišujú od mnohých jeho konkurentov v oblasti spracovania údajov. Niektoré z nich boli stručne načrtnuté nižšie.

Svoje programovacie schopnosti si nemôžete vylepšiť, keď sa nikto nestará o kvalitu softvéru.

Spark má vrodenú schopnosť načítať potrebné informácie do svojho jadra pomocou svojich algoritmov strojového učenia. To mu umožňuje byť extrémne rýchly.

Apache Spark prichádza so schopnosťou spracovať grafy alebo dokonca informácie, ktoré majú grafickú povahu, čo umožňuje ľahkú analýzu s veľkou presnosťou.

Apache Spark má MLib, čo je rámec určený pre štruktúrované strojové učenie. Implementácia je tiež prevažne rýchlejšia ako pri Hadoope. MLib je tiež schopný vyriešiť niekoľko problémov, ako napríklad štatistické čítanie, vzorkovanie údajov a testovanie predpokladov.

Prečo Spark nie je náhradou za Hadoop

Napriek tomu, že Spark má niekoľko aspektov, v ktorých prekrýva ruky Hadoopa, stále existuje niekoľko dôvodov, prečo ho zatiaľ nemôže skutočne nahradiť.

Po prvé, Hadoop jednoducho ponúka väčšiu sadu nástrojov v porovnaní so Sparkom. Má tiež niekoľko postupov, ktoré sú v priemysle uznávané. Apache Spark je však v oblasti stále relatívne mladý a bude potrebovať nejaký čas, aby sa vyrovnal s Hadoopom.

Hadoop's MapReduce tiež stanovil určité priemyselné štandardy, pokiaľ ide o prevádzkovanie plnohodnotných operácií. Na druhej strane sa stále verí, že Spark nie je úplne pripravený na prevádzku s úplnou spoľahlivosťou. Organizácie, ktoré používajú program Spark, ho často musia doladiť, aby boli pripravené na svoje požiadavky.

Konfigurácia Hadoop's MapReduce, ktorá bola už dlhšiu dobu ako Spark, sa tiež ľahšie konfiguruje. To však nie je prípad programu Spark, pretože sa zdá, že ponúka úplne novú platformu, ktorá v skutočnosti netestovala drsné záplaty.

Čo si spoločnosti myslia o Spark a Hadoop

Mnoho spoločností už začalo využívať Spark na svoje potreby spracovania údajov, ale príbeh tam nekončí. Určite má niekoľko silných aspektov, vďaka ktorým je úžasnou platformou na spracovanie údajov. Má však aj svoj spravodlivý podiel na nevýhodách, ktoré je potrebné napraviť.

Je to priemyselný názor, že Apache Spark je tu, aby zostal a je to dokonca budúcnosť pre potreby spracovania dát. Stále však musí podstúpiť veľa vývojových prác a leštenia, ktoré jej umožnia skutočne využiť jeho potenciál.

Praktické implementácie

Apache Spark bol a je stále zamestnávaný mnohými spoločnosťami, ktoré vyhovujú ich požiadavkám na spracovanie dát. Jednu z najúspešnejších implementácií uskutočnila spoločnosť Shopify, ktorá hľadala výber vhodných obchodov pre obchodnú spoluprácu. Jeho dátový sklad však stále vypršal časový limit, keď chcel pochopiť produkty, ktoré jeho zákazníci predávali. S pomocou spoločnosti Spark bola spoločnosť schopná spracovať niekoľko miliónov dátových záznamov a následne spracovať 67 miliónov záznamov za pár minút. Stanovila tiež, ktoré obchody boli oprávnené.

Použitím programu Spark je Pinterest schopná identifikovať vývojové trendy a potom ich použiť na pochopenie správania používateľov. To ďalej umožňuje lepšiu hodnotu v komunite Pinterest. Spark využíva aj spoločnosť TripAdvisor, jedna z najväčších turistických informačných webov na svete, aby zrýchlila svoje odporúčania návštevníkom.

záver

Nikto nemôže pochybovať o zdatnosti Apache Spark, a to ani v súčasnosti, ani o jedinečnej sade funkcií, ktoré prináša na stôl. Jeho spracovateľský výkon a rýchlosť spolu s kompatibilitou nastavujú tón pre niekoľko vecí, ktoré prídu v budúcnosti. Má však aj niekoľko oblastí, v ktorých musí zlepšiť, aby skutočne využil svoj plný potenciál. Zatiaľ čo spoločnosť Hadoop v súčasnosti stále dodržiava pravidlá, Apache Spark má pred sebou svetlú budúcnosť a mnohí ju považujú za budúcu platformu pre požiadavky na spracovanie údajov.