Apache Spark

Autor: Eugene Taylor
Dátum Stvorenia: 8 August 2021
Dátum Aktualizácie: 1 V Júli 2024
Anonim
Что такое Apache Spark
Video: Что такое Apache Spark

Obsah

Definícia - Čo znamená Apache Spark?

Apache Spark je open-source program používaný na analýzu dát. Je súčasťou väčšej sady nástrojov vrátane Apache Hadoop a ďalších zdrojov s otvoreným zdrojom pre dnešnú analytickú komunitu.


Odborníci opisujú tento relatívne nový softvér s otvoreným zdrojom ako nástroj na výpočtovú klastrovú analýzu údajov. Môže sa používať s distribuovaným súborovým systémom Hadoop (HDFS), čo je konkrétna súčasť Hadoop, ktorá uľahčuje zložité spravovanie súborov.

Niektorí IT profesionáli popisujú použitie Apache Spark ako možnej náhrady za komponent Apache Hadoop MapReduce. MapReduce je tiež klastrovací nástroj, ktorý pomáha vývojárom spracovať veľké súbory údajov. Tí, ktorí chápu podobu Apache Spark, poukazujú na to, že v niektorých situáciách môže byť mnohokrát rýchlejšia ako MapReduce.

Úvod do programu Microsoft Azure a Microsoft Cloud V tejto príručke sa dozviete, o čom všetko je cloud computing a ako vám môže Microsoft Azure pomôcť migrovať a podnikať z cloudu.

Techopedia vysvetľuje Apache Spark

Tí, ktorí podávajú správy o modernom používaní Apache Spark, ukazujú, že spoločnosti ho používajú rôznymi spôsobmi. Jedným z bežných spôsobov použitia je agregácia údajov a ich podrobnejšia štruktúra. Apache Spark môže byť tiež nápomocný pri analytických strojových prácach alebo pri klasifikácii údajov.


Organizácie zvyčajne čelia výzve rafinácie údajov efektívnym a trochu automatizovaným spôsobom, kde sa Apache Spark môže použiť na tieto druhy úloh. Niektorí tiež naznačujú, že používanie programu Spark môže pomôcť poskytnúť prístup k tým, ktorí majú o programovaní menej znalostí a chcú sa zapojiť do analytického spracovania.

Apache Spark obsahuje API pre Python a súvisiace jazyky softvéru.