10 najdôležitejších výrazov Hadoop, ktoré potrebujete poznať a porozumieť im

Obsah

Najprv sa však pozrieme na to, ako funguje Hadoop
Hadoop Common
Distribuovaný systém súborov Hadoop (HDFS)
MapReduce
HBase
Úľ
Žiadne chyby, žiadny stres - Váš sprievodca krok za krokom k vytvoreniu softvéru na zmenu života bez zničenia vášho života
Apache Pig
Apache Spark
Apache Cassandra
Ďalší vyjednávač zdrojov (YARN)
Impala

Zdroj: Trueffelpix / Dreamstime.com

Zobrať:

Ak chcete skutočne porozumieť veľkým údajom, musíte trochu porozumieť jazyku Hadoop a jeho jazyku.

Veľké dáta, chytľavý názov pre veľké objemy štruktúrovaných, neštruktúrovaných alebo pološtrukturovaných údajov, je notoricky ťažké zachytiť, uložiť, spravovať, zdieľať, analyzovať a vizualizovať, aspoň pomocou tradičných databázových a softvérových aplikácií. To je dôvod, prečo veľké dátové technológie majú potenciál na efektívne a efektívne spravovanie a spracovanie veľkého množstva údajov. A jeho Apache Hadoop, ktorý poskytuje rámec a súvisiace technológie na distribúciu veľkého množstva súborov v klastroch počítačov. Takže, aby ste skutočne porozumeli veľkým údajom, musíte niečo o Hadoop pochopiť. Tu sa tiež pozrite na najvýznamnejšie pojmy, ktoré budete počuť v súvislosti s Hadoopom - a čo znamenajú.

Najprv sa však pozrieme na to, ako funguje Hadoop

Pred vstupom do eko-systému Hadoop musíte jasne porozumieť dvom základným veciam. Prvým je spôsob uloženia súboru v Hadoop; Druhým je spôsob spracovania uložených údajov. Všetky technológie súvisiace s Hadoopom pracujú hlavne v týchto dvoch oblastiach a sú užívateľsky príjemnejšie. (Získajte základné informácie o tom, ako Hadoop pracuje v časti Ako Hadoop pomáha vyriešiť problém veľkých dát.)

Teraz, podľa podmienok.

Hadoop Common

Hadoop framework má rôzne moduly pre rôzne funkcionality a tieto moduly sa môžu vzájomne ovplyvňovať z rôznych dôvodov. Hadoop Common je možné definovať ako knižnicu bežných utilít na podporu týchto modulov v ekosystéme Hadoop. Tieto nástroje sú v podstate archivované súbory JAR založené na jazyku Java. Tieto nástroje používajú hlavne vývojári a vývojári počas vývoja.

Distribuovaný systém súborov Hadoop (HDFS)

Distribuovaný systém súborov Hadoop (HDFS) je podprojektom Apache Hadoop pod Apache Software Foundation. Toto je chrbtová kosť úložného priestoru v rámci Hadoop. Je to distribuovaný, škálovateľný a odolný voči chybám súborový systém, ktorý sa rozkladá na viacerých komoditných hardvéroch známych ako klaster Hadoop. Cieľom HDFS je spoľahlivé ukladanie veľkého množstva údajov s vysokým priechodným prístupom k aplikačným údajom. HDFS sleduje architektúru master / slave, kde je master známy ako NameNode a slave sú známe ako DataNodes.

MapReduce

Hadoop MapReduce je tiež podprojektom Apache Software Foundation. MapReduce je vlastne softvérový rámec čisto napísaný v Jave. Jeho primárnym cieľom je spracovávať veľké množiny údajov v distribuovanom prostredí (zloženom z komoditného hardvéru) úplne paralelne. Rámec riadi všetky činnosti, ako je plánovanie úloh, monitorovanie, vykonávanie a opakované vykonávanie (v prípade neúspešných úloh).

HBase

Apache HBase je známa ako databáza Hadoop. Je to stĺpcový, distribuovaný a škálovateľný úložisko veľkých dát. Je tiež známa ako typ databázy NoSQL, ktorá nie je systémom správy relačných databáz. Aplikácie HBase sú tiež písané v jazyku Java, postavené na vrchole Hadoop a prevádzkované na HDFS. HBase sa používa, keď potrebujete čítať / zapisovať v reálnom čase a náhodný prístup k veľkým dátam. HBase je modelovaný na základe konceptov spoločnosti BigTable spoločnosti Google.

Úľ

Apache Hive je softvérový systém s otvoreným zdrojom údajov. Úľ bol pôvodne vyvinutý skôr, ako sa dostal do Apache Software Foundation a stal sa otvoreným zdrojom. Uľahčuje správu a dopytovanie veľkých množín údajov o distribuovanom úložisku kompatibilnom s Hadoop. Úľ vykonáva všetky svoje činnosti pomocou jazyka podobného SQL známeho ako HiveQL. (Viac informácií v krátkom úvode k Apache Hive and Pig.)

Žiadne chyby, žiadny stres - Váš sprievodca krok za krokom k vytvoreniu softvéru na zmenu života bez zničenia vášho života

Nemôžete zlepšiť svoje programovacie schopnosti, keď sa nikoho nezaujíma o kvalitu softvéru.

Apache Pig

Spoločnosť Yahoo pôvodne iniciovala prasa na vývoj a vykonávanie úloh MapReduce na veľkom množstve distribuovaných údajov. Teraz sa stal open source projekt pod Apache Software Foundation. Apache Pig možno definovať ako platformu pre efektívnu analýzu veľmi veľkých súborov údajov. Vrstva ošípaných produkuje sekvencie úloh MapReduce na vykonávanie skutočného spracovania. Jazyková vrstva ošípaných je známa ako prasacia latina a poskytuje funkcie podobné SQL na vykonávanie dopytov na distribuovaných množinách údajov.

Apache Spark

Spark bol pôvodne vyvinutý AMPLab v UC Berkeley. Vo februári 2014 sa stal projektom najvyššej úrovne Apache. Apache Spark možno definovať ako open source, univerzálny framework pre klastrové výpočty, ktorý výrazne zvyšuje rýchlosť analýzy údajov. Je postavený na vrchole distribuovaného systému súborov Hadoop, ale nie je prepojený s rámcom MapReduce. Výkon iskier je v porovnaní s MapReduce omnoho rýchlejší. Poskytuje rozhrania API vysokej úrovne v programoch Scala, Python a Java.

Apache Cassandra

Apache Cassandra je ďalší otvorený zdroj NoSQL databázy. Cassandra sa široko používa na správu veľkého množstva štruktúrovaných, pološtrukturovaných a neštruktúrovaných dátových rozpätí naprieč viacerými dátovými centrami a cloudovým ukladaním. Cassandra je navrhnutý na základe architektúry „masterless“, čo znamená, že nepodporuje model master / slave. V tejto architektúre sú všetky uzly rovnaké a údaje sa distribuujú automaticky a rovnomerne do všetkých uzlov. Medzi najdôležitejšie funkcie spoločnosti Cassandras patrí nepretržitá dostupnosť, lineárna škálovateľnosť, vstavaná / prispôsobiteľná replikácia, žiadny bod zlyhania a jednoduchosť prevádzky.

Ďalší vyjednávač zdrojov (YARN)

Ešte iný prostriedok na vyjednávanie zdrojov (YARN) je známy aj ako MapReduce 2.0, ale v skutočnosti spadá pod Hadoop 2.0. YARN možno definovať ako rámec plánovania úloh a riadenia zdrojov. Základnou myšlienkou YARN je nahradiť funkcie JobTracker dvoma samostatnými démonmi zodpovednými za správu zdrojov a plánovanie a monitorovanie. V tomto novom rámci bude existovať globálny ResourceManager (RM) a hlavný server špecifický pre aplikáciu známy ako ApplicationMaster (AM). Globálny ResourceManager (RM) a NodeManager (na uzol slave) tvoria rámec pre výpočet skutočných dát. Existujúce aplikácie MapReduce v1 je možné spustiť aj na serveri YARN, ale tieto aplikácie je potrebné kompilovať pomocou pohárov Hadoop2.x.

Impala

Impala je možné definovať ako dotazovací stroj SQL s výkonom masívneho paralelného spracovania (MPP). Natívne beží na rámci Apache Hadoop. Impala je navrhnutá ako súčasť ekosystému Hadoop. Zdieľa rovnaký flexibilný systém súborov (HDFS), metaúdaje, správu zdrojov a bezpečnostné rámce, aké používajú ostatné komponenty ekosystému Hadoop. Najdôležitejšie je poznamenať, že Impala je v spracovávaní dotazov oveľa rýchlejšia ako v Hive. Mali by sme však tiež pamätať na to, že Impala je určená na dotazovanie / analýzu na malej množine údajov a je určená predovšetkým ako analytický nástroj, ktorý pracuje na spracovaných a štruktúrovaných údajoch.

Hadoop je dôležitou témou v oblasti IT, ale sú aj takí, ktorí sú skeptickí voči svojej dlhodobej životaschopnosti. Prečítajte si viac v časti Čo je Hadoop? Cynická teória.