Kudu: herný menič v ekosystéme Hadoop?

Obsah

Čo je Kudu?
Aký je aktuálny stav Kudusu?
Ako môže Kudu doplniť HDFS / HBase?
Funkcie rámca Kudu
Ako môže Kudu zmeniť ekosystém Hadoop?
Žiadne chyby, žiadny stres - Váš sprievodca krok za krokom k vytvoreniu softvéru na zmenu života bez zničenia vášho života
záver

Zdroj: Agsandrew / Dreamstime.com

Zobrať:

Kudu je open-source projekt, ktorý pomáha efektívnejšie spravovať úložisko.

Kudu je nový open-source projekt, ktorý poskytuje aktualizovateľné úložisko. Je doplnkom k HDFS / HBase, ktorý poskytuje sekvenčné a iba na čítanie. Kudu je vhodnejší na rýchlu analýzu rýchlych údajov, čo je v súčasnosti dopyt po podnikaní. Kudu teda nie je len ďalším ekosystémovým projektom Hadoop, ale má skôr potenciál zmeniť trh. (Viac informácií o spoločnosti Hadoop nájdete v 10 najdôležitejších výrazoch spoločnosti Hadoop, ktoré potrebujete poznať a porozumieť im.)

Čo je Kudu?

Kudu je špeciálny druh úložného systému, ktorý ukladá štruktúrované údaje vo forme tabuliek. Každá tabuľka obsahuje preddefinované množstvo stĺpcov. Každý z nich má primárny kľúč, ktorý je vlastne skupinou jedného alebo viacerých stĺpcov tejto tabuľky. Tento primárny kľúč slúži na pridanie obmedzenia a zabezpečenie stĺpcov a slúži tiež ako index, ktorý umožňuje ľahkú aktualizáciu a odstránenie. Tieto tabuľky sú radom dátových podmnožín nazývaných tablety.

Aký je aktuálny stav Kudusu?

Kudu je skutočne dobre vyvinutý a je už spojený s množstvom funkcií. Bude však stále potrebovať určité leštenie, čo sa dá ľahšie urobiť, ak používatelia navrhnú a vykonajú určité zmeny.

Kudu je úplne otvorený zdroj a má softvér Apache Software License 2.0. Sú tiež určené na odoslanie do Apache, takže sa môžu vyvíjať ako projekt Apache Incubator. Umožní to, aby sa jeho rozvoj rozvíjal ešte rýchlejšie a ďalej rozširoval svoje publikum. Po určitom čase bude vývoj spoločnosti Kudu zverejnený a transparentný. Mnoho spoločností ako AtScale, Xiaomi, Intel a Splice Machine sa spojilo a prispelo k rozvoju spoločnosti Kudu. Kudu má tiež veľkú komunitu, kde už veľké množstvo divákov poskytuje svoje návrhy a príspevky. Sú to ľudia, ktorí poháňajú rozvoj Kudu vpred.

Ako môže Kudu doplniť HDFS / HBase?

Kudu nemá byť náhradou za HDFS / HBase. Je navrhnutý tak, aby podporoval HBase aj HFDS a aby spolu s nimi bežal, aby sa zlepšili jeho vlastnosti. Je to tak preto, lebo HBase a HDFS majú stále veľa funkcií, vďaka ktorým sú na niektorých počítačoch výkonnejšie ako Kudu. Celkovo tieto stroje získajú viac výhod z týchto systémov.

Funkcie rámca Kudu

Hlavné črty rámca Kudu sú nasledujúce:

Mimoriadne rýchle skenovanie stĺpcov tabuľky - Najlepšie formáty údajov, ako sú Parquet a ORCFile, potrebujú tie najlepšie postupy skenovania, ktoré spoločnosť Kudu dokonale rieši. Takéto formáty vyžadujú rýchle skenovanie, ku ktorému môže dôjsť, iba ak sú stĺpcové dáta správne kódované.
Spoľahlivosť výkonu - Rámec Kudu zvyšuje celkovú spoľahlivosť Hadoopu uzavretím mnohých medzier a medzier v Hadoope.
Ľahká integrácia s Hadoop - Kudu môže byť ľahko integrovaný s Hadoop a jeho rôznymi komponentmi pre väčšiu efektívnosť.
Úplne otvorený zdroj - Kudu je systém s otvoreným zdrojovým kódom s licenciou Apache 2.0. Má veľkú komunitu vývojárov z rôznych spoločností a prostredí, ktorí ju pravidelne aktualizujú a poskytujú návrhy na zmeny.

Ako môže Kudu zmeniť ekosystém Hadoop?

Kudu bol postavený tak, aby sa zmestil do ekosystému Hadoop a vylepšil jeho vlastnosti. Môže sa tiež integrovať s niektorými kľúčovými komponentmi spoločnosti Hadoop, ako sú MapReduce, HBase a HDFS. Úlohy MapReduce môžu poskytovať údaje alebo získavať údaje z tabuliek Kudu. Tieto funkcie je možné použiť aj v programe Spark. Vďaka špeciálnej vrstve sú niektoré súčasti Spark, ako Spark SQL a DataFrame, prístupné pre Kudu. Aj keď sa Kudu nevyvinul natoľko, aby nahradil tieto funkcie, odhaduje sa, že po niekoľkých rokoch bude vyvíjaný dosť na to, aby tak urobil. Dovtedy je integrácia medzi Hadoopom a Kudu skutočne veľmi užitočná a môže zaplniť hlavné medzery v ekosystéme Hadoop. (Viac informácií o Apache Spark nájdete v časti Ako Apache Spark pomáha rýchlemu vývoju aplikácií.)

Kudu je možné implementovať na rôznych miestach. Niektoré príklady takýchto miest sú uvedené nižšie:

Žiadne chyby, žiadny stres - Váš sprievodca krok za krokom k vytvoreniu softvéru na zmenu života bez zničenia vášho života

Nemôžete zlepšiť svoje programovacie schopnosti, keď sa nikoho nezaujíma o kvalitu softvéru.

Streamovanie vstupov v takmer reálnom čase - Na miestach, kde je potrebné prijímať vstupy ASAP, môže Kudu urobiť pozoruhodnú prácu. Príkladom takéhoto miesta sú podniky, kde veľké množstvo dynamických údajov zaplavujú rôzne zdroje a je potrebné ich rýchlo sprístupniť v reálnom čase.
Časové rady aplikácií s rôznymi prístupovými vzormi - Kudu je ideálny pre aplikácie založené na časových radoch, pretože je jednoduchšie nastaviť tabuľky a skenovať ich pomocou nich. Príkladom takéhoto použitia je obchodný dom, kde je potrebné rýchlo nájsť staré údaje a spracovať ich, aby sa predpovedala budúca popularita produktov.
Staršie systémy - Mnoho spoločností, ktoré získavajú údaje z rôznych zdrojov a ukladajú ich na rôznych pracovných staniciach, sa budú cítiť ako doma s firmou Kudu. Kudu je extrémne rýchly a môže sa efektívne integrovať do Impala na spracovanie údajov na všetkých strojoch.
Prediktívne modelovanie - Kudu môžu používať vedci údajov, ktorí chcú pre modelovanie dobrú platformu. Kudu sa môže učiť zo všetkých súborov údajov, ktoré sú doň vložené. Vedec môže model opakovane spustiť a znova spustiť, aby zistil, čo sa stane.

záver

Aj keď je Kudu stále vo vývojovej fáze, má dostatočný potenciál na to, aby bol dobrým doplnkom pre štandardné komponenty Hadoop, ako sú HDFS a HBase. Má dostatok potenciálu na úplnú zmenu ekosystému Hadoop vyplnením všetkých medzier a doplnením niektorých ďalších funkcií. Je tiež veľmi rýchly a výkonný a môže pomôcť pri rýchlej analýze a ukladaní veľkých tabuliek údajov. Zostáva však ešte veľa práce, aby sa mohla efektívnejšie využívať.