Ako môže SQL na Hadoop pomôcť s analýzou veľkých dát?

Obsah

Definícia SQL na Hadoop
Ako funguje SQL na Hadoop?
Hlavné výhody SQL na Hadoop
Viac ľudí má teraz prístup k službe Hadoop
Analýza veľkých dát pomocou nástroja Hadoop je teraz jednoduchšia
Žiadne chyby, žiadny stres - Váš sprievodca krok za krokom k vytvoreniu softvéru na zmenu života bez zničenia vášho života
Ďalší pohľad na SQL na Hadoope
záver

Zdroj: Maciek905 / Dreamstime.com

Zobrať:

SQL na Hadoop kombinuje tieto dve metódy správy údajov a tvorí nový nástroj na analýzu údajov.

SQL on Hadoop je skupina analytických aplikačných nástrojov, ktoré kombinujú dotazovanie a spracovanie údajov v štýle SQL s najnovšími prvkami dátového rámca Hadoop. Výskyt SQL na Hadoope je dôležitým vývojom pri spracovaní veľkých dát, pretože umožňuje širším skupinám ľudí úspešne pracovať s rámcom spracovania údajov Hadoop spúšťaním dotazov SQL na obrovské objemy veľkých údajov, ktoré Hadoop spracúva. Je zrejmé, že rámec Hadoop predtým nebol pre ľudí taký prístupný, najmä pokiaľ ide o jeho schopnosti dotazovania. Na základe vývoja existuje niekoľko nástrojov, ktoré sľubujú zlepšenie produktivity podnikov, pokiaľ ide o spracovanie a analýzu veľkých údajov s kvalitou a rýchlosťou. Takisto nie je potrebné veľa investovať do výučby tohto nástroja, ako by to mali tradičné znalosti jazyka SQL.

Definícia SQL na Hadoop

SQL on Hadoop je skupina aplikácií, ktorá vám umožňuje spúšťať dotazy v štýle SQL na veľkých údajoch hostených rámcom spracovania údajov Hadoop. Je zrejmé, že dotazovanie, získavanie a analýza údajov boli jednoduchšie pridaním SQL na Hadoop. Pretože SQL bol pôvodne určený pre relačné databázy, musel byť upravený podľa modelu Hadoop 1, ktorý obsahuje MapReduce a Hadoop Distributed File System (HDFS), a modelu Hadoop 2, ktorý nemá MapReduce a HDFS.

Jedným z prvých snáh o kombináciu SQL s Hadoopom bolo vytvorenie dátového skladu Hive so softvérom HiveQL, ktorý mohol prekladať dotazy v štýle SQL do úloh MapReduce. Potom bolo vyvinutých niekoľko aplikácií, ktoré by mohli vykonávať podobné úlohy. Medzi neskoršie nástroje patria: Vŕtačka, BigSQL, HAWQ, Impala, Hadapt, Stinger, H-SQL, Splice Machine, Presto, PolyBase, Spark, JethroData, Shark (Hive on Spark) a Tez (Hive on Tez).

Ako funguje SQL na Hadoop?

SQL na Hadoop pracuje s Hadoop nasledujúcimi spôsobmi:

Konektory v prostredí Hadoop prekladajú dotaz SQL do formátu MapReduce tak, aby Hadoop porozumel dotazu.
Systémy pushdown vykonávajú dotaz SQL v zoskupeniach Hadoop.
Systémy rozdeľujú obrovské množstvo otázok SQL medzi klastrami MapReduce-HDFS v závislosti od pracovného zaťaženia klastrov.

Zdá sa, že dotaz SQL nezmení jeho povahu; Je to Hadoop, ktorý prispôsobuje dotaz do formátu, ktorému rozumie.

Hlavné výhody SQL na Hadoop

Ako už bolo uvedené, SQL na Hadoope je dôležitým vývojom v súvislosti so sprístupnením analýzy veľkých údajov viacerým ľuďom a uľahčením a zrýchlením analýzy údajov. Nie je pochýb o tom, že dátový rámec Hadoop je skvelým nástrojom na analýzu veľkých údajov, ale je stále prístupný iba obmedzenej skupine ľudí, a to nielen z dôvodu obrovského úsilia potrebného na naučenie sa jeho jedinečnej architektúry, ale aj preto, že má problémy s kompatibilitou s inými technológiami. SQL on Hadoop sľubuje tieto problémy vyriešiť.

Viac ľudí má teraz prístup k službe Hadoop

Zdá sa, že SQL na Hadoope urobilo Hadoop rovnoprávnejším v tom zmysle, že širšie skupiny ľudí môžu teraz Hadoop používať na spracovanie a analýzu údajov. Skôr, aby ste mohli používať Hadoop, musíte mať vedomosti o architektúre Hadoop - MapReduce, Hadoop Distributed File System alebo HBase. Teraz môžete pripojiť takmer akýkoľvek analytický alebo reportovací nástroj a pristupovať k údajom a analyzovať ich.Vďaka SQL na Hadoop je teraz komerčne dostupných množstvo SQL na Hadoop motoroch, ako sú Cloudera Impala, Concurrent Lingual, Hadapt, CitusDB, InfiniDB, MammothDB, MemSQL, Pivotal HAWQ, Apache Drill, ScleraDB, Progress DataDirect, Simba a Splice Machine. pre použitie s veľkými dátami. Je zrejmé, že to otvorilo spoločnosť Hadoop širšiemu publiku, ktoré teraz môže očakávať zvýšenie návratnosti investícií do veľkých dát.

Analýza veľkých dát pomocou nástroja Hadoop je teraz jednoduchšia

Teraz všetko, čo musíte urobiť, je spustiť starý dobrý dotaz SQL na veľké údaje, aby ste mohli načítať a analyzovať údaje. SQL sa vyvinulo z nástroja relačnej databázy na nástroj analýzy veľkých dát, čo je skutočne významná zmena. Nemusíte sa obávať, ako Hadoop spracováva otázky - má svoj vlastný spôsob interpretácie dotazov SQL a poskytovania výsledkov. Odborníci sa domnievajú, že hoci distribuovaný súborový systém Hadoop má paralelné spracovávacie klastre komodít pre veľké dáta, v prípade interaktívneho dotazovania v štýle SQL môže zlepšiť svoje spracovateľské schopnosti. Predtým, ako sa HDFS skombinuje s SQL, bude spracovanie údajov s HDFS trvať dlho a úloha si vyžaduje špecializovaných vedcov údajov. A otázky neboli interaktívne. V rámci Apache Tez, ktorý obsahuje analytický motor Spark a interaktívny urýchľovač dotazov Stinger pre dátový sklad Hive, sa tieto problémy riešili. Podľa Anu Jain, skupinového manažéra stratégie a architektúry v maloobchode Target Corporation, „Je pre nás veľmi dôležité zabezpečiť, aby sme používateľom poskytovali interaktívny prístup k dotazom. S Tez sme schopní poskytnúť túto schopnosť pre podnikanie. “

Žiadne chyby, žiadny stres - Váš sprievodca krok za krokom k vytvoreniu softvéru na zmenu života bez zničenia vášho života

Svoje programovacie schopnosti si nemôžete vylepšiť, keď sa nikto nestará o kvalitu softvéru.

Ako ukázal prieskum spoločnosti Gartner, popularita interaktívnej analýzy medzi používateľmi Hadoopu narastala. Podľa prieskumu 32% respondentov používa rozhrania tretích strán s HDFS alebo HBase, 27% využíva dotazy vytvorené pomocou Hive, zatiaľ čo 23% využíva nástroje špecifické pre distribúciu Hadoop, ako sú Cloudera Impala a Pivotal HAWQ.

Ďalší pohľad na SQL na Hadoope

Aj keď sa zdá, že SQL na Hadoope vyrieši veľa problémov, ktoré máme s Hadoop, existuje iný názor, ktorý verí, že SQL môže mať veľa problémov, najmä v kombinácii s Hadoop. Podľa tohto pohľadu nemusí byť SQL koniec koncov tak efektívny ako analytický nástroj, pokiaľ ide o veľké údaje. Podľa používateľského panela používateľa Hadoop Summita Johna Williamsa, SQL nemusí byť najlepším analytickým nástrojom na prácu s veľkými dátami. Podľa Williamsa, ktorý je senior viceprezidentom pre platformové operácie TrueCar, ktorý ponúka používateľom platformu na nákup automobilov online, „doba vykonávania SQL na veľkej množine údajov je pomalá. Medzitým sa Hadoop na SQL zvyšuje s vecami ako YARN a Tez. ““

A to nie je jediný problém s SQL. Existuje veľa režijných úloh, ako je štúdium údajov, vytváranie schém, vytváranie indexov a dotazov a normalizácia, ktoré musíte vziať do úvahy, keď kombinujete SQL s Hadoop, a môžete stráviť veľa času a úsilia. Po tom všetkom úsilí neexistuje žiadna záruka, že ste dosiahli čokoľvek trvalé. Ak sa pri aplikáciách niečo zmení, môže sa od vás požadovať opakovanie toho, čo ste už urobili. Namiesto SQL by sa mal vývoj zameraný na veľké množstvo údajov zakladať na Java a Pythone, pretože tieto jazyky sú vhodnejšie na neštruktúrované spracovanie údajov.

záver

Porota stále zisťuje, či je SQL na Hadoop odpoveďou na problémy ľudí, s ktorými sa Hadoop stretáva. Je však zrejmé, že priemysel potrebuje lepšiu alternatívu k vlastným schopnostiam spoločnosti Hadoop na zisťovanie údajov a táto alternatíva musí byť interaktívna. Nástroje SQL na Hadoop poskytujú interaktívnu analýzu, ktorá je užitočná. Podniky nechcú strácať čas skúšaním zmysel z komplikovaných, časovo náročných analýz. Podniky v súčasnosti považujú SQL za nástroje Hadoop za veľmi užitočné.