Hadoop Analytics: Kombinácia údajov vyžaduje prístup zameraný na zdroje a agnosti

Autor: Laura McKinney
Dátum Stvorenia: 1 Apríl 2021
Dátum Aktualizácie: 16 Smieť 2024
Anonim
Hadoop Analytics: Kombinácia údajov vyžaduje prístup zameraný na zdroje a agnosti - Technológie
Hadoop Analytics: Kombinácia údajov vyžaduje prístup zameraný na zdroje a agnosti - Technológie


Zdroj: Agsandrew / Dreamstime.com

Zobrať:

Zdrojovo-agnostické metódy sú ideálne na spracovanie údajov pre analytiku Hadoop.

Kombinovanie zdrojov údajov v spoločnosti Hadoop je komplexná záležitosť. Niektoré z dôvodov sú:

  • Vlastné skripty špecifické pre zdroj, ktoré kombinujú zdroje údajov, sú problematické.
  • Používanie nástrojov na integráciu údajov alebo nástrojov pre vedu o údajoch prináša príliš veľa neistoty.
  • Pridávanie údajov z externých zdrojov je takmer nemožné.

Dnes sa chystám diskutovať o tom, ako je analytika Hadoop vylepšená pomocou technológií zameraných na zdroje, ktoré uľahčujú kombináciu interných a externých zdrojov údajov. Okrem popisu toho, ako fungujú analytické metódy založené na zdrojoch, sa budem venovať aj tomu, prečo analytici spoločnosti Hadoop potrebujú vstavané funkcie na prenos informácií a poznatkov, porozumenie vzťahom a charakteristikám údajov a škálovateľnú a vysoko výkonnú architektúru.



  • Zdrojovo-agnostické metódy zahŕňajú flexibilný model riešenia entít, ktorý umožňuje pridávanie nových zdrojov údajov pomocou štatisticky spoľahlivých a opakovateľných procesov vedeckých údajov. Tieto procesy využívajú algoritmy na zhromažďovanie poznatkov z údajov a ich posudzovanie, analýzu na určenie najlepšieho integračného prístupu.
    Bez ohľadu na to, ako sú pôvodné zdrojové záznamy fragmentované alebo neúplné, analytické technológie Hadoop by mali byť zdrojové agnostické a mali by byť schopné zjednotiť údaje bez zmeny alebo manipulácie so zdrojovými údajmi. Tieto technológie by mali tiež vytvárať indexy entít založené na obsahu údajov a atribútoch o jednotlivcoch a o tom, ako existujú vo svete. Aby to dosiahli, musia pochopiť dátový obsah, stav, štruktúru a vzťahy komponentov k sebe navzájom.
  • Zabudovaná odbornosť v oblasti dát a integrácia údajov umožňuje čistenie, štandardizáciu a koreláciu údajov s vysokou mierou presnosti a presnosti. Vizualizačné nástroje a zostavy pomáhajú analytikom vyhodnocovať a učiť sa z dát a vykonávať systémové ladenie na základe poznatkov získaných z rôznych krokov procesu.
  • Pochopenie vzťahov medzi entitami vedie k presnejším procesom riešenia problémov s entitami. Keďže entity v skutočnom svete nie sú len súčtom ich atribútov, ale aj ich súvislostí, na zistenie toho, kedy sú rovnaké záznamy, by sa mali použiť znalosti vzťahov. Toto je obzvlášť dôležité pri spracovaní rohových prípadov a veľkých dát.
  • Charakterizácia údajov zlepšuje analýzu, rozlíšenie a prepojenie údajov identifikáciou a poskytovaním informácií o informáciách v rámci zdrojov údajov. Môže to pomôcť pri overovaní obsahu, hustoty a distribúcie údajov v stĺpcoch štruktúrovaných informácií. Charakterizácia údajov sa môže tiež použiť na identifikáciu a extrahovanie dôležitých údajov týkajúcich sa subjektu (meno, adresa, dátum narodenia, atď.) Z neštruktúrovaných a čiastočne štruktúrovaných zdrojov na koreláciu so štruktúrovanými zdrojmi.
  • Škálovateľná paralelná architektúra vykonáva analytiku rýchlo, aj keď podporuje stovky štruktúrovaných, čiastočne štruktúrovaných a neštruktúrovaných zdrojov údajov a desiatky miliárd záznamov.

Hadoop mení spôsob, akým svet vykonáva analytiku. Keď sa do ekosystémov Hadoop pridajú nové analytické zdroje založené na zdrojoch, môžu organizácie prepojiť bodky cez mnoho interných a externých zdrojov údajov a získať informácie, ktoré predtým neboli možné.


Tento článok bol pôvodne uverejnený na Novetta.com. Bola to tu trstina so súhlasom. Spoločnosť Novetta si ponecháva všetky autorské práva.