Obsah
- Definícia - Čo znamená Apache Pig?
- Úvod do programu Microsoft Azure a Microsoft Cloud V tejto príručke sa dozviete, o čom všetko je cloud computing a ako vám môže Microsoft Azure pomôcť migrovať a podnikať z cloudu.
- Techopedia vysvetľuje Apache Pig
Definícia - Čo znamená Apache Pig?
Apache Pig je platforma, ktorá sa používa na analýzu veľkých súborov údajov. Pozostáva z jazyka na vysokej úrovni na vyjadrenie programov na analýzu údajov a infraštruktúry na vyhodnotenie týchto programov. Jednou z najdôležitejších vlastností prasaťa je, že jeho štruktúra reaguje na významnú paralelizáciu.
Prasa pracuje na platforme Hadoop, zapisuje a číta údaje z distribuovaného systému súborov Hadoop (HDFS) a vykonáva spracovanie pomocou jednej alebo viacerých úloh MapReduce. Prach Apache je k dispozícii ako otvorený zdroj.
Apache Pig je tiež známy ako Pig Programming Language alebo Hadoop Pig.
Úvod do programu Microsoft Azure a Microsoft Cloud V tejto príručke sa dozviete, o čom všetko je cloud computing a ako vám môže Microsoft Azure pomôcť migrovať a podnikať z cloudu.
Techopedia vysvetľuje Apache Pig
Apache Pig má dve časti: Pig latinský jazyk a Pig engine. Jazyk prasaťa v latine je skriptovací jazyk, ktorý umožňuje používateľom ilustrovať spôsob, akým sa musí tok údajov z jedného alebo viacerých vstupov čítať a spracovať, a miesto, v ktorom sa musia uchovávať.
Niektoré z kľúčových vlastností prasačej latinčiny sú tieto:
- Ľahko programovateľné: Zložité úlohy pozostávajúce z rôznych vzájomne prepojených transformácií údajov sú jasne kódované ako sekvencie toku údajov. Vďaka tomu sú jednoduché na písanie, porozumenie a udržiavanie.
- Možnosti optimalizácie: Spôsob, akým sú úlohy kódované, umožňuje systému optimalizovať automatické vykonávanie. To umožňuje užívateľovi venovať pozornosť sémantike namiesto efektívnosti.
- Rozšíriteľnosť: Používatelia môžu vytvárať vlastné funkcie na vykonávanie špeciálneho spracovania. Ošípaný stroj je zodpovedný za vykonanie toku údajov napísaného v latine ošípaných. Rovnako ako štandardný systém správy relačných databáz (RDBMS), Apache Pig pozostáva z analyzátora, optimalizátora a kontroly typu, okrem operátorov, ktorí vykonávajú spracovanie údajov. Ošípané nezahŕňajú transakcie, katalóg údajov ani schopnosť priamo spracovať ukladanie údajov alebo využívať rámec vykonávania.