Apache Pig

Autor: Robert Simon
Dátum Stvorenia: 16 V Júni 2021
Dátum Aktualizácie: 13 Smieť 2024
Anonim
Hadoop Pig Tutorial | What is Pig In Hadoop? | Hadoop Tutorial For Beginners | Simplilearn
Video: Hadoop Pig Tutorial | What is Pig In Hadoop? | Hadoop Tutorial For Beginners | Simplilearn

Obsah

Definícia - Čo znamená Apache Pig?

Apache Pig je platforma, ktorá sa používa na analýzu veľkých súborov údajov. Pozostáva z jazyka na vysokej úrovni na vyjadrenie programov na analýzu údajov a infraštruktúry na vyhodnotenie týchto programov. Jednou z najdôležitejších vlastností prasaťa je, že jeho štruktúra reaguje na významnú paralelizáciu.


Prasa pracuje na platforme Hadoop, zapisuje a číta údaje z distribuovaného systému súborov Hadoop (HDFS) a vykonáva spracovanie pomocou jednej alebo viacerých úloh MapReduce. Prach Apache je k dispozícii ako otvorený zdroj.

Apache Pig je tiež známy ako Pig Programming Language alebo Hadoop Pig.

Úvod do programu Microsoft Azure a Microsoft Cloud V tejto príručke sa dozviete, o čom všetko je cloud computing a ako vám môže Microsoft Azure pomôcť migrovať a podnikať z cloudu.

Techopedia vysvetľuje Apache Pig

Apache Pig má dve časti: Pig latinský jazyk a Pig engine. Jazyk prasaťa v latine je skriptovací jazyk, ktorý umožňuje používateľom ilustrovať spôsob, akým sa musí tok údajov z jedného alebo viacerých vstupov čítať a spracovať, a miesto, v ktorom sa musia uchovávať.


Niektoré z kľúčových vlastností prasačej latinčiny sú tieto:

  • Ľahko programovateľné: Zložité úlohy pozostávajúce z rôznych vzájomne prepojených transformácií údajov sú jasne kódované ako sekvencie toku údajov. Vďaka tomu sú jednoduché na písanie, porozumenie a udržiavanie.
  • Možnosti optimalizácie: Spôsob, akým sú úlohy kódované, umožňuje systému optimalizovať automatické vykonávanie. To umožňuje užívateľovi venovať pozornosť sémantike namiesto efektívnosti.
  • Rozšíriteľnosť: Používatelia môžu vytvárať vlastné funkcie na vykonávanie špeciálneho spracovania. Ošípaný stroj je zodpovedný za vykonanie toku údajov napísaného v latine ošípaných. Rovnako ako štandardný systém správy relačných databáz (RDBMS), Apache Pig pozostáva z analyzátora, optimalizátora a kontroly typu, okrem operátorov, ktorí vykonávajú spracovanie údajov. Ošípané nezahŕňajú transakcie, katalóg údajov ani schopnosť priamo spracovať ukladanie údajov alebo využívať rámec vykonávania.