Keď SQL nestačí: Kontroly pre masívne nové dátové centrá

Obsah

Systém súborov Google: veľká prípadová štúdia
Žiadne chyby, žiadny stres - Váš sprievodca krok za krokom k vytvoreniu softvéru na zmenu života bez zničenia vášho života
Pohľad na základnú technológiu
Ako to dosahujú iné veľké systémy?
Údržba DFS

Zobrať:

Vývojári a technici musia neustále pracovať na zrýchľovaní a zdokonaľovaní služieb na platformách, ktoré ďaleko presiahli svoje klasické archetypy z 90. rokov.

Vzhľadom na to, že všetky ohniská o obrovských dátových centrách NSA, ktoré držia gaziliony dátových bitov o našom súkromnom živote, je jedna vec, o ktorej sa veľa nehovorilo, aspoň o CNN. Zahŕňa to technický problém, ktorý sa objavil spolu s cloudovou technológiou, veľkými dátami a pôsobivými strediskami fyzického ukladania údajov, ktoré sa teraz stavajú po celom svete. Čo je to? No, bez ohľadu na to, kto spravuje jeden z mamutích IT systémov, ktoré prevádzkujú tieto zariadenia, sú potrebné softvérové systémy, ktoré pomôžu všetkým týmto údajom rýchlo vstúpiť a vystúpiť z potrubia. Táto potreba predstavuje jednu z najzaujímavejších IT otázok alebo hádaniek, ktorým dnes čelia odborníci.

Ako mnohí odborníci zdôrazňujú, dnešný extrémny dopyt po spracovaní údajov ďaleko presahuje tradičné prístupy. Jednoducho povedané, použitie jednoduchých databázových štruktúr a nástrojov, ako je rozhranie dotazov SQL, nezabezpečí dostatok spracovateľského výkonu alebo funkčnosti pre patentované systémy, ktoré sa vyvinuli v posledných niekoľkých rokoch. Archívy dnešných veľkých technologických spoločností potrebujú mimoriadne škálovateľnú technológiu. Potrebujú nástroje na spracovanie údajov, ktoré môžu vstup a výstup viesť k oveľa väčšiemu objemu, než aký môže jediný server uľahčiť. Potrebujú riešenia, ktoré možno rýchlo vylepšiť pre rast, riešenia, ktoré zahŕňajú komplexnú úroveň umelej inteligencie, riešenia, ktoré sú navrhnuté tak, aby ich IT oddelenie ľahko spravovala.

Otázkou je, ako si spoločnosti a vládne agentúry podmania obmedzenia tradičnej cesty spracovania údajov? Tu sa pozrieme na jednu veľmi sľubnú možnosť: Softvér, ktorý spracováva veľké dáta a spravuje viac dátových centier.

Systém súborov Google: veľká prípadová štúdia

Patentovaná technológia, ktorú spoločnosť Google používa na prístup k svojim dátovým centrám, je jedným z najlepších príkladov bežných modelov spracovania veľkých dát a správy viacerých dátových centier. Systém súborov Google (GFS), ktorý bol vyvinutý v roku 2003, je navrhnutý tak, aby podporoval obrovské množstvo vysokorýchlostných zmien a doplnení dátových systémov, ktoré sú súčasťou získavania toľkých nových informácií z jednej platformy a mimo nej, keď milióny používateľov kliknú na rovnaký čas. Odborníci to označujú ako distribuovaný súborový systém a na opis týchto vysoko komplexných techník sa používajú výrazy „ukladanie dátových objektov“. V skutočnosti však tieto pojmy ani nepoškrabávajú povrch, pokiaľ ide o opis toho, čo je v práci.

Jednotlivé prvky a komponenty, ktoré tvoria systém ako GFS, už nemusia byť priekopnícke, ale sú zložité. Mnohé z nich boli na tomto webe pokryté ako relatívne nové inovácie, ktoré sú súčasťou základu pre nový, neustále pripojený globálny IT systém. Spoločne je systém, ako je GFS, oveľa viac ako len súhrn jeho častí: je to do značnej miery neviditeľná, ale nesmierne zložitá sieť, ktorá sa hemží jednotlivými údajmi, ktoré sa týmto spôsobom vyhodia, a že v procese, ktorý by, keby bol vizuálne plne modelovaný, vyzeral ako chaos. Pochopenie toho, kam smerujú všetky údaje, si vyžaduje veľa energie a odhodlania, pretože tí, ktorí obsluhujú bojové stanice týchto systémov, to ľahko pripustia.

„Existuje príliš veľa detailov, ktoré majú zásadný vplyv na oblasti použiteľnosti - vrátane vonkajšej a vnútornej fragmentácie, aktualizácií založených na protokole verzií na mieste a úrovne konzistentnosti transakcií - aby sme to zhrnuli tak, ako to funguje v jednej stručnej vete. “, hovorí Momchil Michailov, generálny riaditeľ a spoluzakladateľ spoločnosti Sanbolic.

„Distribuovaný súborový systém je buď distribuovaný agregátor miestnych názvových priestorov a voľných priestorov zúčastnených uzlov, alebo lokálny súborový systém, ktorý beží na viacerých uzloch, ktoré pristupujú k zdieľanému úložisku pomocou komponentu distribuovaného správcu zámkov,“ uviedol.

Kerry Lebel je senior produktovým manažérom v spoločnosti Automic, spoločnosti známej svojimi škálovateľnými automatizačnými platformami. Lebel tvrdí, že hoci je presné opísať DFS ako systém, ktorý jednoducho priraďuje pracovné zaťaženie serverom pripojeným k lacným kusom hardvéru, v skutočnosti tomu tak nie je.

Žiadne chyby, žiadny stres - Váš sprievodca krok za krokom k vytvoreniu softvéru na zmenu života bez zničenia vášho života

Svoje programovacie schopnosti si nemôžete vylepšiť, keď sa nikto nestará o kvalitu softvéru.

„To, čo vám nakoniec chýba, je všetko skvelé ako robia to, čo robia, “povedal Lebel.

Keď sa vzdialite od technických detailov a len premýšľate o základnej myšlienke distribuovaného systému súborov, je evidentný „cool faktor“, o ktorom hovorí Lebel. Tieto veľké systémy na manipuláciu s údajmi nahrádzajú staré systémy súborov a priečinkov štruktúrami, ktoré zahŕňajú nielen viacnásobné doručovacie systémy, ale aj „objektovo orientovaný“ prístup, kde sa sem a tam rozdeľuje veľké množstvo jednotiek, aby sa predišlo prekážkam.

Spomeňte napríklad na najmodernejší diaľničný systém, v ktorom stovky tisíc áut nie sú len zúžené po viacvrstvovom priechode, ale naberajú sa do úhľadného malého štvorlístka alebo prítokov oxbow, ktoré sa točia okolo a odosielajú sa smerom k ich cieľu pri rôznych obchádzkach. Z oblohy vyzerá všetko choreograficky ako švajčiarske hodinky. Je to druh vizuálneho modelu, na ktorý sa inžinieri pozerajú, keď snívajú o nových spôsoboch, ako usmerňovať informácie okolo obmedzení „kopaním“ na rôzne úrovne schémy viacúrovňového uchovávania údajov. Okrem technických špecifikácií je to cieľ najvyššej úrovne manipulačného systému: udržať tieto samostatné objekty s vloženými metadátami v pohybe najvyššou rýchlosťou tam, kde musia byť, na dosiahnutie cieľov konzistentnosti, uspokojenie koncového používateľa alebo dokonca aj na informovanie o pozorovaní alebo analýze na najvyššej úrovni.

Pohľad na základnú technológiu

Článok Sean Gallagher, ktorý sa objavil na Ars Technica, rozdeľuje dizajn GFS na trochu lepšie zvládnuteľné časti a naznačuje, čo sa nachádza pod listom v spoločnosti Google.

GFS začína redundantným a odolným modelom pre čítanie a zápis údajov. Ide o to, že namiesto zápisu konkrétnej aktualizácie na jeden disk nové systémy zapisujú kusy údajov do viacerých cieľov. Týmto spôsobom, ak jeden zápis zlyhá, ostatné zostanú. Aby sa to prispôsobilo, jedna zložka primárnej siete obhospodaruje spracovanie údajov iným podriadeným jednotkám a údaje zoskupuje, keď ich klient „volá“. To všetko umožňuje protokol metadát, ktorý pomáha zistiť, kde sú určité aktualizácie a výsledky prenosu vo väčšom systéme.

Ďalším veľmi dôležitým aspektom tohto je to, ako tieto duplicitné systémy presadzujú konzistentnosť údajov. Ako poznamenáva Gallagher, dizajn GFS obetuje určitú konzistenciu, pričom stále „vynucuje atomicitu“ alebo chráni zásadu aktualizovania údajov medzi viacerými úložnými jednotkami tak, aby sa časom zhodovali. Zdá sa, že „uvoľnený model konzistentnosti“ spoločnosti Google vychádza zo základnej teórie modelu BASE, ktorý poskytuje väčšiu flexibilitu výmenou za dlhší časový rámec na presadzovanie konzistentnosti.

Ako to dosahujú iné veľké systémy?

„Keď sa dosiahne dostatočne veľký rozsah, nezrovnalosti alebo poškodenia údajov sa stanú nevyhnutnými,“ hovorí Michailov. „Primárnym cieľom distribuovaných súborových systémov by preto mala byť schopnosť vykonávať čo najviac operácií za prítomnosti korupcie a zároveň poskytovať účinné metódy na súčasné riešenie korupcie.“ Michailov tiež spomína potrebu zachovať výkon starostlivou implementáciou redundancie.

„Napríklad vytvorenie metaúdajov (údajov o údajoch) na každom disku umožňuje tomuto disku obnoviť jeho správnu štruktúru údajov, ak je jeho zrkadlová kópia poškodená,“ uviedol Michailov. „Úrovne RAID môžu byť navyše použité na boj proti zlyhaniam úložiska na úrovni agregátora súborového systému alebo na úrovni zdieľaného správcu zväzkov.“

Pri diskusii o ďalšom modeli konzistencie sa Lebel zameriava na systém nazývaný distribuovaný súborový systém Hadoop (HDFS), ktorý nazýva „odvetvovým de facto štandardom“.

V HDFS, hovorí Lebel, sa každý dátový blok replikuje trikrát na rôznych uzloch a na dvoch rôznych stojanoch. Dáta sa kontrolujú od začiatku do konca. Poruchy sa hlásia na NameNode, na spracovanie údajov, ktorý sa zbaví poškodených blokov a vytvorí nové.

To všetko podporuje druhy „čistých údajov“, ktoré sú také dôležité pre integritu jedného z týchto systémov hromadných údajov.

Údržba DFS

Ďalší veľmi odlišný pohľad na GFS pochádza z článku z októbra 2012, ktorý napísal drôtový spisovateľ Steven Levy. Je oveľa stručnejšia pri charakterizovaní softvérového prístupu pre kolektívne spravovanie siete zhora nadol spoločnosti Google.

„V priebehu rokov,“ píše Levy, „spoločnosť Google vybudovala softvérový systém, ktorý jej umožňuje spravovať nespočetné množstvo serverov, akoby boli jedným obrovským subjektom. Jej interní vývojári sa môžu správať ako majstri bábok a posielať tisíce počítačov na výkon úlohy rovnako ľahko ako spustenie jedného počítača. “

Urobí to tiež veľa kybernetickej a environmentálnej údržby, od špecializovaných testovacích tímov, ktoré sa pokúšajú „rozbiť“ serverové systémy, až po starostlivo regulované teploty v halách dátovej krypty.

Levy tiež spomína doplnkové technológie pre GFS, napríklad MapReduce, cloudový aplikačný nástroj a Hadoop, analytický nástroj, ktorý zdieľa niektoré princípy dizajnu s GFS. Tieto nástroje majú vlastný vplyv na to, ako sú navrhnuté systémy manipulácie s veľkými dátovými centrami a čo sa pravdepodobne v budúcnosti objaví. (Viac informácií o týchto technológiách nájdete v časti Evolution of Big Data.)

Michailov verí, že MapReduce má potenciál podporovať stále väčšie systémy dátových centier a hovorí o „jedinej implementácii“ zdieľaných a agregovaných súborových systémov, ktoré by „mohli uchovávať názvy uzlov agregovaného súborového systému v zdieľanom klastri s SSD na ukladanie. . "

Lebel vidí prechod od dávkového spracovania (metóda podporovaná Hadoop) k spracovaniu prúdov, čo priblíži tieto dátové operácie k real-time.

„Čím rýchlejšie dokážeme údaje spracovať a sprístupniť ich obchodným subjektom alebo našim zákazníkom, tým väčšia bude konkurenčná výhoda,“ hovorí Lebel, ktorý tiež navrhuje nahradiť vyššie uvedenú terminológiu pojmami, ktoré sa zameriavajú na koncový užívateľ. Lebel tvrdí, že spoločnosti môžu pomocou SLA a iných zdrojov definovať, ako bude daný systém služieb fungovať, uvažovaním o „synchrónnych“ činnostiach alebo činnostiach synchronizovaných s činnosťami koncového používateľa a „asynchrónnych“ činnostiach, ktoré sú flexibilnejšie z hľadiska implementácie. ,

To všetko sa v istom zmysle zredukuje na to, že vývojári a inžinieri musia neustále pracovať na zrýchľovaní a zdokonaľovaní služieb na platformách, ktoré ďaleko presiahli svoje tradičné archetypy z 90. rokov. To znamená kriticky sa pozerať na strojové vybavenie údajov a prelomiť prekážky spôsobmi, ktoré podporujú nielen rastúcu populáciu, ale aj to, že k exponenciálnym zmenám dochádza pri zlomovej rýchlosti, ktorú odborníci nazývajú „ďalšou priemyselnou revolúciou“. Je pravdepodobné, že tí, ktorí na týchto frontoch prelomia najviac, nakoniec dominujú na trhoch a ekonomikách budúcnosti.