Kľúč k kvalite analýzy veľkých dát: Porozumenie iným - prepis technológie TechWise Episode 4 - Technológie

Obsah

Žiadne chyby, žiadny stres - Váš sprievodca krok za krokom k vytvoreniu softvéru na zmenu života bez zničenia vášho života

Zdroj: Jakub Jirsak / Dreamstime.com

Zobrať:

Hosť Eric Kavanagh diskutuje s analytikmi veľkých dát s odborníkmi v odbore.

Eric: Dámy a páni, je to koniec roka 2014 - aspoň takmer. Je to naše posledné webové vysielanie roka, ľudia! Vitajte na stránkach TechWise! Ano, naozaj! Volám sa Eric Kavanagh. Budem vaším moderátorom úžasného webového vysielania, vážení ľudia. Som skutočne nadšený. Máme online dvoch úžasných analytikov a dve veľké spoločnosti - skutočných inovátorov v tomto celom dátovom ekosystéme. A budeme hovoriť všetko o tom, že kľúčom k veľkej analýze údajov je rozdiel v porozumení. Takže, poďme a ponorte sa, ľudia.

Máme niekoľko moderátorov. Ako vidíte, na vrchole sú tie vaše. Mike Ferguson volá z celého Spojeného kráľovstva, kde musel dostať zvláštne privilégiá, aby mohol zostať vo svojej kancelárskej budove neskoro. To je pre neho neskoro. Máme tu Dr. Robina Bloora, nášho vlastného hlavného analytika tu v skupine Bloor. Budeme mať Georga Corugeda, generálneho riaditeľa a spoluzakladateľa spoločnosti RedPoint Global a Keith Renison, senior architekta riešení z inštitútu SAS Institute. Ľudia, sú to fantastické spoločnosti. Toto sú spoločnosti, ktoré skutočne inovujú. A my sa chystáme prekopať niektoré z dobrých vecí toho, čo sa tu deje práve teraz v celom svete veľkých dát. A priznajme si to, malé údaje neodišli. A k tomu mi dovoľte uviesť svoje zhrnutie tu.

Existuje teda starý francúzsky výraz: „Čím viac vecí sa zmení, tým viac zostanú rovnaké.“ A povedzme si tu niektoré fakty - veľké dáta nevyriešia problémy s malými dátami. Malé podnikové údaje sú stále k dispozícii. Je to stále všade. Je to palivo operácií pre dnešné informačné hospodárstvo. A veľké dáta ponúkajú kompliment k týmto tzv. Malým firemným údajom, ale nenahrádza malé údaje. Stále to bude okolo. Páči sa mi veľa vecí o veľkých údajoch, najmä takých, ako sú údaje generované strojom.

A dnes sa pravdepodobne budeme trochu baviť o údajoch o sociálnych médiách, čo je tiež veľmi mocné. Ak uvažujete napríklad o tom, ako sa zmenila spoločnosť v sociálnej oblasti, jednoducho si pomyslite na tri rýchle webové stránky: LinkedIn a. Pomysli na skutočnosť, že pred piatimi rokmi nikto nerobil také veci. je v týchto dňoch absolútnym juggernautom. , samozrejme, je obrovský. Je to chrlič. A potom je LinkedIn de facto štandardom podnikových sietí a komunikácie. Tieto weby sú humongové a ak chcú využívať údaje, ktoré sú v nich, oživí niektoré funkcie, ktoré menia hry. Pre mnoho organizácií to bude skutočne prospešné - aspoň pre tie, ktoré to využívajú.

Žiadne chyby, žiadny stres - Váš sprievodca krok za krokom k vytvoreniu softvéru na zmenu života bez zničenia vášho života

Svoje programovacie schopnosti si nemôžete vylepšiť, keď sa nikto nestará o kvalitu softvéru.

Takže riadenie - stále je dôležité riadenie. Veľké údaje opäť nezrušujú potrebu správy. Úprimne povedané, existuje úplne nová potreba zamerať sa na to, ako riadiť svet veľkých dát. Ako sa ubezpečujete, že máte zavedené svoje postupy a politiky; že správni ľudia získavajú prístup k správnym údajom; že máš kontakty, máš tu zapojenú líniu? V skutočnosti viete, odkiaľ údaje pochádzajú, čo sa s nimi stalo. A to sa všetko mení.

Úprimne povedané, som ohromený niektorými z toho, čo som videl v tomto novom svete, ktorý využíva ekosystém Hadoop, čo je, samozrejme, z hľadiska funkčnosti oveľa viac ako ukladanie. Hadoop je tiež výpočtový motor. A spoločnosť musí prísť na to, ako využiť túto výpočtovú silu, túto schopnosť paralelného spracovania. Budú robiť naozaj, naozaj super veci. Dozvieme sa o tom dnes.

Ďalšia vec, ktorú treba spomenúť, o tom hovoril Dr. Bloor v nedávnej minulosti, je to, že vlna inovácií ešte neskončila. Takže sme v okolí Hadoopu videli veľa pozornosti. Videli sme spoločnosti ako Cloudera a Hortonworks, ako viete, skutočne robia nejaké vlny. A dnes úprimne otvorene rozvíjajú partnerstvá s dobre známymi spoločnosťami. A rozvíjajú partnerstvá s mnohými ľuďmi. Vlna inovácií však neskončila. Z Nadácie Apache sa vynára viac projektov, ktoré sa menia nielen v koncovom bode, ak chcete - aplikácie, ktoré ľudia používajú -, ale aj v samotnej infraštruktúre.

Celý tento vývoj YARN - ďalšieho vyjednávača zdrojov - je teda ako operačný systém pre veľké dáta. A je to veľký, veľký problém. Takže sa naučíme, ako sa to zmení aj veci. Takže, len pár kúskov zrejmej rady, dajte si pozor na ďalšie zmluvy, viete, päť, desaťročné zmluvy budú vlnou, cestou, ktorá sa mi zdá. Za každú cenu sa budete chcieť vyhnúť zablokovaniu. Dnes sa o tom všetkom dozvieme.

Takže dnes náš prvý analytik - naším prvým hovorcom celého programu je Mike Ferguson, ktorý volá z Veľkej Británie. S tým ti dám kľúče, Mike, a nech ti to vziať preč. Mike Ferguson, podlaha je na vás.

Mike, si tam? Možno ste na mute. Nepočujem ho. Možno ho budeme musieť zavolať späť. A my skočíme rovno na snímky Robina Bloora. Robin, budem sem ťahať hodnosť na chudobnom Mikovi Fergusonovi. Idem na sekundu.

Ste to vy, Mike? Počuješ nás? Nah. Myslím, že najprv musíme ísť a ísť s Robinom. Počkajte jednu sekundu, ľudia. Niektoré odkazy na snímky odtiahnem aj za pár minút. Preto mi dovoľte odovzdať kľúče Robinovi Bloorovi. Robin, môžeš ísť namiesto Mika ako prvý a za sekundu zavolám Mike.

Robin: Dobre.

Eric: Počkaj, Rob. Dovoľte mi ísť ďalej a vezmite sem svoju snímku hore, Rob. Chvíľu to zaberie.

Robin: Dobre.

Eric: Áno. Môžete tu však hovoriť o tom, s čím sa zaoberáme, čo sa týka správy vecí verejných. Viem, že budete hovoriť o správe vecí verejných. O tom sa zvyčajne hovorí v súvislosti s malými podnikovými údajmi. Takže teraz mám snímku hore, Robin. Nehýbte sa ničím. A tu to máte. Podlaha je na vás. Vziať to preč.

Robin: Dobre. Jo. Chcem tým povedať, že predtým sme boli trochu usporiadaní, Mike hovoril o analytickej strane a hovorím o vládnej strane. Správa sa do určitej miery riadi analytikou v tom zmysle, že je to dôvod, prečo robíte veľké dáta, a preto, že zostavujete všetok softvér na vykonanie analýzy, je to, kde je táto hodnota.

Vyskytol sa problém. A problém spočíva v tom, že viete, že údaje sa musia dohadovať. Údaje musia byť zoradené. Údaje sa musia zhromažďovať a spravovať takým spôsobom, ktorý umožňuje analytike prebiehať s úplnou dôverou - myslím, že je to slovo. Takže som si myslel, že hovorím o vládnej strane rovnice. Myslím si, že naozaj chcem povedať, že, ako viete, správa už bola problémom. Správa už bola problémom a začína sa ňou stávať celá hra na dátový sklad.

V skutočnosti sa stalo, že sa zmenil na oveľa väčší problém. A dôvod, prečo sa zmenil na oveľa väčší problém, ako aj na ďalšie údaje, ale myslím, že toto sú skutočne dôvody. Počet zdrojov údajov sa dramaticky zvýšil. Predtým boli zdroje údajov, ktoré sme boli, vo veľkej miere definované tým, čo kŕmilo dátový sklad. Dátový sklad by bol obvykle napájaný systémami RTP. Je možné málo externých údajov, nie veľa.

Teraz sme prešli do sveta, kde viete, trh s údajmi práve vzniká, a preto sa bude obchodovať s údajmi. Už máte veľa rôznych streamingových zdrojov údajov, ktoré môžete do organizácie skutočne priniesť. Máme údaje o sociálnych médiách, ktoré ich vzali a vzali na svoj vlastný účet. Myslím tým, že obrovská hodnota na stránkach sociálnych médií je v skutočnosti informácia, ktorú zhromažďujú, a preto môžu sprístupniť ľuďom.

Objavili sme tiež, ako keby už existovali. Tieto logovacie súbory sme už mali, v príchode Splunk. A čoskoro sa ukázalo, že v protokolovom súbore je hodnota. V rámci organizácie teda boli údaje, ktoré by sme mohli nazvať nové zdroje údajov, ako aj externé zdroje. To je jedna vec. A to skutočne znamená, že viete, bez ohľadu na to, aké pravidlá spravovania údajov sme predtým uplatňovali, budú musieť byť takým či onakým spôsobom rozšírené a bude potrebné ich aj naďalej rozširovať, aby skutočne riadili dát. Teraz však začíname tak či onak.

A po tomto zozname máme streaming a rýchlosť príchodu údajov. Myslím si, že jedným z dôvodov popularity Hadoopu je to, že sa dá do značnej miery použiť na zachytenie množstva údajov. Môže tiež preberať rýchlosť dát, takže ak ich nepotrebujete okamžite, je to pekné paralelné a obrovské paralelné prostredie. Máte však aj to, že v súčasnosti prebieha veľké množstvo streamovacej analýzy. Zvyčajne to boli bankové sektory, ktoré sa zaujímali o streamovanie aplikácií, ale teraz je to trochu globálne. A každý sa tak či onak pozerá na streamovanie aplikácií, čo je potenciálny prostriedok na získanie hodnoty z údajov a vykonanie analýzy pre organizáciu.

Máme neštruktúrované údaje. Štatistika, obyčajne časť iba 10% svetových údajov, bola v relačných databázach. Teraz jedným z hlavných dôvodov bolo, že to bolo v skutočnosti neštruktúrované a bolo to - veľa z toho bolo na webe, ale do značnej miery sa to týkalo rôznych webových stránok. Ukázalo sa, že tieto údaje sú tiež analyzovateľné a použiteľné. A s príchodom technológie Symantec, ktorá sa postupne vkráda do situácie, sa stáva stále viac.Preto je potrebné skutočne zhromažďovať a spravovať neštruktúrované údaje, čo znamená, že sú omnoho väčšie ako predtým. Máme sociálne údaje, ktoré som už spomenul, ale o tom ide hlavne o to, že je potrebné ho vyčistiť.

Máme údaje o internete vecí. Je to druh inej situácie. Pravdepodobne bude toho veľa, ale veľa z toho bude musieť zostať distribuované niekde blízko miesta, kde beží. Ale rovnako to budete chcieť, tak či onak, pritiahnuť k analýze údajov v rámci organizácie. To je teda ďalší faktor. A tieto údaje budú štruktúrované odlišným spôsobom, pretože to bude pravdepodobne - pravdepodobne bude naformátované v JSON alebo XML, aby sa deklarovalo samo. A to nielen tak, že skutočne sťahujeme údaje a dokážeme urobiť druh schémy čítania na tomto konkrétnom údaji.

Máme problém s provenienciou a toto je analytický problém. Výsledky v akejkoľvek analýze údajov, ktorú robíte, nemôžu byť - ak chcete - schválené, považované za platné, pokiaľ nepoznáte pôvod údajov. Myslím tým, že ide iba o profesionalitu, pokiaľ ide o činnosť vedcov údajov. Ale viete, aby sme mali pôvod údajov, to znamená, že v skutočnosti musíme údaje upravovať a udržiavať si poznámku o ich počte.

Máme problém s počítačovým výkonom a paralelami a všetko, čo robí, je, že všetko ide rýchlejšie. Problém je, že určité procesy, ktoré sme zaviedli, môžu byť pre všetko ostatné príliš pomalé. Takže existuje možná nesúlad, pokiaľ ide o rýchlosť.

Máme príchod strojového učenia. Strojové učenie má vlastne za následok, že sa analytika stala inou hrou ako predtým. Môžete ho však skutočne použiť, iba ak máte moc.

Dostali sme fakt novej analytickej pracovnej záťaže. Máme paralelný svet a niektoré analytické algoritmy je potrebné vykonávať paralelne, aby sa dosiahol maximálny účinok. Preto problém v skutočnosti spočíva v tom, ako vlastne tak či onak tlačíte údaje okolo, sprístupníte údaje, ak sú dostupné. A kde skutočne vykonávate analytické pracovné zaťaženie, pretože to možno robíte v rámci databázy. Možno to robíte v rámci analytických aplikácií.

Existuje teda celý rad problémov s riadením. Čo sme urobili tento rok - výskum, ktorý sme urobili tento rok, sa skutočne týkal architektúry veľkých dát. A keď sa to skutočne snažíme zovšeobecniť, záver, ku ktorému sme dospeli - schéma, ku ktorej sme prišli, vyzeral veľmi podobne.

Nebudem sa zaoberať týmto problémom, najmä preto, že Mike urobí pre analytiku primeranú sumu v architektúre údajov. Skutočne však chcem, aby sa ľudia sústredili iba na túto spodnú oblasť, v ktorej zhromažďujeme údaje tak či onak. Máme niečo, na čo by som chcel poukázať, je rafinéria údajov alebo centrum na spracovanie údajov. A tam sa odohráva správa vecí verejných. Takže, viete, ak sa sústredíme, vyzerá to takto. Viete, že je napájaný údajmi z interných a externých zdrojov. Hub by teoreticky mal brať všetky generované údaje. Ak potrebujete analyzovať a streamovať údaje, mali by ste ich streamovať a spravovať podľa toho, ako sú prenášané, a potom ich preniesť do hubu. Alebo to všetko príde do centra. A existuje niekoľko vecí, ktoré sa dejú - ktoré sa dejú v centre. V rozbočovači nemôžete mať istú analytiku a SQL. Potrebujete však aj virtualizáciu údajov v každej bunke, aby ste mohli údaje preniesť do iných oblastí. Ale predtým, ako sa niečo z toho stane, v skutočnosti musíte nejakým spôsobom urobiť spresnenie prípravy údajov. Môžete to nazvať príprava dát. Je to omnoho väčšie. To sú veci, ktoré podľa môjho názoru zahŕňajú.

Máme správu systému a správu služieb v tom zmysle, že ide o hlavnú časť dátovej vrstvy, potom musíme skutočne použiť všetky systémy riadiace úsilie riadenia operačného systému, ktoré sme tradične robili, takmer vo všetkých operačných systémoch. Potrebujeme však rovnako či onak monitorovať ďalšie veci, ktoré sa snažia zabezpečiť, aby sa tieto rôzne úrovne služieb dodržiavali, pretože je potrebné, aby boli definované úrovne služieb alebo akýkoľvek druh analytiky, ako sú vykonávané, alebo údaje BI sú byť konaný.

Potrebujeme monitorovanie a riadenie výkonnosti. Ak niečo iné, potrebujeme to, aby sme vedeli, aké ďalšie počítačové zdroje možno bude potrebné prideliť v rôznych časových okamihoch. Ale aj tu je skutočne veľa práce, v skutočnosti dosť zložité a navzájom si konkurujú o zdroje. V tejto oblasti je potrebné urobiť niečo sofistikované.

Teraz máme životný cyklus údajov spôsobom, ktorý sme nikdy predtým nemali. Dohoda tu skutočne presahuje čokoľvek iné, že sme predtým nezhromažďovali údaje a nevyhodili ich. Mali sme tendenciu zhromažďovať údaje, ktoré sme potrebovali, pravdepodobne sme si ich ponechali, a potom ich archivovali. Ale ohromné množstvo toho, čo tu budeme robiť, je skúmanie údajov. A ak údaje nechcete, pochovejme ich. Životné cykly údajov sú teda rôzne v závislosti od situácie, ale bude to tiež oveľa viac agregácie údajov. Preto viete, viete, kde agregát pochádza z toho, čo ... aký je zdroj agregácie, atď. A tak ďalej. To je všetko potrebné.

Dátová línia prirodzene požičiava. Bez toho musíte poznať problémy, takže údaje ... Musíme vedieť, že údaje sú platné, ale s tým, ako spoľahlivé sú v skutočnosti.

Tiež sme dostali mapovanie údajov, pretože veľa údajov skutočne bude nejakým spôsobom. A ak sa vám to páči, týka sa to do určitej miery pri MDM. Je to len to, že je to teraz oveľa komplikovanejšie, pretože keď máte obrovské množstvo údajov definovaných spoločnosťou JSON alebo na základe našej schémy XML na čítanie, budete musieť nejakým spôsobom mať veľmi aktívny pokračuje činnosť mapovania údajov.

Existuje situácia v oblasti správy metadát, ktorá je viac ako MDM, pretože je potrebné tak či onak vybudovať to, o čom by som si teraz rád myslel, ako druh skladu metadát so všetkým, o čo máte záujem. Existujú metadáta objav, pretože niektoré údaje nemusia mať nevyhnutne deklarované metadáta a my ich chceme použiť okamžite. A potom je tu čistenie dát, čo je obrovská vec, ako to, ako môže robiť séria vecí. A je tu aj bezpečnosť údajov. Všetky tieto údaje musia byť zabezpečené na prijateľnej úrovni, čo môže v niektorých prípadoch znamenať - napríklad šifrovanie mnohých hodnôt.

Celé toto pracovné zaťaženie je v skutočnosti vládnoucou ríšou. To všetko, tak či onak, musí prebiehať súčasne alebo predtým, celá naša analytická činnosť. Toto je veľké množstvo koordinovaných aplikácií. Je to systém sám osebe. A potom, tí, ktorí to neurobia v rôznych časových okamihoch, budú trpieť nedostatkom, keď idú vpred, pretože hrozné množstvo týchto vecí nie je naozaj voliteľných. Ak ich neurobíte, skončíte len so zvýšenou entropiou.

Čo sa týka analýzy a riadenia údajov, tak by som povedal, že jedna ruka skutočne umýva druhú. Bez riadenia sa analytika a spoločnosť BI nestrhnú včas. A bez analytiky a BI by nebolo vôbec potrebné spravovať údaje. Obe veci teda skutočne kráčajú ruka v ruke. Ako sa hovorí na Blízkom východe: „Jedna ruka umýva druhú.“ A to je vlastne všetko, čo musím povedať. Dúfam, že sme teraz dostali Mika späť.

Eric: My áno. Mike, predpokladám, že si tam. Budem tlačiť vašu snímku hore.

Mike: Ja som. Dobre, počuješ ma?

Eric: Áno, počujem vás. Znie to úžasne. Dovoľte mi predstaviť ... Tam idete. A vy ste teraz moderátorka. Vziať to preč.

Mike: Dobre, ďakujem! Dobré ráno, dobré popoludnie, dobrý večer pre vás všetkých. Odpočítajte škytavka na začiatku. Z nejakého dôvodu som sa stlmil a vidím všetkých, ale nemohli ma počuť.

Poriadku. To, čo chcem urobiť rýchlo, je hovoriť o ekosystéme veľkých analytických údajov. Ak sa ma chcete na niečo opýtať, poviem vám, že v tejto relácii alebo neskôr ju môžete chytiť mojich kontaktných údajov tu. Ako som už povedal, uprostred noci tu vo Veľkej Británii.

Dovoľte mi prejsť k tomu, o čom chcem hovoriť. Je zrejmé, že v posledných rokoch sme zaznamenali vznik všetkých druhov novoobjavených typov údajov, ktoré podniky teraz chcú analyzovať - všetko od údajov clickstream po pochopenie správania online, údajov sociálnych médií, o ktorých Eric hovoril na začiatok programu tu. Myslím si, že Robin spomenul JSON, BSON, XML - teda pološtrukturované údaje, ktoré sú samy popisujúce. Máme samozrejme aj veľa ďalších vecí - všetko od neštruktúrovaných údajov, protokolov infraštruktúry IT, údajov senzorov. Všetky tieto relatívne nové zdroje údajov, o ktoré sa podniky teraz zaujímajú, pretože obsahujú cenné informácie, ktoré by potenciálne mohli prehĺbiť to, čo vieme.

To v podstate znamená, že analytické prostredie sa posunulo nad rámec tradičného skladovania údajov. Stále štruktúrujeme údaje do sveta kombinácie štruktúrovaných a viac štruktúrovaných údajov, kde viac štruktúrované údaje môžu v mnohých prípadoch pochádzať zvnútra alebo zvonku podniku. A vďaka týmto novým typom údajov a novým potrebám analyzovať sme zaznamenali vznik nových analytických pracovných za ažení - všetko od analýzy údajov v pohybe, čo trochu mení tradičnú architektúru skladovania údajov na jej hlavu, kde trochu , v tradičných kruhoch integrovať údaje, vyčistiť ich, transformovať, uložiť a analyzovať. Ale analyzujeme údaje v pohybe, zachytávame ich, integrujeme ich, pripravujeme ich analýzou a následným uložením. Takže údaje prebiehajú skôr, ako budú uložené kdekoľvek.

Komplexná analýza štruktúrovaných údajov, možno pre vývoj modelov, štatistický a prediktívny vývoj modelov, to nie je nič nové pre niektorých ľudí v tradičnom priestore na skladovanie údajov. Máme prieskumnú analýzu údajov podľa modelu. To je množstvo štruktúrovaných údajov. Máme nové pracovné zaťaženie vo forme grafovej analýzy, ktorá pre mojich klientov vo finančných službách zahŕňa veci ako podvod. Zahŕňa aj počítačovú bezpečnosť. Zahŕňa to samozrejme sociálne siete, pochopenie vplyvných pracovníkov a podobné veci. Dokonca som zvládol to v oblasti riadenia, má niekoľko rokov grafovej analýzy.

Máme optimalizáciu dátového skladu alebo vykladanie spracovania ETL, čo je skôr druh použitia IT, môže to CIO financovať. A dokonca aj archiváciu údajov a dátových skladov, aby ich zostala online vo veciach ako Hadoop. Takže všetky tieto nové analytické pracovné zaťaženia pridali do analytického prostredia nové platformy, nové úložné platformy. Takže namiesto toho, aby sme mali tradičné sklady údajov, dátové spojenia, máme teraz Hadoop. Máme databázy NoSQL, ako napríklad grafové databázy, ktoré sa často používajú na analytické pracovné zaťaženie. Samozrejme, môžeme urobiť grafovú analýzu teraz na samotnom Hadoope, ako aj v NoMSQL grafe DBMS. Máme streamingovú analýzu, o ktorej sa zmienil Robin. A máme - ak máte radi - modely, možno aj na analytické zariadenia na ukladanie údajov. To všetko však komplikovalo analytické prostredie, teraz sú potrebné viaceré platformy. A myslím, že pre akékoľvek podnikanie s front office alebo back office, alebo s financiami, obstarávaním, personalistikou a nejakými operáciami je výzvou zistiť, ktoré analytické projekty sú spojené s tradičnou scénou skladovania údajov. Akonáhle budete vedieť, že analytické projekty sú spojené s týmito novými veľkými dátovými platformami a kde spustiť, viete, ktoré analytické pracovné zaťaženie, ale nestratiť zo zreteľa podnikanie v tom zmysle, že - teraz uvidíte, že ide o kombináciu veľkých projekty na analýzu údajov a tradičné projekty veľkého skladovania údajov, ktoré sú spoločne potrebné na posilnenie vnútri zákazníka alebo okolo operácií, okolo rizika alebo financovania alebo udržateľnosti. Chceme preto, aby všetky tieto kroky boli v súlade s našimi strategickými obchodnými prioritami, aby sme udržali krok, viete, zatlačte ihly, ktoré je potrebné zatlačiť, viete, aby ste zlepšili výkonnosť podniku, znížili náklady, viete, znížiť riziká, atď., pre našu spoločnosť ako celok. Nie je to tak, že by jeden nahradil tu druhým veľkými údajmi a tradičným. Používajú sa spolu. A to dramaticky mení architektúru.

Takže tu mám relatívne novú architektúru, ktorú budem používať so svojimi klientmi. A tak, ako vidíte teraz zdola, obrovské množstvo zdrojov údajov, ktoré už nie sú len štruktúrované. Niektorí z nich vysielajú živé údaje, ako sú senzory, napríklad údaje o trhoch, niečo také. Mohli by to byť dokonca živé údaje o kliknutiach. Mohli by to byť živé videostreamy. Takže to nemuselo byť štruktúrované. Môžeme teda robiť spracovanie prúdov na týchto údajoch, aby sme v reálnom čase robili automatické akcie, a akékoľvek údaje, ktoré nás zaujímajú, by sa mohli filtrovať a preniesť do nástrojov podnikovej správy informácií, ktoré sa môžu použiť na naplnenie zásob analytických údajov. Pokiaľ tu nevidíte mix, máme teraz tradičné dátové sklady, databázy Hadoop a NoSQL. V mixe máme tiež správu kmeňových údajov. A to vytvára väčší tlak na celý balík nástrojov na správu údajov, a to nielen na naplnenie týchto úložísk údajov, ale aj na presun údajov medzi nimi.

Okrem toho musíme zjednodušiť prístupové nástroje. Nemôžeme sa len obrátiť na používateľa a povedať: „získajte všetky tieto úložiská údajov, držte tieto rozhrania API - váš problém“. Musíte zjednodušiť prístup. A tak, v niektorých bodkovaných riadkoch vidíte, že virtualizácia a optimalizácia údajov skrývajú zložitosť ukladania viacerých údajov, snažia sa a uľahčujú prístup koncovým používateľom. A samozrejme, na vrchole je celý rad nástrojov - všetko od tradičných nástrojov BI, ktoré sa začalo znova v hornej časti dátového skladu, postupne sa posúvajú vľavo od grafu k druhému pripojeniu do Hadoops a potom NoSQL databázy sveta.

Dostali sme vyhľadávanie, aby sme si mohli prenajať nový život, najmä okolo tela, štruktúrované, neštruktúrované údaje, ktoré sa často uchovávajú v Hadoope. Máme vlastné analytické aplikácie, ktoré sa majú vykonávať na platforme Hadoop s MapReduce, napríklad v rámci programu Spark. Máme nástroje na analýzu grafov, ktoré sa, ako viete, zameriavajú na veľmi špecifické pracovné zaťaženia. Takže celý rad nástrojov a dátové toky sú tiež zložitejšie. V dátovom sklade už nie je iba jednosmerná ulica. Teraz sú to samozrejme kmeňové údaje.

Máme nové zdroje údajov, ktoré sú zachytené v NoSQL, viete, sklady údajov ako MongoDB, ako Cassandra, ako HBase. Dostali sme údaje priamo do spoločnosti Hadoop na účely analýzy a prípravy údajov. Z Hadoopu a dátových skladov máme nové informácie. Máme archív vychádzajúci z dátových skladov do Hadoopu. Teraz máme dátové informačné kanály, viete, do všetkých databáz NoSQL a dátových kariet. To, čo vidíte, je, že v oblasti správy údajov prebieha omnoho viac aktivít. Znamená to, že softvér na správu údajov stavia pod značný tlak. Už to nie je iba jednosmerná ulica. Je to obojsmerný pohyb údajov. Je to omnoho viac aktivity, a preto je škálovateľnosť dôležitá na prednej strane nástroja na správu údajov, ako aj na zdroji údajov.

Tento graf sa teda vracia k architektúre, ktorú som spomenul pred chvíľou. Ukazuje vám rôzne analytické pracovné zaťaženia, ktoré sa vyskytujú v rôznych častiach tejto architektúry. V ľavom dolnom rohu je streamy v reálnom čase, spracovanie toku prebieha na údajoch pochádzajúcich z akéhokoľvek druhu živého úložiska údajov. Deje sa analýza triedy v grafových databázach NoSQL. Môže sa to stať aj na Hadoope. Napríklad v rámci programu Spark a v systéme GraphX máme vyšetrovaciu analýzu a rafinériu údajov, o ktorej Robin hovoril o dianí na Hadoope. Stále máme tradičné pracovné zaťaženie a skladovanie údajov, viete, používatelia energie vytvárajú štatistické a prediktívne modely, možno na zariadeniach na skladovanie údajov. A stále sa snažíme zjednodušiť prístup k tomuto všetkému, aby bolo pre koncových používateľov ľahké.

Úspech okolo celého tohto nastavenia je teda viac než len analytická stránka. Vieme, že môžeme zaviesť analytické platformy, ale ak nedokážeme zachytiť a prehltnúť údaje, o vysokej rýchlosti a veľkom objeme, v mierke to nemá zmysel. Viete, nemám čo analyzovať. Úspech analýzy veľkých dát si preto vyžaduje rozšírenie operačných systémov. To znamená, aby ste mohli podporovať nové transakcie, viete, vrcholy. Viete, akékoľvek netransakčné údaje, ktoré sa tu zachytávajú, by mohli byť, viete, akékoľvek nové príchodové rýchlosti veľmi, veľmi vysoké príchodové rýchlosti na vysokorýchlostných údajoch, ako sú senzory alebo akýkoľvek príjem. Musíme byť schopní sa o to postarať - byť schopní zachytiť tento druh údajov a priviesť ich na analýzu. Musíme tiež sami škálovať analytiku a zjednodušiť prístup k údajom, ktoré som už spomenul. A potom to uviaž. Viete, musíme byť schopní prepracovať sa späť do týchto operačných systémov, aby sme to uzavreli.

Takže škálovanie prevádzkovej stránky domu na zachytenie údajov, viete, vstupuje do sveta databázy NoSQL. Tu vidíte päť kategórií databázy NoSQL. Táto kategória sa bude modelovať tak, aby bola kombináciou ostatných štyroch vyššie. Všeobecne viete, jeho kľúčové hodnoty, uložené dokumenty a databázy rodín stĺpcov - prvé tri v ňom - ktoré sa používajú na viac druhov transakčných a netransakčných údajov.

Niektoré z týchto databáz, ktoré sa podporujú ako vlastnosti; niektoré nie. Napriek tomu však vieme, že uvádzame tie, ktoré prispôsobujú tieto druhy aplikácií. Napríklad, keďže sme sa vzdialili od samotných zamestnancov, ktorí zadávajú transakcie pomocou klávesníc, k dnešným zákazníkom a masy využívajúce nové zariadenia, aby to dokázali. Zaznamenali sme obrovský nárast počtu transakcií uskutočňovaných v podnikoch. Aby sme to mohli urobiť, musíme prispôsobiť transakčné aplikácie.

Teraz, vo všeobecnosti, to možno urobiť na databázach NewSQL ako relačnú databázu ako NuoDB a VoltDB zobrazené tu. Alebo môžu byť v hre niektoré z databáz NoSQL, ktoré pravdepodobne podporujú vlastnosti ACID, ktoré môžu zaručiť spracovanie transakcií. Platí to aj pre netransakčné údaje, ako sú údaje o nákupnom košíku pred transakciou, viete, skôr ako ľudia kupujú veci, údaje o senzoroch, viete, pretože stratím čítanie senzora medzi stovkami miliónov senzorov. To nie je veľký problém. Kliknutia, viete, vo svete clickstream - ak kliknem, tak to nie je o nič.Takže viete, nemusíme mať nutne k dispozícii vlastnosti ACID, a to je miesto, kde sa vstupujú do hry databázy NoSQL, bolo to tam - táto schopnosť robiť veľmi vysoké a správne spracovanie v mierke na zachytenie týchto nových druhov údajov.

Zároveň chceme, aby sa analytika zmenila. A tak presunutie údajov z úložísk údajov na analytické platformy ich už nebude hackovať, pretože údaje sú príliš veľké. Naozaj chceme tlačiť analytiku iným spôsobom, dolu do skladu podnikových údajov do spoločnosti Hadoop, do spracovania toku, aby bolo možné tlačiť analytiku k údajom. Avšak len preto, že niekto hovorí, že je to v databázovej analýze alebo v analytike Hadoop, nemusí to nevyhnutne znamenať, že analytika beží paralelne. Úprimne povedané, ak sa chystáte investovať do týchto nových masívne paralelných škálovateľných technológií, ako je Hadoop, ako sú zariadenia na ukladanie údajov a podobne, ako sú mechanizmy spracovania klastrových tokov, potrebujeme, aby analytika fungovala paralelne.

Takže to je len kontrola. Viete, ak máme analýzy, ktoré pomôžu predvídať veci pre zákazníkov, pre operácie, pre riziká atď., Chceme, aby bežali paralelne, nielen bežali na platforme. Chceme oboje. A to preto, lebo viete, že technológia je ako tieto nové nástroje vizuálneho objavovania, ako napríklad SAS. Je to skutočne jeden z našich sponzorov.

Jedna vec, ktorú ľudia chcú, je aspoň vykorisťovať tých, ktorí sú v Hadoope a potom v analytickej databáze. Chceme, aby tieto programy bežali paralelne, aby mohli poskytovať výkon potrebný pri takomto veľkom objeme údajov. Zároveň sa snažíme zjednodušiť prístup k tomuto všetkému. SQL je teraz opäť na programe. Viete, SQL je - SQL na Hadoop je práve teraz horúce. Momentálne to sledujem v 19 iniciatívach SQL a Hadoop. Navyše vidíte, že k týmto údajom sa môžeme dostať, viete, niekoľkými spôsobmi, aby sme mohli priamo pristupovať k SQL na samotnom Hadoope, môžeme ísť do indexu vyhľadávania. Tak, ako viete, niektorí dodávatelia vyhľadávania v tomto priestore, môžeme mať prístup SQL k analytickým relačným databázam, ktoré majú tabuľky programu Excel pre spoločnosť Hadoop.

Teraz môžeme mať prístup SQL k serveru virtualizácie údajov, ktorý potom môže byť pripojený k údajovému skladu na serveri Hadoop. Už teraz začínam vidieť vznik prístupu SQL k živým prenosom údajov. Prístup k SQL všetkému tak rýchlo rastie. Súčasťou výzvy je len to, že prístup na trh SQL sa tam predáva. Otázka znie, môže SQL zvládnuť zložité údaje? A to nie je nevyhnutne jednoduché. Vyskytujú sa tu všetky druhy komplikácií vrátane skutočnosti, že údaje JSON by mohli byť vnorené. Môžeme mať záznamy variantov schémy. Prvý záznam má jednu schému. Druhý záznam má inú schému. Tieto veci sa veľmi líšia od udalostí v relačnom svete.

Preto musíme klásť otázky o tom, aký druh údajov sa snažíme analyzovať a aké sú analytické charakteristiky. Je to, viete, panel, ktorý chcete robiť? Je to strojové učenie? Je to grafová analýza? Môžete to urobiť z SQL? Viete, je to faktúrovateľné z SQL? Koľko súbežných používateľov sme dosiahli? Viete, máme stovky súčasných používateľov. Je to možné pri zložitých údajoch? Viete, všetky tieto veci sú kľúčové otázky. Takže som tu urobil zoznam niekoľkých, ktoré si myslím, že by ste mali zvážiť. Vieš, aký formát súborov? O akých typoch údajov hovoríme? Aké analytické funkcie môžeme vyvolať z SQL, aby sme získali komplexné údaje? A druh funkcií beží paralelne. Myslím, že musia bežať paralelne, ak to musíme vedieť zmeniť. A môžem sa pripojiť k údajom v Hadoop dnes mimo neho, viete, alebo to nie je možné? A čo urobím so všetkými týmito rôznymi druhmi pracovných za ažení dotazov?

A ako uvidíme, viete, z toho, čo som videl, existuje veľa rozdielov medzi distribúciou SQL a Hadoop. Toto všetko sledujem. A mimochodom, na Hadoop je to čistý SQL. V tomto bode nie je zahrnutá ani virtualizácia údajov. A tak, veľa tam a veľa priestoru na konsolidáciu, o ktorom si myslím, že sa stane v budúcom roku, asi osemnástich mesiacoch. Ale otvára sa aj ďalšia vec, ktorou je, že v Hadoope môžem mať potenciálne viac strojov SQL na rovnakých údajoch. A to je niečo, čo by ste nemohli urobiť vo vzťahu.

To, samozrejme, znamená, že musíte vedieť, aký druh pracovného zaťaženia otázok mám spustený? Mal by som to spustiť po dávkach na konkrétnom SQL z iniciatívy Hadoop? Mal by som spúšťať interaktívne pracovné úlohy s dopytom prostredníctvom iného SQL na iniciatíve Hadoop atď., Aby som vedel, ku ktorému sa mám pripojiť? V ideálnom prípade by sme to však nemali robiť. Mali by ste na to jednoducho položiť otázku. Viete, niektoré optimalizačné nástroje určujú najlepší spôsob, ako to dosiahnuť. Ale podľa môjho názoru tu ešte nie sme úplne.

Virtualizácia údajov, ktorú som spomínal, má napriek tomu veľmi dôležitú úlohu pri zjednodušovaní prístupu k viacerým údajovým skladom. A ak vytvárame nové poznatky o spoločnosti Hadoop, je určite možné, aby sme sa pripojili k týmto údajovým dátam a tradičným dátovým skladom napríklad prostredníctvom virtualizácie údajov, bez toho, aby sa údaje z spoločnosti Hadoop nevyhnutne presunuli do tradičných dátových skladov. Samozrejme, môžete to urobiť tiež. Je tiež pravdepodobné, že do Hadoopu archivujem údaje z tradičných dátových skladov. Stále sa k tomu môžem dostať a pripojiť sa k veci, ktorá je v našom dátovom sklade, k virtualizácii údajov. Takže si myslím, že virtualizácia údajov má veľkú budúcnosť v tejto celkovej architektúre a zjednodušuje prístup do všetkých týchto ukladacích priestorov údajov.

A nezabudnite, že keď vytvárame tieto nové poznatky, či už ide o relačné alebo systémy NoSQL, stále ich chceme preniesť späť do našich operácií, aby sme mohli maximalizovať hodnotu toho, čo sme našli, aby sme mohli využívajú to na efektívnejšie a včasnejšie rozhodnutia v tomto prostredí na optimalizáciu nášho podnikania.

Aby som teda zabalil to, čo vidím, potom potrebujeme nové zdroje údajov. Ak chcete, máme nové platformy zložitejšej architektúry. A Hadoop sa stáva veľmi, veľmi dôležitým, dostatočným pre prípravu dát pre naše tekuté karantény, pre archívne dotazy, archívy z dátového skladu, správu dát rozširujúcu svoje krídla, aby išiel nad rámec skladovania údajov do správy údajov na všetkých týchto platformách a aby boli nové nástroje je schopný analyzovať a pristupovať k údajom v týchto prostrediach, mať k dispozícii škálovateľné technológie na lepšie prijímanie údajov a škálovať analytiku tak, že ich tlačí nadol do platforiem, aby boli paralelnejšie. A potom, dúfajme, tiež zjednodušenie prístupu k všetkému prostredníctvom vznikajúcej SQL prichádzajúcej cez vrchol. Poskytuje vám teda predstavu o tom, kam smerujeme. Takže s tým sa vrátim späť, myslím, Eric teraz, že?

Eric: Dobre, to je fantastické. A ľudia, musím povedať, že medzi tým, čo ste práve dostali od Robina a Mika, je to asi také komplexné a výstižné v prehľade o celej krajine z pohľadu na to, ako sa nachádzate kdekoľvek. Dovoľte mi pokračovať a radiť sa najskôr Georgovi Corugedovi. A tam to je. Dovoľte mi to na chvíľu na chvíľu. Dobre, George, chystám sa ti dať kľúče a vziať ich preč. Podlaha je na vás.

George: Skvelé! Ďakujem veľmi pekne, Eric, a ďakujem Rob a Mike. To boli skvelé informácie a veľa, na ktorých sa zhodujeme. Takže, návrat k Robinovej diskusii, pretože viete, nie je náhoda, že je tu RedPoint a SAS je tu. Pretože RedPoint sa skutočne zameriavame na dátovú stránku správy, riadenia údajov, spracovania údajov a prípravy na použitie v analytike. Dovoľte mi teda prejsť týmito dvoma snímkami. Naozaj hovorím o Robinovej myšlienke o MDM a o tom, aké dôležité je a aké užitočné je, a aké užitočné je, myslím - a myslíme si -, že spoločnosť Hadoop môže byť vo svete MDM a kvality údajov.

Viete, Robin hovoril trochu o tom, ako to súvisí so svetom skladu podnikových dát a ja som prišiel - viete, strávil som niekoľko rokov v spoločnosti Accenture. Zaujímavé je, koľkokrát sme museli ísť do spoločností a pokúsiť sa zistiť, čo robiť s dátovým skladom, ktorý bol v podstate opustený. A to sa stalo veľa, pretože tím údajového skladu skutočne nezostavil svoju zostavu na podnikových používateľov alebo na spotrebiteľov údajov. Alebo to len trvalo tak dlho, že v čase, keď túto vec postavili, sa jej obchodné využitie alebo obchodné zdôvodnenie vyvinula.

A jednou z vecí, o ktorej si myslím, že som tak nadšená, myšlienka použitia Hadoopu na správu kmeňových údajov, na kvalitu údajov a na prípravu údajov je skutočnosť, že sa vždy môžete vrátiť k atómovým údajom v Údajové jazero Hadoop alebo zásobník údajov alebo úložisko údajov alebo rozbočovač alebo akýkoľvek formulár, ktorý chcete použiť. Ale pretože si vždy uchovávate tieto atómové údaje, potom máte vždy príležitosť vyrovnať sa s obchodnými používateľmi. Pretože ako analytik - pretože som vlastne začal svoju kariéru ako štatistik - viete, nič nie je horšie, ako viete, sklady podnikových údajov sú vynikajúce na riadenie prehľadov, ale ak chcete robiť skutočne prediktívnu analýzu, sú to v skutočnosti to nie je také užitočné, pretože to, čo skutočne chcete, sú podrobné údaje o správaní, ktoré sa nejako zhrnuli a zhromaždili v dátovom sklade. Takže si myslím, že je to naozaj dôležitá vlastnosť, a to je jedna vec, o ktorej si myslím, že by som mohol nesúhlasiť s Robinom, že osobne by som nechal údaje v dátovom jazere alebo v dátovom centre čo najdlhšie, pretože tak dlho, ako údaje sú k dispozícii a sú čisté, môžete sa na ne pozrieť z jedného smeru, z iného smeru. Môžete ich zlúčiť s inými údajmi. Vždy máte príležitosť vrátiť sa k nej a reštrukturalizovať sa, a potom sa znova vyrovnať s obchodnou jednotkou a potrebou, ktorú táto jednotka môže mať.

Jednou z ďalších zaujímavých vecí na tom je, že pretože je to taká silná výpočtová platforma, veľa pracovnej záťaže, o ktorej sme hovorili, vidíme, že všetko prichádza priamo do Hadoopu. A zatiaľ čo si myslím, že Mike hovoril o všetkých rôznych technológiách, ktoré existujú vo svete - v tomto type ekosystému veľkých údajov si myslíme, že Hadoop je skutočne pracovným koňom, ktorý robí také veľké výpočtovo náročné spracovanie, že vyžadujú sa kmeňové dáta a kvalita údajov. Pretože ak to dokážete, viete, iba číra ekonomika presunu údajov z vašich drahých databáz a do ekonomických databáz, to práve teraz vedie k veľkému využitiu práve teraz vo veľkých podnikoch.

Teraz, samozrejme, existujú určité výzvy, však? Okolo technológií sú výzvy. Mnohé z nich sú veľmi nezrelé. Povedal by som, viete, neviem koľko, ale množstvo technológií, ktoré Mike spomínal, sa stále vydáva s nulovým bodom, nie? Tieto technológie sú teda veľmi mladé, veľmi nezrelé, stále založené na kódoch. A to skutočne predstavuje výzvu pre podniky. A skutočne sa zameriavame na riešenie problémov na podnikovej úrovni. A tak si myslíme, že musí existovať iný spôsob, a to, čo navrhujeme, je iný spôsob, ako dosiahnuť niektoré z vecí pri používaní niektorých z týchto veľmi vznikajúcich technológií.

A tak, a potom ďalší zaujímavý problém tu, ktorý bol spomenutý predtým, a to, keď máte údaje, ktoré zachytávate v prostredí Hadoop akéhokoľvek typu, viete, je to skôr schéma na čítanie ako schéma na písanie až na niektoré výnimky. A toto čítanie robia mnohí štatistici. Štatistici teda musia mať nástroje, ktoré im umožnia správne štruktúrovať údaje na analytické účely, pretože na konci dňa, aby sa údaje stali užitočnými, musí byť nejakým spôsobom štruktúrovaný, aby niektoré videl alebo odpovedal na otázku alebo podnik, nejaký druh podnikania, vytvára obchodnú hodnotu.

Takže tam, kde prichádzame, je to, že máme veľmi široký a zrelý EPL, ELT hlavný kľúč kvality kľúčov a aplikácie na správu. Na trhu je už mnoho rokov. A má všetku funkčnosť alebo veľa funkcií, ktoré Robin uviedol v tomto kruhovom grafe - všetko od čistého získavania nespracovaných údajov v rôznych formátoch a štruktúrach XML a podobne, až po schopnosť vykonávať všetky čistenie, dokončenie údajov, oprava údajov, geopriestorové jadrové kúsky údajov. To je v dnešnej dobe čoraz dôležitejšie s internetom vecí. Viete, existuje veľa informácií o tom, čo robíme, alebo o mnohých údajoch. A tak sa všetky analýzy, tokenizácia, čistenie, oprava, formátovanie, štruktúrovanie atď. Všetko robia v našej platforme.

A potom, a možno, myslíme najdôležitejšie je myšlienka deduplikácie. V jadre viete, že ak sa pozriete na akúkoľvek definíciu správy kmeňových údajov, jej jadrom je deduplikácia. Je schopný identifikovať entity z rôznych zdrojov údajov a potom pre túto entitu vytvoriť hlavný záznam. A touto entitou by mohla byť osoba. Subjekt by mohol byť napríklad súčasťou letúna. Táto entita by mohla byť jedlom, aké sme spravili pre jedného z našich klientov v kluboch zdravia. Vytvorili sme pre nich hlavnú databázu potravín. Čokoľvek teda subjekty sú, s ktorými spolupracujeme - a, samozrejme, stále viac existujú ľudia a zástupcovia ich identít, čo sú veci, ako sú sociálne úchytky alebo účty, akékoľvek zariadenia, ktoré sú spojené s ľuďmi, niektoré veci, ako sú autá a telefóny a čokoľvek iné, čo si viete predstaviť.

Vieme, pracujeme s klientom, ktorý do športového oblečenia vkladá najrôznejšie senzory. Dáta teda prichádzajú zo všetkých smerov. A tak či onak, je to odraz alebo predstava hlavnej entity. Čoraz častejšie to sú ľudia a schopnosť identifikovať vzťahy medzi všetkými týmito zdrojmi údajov a ich vzťahom k tejto hlavnej entite, a potom byť schopní sledovať túto základnú entitu v priebehu času, aby ste mohli analyzovať a porozumieť zmenám medzi touto entitou. a všetky tie ďalšie prvky, ktoré sú v reprezentáciách tejto entity, napríklad kritické pre dlhodobú a dlhodobú analýzu ľudí. A to je skutočne jedna z naozaj dôležitých výhod, ktoré podľa mňa môžu veľké dáta priniesť, je lepšie pochopenie ľudí a z dlhodobého hľadiska a pochopenie koní a toho, ako sa ľudia správajú, keď sa správajú prostredníctvom toho zariadenia, atď. ,

Dovoľte mi teda rýchlo prejsť sem. Eric spomenul YARN. Viete, hodím to na chvíľu na chvíľu, pretože zatiaľ čo YARN - ľudia hovoria o YARN. Myslím, že stále existuje veľa nevedomosti o YARN. A naozaj veľa ľudí - v súvislosti s YARN je stále veľa nedorozumení. Faktom je, že ak vaša aplikácia bola navrhnutá správnym spôsobom a máte správnu úroveň alebo paralelizáciu v architektúre aplikácií, môžete využiť YARN na použitie Hadoop ako škálovacej platformy. A to je presne to, čo sme urobili.

Opäť viete len poukázať na niektoré definície okolo YARN. Skutočne to, čo YARN znamená, nám a iným organizáciám umožnilo stať sa rovesníkmi MapReduce a Spark a všetkých ďalších nástrojov, ktoré sú tam. Faktom je, že naše aplikácie vedú optimalizovaný kód priamo do YARN do Hadoopu. A je tu naozaj zaujímavý komentár, o ktorom sa Mike zmienil, pretože, viete, otázka týkajúca sa analytiky a našej analytiky, jednoducho preto, že sú v klastri, skutočne prebiehajú paralelne? Rovnakú otázku môžete položiť aj na množstvo nástrojov kvality údajov, ktoré sú k dispozícii.

Väčšinu dňa nástroje kvality, ktoré sú tam, musia údaje buď odobrať, alebo tlačia kód. A v mnohých prípadoch je to jediný tok údajov, ktorý sa spracováva kvôli spôsobu, akým musíte porovnávať záznamy, niekedy pri činnostiach v kvalite údajov. Faktom je, že pretože využívame YARN, dokázali sme skutočne využiť výhody paralelizácie.

A aby sme vám poskytli rýchly prehľad, pretože sa pridáva ďalšia poznámka o dôležitosti schopnosti rozširovať tradičné databázy, nové databázy atď., Implementujeme alebo inštalujeme mimo klastra. A naše binárne súbory zasúvame priamo do správcu zdrojov YARN. A to a potom ju YARN distribuuje cez uzly v klastri. A čo to znamená, je to, že YARN - umožňujeme YARN riadiť a vykonávať svoju prácu, čo znamená zistiť, kde sú údaje, a prevziať prácu k údajom, kódovať údaje a nepohybovať s nimi. Keď budete počuť nástroje kvality údajov a oni vám hovoria, že je najlepšie presunúť údaje z Hadoopu, bežte o život, pretože to jednoducho nie je také, ako sú. Chcete prácu priblížiť k údajom. A to robí YARN ako prvé. Naše binárne súbory sa prenesú do uzlov, v ktorých sa nachádzajú údaje.

A tiež preto, že sme mimo klastra, môžeme tiež pristupovať ku všetkým tradičným a relačným databázam, aby sme mohli mať úlohy, ktoré sú 100% klientskym serverom na tradičnej databáze, 100% Hadoop alebo hybridné úlohy, ktoré prechádzajú klientskym serverom Hadoop. , Oracle, Teradata - čokoľvek chcete a všetko v rovnakej úlohe, pretože jedna implementácia má prístup na obe strany sveta.

A potom, keď sa vrátime k celej myšlienke vznešenosti nástrojov, vidíte tu, je to len jednoduchá reprezentácia. A to, čo sa snažíme, je zjednodušiť svet. A spôsob, akým to robíme, je, že do systému HDFS prinesieme veľmi širokú škálu funkcií ... A nie je to preto, že sa snažíme eliminovať všetky inovatívne technológie. Iba podniky potrebujú stabilitu a nemajú radi riešenia založené na kóde. Preto sa snažíme poskytnúť podnikom známe, opakovateľné a konzistentné aplikačné prostredie, ktoré im dáva schopnosť vytvárať a spracovávať údaje veľmi predvídateľným spôsobom.

To je rýchlo ten druh dopadu, ktorý získame pri našej aplikácii. Vidíte MapReduce vs. Pig vs. RedPoint - v RedPoint nie sú žiadne riadky kódu. Šesť hodín vývoja v MapReduce, tri hodiny vývoja v Pig a 15 minút vývoja v RedPoint. A tam skutočne máme obrovský vplyv. Čas spracovania je tiež rýchlejší, ale čas ľudí, čas produktivity ľudí, sa výrazne zvyšuje.

A moja posledná snímka tu sa chcem vrátiť k tejto myšlienke, pretože toto je náš prístup k používaniu dátového jazera alebo dátového centra alebo rafinérie údajov ako ústredného bodu požitia. S týmto nápadom viac nesúhlasím. A momentálne vedieme rozhovory s mnohými vedúcimi úradníkmi zodpovedných za údaje z hlavných svetových bánk, a to je architektúra výberu.Prijímanie údajov zo všetkých zdrojov vykonáva spracovanie kvality údajov a správu kmeňových údajov vo vnútri dátového jazera a potom tlačí údaje tam, kde je potrebné ísť na podporné aplikácie, na podporu BI, nech už je to čokoľvek. A potom, ak máte analytiky v BI, môžu bežať priamo vo vnútri dátového jazera, kde o to lepšie, že to môže začať hneď. Ale s touto myšlienkou je to na palube. Táto topológia je taká, ktorá je taká, o ktorej zistíme, že na trhu získava veľa trakcie. A to je všetko.

Eric: Dobre, dobre. Poďme ďalej. Idem do toho a odovzdám to Keithovi. A Keith, máš asi 10, 12 minút na to, aby si tu dom húpal. V týchto prehliadkach sme si vybrali trochu dlho. A na túto sme inzerovali 70 minút. Takže, choďte do toho a kliknite kamkoľvek na túto snímku a použite šípku nadol a odneste ju.

Keith: Jasne. Žiadny problém, Eric. Cením si to. Idem do toho a zasiahnem len pár kúskov o SAS, potom sa presťahujem priamo do technologických architektúr, kde sa SAS pretína s veľkým svetom dát. Vo všetkých týchto veciach je toho veľa. Mohli by sme stráviť hodiny tým, že to prežijeme veľmi podrobne, ale desať minút - mali by ste byť schopní odísť len s krátkym pochopením, kde SAS preniesla technológie analýzy, správy údajov a business intelligence do tohto veľkého sveta dát.

Najprv len trochu o SAS. Ak nie ste s touto organizáciou oboznámení, za posledných 38 rokov sme za posledných 38 rokov robili pokročilou analýzu, obchodné informácie a správu údajov nielen s veľkými údajmi, ale aj s malými údajmi a bohatstvom údajov. Máme obrovskú existujúcu zákaznícku základňu, okolo 75 000 miest po celom svete, pracujúcich s niektorými z top organizácií tam. Sme súkromná organizácia s približne 13 000 zamestnancami a príjmami 3 miliardy dolárov. A naozaj, myslím, že dôležitou súčasťou je, že sme tradične mali dlhoročnú históriu reinvestovania významného množstva našich výnosov späť do našej organizácie pre výskum a vývoj, ktorá skutočne priniesla množstvo týchto úžasných technológií a platforiem, ktoré “ uvidíme sa dnes.

Takže sa chystám skočiť priamo do týchto skutočne desivých architektonických diagramov. V mojich snímkach budeme pracovať zľava doprava. Vo vnútri tejto platformy sú teda známe veci, ktoré uvidíte. Na ľavej strane sú všetky tie zdroje údajov, o ktorých hovoríme, o ich prijímaní do týchto veľkých dátových platforiem. A potom máte túto veľkú dátovú platformu.

Slovo Hadoop som tam neuviedol len na začiatok stránky, pretože v konečnom dôsledku príklady, ktoré dnes uvediem, sa konkrétne týkajú všetkých technológií, ktoré sa prelínajú s týmito veľkými dátovými platformami. Hadoop sa stal jedným z tých, v ktorých máme niektoré z najrobustnejších možností nasadenia, ale tiež sa dosť pretíname a nejaký čas sme vyvinuli veľa týchto technológií s niektorými našimi ďalšími partnermi v oblasti podnikových dát, ako je Teradata, Oracle, Pivotal a podobne. Takže nemôžem ísť do detailov, pokiaľ ide o všetky rôzne technológie, ktoré sú podporované na ktorej platforme, ale len si môžete byť istí, že všetky tie, ktoré dnes popisujem, sú väčšinou všetko, čo sa Hadoop a veľké množstvo z nich pretínajú s ostatnými technologickými partnermi, ktorí máme. Takže tu máme takú veľkú platformu.

Ďalší vpravo je náš analytický server SAS LASR. Teraz je to v podstate masívne paralelné v aplikačnom serveri pre analýzu pamäte. Bolo by nám jasné, že nejde o databázu v pamäti. Je to skutočne navrhnuté od základov. Nie je to vyhľadávací stroj, ale je navrhnutý tak, aby obslúžil analytické požiadavky vo veľkom rozsahu masívne paralelne. To sú aplikácie kľúčov služieb, ktoré vidíte na pravej strane.

Vieme trochu viac, ako viete, ako ľudia tieto veci zavádzajú. Ale v podstate je táto aplikácia, vidíte tu, prvá, našou vysoko výkonnou analytikou SAS. To bude - používam veľa našich existujúcich technológií a platforiem, ako je Enterprise Miner alebo len SAS, a nielen robím multithreading s niektorými z tých algoritmov, ktoré sme zabudovali do tých nástrojov, ktoré sme urobili pre rokov, ale tiež ich masívne paralelizovať. Takže presun údajov z tejto veľkej dátovej platformy do pamäťového priestoru na tento analytický server LASR, aby sme mohli vykonávať analytické algoritmy - viete, veľa nového strojového učenia, neurónových sietí, náhodných regresií lesov, týchto druhov veci - opäť údaje uložené v pamäti. Takže, ako sa zbaviť toho istého úzkeho miesta paradigmy MapReduce, kde sa dostávame k týmto platformám, nie je to spôsob, ako chcete vykonávať analytickú prácu. Chceme teda dokázať údaje vyzdvihnúť jedenkrát do pamäťového priestoru a opakovať ich, viete, niekedy tisíckrát. Ide o koncepciu použitia tohto vysokovýkonného analytického servera LASR.

My tiež - ďalšie aplikácie pod ňou, vizuálna analýza, ktorá nám umožňuje vytrvať tieto údaje v pamäti a obslúžiť väčšiu populáciu na rovnakých údajoch. Umožniť ľuďom skúmanie veľkých dát. Predtým, ako začneme pracovať na vývoji našich modelov, skúmame údaje, porozumieme im, prevádzame korelácie, robíme predpovede alebo trendujeme rozhodovacie stromy - tieto veci -, ale veľmi vizuálnym a interaktívnym spôsobom na údajoch, ktoré sú uložené v pamäti. plošina. To tiež slúži našej komunite BI, pokiaľ má veľmi širokú základňu používateľov, ktorí môžu zasiahnuť túto platformu, aby robili štandardné druhy nahrávania, ktoré by ste videli - čo je skoro všetko, čo viete, predajca BI.

V ďalšom kroku sa presunieme do služby. A pomôcť našim štatistikom a analytikom, aby boli schopní robiť tento druh ad hoc modelovania s údajmi uloženými v pamäti, odstránenými z vizuálnej analýzy a prieskumu do našej vizuálnej štatistickej aplikácie. Je to príležitosť pre ľudí, aby nebrali štatistiku v dávkach, ktoré sa používali na opakovanie, spustili modely, videli výsledky. Tak, že to môže spustiť model, pozri výsledky. To je vizuálne pretiahnuť do interaktívneho štatistického modelovania. Toto slúži našim štatistikom a našim vedcom údajov, aby vykonali veľa včasnej prieskumnej vizuálnej štatistickej práce.

A potom sme nezabudli na našich kódovačov - ľudia, ktorí to naozaj chcú mať, byť schopní odlupovať vrstvy rozhrania naproti, písať aplikácie a písať svoju vlastnú kódovú základňu v SAS. A to je naša štatistika v pamäti pre Hadoop. A to je v podstate kódová vrstva, ktorá nám umožňovala interakciu s týmto analytickým serverom LASR na priame vydávanie príkazov a prispôsobovanie týchto aplikácií na základe našej žiadosti. To je analytický kúsok.

Ako sa tieto veci nastavia ... Ľutujeme, ale je mi to ľúto. Tam ideme.

Existuje skutočne niekoľko spôsobov, ako to robíme. Jedným z nich je urobiť to s veľkými údajmi - v tomto prípade s Hadoopom. A tu máme analytický server SAS LASR spustený v samostatnom zoskupení počítačov, ktoré sú optimalizované pre tvrdú analytiku. Toto je usporiadané pekne a blízko k veľkej dátovej platforme, čo nám umožňuje merať ju oddelene od veľkej dátovej platformy. Vidíme teda ľudí, ako to robia, keď nechcú, aby sa niečo, čo charakterizujem, ako upírsky softvér jedol na každom z uzlov v ich klastri Hadoop. A nemusia nevyhnutne škálovať takú veľkú dátovú platformu, ktorá je vhodná na vykonávanie analytických analýz v pamäti. Možno budete mať 120 uzlov ich klastra Hadoop, ale môžu mať 16 uzlov analytických serverov, ktoré sú navrhnuté tak, aby vykonávali takúto prácu.

Stále si môžeme dovoliť zachovať tento paralelizmus z veľkej dátovej platformy, aby sa údaje preniesli do pamäte. Takže je to skutočne SAS s platformou Hadoop. Odlišný model vymenovania potom znamená, že môžeme použiť aj túto komoditnú platformu a stlačiť ju - v podstate spustiť analytický server LASR na platformách Hadoop. To je miesto, kde sme ... pracujete vnútri veľkej dátovej platformy. To je tiež niekoľko našich ďalších predajcov zariadení. To nám teda umožnilo v podstate túto komoditnú platformu použiť na túto prácu.

Vidíme, že častejšie s vecami, ako je vysoko výkonná analytika, kde ide o analytický chod na jedno použitie alebo na jedno použitie, viac na dávkovú orientáciu tam, kde ste - nechcete nevyhnutne zaberať miesto v pamäti Hadoop plošina. V tomto modeli nasadenia sme veľmi flexibilní. V mnohých prípadoch určite spolupracujeme so spoločnosťou YARN, aby sme sa uistili, že hráme pekné klastre.

Dobre, takže je to analytický svet, aby sme si boli istí analytickou aplikáciou. Spomenul som však, že SAS je na samom začiatku tiež platformou na správu údajov. A tam, kde je to vhodné, je vhodné posunúť logiku na túto platformu. Existuje teda niekoľko spôsobov, ako to robíme. Jeden je vo svete integrácie údajov. Vykonávanie práce na transformácii údajov nemusí mať zmysel vytiahnuť ich späť, ako sme už počuli, spustením rutín kvality údajov, ktoré sú veľké. Chceme definitívne tlačiť veci, ako sú rutiny kvality údajov, na túto platformu. A potom veci ako hodnotenie modelu. Mám teda vyvinutý svoj model. Nechcem prepísať túto vec v MapReduce a sťažiť a časovo náročné pre mňa opakovať prácu v natívnej databázovej platforme.

Takže, ak sa pozriete napríklad na náš urýchľovač bodovania pre Hadoop, ktorý nám umožňuje v zásade vziať model a posunúť matematickú logiku SAS nadol na túto platformu Hadoop a spustiť ju tam pomocou paralelizmu, ktorý je vnútri tejto veľkej dátovej platformy. Potom máme náš akcelerátor kódu pre rôzne platformy vrátane Hadoop, a to nám umožňuje v podstate spustiť kódový krok údajov SAS vo vnútri platformy masívnym paralelným spôsobom - takže na platforme robíme rôzne práce na transformácii údajov. A potom náš urýchľovač kvality údajov SAS, ktorý nám umožňuje mať k dispozícii kvalitnú vedomostnú základňu, ktorá môže robiť veci, ako je porovnávanie pohlaví, štandardizačný porovnávací kód - to sú rôzne veci, ktoré ste už dnes počuli.

A potom, posledný kus, je tu Data Loader. Vieme, že naši obchodní používatelia budú musieť byť schopní napísať kód, robiť transformáciu dát v týchto veľkých dátových platformách. Data Loader je pekné WYSIWYG GUI, ktoré nám umožňuje zabaliť tieto ďalšie technológie dohromady. Je to ako sprievodca, ktorý povie napríklad spustiť dotaz úľa alebo spustiť rutinu kvality údajov a v takom prípade nemusí písať kód.

Posledná vec, ktorú spomeniem, je táto predná časť. Ako som už spomenul, máme na svete obrovskú pôdu SAS. A toto, nemôžeme nevyhnutne urobiť všetky tie platformy, ktoré sú tam, aby boli okamžite v tomto priestore. Určite máme už existujúcu skupinu používateľov, ktorí potrebujú získať údaje v týchto veľkých dátových platformách, ako je napríklad získanie údajov z Teradaty a ich vloženie späť do Hadoopu a naopak. Po spustení modelov už viem, ako bežať na svojich serveroch SAS, ale potrebujem získať údaje, ktoré sú teraz umiestnené na platforme Hadoop. Existuje teda ďalšia malá ikona, ktorá sa nazýva „od“ a ktorá nám umožňuje pripojenie pomocou našich prístupových motorov SAS - prístupových motorov k Hadoopu, Cloudera v Pola, Teradata, k Greenplum k ... A zoznam pokračuje. To nám umožňuje využívať naše existujúce zrelé platformy SAS, ktoré už existujú, na získavanie údajov z týchto platforiem, na prácu, ktorú musíme urobiť, a tlačenie výsledkov späť do týchto oblastí.

Poslednú vec, ktorú spomeniem, je, že všetky tieto technológie, ktoré vidíte, sa riadia rovnakými štandardnými bežnými metadátami. Takže hovoríme o tom, ako sa transformačná práca, pravidlo kvality údajov v práci, presunie do pamäte, aby bolo možné vykonávať analýzu, vývoj modelov v bodovaní. Máme tu celý analytický životný štýl, ktorého životný cyklus sa riadi spoločnými metaúdajmi, správou, bezpečnosťou a všetkými vecami, o ktorých sme dnes hovorili.

Takže, len rekapitulácia, sú tam naozaj tie tri veľké veci, ktoré sa tam dajú vziať. Jedným z nich je, že s dátovou platformou môžeme zaobchádzať rovnako ako s akýmkoľvek iným zdrojom údajov, odtiahnutím od nich a tlačením k nim, keď je to vhodné a pohodlné. Môžeme pracovať s tými veľkými dátovými platformami a zaznamenávať údaje do účelovej pokročilej analytickej platformy v pamäti. Toto je server LASR.

A nakoniec, môžeme pracovať priamo v týchto veľkých dátových platformách a využívať ich schopnosti distribučného spracovania bez toho, aby sa údaje pohybovali.

Eric: No, to sú fantastické veci, ľudia. Áno, je to skvelé! Poďme sa teda venovať niekoľkým otázkam. Na tieto udalosti zvyčajne ideme asi 70 minút alebo o niečo dlhšie. Takže vidím, že tu stále máme veľké publikum. George, myslím, že ti dám prvú otázku. Ak hovoríte o tlačení binárneho zvuku do systému Hadoop, myslím si, že to znie pre mňa, akoby ste skutočne optimalizovali výpočtový pracovný tok. A to je celý kľúč k tomu, aby ste mohli robiť tieto druhy riadenia údajov v reálnom čase, dosiahnuté štýly kvality údajov, pretože to je hodnota, ktorú chcete získať, však? Ak sa nechcete vrátiť do starého sveta MDM, kde je to veľmi ťažkopádne a časovo náročné, a naozaj musíte ľudí prinútiť, aby konali určitými spôsobmi, ktoré takmer nikdy nefungujú. A tak ste urobili to, že ste skrátili cyklus toho, čo bolo. Nazvime to dni, týždne, niekedy dokonca mesiace až sekundy, však? Čo sa to deje?

George: Presne tak, pretože miera, ktorú dostaneme a výkon, ktorý dostaneme zo zoskupenia, je skutočne ohromujúca z hľadiska, len, viete, vždy trochu váham s referenčnými hodnotami. Ale len pre rádovo veľkosť, keď by sme spustili miliardu, 1,2 miliardy záznamov a urobili úplnú štandardizáciu adresy - hovorím stroj HP strednej triedy - vyžadovalo by to, ako viete, osem procesorových strojov, viete , 2 koncerty pamäte RAM na jadro, spustenie by trvalo 20 hodín. Môžeme to urobiť asi za osem minút v klastri s 12 uzlami, viete. Rozsah spracovania, ktorý teraz môžeme urobiť, je tak dramaticky odlišný, že - a ide celkom dobre o myšlienku, že máte všetky tieto údaje k dispozícii. Nie je tak riskantné robiť spracovanie. Ak ste to urobili zle, môžete to zopakovať. Máte čas, viete. Skutočne sa to zmenilo, ak viete, tieto druhy rizík sa pre ľudí stali skutočnými obchodnými problémami, keď sa snažili prevádzkovať riešenia MDM. Musíte mať 30 ľudí na mori, ktorí spravujú údaje a všetko. A ešte niečo musíte mať, ale rýchlosť a rozsah, v akom ich teraz môžete spracovať, vám skutočne poskytuje oveľa viac dýchacieho priestoru.

Eric: Áno, to je skutočne, naozaj dobrá vec. Milujem tento komentár. Takže máte čas to znova zopakovať. To je fantastické.

George: Áno.

Eric: No, mení to dynamiku, však? Mení to, ako si myslíte o tom, čo chcete vyskúšať. Myslím si, že si to pamätám pred 18 rokmi v priemysle pôsobenia špeciálnych efektov, pretože som mal v tom priestore klienta. A stlačením tlačidiel by ste ju vykreslili a šli by ste domov. A možno by ste sa vrátili, možno v sobotu popoludní, aby ste videli, ako to chodilo. Ale ak ste to zle, bolo to veľmi, veľmi, veľmi bolestivé. A teraz to nie je skoro - nie je to ani tak bolestivé, takže máte možnosť vyskúšať viac vecí. Musím povedať, že si myslím, že je to naozaj, naozaj dobrá vec.

George: Presne tak. Áno, a vy si vyhodíte ďalšiu nohu. Viete, za starých čias máte prácu na polceste a zlyhá, vyfúkli ste SOS. To je všetko.

Eric: Správne. A máte veľké problémy, áno. To je správne.

George: Správne. To je správne.

Eric: Keith, dovoľte mi, aby som vám jednu hodil. Pamätám si, že robím rozhovor s vašim CIL, Keithom Collinsom, myslím, že v roku 2011 asi. A veľa hovoril o smerovaní, ktorým sa SAS uberá konkrétne v súvislosti so spoluprácou so zákazníkmi pri zavádzaní analytických údajov získaných zo SAS do operačných systémov. A samozrejme, počuli sme Mika Fergusona hovoriť o dôležitosti zapamätania. Celá myšlienka je, že chcete byť schopní spojiť tieto veci so svojimi operáciami. Nechcete analýzu vo vákuu, odpojenú od podniku. To vôbec nemá hodnotu.

Ak chcete analýzu, ktorá môže priamo ovplyvniť a optimalizovať operácie. A keď sa obzriem späť - a musím povedať, vtedy som si myslel, že je to dobrý nápad - v spätnom pohľade to vyzerá ako skutočne, skutočne šikovný nápad. A myslím, že je to skutočná výhoda, ktorú máte. A samozrejme, toto veľké dedičstvo, táto veľká základňa inštalácie a skutočnosť, že ste sa zamerali na vloženie týchto analytických údajov do operačných systémov, čo teraz znamená - a je samozrejmé, že to bude nejako fungovať - som si istý, že “ Pracoval som na tom dosť tvrdo. Teraz však môžete využiť všetky tieto nové inovácie a sú skutočne v zmysle toho, že dokážete všetky tieto veci uviesť do prevádzky so svojimi zákazníkmi. Je to spravodlivé hodnotenie?

Keith: Áno, úplne. Koncepcia je, že získate predstavu o návrhu rozhodnutia alebo o rozhodovacích vedách, čo je, ako viete, do určitej miery prieskumné, vedecké veci. Ak nedokážete urobiť proces skutočne tak ... Ak uvažujete o vývoji automobilu, máte dizajnérov, ktorí robia toto krásne auto, ale až kým inžinieri nezavedú tento plán na miesto a nevyrobia skutočne životaschopný produkt pred vami. môžu veci skutočne implementovať a to je v podstate to, čo SAS urobila. Spojila rozhodnutia - proces rozhodovania s procesom rozhodovania, takže keď hovoríte o urýchľovačoch, konkrétne o urýchľovačoch skóre, viete, že ak vezmete model, ktorý ste vyvinuli, a budete ho schopný vytlačiť do Teradata, alebo ho vytlačiť do Oracle alebo Hadoop s nulovými prestojmi na vývoj modelov, na modelovanie nasadenia. To je kľúčové, pretože modely sa časom zhoršujú, presnosť týchto modelov. Čím dlhšie teda budete potrebovať, aby ste to vzali a uviedli do výroby, to je strata presnosti modelu.

A potom, druhá časť je, že chcete byť schopní monitorovať a riadiť tento proces v priebehu času. Ak chcete starnúť a zastarať modely, ktoré chcete zastarať. Chcete sa na to pozrieť, skontrolovať ich presnosť v priebehu času a znovu ich vybudovať. Preto máme k dispozícii aj nástroje na správu modelov, ktoré tiež sledujú metadáta okolo modelového procesu. A ľudia hovorili, že modelovanie, ako viete, je tento koncept ako modelárna továreň alebo čokoľvek, čo chcete nazvať. Ide o to, že zavádzajú metadáta a správu a práve tu zasiahli tri veľké veci - pomáhame ľuďom zarobiť peniaze, ušetriť peniaze a držať ich mimo väzenia.

Eric: Ten posledný je tiež dosť veľký. Chcem sa tomu všetkému vyhnúť. Poďme teda hovoriť ...Dávam ešte jednu poslednú otázku, možno na tom môžete obaja skákať. Zdá sa mi, že heterogenita nášho sveta sa iba zvýši. Myslím, že určite uvidíme určitú kryštalizáciu okolo hybridných cloudových prostredí. Ale napriek tomu sa budete stretávať s mnohými hlavnými hráčmi. IBM nikam nevedie. Oracle nejde nikam. SAP nikam nevedie. A je toľko ďalších predajcov, ktorí sú zapojení do tejto hry.

Na prevádzkovej strane, kde máte doslova tisíce a tisíce rôznych druhov aplikácií. A počul som - väčšina z vás o tom hovorí, ale myslím si, že by ste súhlasili s tým, čo som povedal. Tento trend sme už videli z hľadiska výpočtovej sily v analytických motoroch, architektúre. Spoločnosti už roky hovoria o tom, že sa môžu zapojiť do ostatných motorov a obsluhovať určitý druh orchestračného miesta. A myslím, Georgi, najprv ti to dám. Zdá sa mi, že sa niečo nezmení. Budeme mať toto heterogénne prostredie, čo znamená, že existujú veci ako CRM v reálnom čase a kvalita údajov a správa údajov. Ako dodávateľ budete musieť prepojiť všetky tieto rôzne nástroje. A to je to, čo zákazníci chcú. S týmito nástrojmi nebudú chcieť niečo, čo je v poriadku, a s týmito nástrojmi nie je v poriadku. Chcú Švajčiarsko MDM a CRM, správne?

George: Správne. A je to zaujímavé, pretože sme sa toho veľmi chopili. Súčasťou je aj história, ktorú sme mali v priestore. A samozrejme, už sme pracovali na všetkých ostatných databázach, Teradatách a kúskoch sveta. A potom urobili - v implementačnom procese, presne tak, ako sme to urobili, len tak, aby to bolo -, že toto rozpätie sa nachádza vo všetkých týchto rôznych databázach. Jednou z vecí, ktoré mi pripadajú zaujímavé, je, že máme niektorých klientov, ktorí sa len snažia eliminovať všetky relačné databázy. A to je zaujímavé. Vieš, myslím, že je v poriadku. Je to zaujímavé. Ale ja to jednoducho nevidím vo veľkom meradle. Nevidím to tak dlho. Takže si myslím, že hybrid je tu už dosť dlho a na druhej strane našej aplikácie, kde máme našu platformu na zasielanie správ v našej platforme na správu kampaní. Vlastne sme to špeciálne navrhli. Teraz sme vydali verziu, ktorá to robí a ktorá sa teraz môže pripojiť k hybridnému dátovému prostrediu a spýtať sa na spoločnosť Hadoop alebo dotazovať akúkoľvek databázu, akúkoľvek analytickú databázu. Takže si myslím, že je to len vlna budúcnosti. A súhlasím s tým, že virtualizácia v tom určite bude hrať veľkú úlohu, ale my sme len - ideme priamo k údajom o všetkých našich aplikáciách.

Eric: Dobre, skvelé. A Keith, dám ti to. Čo si myslíte o heterogénnom svete, ktorému čelíme, keď konáme ako noha?

Keith: Áno, je to naozaj fascinujúce. Myslím, že to, čo nájdeme viac - nielen na strane správy údajov -, ale to, čo je teraz fascinujúce, je otvorená povaha analytickej základne. Vidíme teda organizácie ako alebo technológie ako Spark, ktoré prichádzajú na palubu, a ľudí používajúcich Python a R a všetky tieto otvorené technológie. Myslím si, že by sa to mohlo interpretovať ako určitý konflikt alebo hrozba. Realita je taká, že máme všetky skutočne úžasné komplimenty so všetkými týmito open-source technológiami. Myslím tým napríklad, že pracujeme na horných platformách s otvoreným zdrojom, pre dobro Boha.

Ale rovnako ako napríklad možnosť integrácie modelu R do modelu paradigmy SAS vám umožňuje používať to najlepšie z oboch svetov, však? Podobne vieme, že niektoré experimentálne veci v akademickom svete a niektoré práce na vývoji modelu sú v procese vývoja modelu mimoriadne a veľmi užitočné. Ale tiež, ak by ste to mohli spárovať s nástrojom triedy výroby, robí veľa čistenia a kvality a kontroluje a zaisťuje, že údaje odovzdávané do modelu sú správne pripravené, aby nedošlo k zlyhaniu pri vykonávaní. A potom, schopnosť robiť veci, ako sú modely majstrov s otvorenými zdrojmi. Toto sú veci, ktoré sa chystáme umožniť, a ako súčasť tohto skutočne heterogénneho ekosystému všetkých týchto technológií. Áno, takže je to viac - pre nás je to skôr o osvojení si týchto technológií a hľadaní komplimentov.

Eric: No, toto boli fantastické veci, ľudia. Chodili sme tu trochu dlho, ale radi by sme sa dostali k čo najväčšiemu počtu otázok. Dnes odovzdáme súbor otázok a odpovedí našim moderátorom. Ak teda na žiadnu otázku neodpovedáte, zaistíme, aby bola zodpovedaná. A ľudia, toto to zabalí na rok 2014. S pozdravom zajtra a budúceho týždňa v DM Radio, potom je všetko hotové a je to prázdninová prestávka.

Ďakujem vám všetkým za čas a pozornosť, za dodržanie všetkých týchto úžasných webových vysielaní. Na rok 2015 máme usporiadaný veľký rok. A čoskoro sa s vami rozprávame, ľudia. Ešte raz ďakujem. Postaráme sa o to. Bye-bye.