Ako veľké dáta klesajú

Autor: Judy Howell
Dátum Stvorenia: 28 V Júli 2021
Dátum Aktualizácie: 12 Smieť 2024
Anonim
Ako veľké dáta klesajú - Technológie
Ako veľké dáta klesajú - Technológie

Obsah


Zobrať:

Ako zbierať a analyzovať veľké údaje je iba jednou stranou rovnice; druhým je spôsob, ako tomu rozumieť.

4. októbra 2012 Mark Zuckerberg oznámil, že dosiahol zásadný míľnik: 1 miliarda aktívnych používateľov. Aby to uzavrel, povedal anketárovi, že jediné ďalšie spoločnosti s miliardou zákazníkov boli „pravdepodobne Coca Cola a McDonalds“.

Toto je iba jeden z príkladov veľmi veľkého počtu, s ktorými sa podniky v súčasnosti musia zaoberať. Čísla také veľké, že väčšina ľudí ich nemôže okolo seba chytiť. Čo sa stane, je to, že sa tieto čísla stanú abstrakciami. Sú tak veľké, jednoducho pre nás nie sú skutočné.

Pridajte k tomu skutočnosť, že každý deň spracúvame a ukladáme čoraz viac informácií a je nám takmer nemožné zaoberať sa množstvom údajov, ako aj veľkosťou jednotlivých hodnôt. Spoločnosť Google spracováva približne 24 petabajtov za deň, zatiaľ čo videohra „World of Warcraft“ využíva na udržanie svojej hry 1,3 petabajtov úložného priestoru.


Teraz sú to veľké čísla. Problémom potom nie je len to, ako sa vysporiadať s takým obrovským množstvom údajov, ale aj to, ako im porozumieť. Našťastie v týchto oblastiach prichádza pomoc z rôznych smerov. (Získajte základné informácie o tom, ako sa veľké údaje používajú v tejto infographic, Humanizácia veľkých údajov.)

Ako sa Datas zmenšuje

V posledných niekoľkých rokoch otec World Wide Web, Sir Tim Berners-Lee, aktívne vedie kampaň za otvorené údaje, ktoré sú definované ako údaje, ktoré sú k dispozícii každému na preskúmanie a analýzu. Vo videu TED uvádza Berners-Lee príklady toho, ako prístup k údajom viedol k odhaleniu rasizmu v Ohiu a pomohol poskytnúť toľko potrebnú zdravotnú starostlivosť utečeneckým táborom na Haiti.Je zrejmé, že ide o aplikácie, v ktorých sa údaje presunuli z abstrakcie do reality.


Asi najznámejším vývojárom metód prezentácie štatistických údajov v zrozumiteľnej grafike je Hans Rosling. Jeho program Gapminder, softvér, ktorý prevádza medzinárodné štatistiky na pohyblivú interaktívnu grafiku, je k dispozícii na stiahnutie na všetkých druhoch osobných počítačov. (Nájdete tu niekoľko vynikajúcich príkladov, ako sa používa v tomto rozhovore TED. Vývoj Gapminderu sa diskutuje pri ďalšom rozhovore.) Zabudnite na koláčové grafy: Tento softvér predstavuje štatistiku nielen spôsobom, ktorý dáva zmysel, ale vytvára dojem. , Z knižných štatistík nikdy nedostanete husi buchty, ale tieto grafické balíčky sú dosť silné na to, aby vám vyhodili hlavu.

Zatiaľ čo Rosling je profesor, ktorý sa dobre orientuje v štatistike, David McCandless je novinár, ktorý sa len nedávno začal zaujímať o návrh metód prezentácie analýzy údajov spôsobom, ktorý skutočne informuje. Jeho prednáška o TED predstavuje príklady vizualizácie údajov rôznych štúdií, ako sú spoločenské obavy z videohier, účinnosť doplnkov vitamínov a romantické rozpady podľa ročných období a mesiacov. Pre spoločnosť McCandless predstavujú údaje jedinečný nový smer v žurnalistike a spôsob, ako preskúmať tému a poskytnúť pohľad spôsobom, ktorý predtým nebol možný. (Môžete si pozrieť niekoľko skutočne úžasných príkladov, ako sa to uplatňuje v Príručke žurnalistiky údajov.)

Chris Jordan má iný prístup. Na rozdiel od Roslinga a McCandlessa Jordánsko čerpá zo svojho zázemia umelca, aby prezentoval informácie o témach, ako sú úmrtia z dôvodu fajčenia, uväznenia vo väzení, závislosť od liekov na predpis a ďalšie dôležité problémy tak, aby boli krásne a silné. Jeho informácie - alebo údaje - ako umenie a, v prípade Jordans, nejaký dosť silný politický komentár. (Môžete tu skontrolovať prácu Jordans.)

Žiadne chyby, žiadny stres - Váš sprievodca krok za krokom k vytvoreniu softvéru na zmenu života bez zničenia vášho života

Svoje programovacie schopnosti si nemôžete vylepšiť, keď sa nikto nestará o kvalitu softvéru.

Jordan, Rosling a McCandless sú len traja z mnohých ľudí, ktorí sa pokúšajú zmysluplne využívať veľké údaje, ktoré v súčasnosti existujú na svete, ale táto skupina priekopníkov v oblasti veľkých dát rastie.

Obchodné praktiky

Skôr ako zmeníme údaje na niečo užitočné, musíme si to najprv uvedomiť. Musia sa vytvoriť nástroje na pochopenie obrovského rozšírenia faktov a údajov, ktoré každý rok generujú vedci, akademici a podniky. Štúdia IDC sponzorovaná EMC v roku 2011 ukázala, že údaje sa neustále zdvojnásobujú a zakaždým trvá menej ako dva roky. Štúdia ďalej uviedla, že v roku 2011 sa vytvorí a replikuje kolosálny 1,8 zettabytov.

Zettabyte?

Áno, to je 1 000 exabajtov a exabyte je 1 000 petabytov (na čo si možno pamätáte, je 1 000 terabajtov, čo je zase 1 000 gigabajtov).

Teraz existuje číslo, ktoré je ťažké dať okolo seba! Štúdia EMC sa snaží uviesť túto skutočnosť do úvahy poskytnutím niekoľkých zaujímavých príkladov toho, čo 1,8 zettabytov zodpovedá:

  • Každý človek v Spojených štátoch tweeting tri tweety za minútu po dobu 26,976 rokov nonstop
  • Každý človek na svete má denne vyše 215 miliónov snímok MRI s vysokým rozlíšením
  • Viac ako 200 miliárd filmov HD (každé dve hodiny). Sledovanie každého filmu by trvalo 47 miliónov rokov, ak by sledoval celý deň každý deň.
  • Množstvo informácií potrebných na naplnenie 57,5 ​​miliárd 32 GB Apple iPad.

S takým množstvom iPadov by sme mohli:

  • Vytvorte múr iPad s dĺžkou 4 005 míľ a výškou 61 metrov, siahajúcu od Anchorage na Aljaške po Miami na Floride.
  • Zostavte Veľkú čínsku stenu iPadu. (Bolo by to dvojnásobok priemernej výšky originálu.)
  • Postavte okolo 20 metrov vysokú stenu okolo Južnej Ameriky
  • Pokrývajte 86 percent mesta Mexico City
  • Vybudujte horu 25-krát vyššiu ako Mt. Fuji

Aby sme tieto údaje mohli urobiť užitočnými - aby sme ich mohli transformovať na užitočné informácie, potrebujeme nielen aplikácie a „mashupy“ - uzavrieť manželstvo so službami, ako sú titulky aplikácie Google Earth a New York Times International alebo NYC Restaurant Guide s NYC Health Dept Hodnotenia - ale aj veľmi výkonné nástroje na filtrovanie, triedenie a analýzu veľkého množstva údajov s cieľom poskytnúť informácie potrebné pre rozhodovanie, vedecké štúdie a zložitú analýzu. IBM vyvinula také nástroje, ktoré spoločne nazýva Smarter Analytics, na použitie v spojení so svojimi veľkými dátovými a cloudovými službami. Zhromažďuje softvérové, hardvérové ​​a konzultačné služby, aby sa pokúsila poskytnúť informačnú platformu, na ktorej sa dajú robiť obchodné a vedecké rozhodnutia. Spoločnosti Hewlett-Packard, Oracle a mnoho ďalších IT spoločností oslovujú klientov aj produktmi, aby sa pokúsili efektívne vyriešiť tento problém s informáciami.

Veľké dáta, veľký potenciál

Aby sme si uvedomili potenciál tohto nového dátového veku, potrebujeme oveľa viac systémov a aplikácií. Potrebujeme odborníkov v oblasti IT so vzdelaním a zručnosťami v 21. storočí. Potrebujeme odborníkov na aplikácie, ktorí skutočne chápu fungovanie a potreby podnikov, priemyslu, vládnych agentúr, armády, podnikateľov a výskumných pracovníkov. Potrebujeme tiež pokojných a zrelých analytikov, ktorí budú spochybňovať úsudky vykonané na základe analýzy údajov. Bude ľahké byť ohromení výkonnými počítačovými nástrojmi, ktoré pracujú „kúzlo“ na množstve údajov. Zdravý rozum musí vždy prevládať alebo prinajmenšom vyžadovať prepracovanie údajov.

Už vieme, že potenciál pre veľké dáta je neobmedzený, ale aj kapacita pre chyby. Z tohto dôvodu môžu byť nástroje, ktoré sú navrhnuté tak, aby mali zmysel pre všetky tieto informácie, kľúčom k omotávaniu našich zbraní okolo problému veľkých dát.