Aká je štruktúra vašich údajov? Preskúmanie štruktúrovaných, neštruktúrovaných a pološtrukturovaných údajov

Obsah

Čo sú to štruktúrované údaje?
Čo sú neštruktúrované údaje?
Žiadne chyby, žiadny stres - Váš sprievodca krok za krokom k vytvoreniu softvéru na zmenu života bez zničenia vášho života
Spadajúce medzi: Pološtruktúrované údaje
Môžu sa neštruktúrované údaje transformovať na štruktúrované údaje?

Zdroj: monsitj / iStockphoto

Zobrať:

Získajte informácie o štruktúrovaných, neštruktúrovaných a pološtrukturovaných údajoch.

Historicky boli analytici údajov schopní dešifrovať a extrahovať informácie iba z jedného typu údajov: štruktúrovaných údajov. Tento typ údajov sa dal ľahko prehľadávať z dôvodu jasných vzorcov, ale predstavoval malé percento z celkových dostupných údajov.

Neštruktúrované údaje zahŕňali aj video, audio, a údaje pochádzajúce zo sociálnych médií a mobilných zariadení. Bola to, ruka nadol, najväčšia rezerva nespracovaných informácií, ale nikto nebol schopný spoľahlivo využiť tento zdroj.

Veci sa však zmenili, pretože zvýšená dostupnosť ukladacích priestorov a vynikajúce možnosti spracovania viedli k neštruktúrovanej analýze údajov - novej, a teda nezrelej forme technológie. Lepšia obchodná inteligencia využíva túto príležitosť v plnom rozsahu a vynakladajú sa značné investície na agregáciu štruktúrovaných a neštruktúrovaných analytických údajov s cieľom získať prístup k tomuto zjavne nekonečnému zlatému moru informácií.

Pozrime sa na tieto dva formáty údajov, aby sme pochopili ich rozdiely a to, čo budúcnosť platí pre všetkých analytikov údajov.

Čo sú to štruktúrované údaje?

Štruktúrované údaje sú človekom alebo strojom generované a vysoko organizované informácie, ktoré sa dajú ľahko uložiť do štruktúr databáz riadkov známych ako relačné databázy (RDB). Je to čokoľvek, čo existuje vo formáte, ktorý možno ľahko zachytiť, uložiť a usporiadať do štruktúry RDB, ktorá sa má neskôr analyzovať. (Ak sa chcete dozvedieť viac o databázach, pozrite si náš Úvod do databáz.)

Príklady zahŕňajú PSČ, telefónne čísla a demografické údaje používateľov, ako je vek alebo pohlavie. Údaje nájdené v týchto databázach je možné dotazovať pomocou funkcií Structured Query Language (SQL) alebo VLOOKUP v tabuľkách Excelu. Algoritmy môžu byť tiež urobené na rýchle vyhľadávanie údajov nájdených v rôznych poliach pomocou ich indexov alebo ich číselných a abecedných údajov. Všetky údaje sú však striktne definované z hľadiska typu a názvu poľa a schopnosť ich ukladania, dotazovania a analýzy je preto do istej miery obmedzená.

Medzi typické aplikácie, ktoré používajú štruktúrované údaje, patrí softvér na správu nemocníc, aplikácie na riadenie vzťahov so zákazníkmi (CRM) a rezervačné systémy leteckých spoločností. Štruktúrované údaje sú vďaka svojej elegantnej organizácii a ľahkej dostupnosti užitočné a efektívne pri riešení veľkého množstva informácií. Pri vŕtaní čierneho oleja ukrytého v nekonečnom množstve údajov, ktoré každý deň vytvára ľudstvo, však hľadanie štruktúrovaných údajov nie je ničím iným ako poškriabaním povrchu.

Čo sú neštruktúrované údaje?

Prevažná väčšina údajov nájdených v organizácii je neštruktúrovaná a niektorí ju odhadujú až na 80 percent celkových dostupných údajov. Podľa definície sú neštruktúrované údaje všetko, čo nemá identifikovateľnú vnútornú štruktúru. Niektoré typy údajov však patria do tejto kategórie áno nejaká forma nejasnej vnútornej štruktúry, napriek tomu sa nezhoduje s databázou alebo tabuľkou.

Žiadne chyby, žiadny stres - Váš sprievodca krok za krokom k vytvoreniu softvéru na zmenu života bez zničenia vášho života

Svoje programovacie schopnosti si nemôžete vylepšiť, keď sa nikto nestará o kvalitu softvéru.

Väčšina obchodných údajov je neštruktúrovaná, od interakcie so zákazníckymi službami, súborov, webových denníkov, videí a iného multimediálneho obsahu, automatizácie predaja, príspevkov po sociálnych médiách. Nie je potrebné vysvetľovať, aké cenné môžu byť tieto údaje, ak by sa mohli ťažiť, organizovať a analyzovať.

Väčšinu neštruktúrovaných údajov generujú ľudia, a preto je potrebné, aby im ostatní ľudia rozumeli. To znamená, že inteligentnejšia počítačová inteligencia nerozumie tomuto typu informácií, pretože je príliš vzdialená od linearity strojového jazyka a štruktúrovaných databáz.

Spadajúce medzi: Pološtruktúrované údaje

Pološtruktúrované údaje sú tretím typom údajov, ktorý predstavuje omnoho menšiu časť celého koláča (5 - 10 percent). Polostrukturované údaje, ktoré boli doslova zachytené medzi oboma svetmi, obsahujú interné sémantické značky a označenia, ktoré identifikujú samostatné prvky, ale chýba im štruktúra, ktorá sa hodí pre relačnú databázu.

Napríklad sa môžu javiť ako štruktúrované údaje, pretože by sa dali kategorizovať podľa dátumu, veľkosti súboru alebo času. Nie sú to však, pretože najcennejšou informáciou sú skôr nájdené informácie, než ich relatívne jednoduché štítky. nie je možné ich skutočne usporiadať podľa obsahu a témy, pretože ľudia nehovoria takým prísnym spôsobom, aby im stroj jednoznačne porozumel. Medzi ďalšie príklady pološtrukturovaných údajov patria databázy NoSQL, otvorený štandard JSON a značkovací jazyk XML.

Pološtruktúrované údaje sa zvyčajne zisťujú a katalogizujú na analýzu pomocou analýzy metaúdajov. Napríklad röntgenové skenovanie pozostáva z veľkého počtu pixelov, ktoré tvoria obraz - čo sú vo svojej podstate neštruktúrované údaje, ku ktorým nie je možné získať prístup. Skenovaný súbor však bude stále obsahovať časť metadát, ktorá o ňom poskytuje informácie, ako sú anotácie a ID používateľa.

Môžu sa neštruktúrované údaje transformovať na štruktúrované údaje?

Základnou výzvou, ktorej musí čeliť každý analytik údajov, je usporiadať usporiadané informácie úhľadným a usporiadaným spôsobom, aby k nim bolo možné získať prístup a porozumieť im. Nástroje na získavanie údajov zvyčajne nie sú vybavené na analýzu informácií, ktoré sú podľa definície príliš podobné ľudskému jazyku, čo znamená, že ich môže zhromažďovať a kategorizovať iba iný človek.

Samotný objem neštruktúrovaných údajov však spôsobuje, že akýkoľvek pokus o ich uloženie alebo usporiadanie je mimoriadne pracný a nákladný. Súbor informácií pochádzajúcich napríklad z internetového vyhľadávacieho nástroja je tak rozsiahly, že väčšina prvkov vyžaduje obrovské investície, pokiaľ ide o prácu a zdroje, iba aby sa získali tie najzákladnejšie. Dokonca aj najúčinnejšie techniky získavania údajov stále chýbajú značné množstvo informácií, ktoré sa nachádzajú na webe, a čo je horšie, v hĺbke webu.

Techniky však existujú. A vyvíjajú sa úžasnou rýchlosťou. Napríklad metaúdaje by sa mohli použiť na spojenie štruktúrovaných a neštruktúrovaných údajov. Zhromaždené informácie môžu byť filtrované a indexované používateľmi aj algoritmami, aby sa mohli analyzovať iba relevantné údaje. Medzi ďalšie riešenia patrí „wrangling údajov“, čo je proces, prostredníctvom ktorého komplexné údaje postupne organizujú netechnickí používatelia. (Viac informácií o bežných údajoch o spracovaní údajov nájdete v časti Ako veľké údaje môžu pomôcť v samoobslužnej analýze.)

V určitom okamihu budeme schopní efektívne transformovať tieto masívne neorganizované množstvá informácií do organizovanejšieho a reštrukturalizovanejšieho formátu. Možno nie dnes, možno nie zajtra, ale čoskoro budeme môcť prepadnúť najväčšie ľudstvo v trezore, aké kedy bolo: veľké dáta.