Môže byť niekedy veľké množstvo údajov?

Obsah

Q:

A:

Odpoveď na otázku je jednoznačným ÁNO. Vo veľkom dátovom projekte môže byť absolútne veľa údajov.

Existuje mnoho spôsobov, ako sa to môže stať, a rôzne dôvody, prečo odborníci musia obmedzovať a upravovať údaje rôznymi spôsobmi, aby dosiahli správne výsledky. (Prečítajte si 10 veľkých mýtov o veľkých údajoch.)

Všeobecne platí, že odborníci hovoria o odlíšení "signálu" od "šumu" v modeli. Inými slovami, v mori veľkých údajov je ťažké zamerať sa na príslušné údaje o štatistikách. V niektorých prípadoch hľadáte ihlu v kupce sena.

Predpokladajme napríklad, že spoločnosť sa snaží použiť veľké údaje na vytvorenie konkrétnych prehľadov o segmente zákazníckej základne a ich nákupoch v konkrétnom časovom rámci. (Prečítajte si, čo robia veľké údaje?)

Prevzatie obrovského množstva dátových aktív môže mať za následok príjem náhodných údajov, ktoré nie sú relevantné, alebo to môže dokonca viesť k zaujatosti, ktorá skresľuje údaje v jednom alebo druhom smere.

Taktiež to dramaticky spomaľuje proces, pretože počítačové systémy sa musia zápasiť s väčšími a väčšími súbormi údajov.

V mnohých rôznych druhoch projektov je veľmi dôležité, aby dátoví inžinieri spravovali údaje na obmedzené a špecifické súbory údajov - v prípade uvedenom vyššie by to boli len údaje pre tento skúmaný segment zákazníkov, iba údaje za ten čas. skúmaný rámec a prístup, ktorý vylučuje ďalšie identifikátory alebo základné informácie, ktoré môžu zameniť veci alebo spomaliť systémy. (ReadJob Role: Data Engineer.)

Viac sa pozrime na to, ako to funguje na hranici strojového učenia. (Prečítajte si strojové učenie 101.)

Odborníci na strojové učenie hovoria o niečom, čo sa nazýva „nadmerné osadenie“, keď príliš zložitý model vedie k menej efektívnym výsledkom, keď sa program strojového učenia stáva novým výrobným údajom voľným.

Overfitting nastane, keď komplexná množina dátových bodov vyhovuje počiatočnej tréningovej množine príliš dobre a neumožňuje programu ľahko sa prispôsobiť novým údajom.

V súčasnosti nie je nadmerné prispôsobenie technicky spôsobené existenciou príliš veľkého množstva vzoriek údajov, ale korunovaním príliš veľkého množstva údajových bodov. Dalo by sa však tvrdiť, že príliš veľa údajov môže tiež prispieť k tomuto problému. Zaobchádzanie s prekliatím dimenzie zahŕňa niektoré z tých istých techník, aké sa robili v skorších veľkých dátových projektoch, keď sa odborníci snažili určiť, čo napájajú IT systémy.

Pointa je, že veľké údaje môžu byť pre spoločnosti nesmierne užitočné alebo sa môžu stať veľkou výzvou. Jedným z aspektov tohto je to, či má spoločnosť správne údaje. Odborníci vedia, že nie je vhodné jednoducho vypustiť všetky dátové aktíva do zásobníka a prísť s takýmito poznatkami - v nových cloudových a sofistikovaných dátových systémoch sa usiluje o kontrolu a správu a správu údajov s cieľom získať presnejšie a efektívne využitie dátových aktív.