Aké sú kľúčové spôsoby automatizácie a optimalizácie procesov vedy o údajoch? googletag.cmd.push (function () {googletag.display (div-gpt-ad-1562928221186-0);}); Q:

Obsah

Q:

Aké sú kľúčové spôsoby automatizácie a optimalizácie procesov vedy o údajoch?

A:

Procesy vedy o údajoch v kontexte strojového učenia a umelej inteligencie sa dajú rozdeliť do štyroch rôznych fáz:

získavanie a prieskum údajov,
modelovanie budov,
- nasadenie modelu a -
online hodnotenie a vylepšovanie.

Podľa mojich skúseností sú najviac prekážajúcimi fázami získavanie údajov a zavádzanie modelov v ktoromkoľvek strojovom procese založenom na vedeckých poznatkoch a tu sú dva spôsoby, ako ich optimalizovať:

1. Zriadiť vysoko prístupný databázu údajov.

Vo väčšine organizácií sa údaje neukladajú na jednom centrálnom mieste. Zoberme si iba informácie týkajúce sa zákazníkov. Máte kontaktné informácie o zákazníkoch, zákaznícku podporu, spätnú väzbu od zákazníkov a históriu prehliadania zákazníkov, ak je vaša firma webovou aplikáciou. Všetky tieto údaje sú prirodzene rozptýlené, pretože slúžia na rôzne účely. Môžu byť umiestnené v rôznych databázach a niektoré môžu byť úplne štruktúrované a iné neštruktúrované a dokonca môžu byť uložené ako obyčajné súbory.

Bohužiaľ, rozptýlenie týchto súborov údajov je veľmi obmedzené na prácu s údajmi, pretože základom všetkých problémov s NLP, strojovým učením a AI je dáta, Takže mať všetky tieto údaje na jednom mieste - dátovom sklade - je rozhodujúce pri zrýchľovaní vývoja a zavádzania modelov. Vzhľadom na to, že ide o zásadný prvok pre všetky procesy vedy o údajoch, organizácie by mali najať kvalifikovaných údajových inžinierov, ktorí im pomôžu pri zostavovaní ich úložísk údajov. To sa môže ľahko začať tým, že sa jednoduché výpisy údajov rozložia na jedno miesto a pomaly sa rozvinú do premysleného úložiska údajov, ktoré je plne zdokumentované a dá sa do frontu pomocou pomocných nástrojov na exportovanie podskupín údajov do rôznych formátov na rôzne účely.

2. Vystavujte svoje modely ako službu pre bezproblémovú integráciu.

Okrem umožnenia prístupu k údajom je tiež dôležité, aby bolo možné do produktu integrovať modely vyvinuté vedcami údajov. Integrácia modelov vyvinutých v Pythone s webovou aplikáciou, ktorá beží na Ruby, môže byť veľmi náročná. Okrem toho môžu mať modely veľa dátových závislostí, ktoré váš produkt nemusí poskytnúť.

Jedným zo spôsobov, ako to vyriešiť, je vytvoriť silnú infraštruktúru okolo vášho modelu a odhaliť len toľko funkcií, ktoré váš produkt potrebuje na to, aby sa model mohol používať ako „webová služba“. Napríklad, ak vaša aplikácia vyžaduje klasifikáciu sentimentu pri recenziách produktov , všetko, čo by malo byť potrebné urobiť, je vyvolať webovú službu, ktorá poskytuje príslušné informácie a služba by vrátila príslušnú klasifikáciu sentimentu, ktorú môže produkt priamo použiť. Týmto spôsobom je integrácia jednoducho vo forme API volania. Oddelenie modelu a produktu, ktorý ho používa, skutočne uľahčuje nové produkty, ktoré prichádzate, používať aj tieto modely s malými problémami.

Teraz je nastavenie infraštruktúry okolo vášho modelu úplne iný príbeh a vyžaduje si od svojich inžinierskych tímov počiatočnú investíciu. Akonáhle bude infraštruktúra k dispozícii, bude to len otázka modelovania tak, aby sa zmestili do infraštruktúry.