4 mýty o začatí projektu strojového učenia

Obsah

Mýtus č. 1: Viac údajov je vždy lepších
Mýtus č. 2: Údaje, ktoré máme, sú dostatočné
Žiadne chyby, žiadny stres - Váš sprievodca krok za krokom k vytvoreniu softvéru na zmenu života bez zničenia vášho života
Mýtus č. 3: Je pre nás príliš skoro!
Mýtus č. 4: Strojové učenie je vždy rovnaké
Mýtus č. 5: Strojové učenie funguje iba pri starostlivo spracovaných údajoch

Zdroj: monsitj / iStockphoto

Zobrať:

Dozviete sa o týchto mýtoch strojového učenia, aby ste sa lepšie orientovali na prijatie do podniku.

Nie je to ľahké brať na ľahkú váhu - začať s projektom strojového učenia môže byť skľučujúci proces pre vedúcich pracovníkov, ktorí chcú využiť tento trend v oblasti IT, ale môžu im chýbať interné vedomosti, aby skutočne pochopili prínosy a príčiny toho, čo stroj robí. vzdelávacie projekty začiarknite.

Tu budeme hovoriť o niektorých základných mylných predstavách, ktoré majú vplyv na to, ako spoločnosti vyvíjajú technológie strojového učenia na rýchlo sa meniacom trhu. (Veda o údajoch je ďalšou oblasťou, ktorú podniky implementujú, ale ako sa líši od ML? Zistite to v Data Science alebo Machine Learning? Heres How to Spot the Difference.)

Mýtus č. 1: Viac údajov je vždy lepších

Toto je skutočne jeden z najväčších mýtov strojového učenia. Ľudia si myslia, že viac údajov znamená väčšiu schopnosť zdokonaliť sa v reakciách na informácie. V niektorých prípadoch majú pravdu, ale častejšie môže byť pravdou opak.

Viac údajov je lepších, iba ak sú to relevantné údaje, ktoré prispievajú k celému obrazu. Dáta musia zodpovedať modelu strojového učenia, alebo program môže trpieť niečím, čo sa nazýva „preplnenie“, keď sa výsledky strojového učenia neobjavia spôsobom, ktorý by mali.

„Príčinou zlého výkonu v strojovom vzdelávaní je buď nadmerné vyplnenie alebo nedostatočné vyplnenie údajov,“ píše Jason Brownlee z Machine Learning Mastery.

V štatistike fit označuje, ako dobre aproximujete cieľovú funkciu. Toto je dobrá terminológia na použitie v strojovom učení, pretože dohliadané algoritmy strojového učenia sa snažia aproximovať neznámu základnú mapovaciu funkciu pre výstupné premenné vzhľadom na vstupné premenné. Štatistiky často opisujú vhodnosť prispôsobenia, ktorá sa vzťahuje na opatrenia použité na odhad, do akej miery sa aproximácia funkcie zhoduje s cieľovou funkciou.

Jednoducho povedané, cudzie údaje môžu spôsobiť vážne problémy. Predtým, ako projekt strojového vzdelávania začne fungovať, musia vedúci pracovníci a iné zainteresované strany brainstorming a zistiť, aké konkrétne typy údajov poskytujú správny základ pre ďalší postup.

Mýtus č. 2: Údaje, ktoré máme, sú dostatočné

Procesy strojového učenia opäť fungujú na veľmi presných údajových modeloch. Údaje nie sú dosť dobré, pokiaľ nie sú jasne zacielené, a nezískali alebo nehodnotili, aby sa zohľadnili veci, ako je zaujatosť a rozptyl.

Žiadne chyby, žiadny stres - Váš sprievodca krok za krokom k vytvoreniu softvéru na zmenu života bez zničenia vášho života

Svoje programovacie schopnosti si nemôžete vylepšiť, keď sa nikto nestará o kvalitu softvéru.

Jedna vec, o ktorej veľa počujete vo svete strojového učenia, je nekontrolovaná zaujatosť. Strojové učenie berie naše ľudské predsudky a zosilňuje ich tým, že prehodí údaje, ktoré program získa do potenciálne extrémnych výsledkov.

To znamená, že údaje musia byť osobitne zacielené, aby nahradili túto tendenciu.

Mýtus č. 3: Je pre nás príliš skoro!

Niektoré spoločnosti sa obávajú, že je príliš skoro na to, aby sa brodili do strojového učenia. Ak však budete hovoriť s mnohými inovátormi a podnikateľmi, povedia, že je najvyšší čas nastúpiť na prízemí.

Kdekoľvek je tento trend v oblasti IT, chcete byť pred krivkou. V čele je najlepšia pozícia. Čakanie na dokončenie všetkého môže stáť firmu z dlhodobého hľadiska. (Ak sa chcete dozvedieť viac dôvodov, prečo firmy zatiaľ nevykonali ML, pozrite si 4 blokovania ostatných reklám, ktoré brzdia prijímanie strojového učenia.)

Mýtus č. 4: Strojové učenie je vždy rovnaké

Určite existuje široké spektrum programov strojového vzdelávania.

Niektoré z nich v podstate utekajú z jedného algoritmu - sú matematicky čitateľné a transparentné. Inžinieri môžu vidieť, ako súvisia údaje s tým, čo vychádza zo systému.

Iné procesy strojového učenia sú oveľa komplikovanejšie a ťažšie pochopiteľné. Neurónové siete zložené z umelých neurónov sa môžu v podstate stať „čiernou skrinkou“, kde dokonca aj najlepší inžinieri majú ťažké údaje o sledovaní systému alebo vysvetľujú, ako algoritmy fungujú.

"Najschopnejšie technológie - menovite hlboké neurónové siete - sú notoricky nepriehľadné a ponúkajú len pár vodítka, ako dospejú k ich záverom," píše Ariel Bleicher z Scientific American, zaoberajúc sa aspektmi tohto základného hádanky.

Nástroje ako sú stavové siete echo berú túto myšlienku čiernej skrinky a bežia s ňou. Tým je ešte ťažšie skutočne zistiť, ako tieto systémy fungujú.

Mýtus č. 5: Strojové učenie funguje iba pri starostlivo spracovaných údajoch

Aj keď vyššie uvedený bod o údajoch o presnosti je stále pravdivý, dva rôzne typy strojového učenia pracujú na zásadne odlišnom základe.

Jeden typ strojového učenia, ktorý sa nazýva supervízované strojové učenie, sa zaoberá označenými údajmi - školiace údaje už majú štítky, ktoré popisujú jeho vlastnosti a kategórie.

Iný druh strojového učenia sa nazýva strojové učenie bez dozoru. Zaoberá sa neznačenými údajmi.

Neupozorované strojové učenie berie prvotné údaje a stroj ich v podstate analyzuje z hľadiska charakteristík a sám ich zoskupuje do kategórií. V obidvoch typoch strojového učenia je veľa potenciálu, ale je ľahšie nastaviť program s označenými údajmi pre strojové učenie pod dohľadom. Strojové učenie bez dozoru je pre mnohé spoločnosti druhom nezmapovaných vôd.

Toto sú niektoré z úvah, ktoré môžete mať, a mylné predstavy o strojovom učení, ktoré môžu spôsobiť problémy pri adopcii podniku. Dúfajme, že to pomohlo objasniť určité nejasnosti o projektoch strojového učenia.