Posilnenie výučby Vs. Učenie sa o hlbokom posilnení: Aký je rozdiel?

Obsah

Čo je výučba posilnenia?
Žiadne chyby, žiadny stres - Váš sprievodca krok za krokom k vytvoreniu softvéru na zmenu života bez zničenia vášho života
Čo je to výučba hlbokého posilnenia?

Zobrať:

Šli sme k odborníkom a požiadali sme ich, aby odpovedali na dôležité rozdiely medzi posilňovacím učením a hlbokým posilňovacím učením

Algoritmy strojového učenia môžu uľahčiť život a prácu a zbaviť nás zbytočných úloh pri rýchlejšej a inteligentnejšej práci ako celé tímy ľudí. Existujú však rôzne typy strojového učenia. Napríklad je tu posilňovanie a hlboké posilňovanie.

„Aj keď posilnenie výučby a hlboké výučby sú technikami strojového učenia, ktoré sa učia autonómne, existujú určité rozdiely,“ hovorí Dr. Kiho Lim, odborný asistent počítačovej vedy na univerzite Williama Patersona v Wayne v New Jersey. „Výučba posilnenia je dynamické učenie sa metódou pokusov a omylov s cieľom maximalizovať výsledok, zatiaľ čo učenie o posilňovaní sa učí z existujúcich poznatkov a používa ich na nový súbor údajov.“

Čo to však presne znamená? Šli sme k odborníkom - a požiadali sme ich, aby poskytli veľa príkladov!

Čo je výučba posilnenia?

Ako hovorí Lim, posilnenie vzdelávania je prax učenia sa pokusmi a omylmi - a praxou. „V tejto disciplíne sa model učí pri zavádzaní postupným odmeňovaním za správnu predpoveď a penalizáciou za nesprávne predpovede,“ podľa Hunaid Hameed, praktikantka Data Science Dojo v Redmond, WA. (Prečítajte si Načítanie výstuže môže marketingu priniesť pekné dynamické roztočenie.)

„Výučba zosilnenia sa bežne vyskytuje pri hraní AI hier a pri zlepšovaní hry v priebehu času.“

Tri základné komponenty v posilňovacom vzdelávaní sú agent, činnosť a odmena. „Výučba posilnenia sa riadi špecifickou metodológiou a určuje najlepšie prostriedky na dosiahnutie najlepšieho výsledku,“ hovorí Dr. Ankur Taly, vedúci oddelenia dát v Fiddler Labs v Mountain View, CA. "Je to veľmi podobné štruktúre toho, ako hráme videohru, v ktorej sa postava (agent) zúčastňuje série pokusov (akcií), aby získala najvyššie skóre (odmenu)."

Je to však autonómny samoučiaci systém. Na príklade videohry Taly hovorí, že pozitívne odmeny môžu pochádzať zo zvýšenia skóre alebo bodov a negatívne zisky môžu vyplynúť zo stretnutí s prekážkami alebo z nepriaznivého pohybu.

Chris Nicholson, generálny riaditeľ spoločnosti San Francisco, Skymind so sídlom v Kalifornii, stavia na príklade toho, ako sa algoritmy učia pomocou pokusov a omylov. “Predstavte si, že hráte Super Mario Brothers prvýkrát a snaží sa zistiť, ako vyhrať: preskúmate priestor, káčate, skáčete, narazíte na mince, pristážete na korytnačke a potom uvidíte, čo sa stane. “

Žiadne chyby, žiadny stres - Váš sprievodca krok za krokom k vytvoreniu softvéru na zmenu života bez zničenia vášho života

Nemôžete vylepšiť svoje programovacie schopnosti, keď sa nikoho nestará o kvalitu softvéru.

Naučením sa dobrých a zlých akcií vás hra naučí, ako sa správať. „Výučba posilnenia to robí v každej situácii: videohry, stolové hry, simulácie prípadov použitia v reálnom svete.“ Nicholson hovorí, že jeho organizácia používa učenie a simulácie posilnenia, aby pomohla spoločnostiam zistiť najlepšiu cestu pri rozhodovaní v zložitej situácii.

V učení o posilňovaní robí agent niekoľko menších rozhodnutí, aby dosiahol väčší cieľ. Ďalším príkladom je učenie robota chodiť. „Namiesto tvrdého kódovania smerov zdvíhania jednej nohy, ohýbania kolena, odloženia atď. Môže mať prístup výučby zosilnenia experiment s robotom s rôznymi sekvenciami pohybov a zistiť, ktoré kombinácie sú najúspešnejšie pri jeho výrobe. pohnite sa ďalej, “hovorí Stephen Bailey, odborník na údaje a vedecký analytik v spoločnosti Immuta v College Park, MD.

Okrem videohier a robotiky existujú aj ďalšie príklady, ktoré môžu pomôcť vysvetliť, ako funguje posilňovanie učenia. Brandon Haynie, vedecký pracovník v Babel Street vo Washingtone, DC, ho porovnáva s učením ľudí jazdiť na bicykli. "Ak stojíte a zdvíhate nohy bez šliapania, hrozí pád - alebo pokuta."

Ak však začnete šliapať na pedále, zostanete na bicykli - odmena - a postupujete do ďalšieho stavu.

„Výučba posilnenia má aplikácie pokrývajúce niekoľko sektorov vrátane finančných rozhodnutí, chémie, výroby a samozrejme robotiky,“ hovorí Haynie.

Čo je to výučba hlbokého posilnenia?

Je však možné, že rozhodnutia sa stanú príliš komplexnými pre posilnený vzdelávací prístup. Haynie tvrdí, že algoritmus sa môže naučiť zo všetkých štátov a určiť cestu odmeňovania. „Tu môže pomôcť hlboké posilnenie výučby:„ hlboká “časť sa týka aplikácie neurónovej siete na odhad stavu, namiesto toho, aby bolo potrebné mapovať každé riešenie, čím sa v rozhodovacom procese vytvára spravovateľnejší priestor na riešenie.“

Nie je to nový koncept. Haynie tvrdí, že existuje od 70. rokov 20. storočia. „S príchodom lacného a výkonného výpočtového systému môžu teraz ďalšie výhody neurónových sietí pomôcť pri riešení oblastí, aby sa znížila zložitosť riešenia,“ vysvetľuje. (Prečítajte si, aký je rozdiel medzi umelými inteligenciami a neurálnymi sieťami?)

Ako to teda funguje? Podľa Petera MacKenzieho, vedúceho tímu AI, Americas v Teradata, je to príliš veľa informácií na uloženie do tabuliek a tabuľkové metódy by vyžadovali, aby agent navštívil každú kombináciu stavov a akcií.

Učenie o hlbokej výstuži však nahrádza tabuľkové metódy odhadu stavových hodnôt aproximáciou funkcií. "Aproximácia funkcie nielen eliminuje potrebu ukladania všetkých párov stavov a hodnôt v tabuľke, ale tiež umožňuje agentovi zovšeobecniť hodnotu stavov, ktoré nikdy predtým nevidel, alebo má čiastočné informácie o použití hodnôt podobných stavov," MacKenzie hovorí.

„K mnohým vzrušujúcim pokrokom v oblasti hlbokého posilňovacieho učenia došlo vďaka silnej schopnosti neurónových sietí zovšeobecňovať sa v obrovských stavových priestoroch.“ A MacKenzie poznamenáva, že hlboké posilňovacie učenie sa používa v programoch, ktoré prekonali niektoré z najlepších ľudských konkurentov. v hrách ako Chess and Go a sú zodpovedné aj za mnohé pokroky v robotike. (Prečítajte si 7 vedúcich žien v oblasti umelej inteligencie, strojového učenia a robotiky.)

Bailey súhlasí a dodáva: „Začiatkom tohto roka agent AI s názvom AlphaStar porazil najlepšieho hráča StarCraft II na svete - a to je obzvlášť zaujímavé, pretože na rozdiel od hier ako Chess and Go, hráči v StarCraft nevedia, čo robí ich súper.“ Namiesto toho hovorí, že museli urobiť počiatočnú stratégiu a potom sa prispôsobiť, keď zistili, čo ich súper plánuje.

Ako je to však možné? Ak má model neurónovú sieť s viac ako piatimi vrstvami, Hameed hovorí, že má schopnosť obstarávať vysokorozmerné údaje. „Z tohto dôvodu sa model môže naučiť samy identifikovať vzorce bez toho, aby mal k dispozícii ludského inžiniera a vyberal premenné, ktoré by sa mali do modelu naučiť,“ vysvetľuje.

V otvorených scenároch môžete skutočne vidieť krásu učenia hlbokého posilnenia. Taly používa príklad rezervácie stola v reštaurácii alebo zadania objednávky položky - situácie, keď agent musí reagovať na akýkoľvek vstup z druhého konca.

„Výučba hlbokého zosilnenia môže byť použitá na školenie konverzačného agenta priamo z alebo zo zvukového signálu z druhého konca,“ hovorí. "Pri použití zvukového signálu sa agent môže tiež naučiť zachytávať jemné zvuky, ako sú pauzy, intonácia, atď. - to je sila výučby hlbokého zosilnenia."

A stále sa objavujú nové aplikácie učenia hlbokého posilňovania. Pri určovaní najbližšej najlepšej akcie, ktorá má byť v kontakte so zákazníkom, MacKenzie hovorí: „stav a akcie by mohli zahŕňať všetky kombinácie produktov, ponúk a správ vo všetkých rôznych kanáloch, pričom každý z nich je prispôsobený - znenie, obrázky, farby, písma.“

Ďalším príkladom je optimalizácia dodávateľského reťazca, napríklad dodávka výrobkov podliehajúcich skaze na celom území USA. „Medzi možné štáty patrí súčasné umiestnenie všetkých rôznych druhov prepravy, inventár vo všetkých závodoch, skladoch a maloobchodných predajniach a predpoveď dopytu pre všetkých. obchody, “hovorí MacKenzie.

„Použitie hlbokého učenia na reprezentovanie stavu a priestoru činnosti umožňuje agentovi robiť lepšie logistické rozhodnutia, ktoré vedú k včasnejším dodávkam pri nižších nákladoch.“