Forstærkningslæring Vs. Deep Reinforcement Learning: Hvad er forskellen?

Indhold

Hvad er forstærkningslæring?
Ingen fejl, ingen stress - Din trinvis vejledning til oprettelse af livsændrende software uden at ødelægge dit liv
Hvad er dyb forstærkningslæring?

Tag væk:

Vi gik til eksperterne og bad dem svare på de vigtige forskelle mellem forstærkningslæring og dyb forstærkningslæring

Maskinlæringsalgoritmer kan gøre livet og arbejdet lettere og frigøre os fra overflødige opgaver, mens vi arbejder hurtigere - og smartere - end hele team af mennesker. Der er dog forskellige typer maskinlæring. For eksempel er der forstærkningslæring og dyb forstærkningslæring.

”Selvom forstærkningslæring og dyb forstærkningslæring begge er maskinlæringsteknikker, som lærer autonomt, er der nogle forskelle,” ifølge Dr. Kiho Lim, en adjunkt i datalogi ved William Paterson University i Wayne, New Jersey. "Forstærkningslæring er dynamisk læring med en prøve- og fejlmetode for at maksimere resultatet, mens dyb forstærkningslæring er at lære af eksisterende viden og anvende det til et nyt datasæt."

Men hvad betyder det nøjagtigt? Vi gik til eksperterne - og bad dem give mange eksempler!

Hvad er forstærkningslæring?

Som Lim siger, forstærkningslæring er praksis med at lære ved prøve og fejl - og praksis. "I denne disciplin lærer en model ved anvendelse ved trinvis at blive belønnet for en korrekt forudsigelse og straffet for forkerte forudsigelser," ifølge Hunaid Hameed, en datavidenskabelig praktikant ved Data Science Dojo i Redmond, WA. (Læs forstærkningslæring kan give en fin dynamisk spin til marketing.)

”Forstærkningslæring ses ofte i AI, der spiller spil og forbedrer med at spille spillet over tid.”

De tre væsentlige komponenter i forstærkningslæring er en agent, handling og belønning. ”Forstærkningslæring overholder en bestemt metode og bestemmer de bedste midler til at opnå det bedste resultat,” ifølge Dr. Ankur Taly, leder af datavidenskab ved Fiddler Labs i Mountain View, Californien. "Det ligner meget strukturen for, hvordan vi spiller et videospil, hvor karakteren (agenten) deltager i en række forsøg (handlinger) for at opnå den højeste score (belønning)."

Det er imidlertid et autonomt selvundervisningssystem. Ved hjælp af videospileksemplet siger Taly, at positive belønninger kan komme af at øge scoren eller point, og negative belønninger kan være resultatet af at løbe ind i forhindringer eller foretage ugunstige træk.

Chris Nicholson, administrerende direktør i San Francisco, CA-baseret Skymind bygger på eksemplet på, hvordan algoritmer lærer ved prøve og fejl. ”Forestil dig at spille Super Mario Brothers for første gang, og prøv at finde ud af, hvordan man vinder: du udforsker rummet, du ænder, hopper, slår en mønt, lander på en skildpadde, og så ser du hvad der sker. ”

Ingen fejl, ingen stress - Din trinvis vejledning til oprettelse af livsændrende software uden at ødelægge dit liv

Du kan ikke forbedre dine programmeringsevner, når ingen er interesseret i softwarekvalitet.

Ved at lære de gode handlinger og de dårlige handlinger, lærer spillet dig, hvordan du opfører dig. ”Forstærkningslæring gør det i enhver situation: videospil, brætspil, simuleringer af virkelige brugssager.” Faktisk siger Nicholson, at hans organisation bruger forstærkende læring og simuleringer for at hjælpe virksomheder med at finde ud af den bedste beslutningsvej gennem en kompleks situation.

I forstærkningslæring træffer en agent flere mindre beslutninger for at nå et større mål. Endnu et eksempel er at lære en robot at gå. ”I stedet for hardkodende retninger for at løfte den ene fod, bøje knæet, lægge det ned osv., Kan en forstærkningslæringsmetode muligvis have roboteksperimentet med forskellige sekvenser af bevægelser og finde ud af hvilke kombinationer der er mest succesrige til at gøre det gå videre, ”siger Stephen Bailey, dataforsker og analytisk værktøjsekspert ved Immuta i College Park, MD.

Bortset fra videospil og robotik er der andre eksempler, der kan hjælpe med at forklare, hvordan forstærkningslæring fungerer. Brandon Haynie, chefdataforsker ved Babel Street i Washington, DC, sammenligner det med en menneskelig læring af at cykle. "Hvis du er stille og løfter fødderne uden at trampe, er et fald - eller straf - forestående."

Men hvis du begynder at pedalere, forbliver du på cyklen - belønning - og går videre til næste tilstand.

”Forstærkningslæring har applikationer, der spænder over flere sektorer, herunder økonomiske beslutninger, kemi, fremstilling og selvfølgelig robotik,” siger Haynie.

Hvad er dyb forstærkningslæring?

Det er dog muligt for beslutningerne at blive for komplekse til den forstærkede indlæringsmetode. Haynie siger, at det kan være overvældende for algoritmen at lære af alle stater og bestemme belønningsstien. "Det er her, dyb forstærkningslæring kan hjælpe: den 'dybe' del refererer til anvendelsen af et neuralt netværk til at estimere tilstande i stedet for at skulle kortlægge enhver løsning og skabe et mere håndterbart løsningsrum i beslutningsprocessen.

Det er ikke et nyt koncept. Haynie siger, at det har eksisteret siden 1970'erne. ”Men med fremkomsten af billig og kraftig computing kan de ekstra fordele ved neurale netværk nu hjælpe med at tackle områder for at reducere kompleksiteten af en løsning,” forklarer han. (Læs Hvad er forskellen mellem kunstig intelligens og neurale netværk?)

Så hvordan fungerer dette? Ifølge Peter MacKenzie, leder af AI-teamet, Amerika ved Teradata, er det for megen information at gemme i tabeller, og tabelformularer kræver, at agenten besøger enhver stat og handlingskombination.

Imidlertid erstatter læring med dyb forstærkning tabulære metoder til at estimere tilstandsværdier med funktionstilnærmelse. "Funktionstilnærmelse eliminerer ikke kun behovet for at gemme alle tilstands- og værdipar i en tabel, det gør det muligt for agenten at generalisere værdien af tilstande, som den aldrig har set før, eller har delvis information om, ved hjælp af værdierne af lignende tilstande," Siger MacKenzie.

”Meget af de spændende fremskridt inden for dyb forstærkningslæring er sket på grund af de neurale netværks stærke evne til at generalisere på tværs af enorme tilstandsrum.” Og MacKenzie bemærker, at dyb forstærkningslæring er blevet brugt i programmer, der har slået nogle af de bedste menneskelige konkurrenter. i sådanne spil som skak og gå, og er også ansvarlige for mange af de fremskridt, der sker inden for robotik. (Læs 7 kvindelige ledere inden for AI, maskinlæring og robotik.)

Bailey er enig og tilføjer, "Tidligere i år slo en AI-agent ved navn AlphaStar verdens bedste StarCraft II-spiller - og det er især interessant, fordi i modsætning til spil som Chess og Go, ved spillerne i StarCraft ikke, hvad deres modstander laver." I stedet siger han, at de var nødt til at lave en indledende strategi og derefter tilpasse sig, da de fandt ud af, hvad deres modstander planlagde.

Men hvordan er det endda muligt? Hvis en model har et neuralt netværk på mere end fem lag, siger Hameed, at den har evnen til at imødekomme højdimensionelle data. ”På grund af dette kan modellen lære at identificere mønstre på egen hånd uden at have en menneskelig ingeniør med at sammenlægge og vælge de variabler, der skal indlæses i modellen for at lære,” forklarer han.

I åbne scenarier kan du virkelig se skønheden ved dyb forstærkningslæring. Taly bruger eksemplet med at booke et bord på en restaurant eller placere en ordre på en vare - situationer, hvor agenten skal svare på ethvert input fra den anden ende.

”Dyb forstærkningslæring kan bruges til at træne en samtaleagent direkte fra lydsignalet fra den anden ende,” siger han. ”Når man bruger et lydsignal, kan agenten også lære at samle op på subtile signaler i lyden, såsom pauser, intonation, et cetera - dette er kraften i dyb forstærkningslæring.”

Og nye anvendelser af dyb forstærkningslæring fremstår fortsat. Ved at bestemme den næste bedste handling for at samarbejde med en kunde, siger MacKenzie "staten og handlingerne kan omfatte alle kombinationer af produkter, tilbud og meddelelser på tværs af alle de forskellige kanaler, hvor hver personificeres - ordlyd, billeder, farver, skrifttyper."

Et andet eksempel er optimering af forsyningskæden, for eksempel levering af letfordærvelige produkter overalt i USA. ”De mulige tilstande inkluderer den aktuelle placering af alle de forskellige typer transport, lagerbeholdningen i alle fabrikker, lagre og forretninger og efterspørgselsprognosen for alle butikkerne, ”siger MacKenzie.

"Brug af dyb læring til at repræsentere staten og handlingsrummet giver agenten mulighed for at træffe bedre logistiske beslutninger, der resulterer i mere rettidige forsendelser til en lavere pris."