Deep 'Reinforcement Learning' er undervisning roboter nye ferdigheter raskere enn noensinne

Roboter lærer å fullføre oppgaver i sped-up virtuelle verdener, utvikle ferdigheter i løpet av timer som ellers kan ta måneder. Simulert dypforsterkning læring (eller Deep RL) betyr en ferdighet som normalt vil ta 55 dager for en A.I. å lære i den virkelige verden tar bare en dag i det hyperakselererte klasserommet.

"Det har potensial til å virkelig revolusjonere hva vi kan gjøre i robottdomenet," sa Raia Hadsell, forsker ved Google DeepMind, på Re-Work Deep Learning Summit i London i torsdag. "Vi kan lære på menneskelig nivå ferdigheter."

Det kan høres mot-intuitivt, så sikkert hele punktet av roboter er programmerere kan lære dem å gjøre ting, ikke sant? Når du designer en maskin som opererer i den virkelige verden, trenger roboter en masse data for å forstå hvordan du gjør en oppgave i en ukjent situasjon. A.I. kan bruke disse dataene til å "lære" en ferdighet basert på alle forekomster som kom før.

Dypforsterkende læring samler dataene på samme måte som menneskene lærer: En robot vil gjenta en oppgave flere ganger, for eksempel å fange en ball, og registrere dataene for å bygge opp et bilde av hvordan det er best å ta en ball i en ny situasjon. Når DeepMind brukte modellen i 2013 for å lære en robot hvordan man skal mestre Atari-spill, bare ved å sette den ned foran skjermen og fortelle det sluttmålet, elsket det vitenskapelige samfunnet det.

Problemet er, dette tar for alltid. Du må kaste baller på en robot flere ganger, eller i Atari-saken, la roboten være alene i soverommet for en stund. Kjører en MuJoCo-simulering, kombinert med et progressivt neuralt nettverk, kan trenere kjøre et program som etterligner roboten, overfører de lærte atferdene til roboten og kartlegger de virtuelle bevegelsene i den virkelige verden.

"Vi kan kjøre disse simulatorene hele dagen og hele natten," sa Hadsell.

Resultatene snakker for seg selv. Denne roboten, som fikk sitt diplom i fangst, kan nå følge virtuelle baller som om de var virkelige, priming det for den store dagen når det blir bedt om å fange en ekte ball:

Denne splitter nye 13 tommers MacBook Pro er billigere enn noensinne

Dette er en sjelden sjanse til å fange en toppmodell 2016 MacBook Pro og oppleve ekstrem kraft og slankhet i en enkelt pakke. Touch-teknologi gir økt fleksibilitet og enkel tilgang når det gjelder å kontrollere den bærbare datamaskinen, mens 3,1 GHz dual-core Intel Core i5-prosessor lar deg multitask uten hitch.

En utrolig ny 3D-skriver er 100x raskere enn det som var mulig: Video

All 3D-utskrift har en tendens til å bli klumpet sammen, men det er faktisk to spesifikke stiler med noen ganske signifikante forskjeller. Fused deposition modellering (FDM) er en raskere, men mindre nøyaktig, metode oppnådd ved lagring smeltet plast i en form. Stereolithography, (SLA), ofrer hastighet for presisjon av usin ...

Nye resultater viser at Europa er mer som jorden enn vi noensinne visste

Det er bare én bergforskere som er offisielt beboelig i solsystemet: Jord. Det er fornuftig skjønt: denne planeten er det eneste stedet med en bevist plate for å oppmuntre utviklingen av og gi et bærekraftig hjem for livet. Men det betyr ikke at de naboene alltid var i ørkenen ute av stand til å h ...