MITs nye algoritme kan forutsi menneskelige interaksjoner før de blir vanskelige

$config[ads_kvadrat] not found

The Third Industrial Revolution: A Radical New Sharing Economy

The Third Industrial Revolution: A Radical New Sharing Economy
Anonim

Vår manglende evne til å lese andre mennesker har ført til at noen episke høy fem mislykkes og savnet kyss. Selv etter en levetid av erfaring, er menneskelige interaksjoner vanskelig å forutsi. Men forskere ved MITs Computer Science and Artificial Intelligence Laboratory tror de kan hjelpe: Med en ny dyplæringsalgoritme som kan forutsi når to personer vil klemme, kysse, riste hender eller høye fem, har de tatt et stort skritt mot en fremtid velsignet uten de vanskelige øyeblikkene.

De håper på sin nye algoritme - trent på 600 timer med YouTube-videoer og TV-programmer som Kontoret, scrubs, Big Bang teorien, og Frustrerte fruer - kan brukes til å programmere mindre sosialt vanskelige roboter og utvikle Google Glass-stil-hodesett for å foreslå handlinger for oss før vi selv får sjansen til å gå glipp av. I fremtiden tenker de, du vil aldri igjen rote opp en sjanse til å fly høyt fem sammen med din medarbeider.

Å innse at roboter lærer å være sosiale på samme måter vi gjør var nøkkelen til algoritmenes suksess. "Mennesker lærer seg automatisk å forutse handlinger gjennom erfaring, noe som har gjort oss interessert i å prøve å bøye inn datamaskiner med samme sunn fornuft," sier CSAIL Ph.D. student Carl Vondrick, den første forfatteren på et beslektet papir som presenteres denne uken på den internasjonale konferansen om datasyn og mønstergenkjenning. "Vi ønsket å vise at bare ved å se store mengder video, kan datamaskiner få nok kunnskap til å konsekvent gjøre spådommer om deres omgivelser."

Vondrick og hans team lærte algoritmens flere "neurale nettverk" for å analysere store mengder data i dette tilfellet, timer med Jim og Pams høyeste fem, og Mike og Susan's surreptitious kyss, alene. Når man tar hensyn til faktorer som utstrakte armer, en hevet hånd eller et lengre blikk, gjettet hvert av de nevrale nettverkene hva som skulle skje i neste sekund, og den generelle konsensusen om nettverkene ble tatt som den endelige "prediksjonen" i studere.

Algoritmen fikk den rett over 43 prosent av tiden. Selv om det kanskje ikke virker høyt nok til å garantere at våre daglige samspill vil være noe mindre rart, er det en stor forbedring på eksisterende algoritmer, som har en presisjon på bare 36 prosent.

Dessuten kan mennesker bare forutsi handlinger 71 prosent av tiden. Vi trenger all hjelp vi kan få.

I den andre delen av studien ble algoritmen lært å forutsi hvilket objekt - hjemlige stifter som fjernbetjeninger, tallerkener og søppelkasser - ville dukke opp i scenen fem sekunder senere. For eksempel, hvis en mikrobølge dør åpnes, er det en relativt høy sjanse for et krus vises neste.

Deres algoritme er ikke akkurat nok for Google Glass ennå, men med medforfatter Antonio Torralba, Ph.D. - finansiert av en Google-fakultetets forskningspris og Vondrick jobber med en Google Ph.D. fellesskap - vi kan satse på at det kommer dit. Fremtidige versjoner av algoritmen, Vondrick forutser, kan brukes til å programmere roboter for å samhandle med mennesker eller til og med undervise sikkerhetskameraer å registrere når en person faller eller blir skadet.

"En video er ikke som en" Velg din egen eventyr "bok der du kan se alle de potensielle banene, sier Vondrick. "Fremtiden er iboende tvetydig, så det er spennende å utfordre oss selv til å utvikle et system som bruker disse representasjonene til å forutse alle mulighetene."

$config[ads_kvadrat] not found