Hvordan DeepMind utviklet en ærlig selvlært A.I. Det kan utmilde mennesker

$config[ads_kvadrat] not found

Behringer DeepMind 12 Synthesizer Demo by Daniel Fisher

Behringer DeepMind 12 Synthesizer Demo by Daniel Fisher

Innholdsfortegnelse:

Anonim

Datamaskiner har sparket våre skjøre menneskelige esler på sjakk i et par tiår nå. Første gang dette skjedde, var i 1996, da IBMs Deep Blue var i stand til å ta ned verdensmester Gary Kasperov. Men en ny studie fra Alfabetets A.I. outfit DeepMind skaper lys på hvor begrenset omfang den tidlige seieren egentlig var.

For en, hoppet Kasperov bakover, vinner tre kamper og tegner to ganger i en seks kamp, ​​etter en gammel Daglige nyheter rapportere.

Men mye mer spesielt, som DeepMind-forsker Julian Schrittwieser forteller Omvendt, programmer som Deep Blue ble også programmert manuelt. Dette betyr at mennesker måtte lære A.I. Alt det trengte å vite om hvordan man håndterer enhver tenkelig uforutsetning. Med andre ord, det kan bare være så godt som folk som programmerer det var. Og mens Deep Blue var tydeligvis i stand til å bli ganske bra på sjakk; gi det et annet, lignende, spill som Go, og det ville vært clueless.

Alpha Zero er helt annerledes. I en ny studie publisert i dag i tidsskriftet Vitenskap, forfatterne avslører hvordan de kunne ikke bare lære Alpha Zero å slå mennesker på sjakk, men hvordan å lære Alpha Zero hvordan lærer seg selv å mestre flere spill.

Hvordan lære A.I. Å lære seg selv

Alpha Zero ble utviklet ved hjelp av en teknikk som heter deep reinforcement learning. I hovedsak handler dette om å undervise A.I. noe veldig enkelt, som de grunnleggende reglene for sjakk, og så gjør det enkle tingen om og om igjen og igjen til den lærer mer kompliserte, interessante ting som strategier og teknikker.

"Tradisjonelt … mennesker ville ta seg av seg om spillet og prøve å kode det i reglene," sier Schrittwieser, som har jobbet med Alpha Zero i nesten fire år. "Vår tilnærming er at vi initialiserer tilfeldig, og la det spille spill mot seg selv, og fra disse spillene kan den lære hvilke strategier som fungerer."

Alle Alpha Zero får er de grunnleggende reglene, og derfra lærer det seg å vinne ved å spille seg selv. Ifølge de nye funnene tok det bare ni timer for Alpha Zero å mestre sjakk, 12 timer for å mestre Shogi, og ca 13 dager for å mestre Go. Fordi det spiller seg selv, er det egentlig selvlært. Det er laget minkjøtt av alle verdensmesterens menneskestyrte algoritmer, og slår 2017 verdensmester i Shogi 91 prosent av tiden.

"Det kan selvstendig oppdage interessant kunnskap om spillet," sier Schrittwieser. "Det fører til programmer som spiller mer menneskelige."

Mens stilen er menneskelig og kreativ, er det også sannsynligvis optimal, sier han nok, slik at Alpha Zero skal kunne dominere stort sett alle spill der den har tilgang til all tilgjengelig informasjon. Faktisk er Alpha Zero så sofistikert, vi må kanskje flytte til en helt annen klasse av spill for å fortsette å skyve grensene for hvordan A.I. løser problemer.

Hvorfor Alpa Zero er så bra

A.I. forskere elsker å bruke disse spillene som testområder for stadig mer sofistikerte former for algoritmer av noen grunner. De er elegante, og folk har spilt dem i hundrevis av år, for en, noe som betyr at du har mange potensielle utfordrere til å teste algoritmen din på. Men de er også kompliserte og intrikate, noe som betyr at de kan tjene som en steinstein til A.I. som kan løse problemer i den virkelige verden. Schrittwieser sier det neste forskningsområdet er å skape en algoritme som Alpha Zero, som fremdeles kan ta optimale beslutninger med ufullkommen informasjon.

"I alle disse spillene vet du alt som skjer," sier han. "I den virkelige verden kan du bare vite en del av informasjonen. Du kan kanskje vite dine egne kort, men du vet ikke motstanderen din, du har delvis informasjon."

Det er fortsatt noen brettspill som kan gi algoritmer som Alpha Zero denne typen utfordring også - Schrittwieser nevnte Stratego, hvor spillerne gjemmer sine trekk fra hverandre - og Starcraft, som er et annet område av interesse for DeepMinds spillfokuserte forskere.

"Vi vil gjøre de problemene vi takler mer og mer komplisert," sier han. "Men det er alltid en dimensjon av gangen."

Samtidig viser Deep Minds neste generasjon av datastyrte problemløsere potensialet til å flytte fra spillverdenen til den virkelige verden. Tidligere i uken annonserte det en annen algoritme som heter AlphaFold, som er i stand til å ekstrapolere en proteinsekvens til en nøyaktig prediksjon av sin 3D-struktur.Det er et problem som er befuddled forskere i flere tiår, og kan bidra til å åpne døren for å kurere for sykdommer som spenner fra Alzheimers til cystisk fibrose.

$config[ads_kvadrat] not found