Algoritme som mestrer 'Pong' Nå Utmerket på 'Flappy Bird', Still Single

WIN the Instagram Algorithm 2020

WIN the Instagram Algorithm 2020
Anonim

Forbedring på en dyplæringsmetode som er banebrytende for pong, Space Invaders, og andre Atari-spill, har Stanford University datavitenskapsstudent Kevin Chen skapt en algoritme som er ganske bra på den klassiske 2014-side-scroller Flappy Bird. Chen har leveraged et konsept kjent som "q-learning", der en agent har som mål å forbedre sin belønning score med hver iterasjon av å spille, for å perfeksjonere et nesten umulig og umulig vanedannende spill.

Chen opprettet et system hvor hans algoritme ble optimalisert for å søke tre belønninger: En liten positiv belønning for hver ramme ble den levende, en stor belønning for å passere gjennom et rør, og en like stor (men negativ) belønning for å dø. Således motivert, kan det såkalte dype q-nettverket utvise mennesker, ifølge rapporten Chen forfatter: "Vi klarte å lykkes med å spille spillet Flappy Bird ved å lære rett fra piksler og poengsummen, og oppnå super-menneskelige resultater."

Det originale Atari-papiret, publisert i 2015 i Natur, kom fra det Google-eide DeepMind-selskapet (nå kjent for sin mestring av det gamle kinesiske brettspillet Go). DeepMind-oppnåelsen var et gjennombrudd ved at det tok visuelt - eller piksel, i det minste - informasjon, og med minimal innsats kunne maksimere belønningene. Et slikt belønningssystem har blitt sammenlignet med hjernens dopaminerge respons, bare forenklet.

Det er ikke første gang en algoritme har erobret flapping fuglen: En tidligere klasse av Stanford University datavitenskapsstudenter opprettet et program som, da trenet over natten, forbedret poengsummen fra 0 rør til 1.600.