Datavitenskapere vil gjøre robotter glemme sine dårlige data

Anonim

Når "dårlige" data blir sugd inn i et maskinlæringssystem - det er hvordan Alan Greenspan satte det når vi diskuterte datamodellene som ikke klarte å forutsi 2008-resesjonen. Denne informasjonen kan være vanskelig å løsrive. Men et nytt konsept, foreslått av datavitenskapsmenn Junfeng Yang og Yinzhi Cao, fra Columbia University og Lehigh University, hhv. Bringer ideen om unlearning til datamaskiner. Som Cao og Yang skriver i abstrakt publisert for IEEE Xplore-konferansen i 2015, trenger du ikke å gå helt tilbake til firkanten, en å glemme:

For å glemme en treningsprøve, oppdaterer vår tilnærming bare et lite antall summer - asymptotisk raskere enn omskoling fra grunnen av. Vår tilnærming er generell fordi summeringsskjemaet er fra den statistiske spørreundersøkelsen der mange maskinlæringsalgoritmer kan implementeres. Vår tilnærming gjelder også for alle stadier av maskinlæring, inkludert funksjonsvalg og modellering. Vår vurdering, på fire ulike læringssystemer og virkelige arbeidsbelastninger, viser at vår tilnærming er generell, effektiv, rask og enkel å bruke.

Konseptet med maskinlæring hviler på et fundament bygget av høyder og høyder av informasjon. Det kan være nyttig å undervise roboter eller kunstig intelligens for å gjøre visse sammenhenger - for eksempel hvis en person i et tungt lag har en økse, kan han eller hun være en brannmann. Men i disse treningsøktene kan feilaktige forbindelser oppstå, basert på datasettet. Roboten din tror kanskje at alle brannmenn har skjegg. Dette er åpenbart noe du vil ha en datamaskin til unthink.

Cao og Yang baserer denne ideen om robotic informasjonsfrigjøring på begrepet datalinje - dataene blir ikke fullstendig formet i verden, men har en sporbar historie som de rå dataene behandles, notater Kurzweil A.I. Å utnytte denne linjen tillater maskiner å utlevere utvalgte deler av data uten å helt tørke ut utdanningen.