Hvorfor A.I. Kan kjempe for å forstå arabisk

24 hours on Earth -- in one image | Stephen Wilkes

24 hours on Earth -- in one image | Stephen Wilkes
Anonim

I verden av kunstig intelligens, data er konge. Jo mer du har, desto bedre blir verktøyene dine når systemer kan "lære" mer om hva du kan forvente. Men avhengig av plattformen A.I. er å tegne data fra, noen språk kan være bedre representert enn andre, ifølge Miriam Redi, en forsker for Yahoo Labs.

"For eksempel som Flickr, hvor vi tar dataene våre fra, er noen språk svært lite representert," sa Redi, som snakket på Londons Deep Learning Summit på torsdag. "Så vi har engelsk, millioner av bilder for engelsk, men vi har kanskje 100.000 for arabisk."

Redis team jobber med et verktøy som kan identifisere ikke-synlige elementer til bilder, som kulturelle verdier og følelsesmessige konnotasjoner. Verktøyet analyserer teksten knyttet til offentlig tilgjengelige bilder på Flickr. Over tid har A.I. begynner å forstå hvorfor noen kan merke et bilde "lykkelig parti" eller "ubehagelig øyeblikk", men disse ideene vil vokse enda mer nøyaktige da verktøyet analyserer flere bilder.

"Dessverre, nøyaktigheten for følelsesdeteksjon i bilder for arabiske språk pleier å være lavere fordi vi ikke har nok data," sa Redi.

På de språkene som hadde større mengder data, så Redis lag et par interessante mønstre. Romansk språk som fransk og spansk tendens til å uttrykke seg på lignende måter, mens italiensk syntes å være det eneste språket der brukere identifiserte bilder med begrepet "skatteunddragelse".

Språkbarrierer forblir fortsatt noe av et problem for A.I. forskere. Alle som har brukt Google Translate, vet at bytte av språk er aldri like enkelt som det høres ut. Men nye utviklinger endrer ting, med Facebook om sommeren at det beveger seg nærmere drømmen om et enkeltspråket sosialt nettverk, som automatisk oversetter tekster til brukere.

Utviklingen i fjerning av språkbarrierer kan bidra til å fremme internasjonal kommunikasjon, men for prosjekter som Redi er det ingen reell erstatning for menneskeskapte sentimentdata.