Microsoft Research Investerer bedre enn menneskelig taleinnkjenning

Drive operational efficiency with Dynamics 365

Drive operational efficiency with Dynamics 365
Anonim

Microsoft har blitt verdens første selskap for å utvikle talegjenkjenningssoftware som er mer nøyaktig enn mennesker. I papiret "Oppnå menneskelig paritet i samtalespråklig anerkjennelse" publisert mandag, produserte programvaren transkripsjoner som inneholdt halv prosent mindre feil enn menneskelig innsats, noe som er utrolig å vurdere hvor gode mennesker er på å forstå tale. Gjennombruddet åpner døren for nye A.I. assistenter som er mer nøyaktige enn noen gang før.

Det er imponerende hvor langt teknologien har kommet på så kort tid. Det var ikke så lenge siden at datatalerkjenning var en merkelig nisje som virket håpløst fjernt. Se denne demonstrasjonen av Windows Vista talesoftware fra 2006:

Laget brukte NIST 2000-testen, som ble brukt over hele bransjen for å måle påliteligheten av taletransskripsjoner. En samtale foregår mellom to deltakere over telefonen, sving av sving, før det resulterende skriptet blir sammenlignet og kontrollert mot ordlisteordlister.

I sentralbordet, hvor to fremmede snakker for første gang, er den menneskelige feilfrekvensen rundt 5,9 prosent, mens det er to personer som kjenner hverandre, er feilfrekvensen rundt 11,3 prosent. Microsofts programvare scorte rundt en 0,4 prosent lavere feilrate.

Gjennombruddet vil bidra til å gi nye former for nedsenkende A.I.. I august tok student Joshua Browder omslaget fra sin DoNotPay chatbot, som kan hjelpe hjemløse å få gratis juridisk rådgivning. Kombinert med anerkjennelsesfremskritt, er det enkelt å tegne en fremtid hvor folk spør en virtuell assistent for hjelp med bolig ved å ha en vanlig samtale med datamaskinen.

På dette stadiet vurderer forskerne hvordan A.I.-drevet talegjenkjenning kan gi bedre svar. Sensay, en sinne-detekterende A.I. fra laboratoriet bak Siri, bruker avanserte anerkjennelsesfunksjoner til å oppdage om en bruker føler seg sint eller forvirret, og endrer svarene for å passe til situasjonen. Fjernelse av barrieren for feilaktig stemmeavkjenning, skaper spennende nye muligheter for virtuell hjelp.