Speechmatics bruker AI til å transkribere språk, og det slår Google

$config[ads_kvadrat] not found

FIRST Fondene Eiendomsseminar v/Thomas Nielsen (FIRST Fondene)

FIRST Fondene Eiendomsseminar v/Thomas Nielsen (FIRST Fondene)
Anonim

Speechmatics går etter Google. Den britiske oppstarten tok wraps av automatisk lingvist i forrige måned, en kraftig kunstig intelligens som kan lære noe språk for tale-til-tekst transkripsjon i løpet av få dager. Teamet ønsker å aktivere teknologien for hver av de ca. 7.000 språkene i verden, med potensial til å forandre liv.

Speechmatics har siden lanseringen av språkvitenskapsverktøyet jobbet med Omniglot, en utfordring å bygge et språk om dagen. I fjor slo selskapet en stor milepæl: Den har offisielt slått Google, med totalt 72 unike språk.

Systemet bruker maskinlæring til å matche lyddata med en transkripsjonsmodell. Den bruker deretter språklige mønstre fra andre språk for å gjøre prosessen så enkel som mulig, og identifisere likhetene mellom lyder og grammatiske strukturer og bruke dem til nye språk. Prosessen er svært effektiv: Som et eksempel tok Speechmatics arbeid på hindi bare to uker for å nå 80 prosent nøyaktighet. Da sluttproduktet ble testet mot Googles innsats, gjorde det 23 prosent færre feil.

Omvendt snakket med Benedikt von Thüngen, administrerende direktør for talemelding, for å finne ut mer.

Hvordan begynte teamet først å jobbe med prosjektet?

Vi startet prosjektet Omniglot som en utfordring for oss selv - for å se hvor mange språk vi kunne bygge på seks uker. Vi skjønte en stund tilbake at den tradisjonelle tilnærmingen til å bygge hvert språk enkeltvis ikke lenger er levedyktig når man ser på skala i en rask takt. Med det i tankene måtte vi tenke på et språk, hvordan det er strukturert og hvilke likheter det er mellom forskjellige språk. Vi har funnet en måte å bruke disse fellesene for å identifisere mønstre og hjelpe vårt AI-drevne rammeverk, Automatisk Lingvist (AL), å bygge språk raskere enn noensinne - 46 på seks uker for å være presis, eller om ett språk om dagen i seks uker !

Hvordan er dette forskjellig fra Googles innsats?

Vår tilnærming til språkbygging er et av de viktigste aspektene som skiller oss fra Google. Mens vi antar at de bygger sine språk enkeltvis (eller ved det vi kaller "brute force"), bruker vi kraften til A.I. å strømlinjeforme og fremskynde språkbyggingsprosessen. I tillegg til at andre tjenester som Google fokuserer på å bygge dialekter fremfor unike språk, er vi stolte over å si at vår innsats har vært fokusert på unike språk fra hele verden, inkludert områder som tidligere har vært underverdig av de store teknologiselskapene.

Hva er noen av de virkelige applikasjonene for dette?

Vi har nå teknikken og kunnskapen til å gjøre vår tjeneste mer vidtgående enn noen gang før og gi automatisk talegjenkjenning (ASR) til alle. Dette er spesielt relevant i land med lav leseferdighet, hvor muligheten til å bruke tidligere utilgjengelig tale-til-tekst-teknologi for å kommunisere kan gjøre hele forskjellen for folk. Andre virkelige saker der ASR-teknologi kan bidra til å gjøre med problemer med tilgjengelighet - høre- og / eller synshemmede mennesker fra hele verden kan nå bruke en enhet så enkelt som en telefon for å samhandle med dem rundt dem.

Forbedrer dette nøyaktigheten av godt dekket språk som engelsk?

Som vi fortsetter å utvikle flere språk, vår A.I. rammeverket vil bli stadig mer flink til å identifisere språklige egenskaper og mønstre. Vi vil bruke denne kunnskapen til å fortsette å perfeksjonere vår nåværende språkbase, inkludert engelsk.

Kan dette forbedre noe som Google Pixel Buds 'verktøy for sanntids oversettelse?

Vi ser definitivt prosjekter som Omniglot som bidrar til å forbedre sanntids oversettelsesverktøy fremover. Ettersom mer ressurs er investert i å utvide rekkevidden og nøyaktigheten av språk, vil vi se kontinuerlig forbedring i oversettelsessektoren.

Fungerer dette med alle språk, til og med konstruerte språk som Klingon?

Vi har ennå ikke prøvd å bygge noen sammenheng, men vi ser ingen grunner til at de ikke ville fungere. Siden disse språkene fortsatt er talt av mennesker, følger de også lignende strukturelle regler og begrensninger som hverdagslige språk (som antall fonemer), noe som ville gi AL nok data for en bygning.

Åpner du sourcing prosjektet?

Nei, vi har ikke planer for det på plass.

Hvordan fungerer lisensiering?

Språket som tilbys under prosjektet Omniglot er gratis og kan ikke brukes til kommersielle formål. Som sådan vil det ikke være noen lisensiering knyttet til dem i overskuelig fremtid.

Hva er de neste trinnene herfra?

Prosjekt Omniglot er bare starten for oss. Vi vil etter hvert bygge hvert språk i verden, så vi vil jobbe hardt mot det målet!

$config[ads_kvadrat] not found