DeepMind A.I. Bridges gapet mellom robot og menneskelige stemmer

DeepMind: The Podcast | Episode 4: AI, Robot

DeepMind: The Podcast | Episode 4: AI, Robot
Anonim

Kunstig intelligens bare gjort robot stemmer høres mye mer realistisk ut.

DeepMind, som tidligere demonstrerte kraften til A.I. ved å slå en menneskelig spiller på Go i mars og kutte strømregningen i halvparten i juli, er nå fokusert på talesyntese.

A.I-forskergruppen, som er en del av Googles morselskapsalfabet, avslørte i morges at den har opprettet en ny teknologi som heter WaveNet, som kan brukes til å generere tale, musikk og andre lyder mer nøyaktig enn tidligere.

DeepMind forklarer at mange eksisterende talesyntesemetoder stole på at "en meget stor database med korte talefragmenter er innspilt fra en enkelt høyttaler og deretter rekombinert for å danne fullstendige uttrykk." WaveNet bruker derimot "råbølgeformen til lydsignalet "For å skape mer realistiske stemmer og lyder.

Dette betyr at WaveNet jobber med de individuelle lydene som oppstår når et menneske snakker i stedet for å bruke komplette stavelser eller hele ord. Disse lydene kjøres deretter gjennom en "beregningsfull dyr" prosess som DeepMind har funnet "viktig for å generere komplisert, realistisk lydende lyd" med maskiner.

Resultatet av alt det ekstra arbeidet er en 50 prosent forbedring av syntetisert tale i amerikansk engelsk og kinesisk mandarin. Her er et eksempel på talegenerering ved hjelp av parametrisk tekst-til-tale, som er vanlig i dag, brukt av DeepMind for å demonstrere hvordan denne talesyntesemetoden mangler:

Og her er et eksempel på den samme setningen som er generert av WaveNet:

Som bedrifter fortsetter sitt arbeid med naturlige språkgrensesnitt, vil det bli stadig viktigere å tilby mer realistiske svar. WaveNet kan bidra til å løse dette problemet.