Подразделение Google DeepMind, занимающееся разработками в области искусственного интеллекта, сообщило о достижении прорыва в программном синтезе человеческого голоса. Новая технология — WaveNet — приближает устную речь, сгенерированную компьютером, к естественному звучанию голоса человека.
Большая часть компьютерных синтезаторов, как правило, используют заранее составленную базу данных коротких фрагментов речи, записанных человеком. Из отрывков составляются новые слова — так работают, в частности, голосовые помощники Siri или Alexa. Недостаток этого метода заключается в том, что впоследствии изменить звучание голоса очень сложно. Другие синтезаторы используют более гибкий подход, генерируя речь прямо на компьютере, однако возникает ощущение, что текст произносит робот, а не человек.
WaveNet — это разработка совершенно иного типа. Она учится на отдельных звуковых волнах, что позволяет ей имитировать голос на 50% лучше нынешних технологий. Как подтвердила фокус-группа, синтезированная WaveNet речь на английском и китайском языках звучит естественнее, чем любая из существующих программ Google для преобразования текста в речь.
Речь становится все более важным способом взаимодействия человека с техникой: от смартфонов до автомобилей. Как сообщил на прошлой неделе международный директор магазина Google Play Марк Беннетт, 20% поисковых запросов к Google на мобильных устройствах делаются при помощи голоса, а не текста.
WaveNet — слишком молодая технология для коммерческого применения на Android-смартфонах, т.к. ей нужны огромные вычислительные ресурсы для синтеза речи. Тем не менее, за дальнейшей судьбой WaveNet наверняка будут пристально следить Amazon (Alexa), Microsoft (Cortana), Apple (Siri) и другие разработчики голосовых ассистентов.
Британская DeepMind, которая была куплена интернет-поисковиком в 2014 году за $533 миллиона, стала широко известна весной после обыгрыша корейского чемпиона в го. Компьютерная программа AlphaGo, разработанная инженерами DeepMind, одолела профессионального игрока Ли Седоля в четырех партиях из пяти.
Источник: Bloomberg