Китайская программа Deep Voice научилась менять акцент / iTCrumbs.ru

Компания Baidu представила свежую версию программы Deep Voice. Благодаря обновленному алгоритму искусственного интеллекта, программа намного быстрее и точнее воспроизводит человеческую речь.

Теперь ей нужен лишь 4-секундный аудиообразец, чтобы воспроизвести акцент, тембр и тональность. Также у Deep Voice нет никаких трудностей с тем, чтобы автоматически преобразовать мужской голос в женский.

Благодаря такой программе, а также алгоритму машинного обучения, с помощью которого лица звезд «пересаживали» (местами довольно реалистично) порноактриссам в соответствующих видео, понимаешь, почему верить любым СМИ в интернете становится все труднее.

Но вернемся к Deep Voice. Еще год назад программа требовала 30-минутной учебной аудиозаписи, чтобы проанализировать голос и воспроизвести его индивидуальные особенности. По информации Motherboard, в новой версии, основанной на искусственной нейросети, это время сократилось до 3,7 секунды.

«Конечно, чем длиннее образцы получит Deep Voice, тем лучше будет результат, потому как запись, сгенерированная из одного короткого источника, будет звучать так, будто аудиофайл низкого качества», — отмечают журналисты

Программа способна изменить женский голос на мужской, а британский акцент на американский. Кроме этого, ИИ может научиться копировать разные стили речи, выводя воспроизведение голоса на совершенно новый уровень.

С помощью такой технологии можно генерировать голоса для видеоигр, записи музыки, синхронного перевода или цифрового помощника. Кроме этого, Deep Voice может вернуть голос тем, кто его потерял.

Baidu — не единственная компания, которая работает в этом направлении. 2016 Adobe представила программу VoCo, которая генерирует речь после анализа 20-минутного образца. А монреальский стартап AI Lyrebird утверждает, что его ПО способно воспроизвести голос, используя только одну минуту записи.

Примеры сэмплов, сгенерированных Deep Voice: