Специалисты компании Google собрали масштабный датасет, который содержит тысячи записей синтезированной английской речи. Всего в базе данных доступны несколько десятков «голосов». Подробнее об этом можно прочитать в блоге компании: пока что датасет открыт только для разработчиков — участников конкурса по созданию автоматических систем различения синтезированной и реальной речи.

Технологии синтеза речи (text-to-speech) позволяют формировать речевой сигнал из печатного текста. Для этого человеку, чей голос используется для конечной модели, необязательно проговаривать весь нужный текст целиком: нужна только репрезентативная выборка данных, из которых можно выделить достаточное количество фонем для дальнейшего качественного синтеза. Сейчас такие технологии в основном используются для озвучивания голосовых помощников: например, о том, как научилась разговаривать Алиса, голосовой помощник компании «Яндекс», вы можете прочитать в нашем материале «Алиса, скажи что-нибудь».

Синтез речи постоянно улучшается: например, в декабре 2017 года разработчики Google создали систему, которая может производитьустную речь, почти неотличимую от человеческой. Создание и использование настолько эффективных технологий поднимает важные вопросы приватности данных пользователей: с хорошим синтезом злоумышленники могут правдоподобно скопировать чужой голос и использовать его в своих целях.

Специально для того, чтобы это предотвратить, Google опубликовала большую базу данных образцов синтезированной речи: в нее входят несколько тысяч отрывков из газет, «зачитанных» 68 синтезированными голосами. Фразы звучат на английском и имитируют несколько разных акцентов.

Пока что датасет доступен только для участников конкурса Automatic Speaker Verification, который посвящен обучению систем, позволяющих автоматически отличить синтезировнную речь от реальной. Результаты конкурса будут подведены в сентябре этого года; будут ли данные доступны для сторонних разработчиков, пока неизвестно.

Помимо эффективного синтеза голоса сейчас также создаются системы, которые позволяют переносить лица и даже движения между людьми. К примеру, летом прошлого года в NVIDIA создали нейросеть, которая позволяет переносить движения человека с одного видео на тело человека в другом.

Источник

Заглавная иллюстрация: https://ua.depositphotos.com

Теги:

ТОБІ СПОДОБАЄТЬСЯ

Репутаційна безпека бренду в час, коли слово «коронавірус» у всіх чорних списках

Паблішери закидають маркетологам, що їх піклування про репутаційну безпеку бренда призвело до того, що слово «коронавірус» опинилося у всіх чорних списках.

Чому гендиректори відмовляються від своєї зарплати у часи кризи

У США чимало гендиректорів тих компаній, які через пандемію несуть збитки, відмовляються від своєї зарплати на знак солідарності у часи кризи.

Чому люди з інвалідністю – найкращі інноватори

Аргумент на користь того, чому люди з інвалідністю – це аж ніяк не примха кадрової політики, а найкращі інноватори, яких тільки можна знайти.

Коли настає година пік в онлайн-магазинах?

Ця статистика та рід інших даних були зібрані компанією SaleCycle та опубліковані у новому звіті 2020 Ecommerce Stats Report.

Штучний інтелект вперше створив новий антибіотик

Вчені з Массачусетського технологічного інституту за допомогою штучного інтелекту відкрили нове потужне лікувальне з’єднання.Алгоритм вивчив величезний цифровий архів, що містить більше 100 млн ...

У квітні в Києві проведуть другий експо-конгрес «Бізнес для розумних міст»

22-24 квітня 2020 року в столичному КВЦ «Парковий» відбудеться другий експо-конгрес «Бізнес для розумних міст». Головна тема події звучить як ...