Разработчики из Microsoft Research представили алгоритм, который может анимировать статичные кадры лиц с помощью необработанных записей речи людей. Созданная ими модель — контекстно-зависимая: она выделяет из аудио не только фонетические характеристики, но также и эмоциональный тон и сторонний шум, благодаря чему может наложить на статичный кадр все возможные аспекты речи. Препринт статьи с описанием работы алгоритма доступен на arXiv.org.

Для анимирования статичных изображений в большинстве случаев используется перенос информации с видеозаписей на необходимый кадр. В решении этой задачи разработчики уже добились значительных успехов: сейчас существуют модели, которые могут достоверно переносить речь с видеоряда на статичный кадр, воссоздавая мимику говорящего.

Трудности в решении, однако, могут возникать в случае, если «оживить» изображения нужно с помощью аудиоряда: все существующие сейчас алгоритмы, которые могут перенести аудио на статичный кадр так, чтобы получилась натуральная анимация или даже видео процесса речи, ограничены тем, что могут работать только с чистой, хорошо слышимой речью, сказанной нейтральным голосом без эмоционального окраса. Человеческая речь, однако, достаточно многогранна и в идеале необходимо научить подобные алгоритмы воссоздавать все ее аспекты.

Заняться этим решили Гаурав Миттал (Gaurav Mittal) и Баоюань Ван (Baoyuan Wang) из Microsoft Research. Их алгоритм получает на вход аудиофайл и с помощью вариационного автоэнкодера на основе нейросетей с долгой краткосрочной памятью выделяет ключевые аспекты: фонетическую и эмоциональную составляющую (всего алгоритм понимает шесть базовых эмоций), а также сторонний шум. На основе выделенной информации реконструируется мимика говорящего — для этого используются видеофайлы — и накладывается на изначально статичное изображение.

Для обучения алгоритма исследователи использовали три разных датасета: GRID, состоящий из тысячи видеозаписей речи 34 людей, сказанной с нейтральным выражением, 7,4 тысячи видеозаписей речей с различным эмоциональным окрасом, взятых из датасета CREMA-D, а также более ста тысяч отрывков из видео TED.

В результате исследователям удалось анимировать статичные изображения даже с использованием аудио с фоновым шумом до 40 децибел, а также — успешно использовать эмоциональные составляющие речи говорящего в анимировании. Сами анимации авторы не приводят, но приводят сравнение получившихся кадров с результатами работы одного из первых подобных алгоритмов.

Авторы работы также уточнили, что их алгоритм можно использовать во всех уже существующих системах, которые могут анимировать статичные изображения с помощью аудио: для этого необходимо будет заменить в сторонних алгоритмах обрабатывающий аудио компонент.

Источник: https://nplus1.ru

Теги:

ТОБІ СПОДОБАЄТЬСЯ

Репутаційна безпека бренду в час, коли слово «коронавірус» у всіх чорних списках

Паблішери закидають маркетологам, що їх піклування про репутаційну безпеку бренда призвело до того, що слово «коронавірус» опинилося у всіх чорних списках.

Чому гендиректори відмовляються від своєї зарплати у часи кризи

У США чимало гендиректорів тих компаній, які через пандемію несуть збитки, відмовляються від своєї зарплати на знак солідарності у часи кризи.

Чому люди з інвалідністю – найкращі інноватори

Аргумент на користь того, чому люди з інвалідністю – це аж ніяк не примха кадрової політики, а найкращі інноватори, яких тільки можна знайти.

Коли настає година пік в онлайн-магазинах?

Ця статистика та рід інших даних були зібрані компанією SaleCycle та опубліковані у новому звіті 2020 Ecommerce Stats Report.

Штучний інтелект вперше створив новий антибіотик

Вчені з Массачусетського технологічного інституту за допомогою штучного інтелекту відкрили нове потужне лікувальне з’єднання.Алгоритм вивчив величезний цифровий архів, що містить більше 100 млн ...

У квітні в Києві проведуть другий експо-конгрес «Бізнес для розумних міст»

22-24 квітня 2020 року в столичному КВЦ «Парковий» відбудеться другий експо-конгрес «Бізнес для розумних міст». Головна тема події звучить як ...