Компьютер научили анимировать лица необработанной записью речи

Разработчики из Microsoft Research представили алгоритм, который может анимировать статичные кадры лиц с помощью необработанных записей речи людей. Созданная ими модель — контекстно-зависимая: она выделяет из аудио не только фонетические характеристики, но также и эмоциональный тон и сторонний шум, благодаря чему может наложить на статичный кадр все возможные аспекты речи. Препринт статьи с описанием работы алгоритма доступен на arXiv.org.

Для анимирования статичных изображений в большинстве случаев используется перенос информации с видеозаписей на необходимый кадр. В решении этой задачи разработчики уже добились значительных успехов: сейчас существуют модели, которые могут достоверно переносить речь с видеоряда на статичный кадр, воссоздавая мимику говорящего.

Трудности в решении, однако, могут возникать в случае, если «оживить» изображения нужно с помощью аудиоряда: все существующие сейчас алгоритмы, которые могут перенести аудио на статичный кадр так, чтобы получилась натуральная анимация или даже видео процесса речи, ограничены тем, что могут работать только с чистой, хорошо слышимой речью, сказанной нейтральным голосом без эмоционального окраса. Человеческая речь, однако, достаточно многогранна и в идеале необходимо научить подобные алгоритмы воссоздавать все ее аспекты.

Заняться этим решили Гаурав Миттал (Gaurav Mittal) и Баоюань Ван (Baoyuan Wang) из Microsoft Research. Их алгоритм получает на вход аудиофайл и с помощью вариационного автоэнкодера на основе нейросетей с долгой краткосрочной памятью выделяет ключевые аспекты: фонетическую и эмоциональную составляющую (всего алгоритм понимает шесть базовых эмоций), а также сторонний шум. На основе выделенной информации реконструируется мимика говорящего — для этого используются видеофайлы — и накладывается на изначально статичное изображение.

Для обучения алгоритма исследователи использовали три разных датасета: GRID, состоящий из тысячи видеозаписей речи 34 людей, сказанной с нейтральным выражением, 7,4 тысячи видеозаписей речей с различным эмоциональным окрасом, взятых из датасета CREMA-D, а также более ста тысяч отрывков из видео TED.

В результате исследователям удалось анимировать статичные изображения даже с использованием аудио с фоновым шумом до 40 децибел, а также — успешно использовать эмоциональные составляющие речи говорящего в анимировании. Сами анимации авторы не приводят, но приводят сравнение получившихся кадров с результатами работы одного из первых подобных алгоритмов.

Авторы работы также уточнили, что их алгоритм можно использовать во всех уже существующих системах, которые могут анимировать статичные изображения с помощью аудио: для этого необходимо будет заменить в сторонних алгоритмах обрабатывающий аудио компонент.

Источник: https://nplus1.ru

Теги:

ТОБІ СПОДОБАЄТЬСЯ

TISC Укрпатент разом із UNIT.City презентували IP Guide для українських ІТ-компаній

TISC Укрпатент разом із UNIT.City презентували IP Guide для українських ІТ-компаній

17 лютого в інноваційному парку UNIT.City відбулась презентація IP Guide для сфери інформаційних технологій. В ньому зібрані головні поради щодо ...

Безкоштовний онлайн-саміт Beyond Eastern Europe: Як українцям працювати на іноземних ринках

25 лютого о 10:00 відбудеться безкоштовний онлайн-саміт Beyond Eastern Europe, організований компанією Payoneer. Понад десять експертів в області бізнесу та ...

Вперше за 130 років BORJOMI презентує інноваційний продукт FLAVORED — без цукру і калорій

Вперше за 130 років BORJOMI презентує інноваційний продукт FLAVORED WATER — без цукру

Ми звикли грати із часом наввипередки, заглиблюватися в міські нетрі та скролити історії з життя. Ми давно орієнтуємось на місцевості ...

Coca-Cola переходить до пляшок з переробленого пластику

Coca-Cola Co. запроваджує використання в США виключно пляшок з переробленого пластику, що є значним зрушенням у стратегії сталого розвитку. Компанія ...

Сергій Кузьменко — новий керівний директор TWIGA Ukraine

З 2021 року керівним директором комунікаційної групи TWIGA Ukraine призначено Сергія Кузьменка, який до цього займав позицію стратегічного директора. Світлана ...

Cittart

В Україні з’явиться мистецька соціальна мережа та маркетплейс Cittart

Розробники проєкту називають його «мистецький Instagram». Дійсно, до формату саме цієї соцмережі найбільше тяжіють поціновувачі візуальних видів мистецтва. Засновники стартапу ...