Нейросеть научили превращать картины в музыку

Нидерландские разработчики создали нейросеть, способную проявлять искусственный аналог визуально-звуковой синестезии — способности соотносить визуальные ощущения со звуками. Алгоритм состоит из двух частей, одна из которых кодирует изображение в высокоуровневое представление, а вторая декодирует это представление в музыку. Особенность алгоритма заключается в том, что он обучался самостоятельно без пар типа изображение-музыка. Разработчики описали алгоритм в статье на arXiv.org, а также расскажут о нем на конференции ICCVW 2019.

В широком смысле художники, фотографы и дизайнеры используют картины и другие визуальные произведения как способ передачи информации другим людям. Однако такой способ донесения информации не работает в случае, если человек, смотрящий на картину, имеет проблемы со зрением. При этом визуальные произведения передают информацию различным способом, например, с помощью сюжета, формы, цвета и других особенностей, то есть их можно описать аналитически. Это означает, что не существует фундаментальной проблемы для того, чтобы передавать ту же информацию другим способом так же, как люди могут доносить информацию до иностранцев, используя свое знание другого языка или программу-перводчик.

Максимилиан Мюллер-Эберштайн (Maximilian Müller-Eberstein) и Нанне ван Ноорд (Nanne van Noord) из Амстердамского университета разработали алгоритм, способный проводить преобразование между изображениями и музыкой, причем при обучении он не требует соотносить изображения с музыкой, а учится этому самостоятельно, применяя метод обучения без учителя.

Алгоритм построен на архитектуре автокодировщика. Такой алгоритм производит преобразование из исходных данных в скрытое представление, которое несет в себе основную информацию об исходных данных и позволяет восстановить их в достаточно похожем виде. Автокодировщики состоят из кодировщика и декодировщика. Особенность таких алгоритмов заключается в том, что, как правило, кодировщик и декодировщик работают с разными данными. К примеру, недавно исследователи из Google использовали такую архитектуру для преобразования музыкальной последовательности на любом инструменте в партию на барабанах.

Нидерландские разработчики в своей работе использовали более необычный подход и применили кодировщик, работающий с изображениями, и декодировщик, работающий с музыкой. Для того, чтобы использовать метод обучения без учителя, авторы применили двунаправленный автокодировщик. После того, как он провел преобразование из изображения в музыку, он производит обратное преобразование из полученной музыки в новое изображение, после чего оно сравнивается с исходным. Это позволяет применять функцию потерь и в ходе обучения снижать разницу между двумя изображениями, тем самым повышая точность работы автокодировщика.

Разработчики обучали алгоритм на популярном датасете MNIST, содержащем 60 тысяч рукописных символов, а также на датасете Behance Artistic Media, из которого они использовали около 180 тысяч картин маслом и акварелью. В качестве музыкального декодировщика они использовали обученную нейросетевую модель MusicVAE.

После обучения авторы проверили точность работы алгоритма количественно, с помощью нескольких метрик, в том числе расстояния Кульбака — Лейблера, а также качественно. Для второй оценки они попросили добровольцев описать свои эмоции при просмотре изображений из датасета с картинами. Эксперимент показал, что после обратного автокодирования эмоции совпадали с эмоциями при оценке исходного изображения со средней точностью 71 процент. Оценить работу алгоритма можно самостоятельно на сайте авторов.

Источник

Заглавная иллюстрация: https://ua.depositphotos.com

Теги:

ТОБІ СПОДОБАЄТЬСЯ

Business Culture HubBusiness Culture Hub

Український культурний фонд запрошує до участі в Business Culture Hub

Український культурний фонд об’єднує круті культурні проєкти та бізнес, який розвиває КСВ! Саме тому УКФ запрошує усіх на другу онлайн-зустріч Business ...

Держкіно презентує онлайн-довідник національних фільмів

Онлайн-довідник «База національних фільмів України» – найповніша база даних за національними фільмами, професіоналами кіновиробництва та компаніями-виробниками України. Держкіно має на меті ...

Юлія Федів

Керівниця УКФ Юлія Федів: «Зміни неможливо запровадити, якщо в них не будуть зацікавлені безпосередні виконавці»

Керівниця УКФ (Український культурний фонд) Юлія Федів розповіла про те, як культурні та креативні індустрії країни пережили кризу та рухаються ...

Вперше за 130 років BORJOMI презентує інноваційний продукт FLAVORED — без цукру і калорій

Вперше за 130 років BORJOMI презентує інноваційний продукт FLAVORED — без цукру і калорій

Ми звикли грати із часом наввипередки, заглиблюватися в міські нетрі та скролити історії з життя. Ми давно орієнтуємось на місцевості ...

Головна тема – кліматичні зміни: у Великобританії назвали Наукового фотографа року

Королівське фотографічне товариство назвало чотирьох переможців конкурсу, які отримали звання Наукового фотографа 2020 року.

Створено Громадське об’єднання «Спілка концертної індустрії України» (СКІУ)

В умовах карантину івент-сфера та концертна галузь залишилися поза межею існування. Планувати діяльність, як раніше, працювати за добре знайомим алгоритмом ...