Нейросеть научили превращать картины в музыку

Нидерландские разработчики создали нейросеть, способную проявлять искусственный аналог визуально-звуковой синестезии — способности соотносить визуальные ощущения со звуками. Алгоритм состоит из двух частей, одна из которых кодирует изображение в высокоуровневое представление, а вторая декодирует это представление в музыку. Особенность алгоритма заключается в том, что он обучался самостоятельно без пар типа изображение-музыка. Разработчики описали алгоритм в статье на arXiv.org, а также расскажут о нем на конференции ICCVW 2019.

В широком смысле художники, фотографы и дизайнеры используют картины и другие визуальные произведения как способ передачи информации другим людям. Однако такой способ донесения информации не работает в случае, если человек, смотрящий на картину, имеет проблемы со зрением. При этом визуальные произведения передают информацию различным способом, например, с помощью сюжета, формы, цвета и других особенностей, то есть их можно описать аналитически. Это означает, что не существует фундаментальной проблемы для того, чтобы передавать ту же информацию другим способом так же, как люди могут доносить информацию до иностранцев, используя свое знание другого языка или программу-перводчик.

Максимилиан Мюллер-Эберштайн (Maximilian Müller-Eberstein) и Нанне ван Ноорд (Nanne van Noord) из Амстердамского университета разработали алгоритм, способный проводить преобразование между изображениями и музыкой, причем при обучении он не требует соотносить изображения с музыкой, а учится этому самостоятельно, применяя метод обучения без учителя.

Алгоритм построен на архитектуре автокодировщика. Такой алгоритм производит преобразование из исходных данных в скрытое представление, которое несет в себе основную информацию об исходных данных и позволяет восстановить их в достаточно похожем виде. Автокодировщики состоят из кодировщика и декодировщика. Особенность таких алгоритмов заключается в том, что, как правило, кодировщик и декодировщик работают с разными данными. К примеру, недавно исследователи из Google использовали такую архитектуру для преобразования музыкальной последовательности на любом инструменте в партию на барабанах.

Нидерландские разработчики в своей работе использовали более необычный подход и применили кодировщик, работающий с изображениями, и декодировщик, работающий с музыкой. Для того, чтобы использовать метод обучения без учителя, авторы применили двунаправленный автокодировщик. После того, как он провел преобразование из изображения в музыку, он производит обратное преобразование из полученной музыки в новое изображение, после чего оно сравнивается с исходным. Это позволяет применять функцию потерь и в ходе обучения снижать разницу между двумя изображениями, тем самым повышая точность работы автокодировщика.

Разработчики обучали алгоритм на популярном датасете MNIST, содержащем 60 тысяч рукописных символов, а также на датасете Behance Artistic Media, из которого они использовали около 180 тысяч картин маслом и акварелью. В качестве музыкального декодировщика они использовали обученную нейросетевую модель MusicVAE.

После обучения авторы проверили точность работы алгоритма количественно, с помощью нескольких метрик, в том числе расстояния Кульбака — Лейблера, а также качественно. Для второй оценки они попросили добровольцев описать свои эмоции при просмотре изображений из датасета с картинами. Эксперимент показал, что после обратного автокодирования эмоции совпадали с эмоциями при оценке исходного изображения со средней точностью 71 процент. Оценить работу алгоритма можно самостоятельно на сайте авторов.

Источник

Заглавная иллюстрация: https://ua.depositphotos.com

Теги:

Український Маркетинг Форум

ТОБІ СПОДОБАЄТЬСЯ

Відкрито реєстрацію на Четвертий міжнародний ярмарок грантів у сфері культури

Національне бюро програми ЄС «Креативна Європа» в Україні та Український культурний фонд вже вчетверте проведуть Міжнародний ярмарок грантів у сфері ...

Створено Ukrainian Live Classic — мобільний додаток для популяризації української класичної музики

Створено перший додаток для популяризації української класичної музики. Він представляє собою свіжу підбірку музичних творів, різноманіття стилів та композиторів, а ...

Фільми для незрячих людей: SWEET.TV долучився до проєкту «Доступне Кіно»

Онлайн-кінотеатр SWEET.TV розпочав співпрацю з агенцією «Доступне Кіно», що працює в межах громадської організації «Боротьба за права». Мета співпраці — щоб якісних, легальних, доступних для ...

Спогади із покинутого міста: MEGOGO запустив документальний аудіосеріал «Прип’ять»

21 квітня на медіасервісі MEGOGO з’явився документальний аудіосеріал «Прип’ять» до 35-ої річниці пам’яті катастрофи на Чорнобильській АЕС. Це шість епізодів ...

Спецпроєкт BAKOTECH про дівчат в IT: погляд зсередини

22 квітня відзначається День дівчат в IT. До цього дня спеціалісти з BAKOTECH випустили на YouTube-каналі невеликий спецпроєкт про роль ...

Ілюстратор Сергій Майдуков проведе відкриту онлайн лекцію

23 квітня у межах воркшопу з ілюстрації Сергія Майдукова видавництво IST Publishing організує дві відкриті онлайн розмови з українськими ілюстраторами. ...