Нейросеть научили превращать картины в музыку

Нидерландские разработчики создали нейросеть, способную проявлять искусственный аналог визуально-звуковой синестезии — способности соотносить визуальные ощущения со звуками. Алгоритм состоит из двух частей, одна из которых кодирует изображение в высокоуровневое представление, а вторая декодирует это представление в музыку. Особенность алгоритма заключается в том, что он обучался самостоятельно без пар типа изображение-музыка. Разработчики описали алгоритм в статье на arXiv.org, а также расскажут о нем на конференции ICCVW 2019.

В широком смысле художники, фотографы и дизайнеры используют картины и другие визуальные произведения как способ передачи информации другим людям. Однако такой способ донесения информации не работает в случае, если человек, смотрящий на картину, имеет проблемы со зрением. При этом визуальные произведения передают информацию различным способом, например, с помощью сюжета, формы, цвета и других особенностей, то есть их можно описать аналитически. Это означает, что не существует фундаментальной проблемы для того, чтобы передавать ту же информацию другим способом так же, как люди могут доносить информацию до иностранцев, используя свое знание другого языка или программу-перводчик.

Максимилиан Мюллер-Эберштайн (Maximilian Müller-Eberstein) и Нанне ван Ноорд (Nanne van Noord) из Амстердамского университета разработали алгоритм, способный проводить преобразование между изображениями и музыкой, причем при обучении он не требует соотносить изображения с музыкой, а учится этому самостоятельно, применяя метод обучения без учителя.

Алгоритм построен на архитектуре автокодировщика. Такой алгоритм производит преобразование из исходных данных в скрытое представление, которое несет в себе основную информацию об исходных данных и позволяет восстановить их в достаточно похожем виде. Автокодировщики состоят из кодировщика и декодировщика. Особенность таких алгоритмов заключается в том, что, как правило, кодировщик и декодировщик работают с разными данными. К примеру, недавно исследователи из Google использовали такую архитектуру для преобразования музыкальной последовательности на любом инструменте в партию на барабанах.

Нидерландские разработчики в своей работе использовали более необычный подход и применили кодировщик, работающий с изображениями, и декодировщик, работающий с музыкой. Для того, чтобы использовать метод обучения без учителя, авторы применили двунаправленный автокодировщик. После того, как он провел преобразование из изображения в музыку, он производит обратное преобразование из полученной музыки в новое изображение, после чего оно сравнивается с исходным. Это позволяет применять функцию потерь и в ходе обучения снижать разницу между двумя изображениями, тем самым повышая точность работы автокодировщика.

Разработчики обучали алгоритм на популярном датасете MNIST, содержащем 60 тысяч рукописных символов, а также на датасете Behance Artistic Media, из которого они использовали около 180 тысяч картин маслом и акварелью. В качестве музыкального декодировщика они использовали обученную нейросетевую модель MusicVAE.

После обучения авторы проверили точность работы алгоритма количественно, с помощью нескольких метрик, в том числе расстояния Кульбака — Лейблера, а также качественно. Для второй оценки они попросили добровольцев описать свои эмоции при просмотре изображений из датасета с картинами. Эксперимент показал, что после обратного автокодирования эмоции совпадали с эмоциями при оценке исходного изображения со средней точностью 71 процент. Оценить работу алгоритма можно самостоятельно на сайте авторов.

Источник

Заглавная иллюстрация: https://ua.depositphotos.com

Теги:

ТОБІ СПОДОБАЄТЬСЯ

В Україні розпочали ґрунтовне дослідження музичної індустрії

Скільки насправді заробляють музиканти? Яким є експортний потенціал української музики? Як працює наш музичний ринок у реальному житті та яких ...

Піаніст Павло Гінтов про креативність музиканта-виконавця і майбутнє класичної музики

Український піаніст Павло Гінтов сьогодні добре відомий в багатьох країнах світу. В його доробку — призи й нагороди на міжнародних ...

15 липня відбудеться онлайн-конференція Technologication про технології для бізнесу

Amazon Web Services, Microsoft, Booking.com, Genesis — лідери своїх сфер, які переживали не одну кризу і трансформацію. 15 липня в ...

Kyiv Art Fair відбудеться з 20 по 23 серпня на новій локації — Parkovy

Протягом чотирьох днів з 20 по 23 серпня у киян і гостей столиці буде можливість відвідати традиційну культурну подію — ...

Міжнародний конкурс урбаністичного фотомистецтва готується обирати переможців

Міжнародний конкурс Urban Photo Awards, який цього року відбудеться вже водинадцяте, назвав тих фотографів, що змагатимуться за першість у 2020 році.

Трансформації бізнесу, кризовий менеджмент та комунікації. Онлайн-конференція CASES

Коронакриза змінює все: бізнеси, попит, комунікації. Сьогодні трансформації мислення, підходів, бізнес-моделей та створення нових стратегій стають як ніколи актуальними. Онлайн-конференція ...