Искусственный интеллект можно воспитать расистом и сексистом

Машинное обучение часто используется при создании программ, предназначенных для работы с языком. Эта технология активно применяется в поисковых системах, машинном переводе, автоматическом синтезе текста и в других областях. Чтобы алгоритм «звучал» естественно, а также мог воспринимать «живую» человеческую речь, разработчики берут в качестве обучающего материала корпусы текстов, которые включают в себя статьи из средств массовой информации, сообщения пользователей в социальных сетях и на форумах, а также посты в блогах. 

Авторы новой работы предположили, что вместе с формальной структурой языка компьютер может усваивать и исторически закрепившиеся в текстах семантические связи. Для проверки своей гипотезы, ученые разработали специальный алгоритм Word-Embedding Association Test (WEAT), который представляет собой компьютерный аналог психологического теста подсознательных ассоциаций (IAT). В классическом варианте, испытуемому предлагается рассортировать по категориям слова и картинки, которые высвечиваются на экране (например отнести рисунок худого человека или понятие «красивый» к категории «худой или приятное слово»). Оценивая скорость выполнения задания, программа определяет, как человек относится к представленным понятиям. Так, люди быстрее ассоциируют изображения музыкальных инструментов с категорией «музыкальный инструмент или приятное слово» и изображение оружия с категорией «оружие или неприятное слово», чем наоборот.

В случае с компьютером исследователи использовали другой подход. Сначала алгоритм на базе машинного обучения GloVe проанализировал корпус интернет-текстов из 840 миллиарда лексем и представил все слова в виде векторных моделей в едином пространстве. Затем, используя WEAT, ученые измерили близость выбранных векторных моделей (которые соответствовали словам из теста подсознательных ассоциаций) друг к другу. По сути дела, чем чаще два слова встречались рядом в тексте, тем чаще они ассоциировались между собой и тем ближе они были в векторном поле.

В результате, WEAT выявил те же закономерности, что и психологический тест. Названия цветов в системе GloVe оказались связаны с приятными словами, в то время как названия насекомых — с неприятными. Также выяснилось, что мужские имена чаще ассоциируются с карьерой и точными науками, а женские — с семьей и гуманитарными дисциплинами. Более характерные для темнокожих американцев имена оказались близки с такими понятиями как «оружие» и «бедность», а имена, чаще встречающиеся среди белого населения, были связаны со словами «семья», «счастливый». 

Таким образом ученым удалось показать, что искусственный интеллект может невольно усваивать стереотипы, которые встречаются в материалах для обучения. Наглядным примером может служить работа онлайн-сервиса Google Translate. Так, исследователи заметили, что род гендерно-нейтрального турецкого местоимения «о» меняется в зависимости от профессии: «o bir doktor» на английский язык переводится как «он врач», а «o bir hemsire» — «она медсестра».

Авторы статьи подчеркивают, что в будущем подобные особенности систем ИИ могут негативно сказаться на их работе. Например, если наполненные предрассудками программы будут использоваться для предварительного отбора резюме, это приведет к несправедливым решениям. Более того, обучаясь на современных текстах, алгоритмы могут «заморозить» во времени встречающиеся в них стереотипы.

В будущем исследователи планируют продолжить свою работу, изучив ассоциации между словосочетаниями. Также разработанный ими метод анализа можно применить для исторических текстов, чтобы понять, в какой момент начали развиваться те или иные предубеждения, а также как они менялись со временем.

Теги:

ТОБІ СПОДОБАЄТЬСЯ

Визначено креативні стартапи, що представлять Україну на Creative Business Cup BRIGHT у Копенгагені

4 вересня цього року відбувся національний конкурс пітчингів для стартапів та вже працюючих бізнесів з креативної індустрії Creative Business Cup ...

Український стартап 7gram створює кавові устілки для взуття з одноразових стаканів

Український стартап 7-gram.com змінює світ, переробляючи відходи кав’ярень на устілки з ароматом кави. Одноразовий паперовий стаканчик складається з первинної целюлози ...

Чи здатні періодичні видання вижити без платної підписки?

Найстаріша англомовна газета Гонконгу, вирішила повернутися до платної підписки, ставши знаком того, що якісна журналістика повинна належно оплачуватися.

Міленіали — найперспективніша аудиторія електронної комерції наприкінці 2020

Компанія Braze з'ясувала, що саме міленіали, а не покоління Z – найперспективніша аудиторія електронної комерції наприкінці 2020 року.

Fortnite проти Apple: найпопулярніша гра позивається на найдорожчу компанію світу

Початок конфлікту між Fortnite та Apple ознаменував, зокрема, ролик, який кадр за кадром пародіює іконічну рекламу Apple «1984».

Дума про інженерну геніальність та підприємницький підхід засновників Future Mechanics

Managing Director медійного агентства IQ Media, Partner студії Motion Design NAOS.BAND і колумніст CreativityUA Юрій Дума продовжує серію історій про людей та ...