Искусственный интеллект самостоятельно освоил паркур (ВИДЕО)

Обучение с подкреплением — это один из способов машинного обучения, который подразумевает, что испытуемая система (агент) находится в некоторой среде, о которой у нее нет сведений, но в которой она может совершать определенные действия. Действия переводят среду в новое состояние, и агент получает от нее некоторое вознаграждение или штраф. Благодаря постоянной обратной связи, система совершенствует свою работу — подобный метод используется для тренировки роботов или игровых систем искусственного интеллекта (ИИ).

Чаще всего программисты разрабатывают функцию вознаграждения так, чтобы агент решал задачу только определенным способом. Это приводит к тому, что система ИИ порой не может приспособиться даже к незначительным изменениям условий. Разработчики из Google DeepMind, в свою очередь, создали такую среду и систему наград, которые способствуют выработке сложного поведения.

Исследователи построили виртуальный мир с разными по сложности препятствиями, куда они поочередно помещали трех агентов: тело с двумя ногами, четвероногий корпус и человекообразную фигуру. Каждая система была наделена проприцепцией (ощущением положения частей собственного тела относительно друг друга и в пространстве) и примитивным зрением. Всем агентам надо было добраться из точки А в точку В, и чем быстрее они это делали, тем больше была награда. Разработчики также ввели систему штрафов: двуногое тело наказывалось, если оно наталкивалось на препятствия из-за неправильного положения торса, а четвероногий «паук» и «человек» — если смещались с центра плоскости.

В итоге, компьютер самостоятельно научился сложным движениям — он стал перепрыгивать ямы, уклоняться от препятствий сверху, а также взбегать на склоны и перепрыгивать барьеры. Кроме того, как показано на видео, агенты использовали «колени», чтобы залезть на высокие платформы.

Программисты из Google DeepMind заключили, что простая система наград и богатая виртуальная среда способствуют развитию нестандартных двигательных навыков. По их мнению, такой подход позволит в целом улучшить качество и надежность поведения агентов.

Теги:

ТОБІ СПОДОБАЄТЬСЯ

Анімація на пательні: режисери Wriggles&Robins спекли відео до Дня млинця

Яким би млинцям ви не надавали перевагу, певно ви оціните майстерність режисерів-аніматорів, які спекли 600 млинців, перетворивши їх на відео до Дня млинця.

Вперше за 130 років BORJOMI презентує інноваційний продукт FLAVORED — без цукру і калорій

Вперше за 130 років BORJOMI презентує інноваційний продукт FLAVORED — без цукру і калорій

Ми звикли грати із часом наввипередки, заглиблюватися в міські нетрі та скролити історії з життя. Ми давно орієнтуємось на місцевості ...

Hyundai показує як це, коли оком змигнути не встиг, а діти вже виросли

Hyundai та Innocean Australia вирішили показати, що восьмимісний автомобіль Palisade буде лишатися зручним навіть тоді, коли діти вже виросли.

Шведська лотерея: коли мільйонерів забагато

Такі вже вони мільйонери – ви чекаєте одного, а тут набігає аж 1410, зіштовхуючись ліктями та наступаючи одне одному на ноги.

Супермаркет як арт-інсталяція: творчий колектив Meow Wolf збирається приголомшити Лас-Вегас

Як прорекламувати психоделічний та непередбачуваний імерсивний арт-експірієнс, особливо якщо ви його замаскували під (не)звичайний супермаркет? А дуже просто: берете типову ...

Coca-Cola переходить до пляшок з переробленого пластику

Coca-Cola Co. запроваджує використання в США виключно пляшок з переробленого пластику, що є значним зрушенням у стратегії сталого розвитку. Компанія ...