Машинное зрение считается одной из сильных сторон искусственного интеллекта. Оно делает возможным многое: от автоматических медицинских сканов до машин-беспилотников. Но хотя точность таких алгоритмов совершила огромный скачок, эти системы до сих пор часто оказываются сбиты с толку картинками, которые для человека очевидны.
Достаточно взглянуть на приведенный выше коллаж. Все понятно, не так ли? Мы видим молотки, прихватки-варежки… Ну, разве что среднюю картинку в верхнем ряду может понадобиться поразглядывать какое-то время, чтобы понять, что на ней стул, вид сверху. Но даже самые продвинутые алгоритмы в состоянии распознать тут лишь один-два объекта. А ведь мы им доверяем водить машины!
Но именно поэтому такие изображения и были созданы. Это – часть базы данных ObjectNet, собранной учеными из Массачусетского технологического института, чтобы показать слабые стороны машинного зрения. Распознавание объектов остается проблемой, так что алгоритмы должны поумнеть.
А для этого им нужно работать с данными получше. Хотя бы и с ObjectNet. Эта база содержит 50000 изображений, на которых объекты показаны в непривычном ракурсе или контексте: перевернутый чайник на диване, опрокинутый стул в ванной и т.д. Замысел был в том, чтобы проверить сообразительность разных алгоритмов. И пока еще ни один из протестированных на ObjectNet искинов не выдал результат выше 45%.
С такими картинками компьютеру работать непросто, ведь в учебных базах данных они практически не фигурируют. И к тому же машина с трудом представляет, как работают объекты в реальном мире. В результате, все то, что искин видел раньше, никак не учит его представлять те же объекты, но под другим углом или освещением.