Японские исследователи из Университета Осаки представили результаты уникального эксперимента, продемонстрировавшего, что генеративные модели искусственного интеллекта Vision Transformers (ViT) могут развивать навыки визуальной обработки, сходные с человеческими. Эти способности возникли в моделях спонтанно — без явных инструкций или заранее заданных фильтров, благодаря специфическому методу обучения.
В рамках нового исследования специалисты применили технику самоконтролируемого обучения под названием DINO (self-distillation with no labels), которая позволила моделям самостоятельно формировать механизмы восприятия визуальных сцен. Вместо того чтобы задавать ИИ фиксированные правила, ученые позволили системам изучать визуальную информацию в естественной среде, анализируя обширный массив видеоконтента.
Ведущий автор исследования, доктор Такуто Ямамото, пояснил: «Наши модели не просто случайно переключались между элементами изображения. Они спонтанно развивали специализированные функции. Одна группа моделей научилась стабильно фокусироваться на лицах, другая — на контурах фигур, третья — на фоне. Это отражает ту же стратегию сегментации и восприятия сцен, которая характерна для человеческой зрительной системы».
Для проверки гипотезы ученые сравнили визуальные стратегии моделей с данными, полученными при отслеживании движений глаз у людей, просматривавших те же самые видеоклипы. Результаты оказались поразительными: модели, обученные методом DINO, демонстрировали поведение, почти идентичное человеческому. В отличие от них, системы, в которых применялись традиционные алгоритмы с фиксированными фильтрами, показали неестественные и фрагментарные способы восприятия изображения.
Особое внимание вызвал тот факт, что ни одна из моделей не получала предварительных указаний о том, какие объекты следует считать значимыми. Тем не менее, ИИ самостоятельно начал отдавать приоритет лицам, что, по мнению ученых, связано с их высоким информационным содержанием. Старший автор исследования профессор Сигеру Китадзава отметил: «Это убедительное свидетельство того, что самоконтролируемое обучение способно уловить нечто фундаментальное в природе обучения интеллектуальных систем — как искусственных, так и биологических».
Дальнейший анализ подтвердил: модели ViT, обученные с помощью DINO, не только формировали структуры, схожие с визуальным восприятием человека, но и количественно воспроизводили типичные закономерности фиксации взгляда. Особенно это проявилось в сценах с участием людей, где совпадение между поведением человека и ИИ было максимальным.
Это исследование поднимает новые вопросы о границах возможностей искусственного интеллекта в понимании и интерпретации окружающего мира. Результаты, полученные в Университете Осаки, не только приближают нас к созданию по-настоящему “зрячих” машин, но и открывают путь к лучшему пониманию самого процесса человеческого восприятия.