Vision Transformers
Японские исследователи из Университета Осаки представили результаты уникального эксперимента, продемонстрировавшего, что генеративные модели искусственного интеллекта Vision Transformers (ViT) могут развивать навыки визуальной обработки, сходные с человеческими. Эти способности возникли в моделях спонтанно — без явных инструкций или заранее заданных фильтров, благодаря специфическому методу обучения.
В рамках нового исследования специалисты применили технику самоконтролируемого обучения под названием DINO (self-distillation with no labels), которая позволила моделям самостоятельно формировать механизмы восприятия визуальных сцен. Вместо того чтобы задавать ИИ фиксированные правила, ученые позволили системам изучать визуальную информацию в естественной среде, анализируя обширный массив видеоконтента.
Ведущий автор исследования, доктор Такуто Ямамото, пояснил: «Наши модели не просто случайно переключались между элементами изображения. Они спонтанно развивали специализированные функции. Одна группа моделей научилась стабильно фокусироваться на лицах, другая — на контурах фигур, третья — на фоне. Это отражает ту же стратегию сегментации и восприятия сцен, которая характерна для человеческой зрительной системы».
Для проверки гипотезы ученые сравнили визуальные стратегии моделей с данными, полученными при отслеживании движений глаз у людей, просматривавших те же самые видеоклипы. Результаты оказались поразительными: модели, обученные методом DINO, демонстрировали поведение, почти идентичное человеческому. В отличие от них, системы, в которых применялись традиционные алгоритмы с фиксированными фильтрами, показали неестественные и фрагментарные способы восприятия изображения.
Особое внимание вызвал тот факт, что ни одна из моделей не получала предварительных указаний о том, какие объекты следует считать значимыми. Тем не менее, ИИ самостоятельно начал отдавать приоритет лицам, что, по мнению ученых, связано с их высоким информационным содержанием. Старший автор исследования профессор Сигеру Китадзава отметил: «Это убедительное свидетельство того, что самоконтролируемое обучение способно уловить нечто фундаментальное в природе обучения интеллектуальных систем — как искусственных, так и биологических».
Дальнейший анализ подтвердил: модели ViT, обученные с помощью DINO, не только формировали структуры, схожие с визуальным восприятием человека, но и количественно воспроизводили типичные закономерности фиксации взгляда. Особенно это проявилось в сценах с участием людей, где совпадение между поведением человека и ИИ было максимальным.
Это исследование поднимает новые вопросы о границах возможностей искусственного интеллекта в понимании и интерпретации окружающего мира. Результаты, полученные в Университете Осаки, не только приближают нас к созданию по-настоящему “зрячих” машин, но и открывают путь к лучшему пониманию самого процесса человеческого восприятия.
В Ташкенте состоялся первый инновационный саммит INMerge Uzbekistan — ключевое событие для технологического и инвестиционного сообщества региона. Саммит стал площадкой…
На европейский рынок выходит обновлённый Citroën C5 Aircross 2025 года — кроссовер, в котором сочетаются современные технологии, продуманная эргономика и…
Постановлением Кабинета Министров от 15 июля 2025 года № 443 утверждены изменения в порядке обязательного страхования гражданской ответственности работодателя. Документ…
В Узбекистане продолжается реализация Стратегии развития технологий искусственного интеллекта, утверждённой Постановлением Президента от 14 октября 2024 года. Одним из практических…
Генеральный директор Nvidia Дженсен Хуанг, один из ключевых архитекторов современного искусственного интеллекта, заявил, что если бы начинал карьеру сегодня, сосредоточился…
По данным Центрального банка Узбекистана, за первые шесть месяцев 2025 года объём денежных переводов из Российской Федерации составил 6,4 миллиарда…