Osaka universitetining yapon tadqiqotchilari Vision Transformers sun'iy intellektining generativ modellari (ViT) insonga o'xshash vizual ishlov berish ko'nikmalarini rivojlantirishi mumkinligini ko'rsatadigan noyob tajriba natijalarini taqdim etdilar. Ushbu qobiliyatlar modellarda o'z-o'zidan paydo bo'ldi-aniq ko'rsatmalarsiz yoki oldindan belgilangan filtrlarsiz, ma'lum bir o'qitish usuli tufayli.
Yangi tadqiqot doirasida mutaxassislar Dino (o'z-o'zini distillash, yorliqsiz) deb nomlangan o'z-o'zini nazorat qilish texnikasini qo'lladilar, bu modellarga vizual sahnalarni idrok etish mexanizmlarini mustaqil ravishda shakllantirishga imkon berdi. Olimlar sun'iy intellektga qat'iy qoidalar berish o'rniga, tizimlarga video kontentning keng doirasini tahlil qilish orqali tabiiy muhitda vizual ma'lumotlarni o'rganishga ruxsat berishdi.
Tadqiqotning etakchi muallifi, doktor Takuto Yamamoto shunday tushuntirdi: "bizning modellarimiz shunchaki tasodifan tasvir elementlari o'rtasida almashmadi. Ular o'z-o'zidan ixtisoslashgan funktsiyalarni ishlab chiqdilar. Modellarning bir guruhi yuzlarga, ikkinchisi — raqamlarning konturlariga, uchinchisi — fonga barqaror e'tibor berishni o'rgandi. Bu inson vizual tizimiga xos bo'lgan sahnalarni segmentatsiya qilish va idrok etish strategiyasini aks ettiradi."
Gipotezani sinab ko'rish uchun olimlar modellarning vizual strategiyalarini bir xil videokliplarni ko'rgan odamlarning ko'z harakatlarini kuzatish natijasida olingan ma'lumotlar bilan solishtirishdi. Natijalar hayratlanarli bo'lib chiqdi: DINO usuli bo'yicha o'qitilgan modellar odamnikiga deyarli o'xshash xatti-harakatlarni namoyish etdi. Ulardan farqli o'laroq, an'anaviy sobit filtrli algoritmlarni qo'llagan tizimlar tasvirni idrok etishning g'ayritabiiy va parcha-parcha usullarini ko'rsatdi.
Modellarning hech biri qaysi ob'ektlarni mazmunli deb hisoblash kerakligi to'g'risida oldindan ko'rsatma olmaganligi alohida e'tiborga sazovor bo'ldi. Shunga qaramay, AI o'z-o'zidan shaxslarga ustuvor ahamiyat berishni boshladi, olimlarning fikriga ko'ra, bu ularning yuqori axborot mazmuni bilan bog'liq. Tadqiqotning katta muallifi, professor Shigeru Kitazava shunday dedi:"bu o'z — o'zini nazorat qiladigan o'rganish aqlli tizimlar-ham sun'iy, ham biologik ta'lim tabiatida asosiy narsani qo'lga kiritishga qodir ekanligining kuchli dalilidir".
Keyingi tahlillar tasdiqladi: DINO bilan o'qitilgan vit modellari nafaqat insonning vizual idrokiga o'xshash tuzilmalarni shakllantiribgina qolmay, balki ko'zni tuzatishning odatiy naqshlarini miqdoriy ravishda takrorladi. Bu, ayniqsa, inson xatti-harakati va sun'iy intellekt o'rtasidagi o'xshashlik maksimal bo'lgan odamlar ishtirokidagi sahnalarda namoyon bo'ldi.
Ushbu tadqiqot atrofdagi dunyoni tushunish va talqin qilishda sun'iy intellektning imkoniyatlari chegaralari haqida yangi savollar tug'diradi. Osaka universitetida olingan natijalar bizni nafaqat chinakam "ko'rish" mashinalarini yaratishga yaqinlashtiradi, balki inson idrok etish jarayonini yaxshiroq tushunishga yo'l ochadi.