Maxfiylik bo'yicha keng ko'lamli tadqiqotlar sun'iy intellektning generativ modellarini o'rgatish uchun ommaviy ma'lumotlar to'plamlaridan foydalanish bilan bog'liq jiddiy xavflarni aniqladi. Bu datacomp CommonPool ma'lumotlar to'plami bo'lib, u veb-qirqish asosida tuzilgan va 2023 yilga kelib 12,8 milliarddan ortiq namunalarni o'z ichiga oladi. Hatto kichik namunani (0,1%) tahlil qilishda mutaxassislar shaxsiy ma'lumotlarni o'z ichiga olgan minglab rasmlarni, shu jumladan pasport skanerlari, kredit kartalari, tug'ilganlik to'g'risidagi guvohnomalar, rezyumelar va boshqa nozik hujjatlarni topdilar.
Tadqiqotchilarning hisob-kitoblariga ko'ra, shaxsiy ma'lumotlarga ega bo'lgan tasvirlarning umumiy soni yuz millionlab odamlarga yetishi mumkin. Sog'liqni saqlash, tekshiruvlar natijalari, yashash joyi, fuqarolik holati, shuningdek oila a'zolari va tavsiya etuvchilar to'g'risidagi ma'lumotlarni o'z ichiga olgan mehnat hujjatlari-rezyumelar va muqovali xatlarga alohida e'tibor qaratildi. Ba'zi hollarda, bunday hujjatlar internetdagi ommaviy profillar orqali ma'lum odamlar bilan osongina bog'lanishi mumkin edi, bu esa tajovuzkorlarga elektron pochta, uy manzillari va davlat identifikatorlariga kirish imkonini berdi.
DataComp CommonPool laion-5b loyihasining davomi sifatida yaratilgan — stable Diffusion va Midjourney kabi modellarni o'z ichiga olgan tasvir generatorlarini o'rgatish uchun keng qo'llaniladigan ma'lumotlar to'plami. Ikkala ma'lumotlar to'plami ham 2014 yildan 2022 yilgacha avtomatlashtirilgan Internet skrapingi natijasida shakllangan. CommonPool ishlab chiquvchilari ilmiy maqsadlar va jamoatchilikka kirishni talab qilishgan bo'lsa-da, litsenziya tijorat maqsadlarida foydalanishni istisno qilmadi, bu esa potentsial xavf zonasini sezilarli darajada kengaytirdi.
Asosiy muammolar orasida avtomatik identifikatsiyalash usullarining samarasizligi mavjud. Tadqiqot namunasida 800 dan ortiq yuvilmagan shaxslar aniqlandi, bu ma'lumotlar bazasida 100 milliondan ortiq shunga o'xshash tasvirlar mavjudligini ko'rsatadi. Shuningdek, namunada elektron pochta manzillari, ijtimoiy xavfsizlik raqamlari va bank rekvizitlari kabi avtomatik PII tanib olish uchun filtrlar yo'q edi.
Shaxsiy ma'lumotlarni o'chirish uchun ariza berish imkoniyatiga ega platforma CommonPool-ni tarqatish bilan shug'ullanayotganiga qaramay, faqat ma'lumotlar bazasida ularning mavjudligini biladigan foydalanuvchilar o'z huquqlarini amalga oshirishlari mumkin. Bundan tashqari, agar o'qitilgan modellar ushbu ma'lumotlarni allaqachon birlashtirgan bo'lsa, ularni asl ma'lumotlar to'plamidan chiqarib tashlash o'quv izlarini olib tashlashni kafolatlamaydi.
Tadqiqotchilar mashinani o'rganish sohasidagi axloqiy va huquqiy qoidalarni zudlik bilan qayta ko'rib chiqish zarurligini ta'kidlaydilar. Joriy me'yoriy — huquqiy bazada — Evropada ham, AQShda ham-maxfiylikni himoya qilishning asosiy tamoyillarini chetlab o'tib, ommaviy ma'lumotlardan foydalanishga imkon beradigan bo'shliqlar mavjud. Ushbu sohada qat'iy tartibga solishning yo'qligi shaxsiy ma'lumotlarning ommaviy tarqalishi, modellarni nazoratsiz o'qitish va sun'iy intellekt texnologiyalariga bo'lgan ishonchni yo'qotish xavfini tug'diradi.