Масштабное исследование в области конфиденциальности выявило серьёзные риски, связанные с использованием общедоступных датасетов для обучения генеративных моделей искусственного интеллекта. Речь идёт о наборе данных DataComp CommonPool, сформированном на основе веб-скрейпинга и насчитывающем к 2023 году более 12,8 миллиарда образцов. В ходе анализа даже незначительной выборки (0,1%) эксперты обнаружили тысячи изображений, содержащих персональные данные, включая сканы паспортов, кредитных карт, свидетельств о рождении, резюме и других конфиденциальных документов.
Согласно оценкам исследователей, общее число изображений с признаками персональной информации может достигать сотен миллионов. Отдельное внимание было уделено трудовым документам — резюме и сопроводительным письмам, содержащим чувствительные сведения о здоровье, результатах проверок, месте жительства, гражданском статусе, а также данные о членах семьи и рекомендателях. В ряде случаев такие документы можно было легко связать с конкретными людьми через общедоступные профили в интернете, что предоставляло злоумышленникам доступ к электронной почте, домашним адресам и государственным идентификаторам.
DataComp CommonPool был создан как продолжение проекта LAION-5B — широко используемого набора данных для обучения генераторов изображений, включая такие модели, как Stable Diffusion и Midjourney. Оба датасета формировались в результате автоматизированного скрейпинга интернета с 2014 по 2022 годы. Хотя разработчики CommonPool заявляли о научных целях и открытом доступе, лицензия не исключала коммерческого применения, что значительно расширило зону потенциального риска.
Среди ключевых проблем — неэффективность автоматических методов обезличивания. В исследуемой выборке были выявлены более 800 неразмытых лиц, что позволяет предположить наличие более 100 миллионов аналогичных изображений во всей базе данных. Также в выборке отсутствовали фильтры для автоматического распознавания PII, таких как адреса электронной почты, номера социального страхования и банковские реквизиты.
Несмотря на то, что распространением CommonPool занимается платформа с возможностью подачи заявок на удаление персональных данных, реализовать своё право могут только те пользователи, которые знают о наличии своих данных в базе. Более того, если обученные модели уже интегрировали эти данные, их исключение из исходного датасета не гарантирует удаления следов обучения.
Исследователи подчёркивают необходимость срочного пересмотра этических и юридических норм в области машинного обучения. В текущей нормативной базе — как в Европе, так и в США — существуют лазейки, позволяющие использовать общедоступные данные в обход базовых принципов защиты конфиденциальности. Отсутствие строгого регулирования в этой области создаёт угрозу массового распространения персональных данных, неконтролируемого обучения моделей и утраты доверия к технологиям искусственного интеллекта.