Digital

США: выявлена утечка персональных данных в одном из крупнейших наборов для обучения ИИ

Масштабное исследование в области конфиденциальности выявило серьёзные риски, связанные с использованием общедоступных датасетов для обучения генеративных моделей искусственного интеллекта. Речь идёт о наборе данных DataComp CommonPool, сформированном на основе веб-скрейпинга и насчитывающем к 2023 году более 12,8 миллиарда образцов. В ходе анализа даже незначительной выборки (0,1%) эксперты обнаружили тысячи изображений, содержащих персональные данные, включая сканы паспортов, кредитных карт, свидетельств о рождении, резюме и других конфиденциальных документов.

Согласно оценкам исследователей, общее число изображений с признаками персональной информации может достигать сотен миллионов. Отдельное внимание было уделено трудовым документам — резюме и сопроводительным письмам, содержащим чувствительные сведения о здоровье, результатах проверок, месте жительства, гражданском статусе, а также данные о членах семьи и рекомендателях. В ряде случаев такие документы можно было легко связать с конкретными людьми через общедоступные профили в интернете, что предоставляло злоумышленникам доступ к электронной почте, домашним адресам и государственным идентификаторам.

DataComp CommonPool был создан как продолжение проекта LAION-5B — широко используемого набора данных для обучения генераторов изображений, включая такие модели, как Stable Diffusion и Midjourney. Оба датасета формировались в результате автоматизированного скрейпинга интернета с 2014 по 2022 годы. Хотя разработчики CommonPool заявляли о научных целях и открытом доступе, лицензия не исключала коммерческого применения, что значительно расширило зону потенциального риска.

Среди ключевых проблем — неэффективность автоматических методов обезличивания. В исследуемой выборке были выявлены более 800 неразмытых лиц, что позволяет предположить наличие более 100 миллионов аналогичных изображений во всей базе данных. Также в выборке отсутствовали фильтры для автоматического распознавания PII, таких как адреса электронной почты, номера социального страхования и банковские реквизиты.

Несмотря на то, что распространением CommonPool занимается платформа с возможностью подачи заявок на удаление персональных данных, реализовать своё право могут только те пользователи, которые знают о наличии своих данных в базе. Более того, если обученные модели уже интегрировали эти данные, их исключение из исходного датасета не гарантирует удаления следов обучения.

Исследователи подчёркивают необходимость срочного пересмотра этических и юридических норм в области машинного обучения. В текущей нормативной базе — как в Европе, так и в США — существуют лазейки, позволяющие использовать общедоступные данные в обход базовых принципов защиты конфиденциальности. Отсутствие строгого регулирования в этой области создаёт угрозу массового распространения персональных данных, неконтролируемого обучения моделей и утраты доверия к технологиям искусственного интеллекта.

Tags: ITТОП
Maili News

Maili.uz - новостной портал Узбекистана.

Recent Posts

Узбекистан принял участие в промышленном фестивале Ульсана 2025

В Ульсане состоялось открытие промышленного фестиваля, на котором Узбекистан был представлен делегацией во главе с хокимом Хайрулло Бозоровым. Площадка продемонстрировала…

1 неделя ago

Узбекистан и Беларусь заключили партнерство в машиностроении

Узбекистан и Беларусь согласовывают приоритеты промышленной кооперации с фокусом на машиностроение, где возможна быстрая капитализация компетенций обеих сторон. На переговорах…

1 неделя ago

Узбекистан и Венгрия расширяют сотрудничество в области профессионального обучения

В Ташкенте состоялась встреча министра по сокращению бедности и занятости Узбекистана Батира Захидова с делегацией Венгрии во главе с министром…

1 неделя ago

Президент Финляндии посетит Узбекистан 30–31 октября

Официальный визит президента Финляндии Александра Стубба в Узбекистан запланирован на 30–31 октября 2025 года. В Ташкенте состоится встреча глав государств,…

1 неделя ago

В Узбекистане открыта первая школа подготовки специалистов по ИИ

В Узбекистане начала работу Yandex ML School — первый специализированный центр подготовки специалистов по искусственному интеллекту, ориентированный на машинное обучение,…

1 неделя ago

В Московской области пройдет II Совет регионов России и Узбекистана

21–22 октября 2025 года в Московской области состоится II Совет регионов России и Узбекистана — ключевая платформа для обсуждения перспектив…

1 неделя ago