Digital

США: выявлена утечка персональных данных в одном из крупнейших наборов для обучения ИИ

Масштабное исследование в области конфиденциальности выявило серьёзные риски, связанные с использованием общедоступных датасетов для обучения генеративных моделей искусственного интеллекта. Речь идёт о наборе данных DataComp CommonPool, сформированном на основе веб-скрейпинга и насчитывающем к 2023 году более 12,8 миллиарда образцов. В ходе анализа даже незначительной выборки (0,1%) эксперты обнаружили тысячи изображений, содержащих персональные данные, включая сканы паспортов, кредитных карт, свидетельств о рождении, резюме и других конфиденциальных документов.

Согласно оценкам исследователей, общее число изображений с признаками персональной информации может достигать сотен миллионов. Отдельное внимание было уделено трудовым документам — резюме и сопроводительным письмам, содержащим чувствительные сведения о здоровье, результатах проверок, месте жительства, гражданском статусе, а также данные о членах семьи и рекомендателях. В ряде случаев такие документы можно было легко связать с конкретными людьми через общедоступные профили в интернете, что предоставляло злоумышленникам доступ к электронной почте, домашним адресам и государственным идентификаторам.

DataComp CommonPool был создан как продолжение проекта LAION-5B — широко используемого набора данных для обучения генераторов изображений, включая такие модели, как Stable Diffusion и Midjourney. Оба датасета формировались в результате автоматизированного скрейпинга интернета с 2014 по 2022 годы. Хотя разработчики CommonPool заявляли о научных целях и открытом доступе, лицензия не исключала коммерческого применения, что значительно расширило зону потенциального риска.

Среди ключевых проблем — неэффективность автоматических методов обезличивания. В исследуемой выборке были выявлены более 800 неразмытых лиц, что позволяет предположить наличие более 100 миллионов аналогичных изображений во всей базе данных. Также в выборке отсутствовали фильтры для автоматического распознавания PII, таких как адреса электронной почты, номера социального страхования и банковские реквизиты.

Несмотря на то, что распространением CommonPool занимается платформа с возможностью подачи заявок на удаление персональных данных, реализовать своё право могут только те пользователи, которые знают о наличии своих данных в базе. Более того, если обученные модели уже интегрировали эти данные, их исключение из исходного датасета не гарантирует удаления следов обучения.

Исследователи подчёркивают необходимость срочного пересмотра этических и юридических норм в области машинного обучения. В текущей нормативной базе — как в Европе, так и в США — существуют лазейки, позволяющие использовать общедоступные данные в обход базовых принципов защиты конфиденциальности. Отсутствие строгого регулирования в этой области создаёт угрозу массового распространения персональных данных, неконтролируемого обучения моделей и утраты доверия к технологиям искусственного интеллекта.

Tags: ITТОП
Maili News

Maili.uz - новостной портал Узбекистана.

Recent Posts

Иранский спутник Nahid-2 и научные аппараты «Ионосфера-М» готовятся к запуску с космодрома Восточный

25 июля 2025 года с российского космодрома Восточный запланирован запуск ракеты-носителя «Союз-2.1б», которая доставит на околоземную орбиту телекоммуникационный спутник Nahid-2,…

13 часов ago

США: Starlink запускает спутниковую связь T-Satellite на территории страны

Американская компания Starlink запустила спутниковый сервис T-Satellite — телекоммуникационное решение, ориентированное на обеспечение мобильной связи в зонах, где отсутствует покрытие…

13 часов ago

США: Microsoft представила самую стабильную версию Windows — 11 24H2

Американская корпорация Microsoft сообщила о достижении нового уровня стабильности в своей операционной системе: Windows 11 24H2 признана самой надёжной версией…

13 часов ago

США: Starship Илона Маска может изменить мировой рынок авиаперевозок

Американская компания SpaceX рассматривает возможность использования ракетной системы Starship не только для космических миссий, но и в качестве средства сверхбыстрого…

13 часов ago

США: xAI создаёт первый в мире гигаваттный кластер для обучения ИИ

Компания xAI, основанная Илоном Маском, представила амбициозный проект в области высокопроизводительных вычислений — суперкластер Colossus 2, который станет первым в…

13 часов ago

США: Джеймс Кэмерон представит самый эмоциональный фильм в своей карьере — «Аватар 3»

Американский режиссёр Джеймс Кэмерон завершает работу над третьим фильмом знаменитой франшизы «Аватар». Картина под названием «Аватар 3: Огонь и пепел»…

13 часов ago