Китайская технологическая компания DeepSeek, известная своими разработками в области искусственного интеллекта, оказалась в центре нового скандала: ряд независимых экспертов подозревают, что последняя версия её языковой модели R1-0528 могла быть обучена на данных, полученных от моделей Google Gemini.
Подозрения усилились после публикации австралийского разработчика Сэма Пэча, специализирующегося на анализе так называемого «эмоционального интеллекта» ИИ. В социальной сети X он представил сравнительный анализ лексики, синтаксиса и промежуточных рассуждений моделей, обнаружив высокую степень совпадения между DeepSeek R1 и Google Gemini 2.5 Pro. По его словам, модель DeepSeek не только использует схожие фразы, но и демонстрирует аналогичную структуру вывода при решении задач.
Дополнительные аргументы предоставил создатель анонимного проекта SpeechMap, занимающегося анализом “свободы слова” в генеративных ИИ. Он указал на подозрительное совпадение в способах построения логических цепочек между DeepSeek и Gemini, что может свидетельствовать о трассировке выводов конкурирующей модели.
Это не первое обвинение в адрес DeepSeek. В декабре 2024 года пользователи зафиксировали, что другая модель компании — DeepSeek V3 — в ряде случаев идентифицировала себя как ChatGPT, что вызвало подозрения в использовании логов сессий OpenAI. В начале 2025 года представители OpenAI заявили, что располагают доказательствами применения дистилляции — метода, при котором одна модель обучается на выводах другой, более продвинутой системы.
Ещё в конце 2024 года Microsoft, партнёр OpenAI, зафиксировала утечку значительных объёмов данных через внутренние аккаунты, которые, предположительно, могли быть связаны с DeepSeek.
Хотя техника дистилляции широко применяется в ИИ-разработке, крупнейшие игроки рынка, включая OpenAI и Google, запрещают использование выводов своих моделей для создания конкурирующих решений. Однако в условиях масштабного распространения ИИ-контента в интернете, граница между законным и нарушением интеллектуальной собственности становится всё менее очевидной. Загрязнение открытых источников — результат массовой генерации текстов, кодов и изображений ботами — существенно усложняет процесс фильтрации данных при обучении.
Тем не менее, по мнению Нейтана Ламберта, исследователя из AI2 (Allen Institute for AI), обучение DeepSeek на результатах Gemini остаётся вполне вероятным сценарием. Эксперт отметил, что в текущих условиях использование API Gemini может быть для разработчиков DeepSeek быстрее и дешевле, чем создание полностью оригинальной архитектуры.
На фоне нарастающей обеспокоенности ведущие технологические компании усиливают меры безопасности. OpenAI, в частности, с апреля требует верификацию личности для доступа к продвинутым моделям, ограничив доступ для ряда стран, включая Китай. Google, в свою очередь, начала сокращать детализацию трассировок в своём AI Studio, чтобы затруднить обратную инженерную реконструкцию поведения Gemini. Аналогичные шаги предприняла и компания Anthropic в мае этого года.
Официальные представители DeepSeek на момент публикации не прокомментировали ситуацию.