Китайская компания DeepSeek подозревается в использовании данных Google Gemini для обучения собственной ИИ-модели

Китайская компания DeepSeek подозревается в использовании данных Google Gemini

Китайская технологическая компания DeepSeek, известная своими разработками в области искусственного интеллекта, оказалась в центре нового скандала: ряд независимых экспертов подозревают, что последняя версия её языковой модели R1-0528 могла быть обучена на данных, полученных от моделей Google Gemini.

Подозрения усилились после публикации австралийского разработчика Сэма Пэча, специализирующегося на анализе так называемого «эмоционального интеллекта» ИИ. В социальной сети X он представил сравнительный анализ лексики, синтаксиса и промежуточных рассуждений моделей, обнаружив высокую степень совпадения между DeepSeek R1 и Google Gemini 2.5 Pro. По его словам, модель DeepSeek не только использует схожие фразы, но и демонстрирует аналогичную структуру вывода при решении задач.

Дополнительные аргументы предоставил создатель анонимного проекта SpeechMap, занимающегося анализом “свободы слова” в генеративных ИИ. Он указал на подозрительное совпадение в способах построения логических цепочек между DeepSeek и Gemini, что может свидетельствовать о трассировке выводов конкурирующей модели.

Это не первое обвинение в адрес DeepSeek. В декабре 2024 года пользователи зафиксировали, что другая модель компании — DeepSeek V3 — в ряде случаев идентифицировала себя как ChatGPT, что вызвало подозрения в использовании логов сессий OpenAI. В начале 2025 года представители OpenAI заявили, что располагают доказательствами применения дистилляции — метода, при котором одна модель обучается на выводах другой, более продвинутой системы.

Ещё в конце 2024 года Microsoft, партнёр OpenAI, зафиксировала утечку значительных объёмов данных через внутренние аккаунты, которые, предположительно, могли быть связаны с DeepSeek.

Хотя техника дистилляции широко применяется в ИИ-разработке, крупнейшие игроки рынка, включая OpenAI и Google, запрещают использование выводов своих моделей для создания конкурирующих решений. Однако в условиях масштабного распространения ИИ-контента в интернете, граница между законным и нарушением интеллектуальной собственности становится всё менее очевидной. Загрязнение открытых источников — результат массовой генерации текстов, кодов и изображений ботами — существенно усложняет процесс фильтрации данных при обучении.

Тем не менее, по мнению Нейтана Ламберта, исследователя из AI2 (Allen Institute for AI), обучение DeepSeek на результатах Gemini остаётся вполне вероятным сценарием. Эксперт отметил, что в текущих условиях использование API Gemini может быть для разработчиков DeepSeek быстрее и дешевле, чем создание полностью оригинальной архитектуры.

На фоне нарастающей обеспокоенности ведущие технологические компании усиливают меры безопасности. OpenAI, в частности, с апреля требует верификацию личности для доступа к продвинутым моделям, ограничив доступ для ряда стран, включая Китай. Google, в свою очередь, начала сокращать детализацию трассировок в своём AI Studio, чтобы затруднить обратную инженерную реконструкцию поведения Gemini. Аналогичные шаги предприняла и компания Anthropic в мае этого года.

Официальные представители DeepSeek на момент публикации не прокомментировали ситуацию.

3 месяца ago

Maili News

Maili.uz - новостной портал Узбекистана.

Next Nvidia Blackwell устанавливает новый рекорд: ускорение обучения ИИ-моделей в 2,5 раза и старт эры агентных приложений »

Previous « Motorola представила обновлённый Razr 60: складной смартфон с экраном 120 Гц и мощной камерой по цене $580

Россия: основательница Wildberries вновь возглавила рейтинг богатейших женщин

Основательница и генеральный директор компании Wildberries Татьяна Ким в четвертый раз подряд признана самой богатой женщиной России. Ее состояние оценивается…

7 дней ago

Наука

США: Маск представил Starship V4 — ракету для полётов на Марс

Илон Маск объявил о планах SpaceX по созданию четвертой версии ракеты Starship, которая должна стать крупнейшей в истории космонавтики и…

7 дней ago

Digital

США: Google запустил бета-версию YouTube для Android TV

Компания Google объявила о запуске программы бета-тестирования приложения YouTube для Android TV, открыв пользователям доступ к новым экспериментальным возможностям сервиса.…

7 дней ago

Бренды

Швейцария: фисташковый цвет стал главным трендом часовой индустрии 2025 года

В 2025 году одним из ключевых направлений в дизайне швейцарских люксовых часов стал фисташковый оттенок. Этот мягкий и прохладный тон,…

7 дней ago

События

Китай: экспансия электромобилей меняет мировой автопром

Китайская индустрия электромобилей за последние годы превратилась в один из главных факторов трансформации мирового автомобильного рынка. Стремительные темпы роста производства…

7 дней ago

Экономика

Узбекистан: Азиатский банк развития профинансирует обновление трассы А380

Азиатский банк развития одобрил выделение кредита в размере 233,1 миллиона долларов США для реализации крупного инфраструктурного проекта в Каракалпакстане. Средства…

7 дней ago

Китайская компания DeepSeek подозревается в использовании данных Google Gemini для обучения собственной ИИ-модели

Related Post

Recent Posts

Россия: основательница Wildberries вновь возглавила рейтинг богатейших женщин

США: Маск представил Starship V4 — ракету для полётов на Марс

США: Google запустил бета-версию YouTube для Android TV

Швейцария: фисташковый цвет стал главным трендом часовой индустрии 2025 года

Китай: экспансия электромобилей меняет мировой автопром

Узбекистан: Азиатский банк развития профинансирует обновление трассы А380