В последние годы искусственный интеллект демонстрирует всё более впечатляющие достижения. Но новый этап, к которому стремилось сообщество исследователей десятилетиями, приближается стремительнее, чем предполагалось. Речь идёт о создании ИИ-систем, способных рекурсивно улучшать собственный код — то есть программировать самих себя. Новый алгоритм, получивший название Darwin-Gödel Machines (ДГМ), представляет собой значительный шаг в этом направлении.
Суть идеи состоит в том, чтобы замкнуть цикл самосовершенствования: ИИ не просто выполняет команды, но анализирует собственную структуру, генерирует улучшения и внедряет их. Это приближает технологию к мечте о действительно автономных системах, способных эволюционировать без постоянного вмешательства человека.
Дарвин-Гёдель-машины объединяют два принципа: эмпирическую адаптацию и структурную рефлексию. Архитектура таких агентов начинается с LLM (large language model) — модели, обученной на большом массиве кода, способной генерировать, читать и редактировать программы. Этот «базовый агент» подвергается направленной эволюции: на каждой итерации создаётся новое поколение агентов, каждый из которых получает одно модификационное изменение в коде, предложенное языковой моделью.
Ключевая инновация заключается в балансе между случайной мутацией и управляемым прогрессом. Вместо бездумного отбора только лучших решений, как в классических эволюционных алгоритмах, ДГМ сохраняют всю популяцию агентов — включая те изменения, которые не показали результата сразу. Это позволяет накапливать нестандартные идеи, которые могут стать прорывными позже.
В ходе эксперимента исследователи запустили алгоритм на двух тестовых наборах — SWE-bench и Polyglot. После 80 итераций производительность агентов на SWE-bench возросла с 20% до 50%, а на Polyglot — с 14% до 31%. Это означает, что агенты, созданные самим алгоритмом, становились всё более способными к сложному программированию — от создания новых файлов до построения комплексных архитектур.
Примечательно, что алгоритм показал лучшие результаты, чем альтернативные методы, включая системы, где внешняя модель модифицировала агентов, и подходы, не использующие популяции. Особенно важным оказался эффект накопительного прогресса: агенты становились всё лучше в том, чтобы становиться лучше.
Ограничения и риски этой технологии также не остались без внимания. Исследователи внедрили защитные меры, ограничив доступ агентов к операционной системе и сети, а также контролируя все изменения в «песочнице». По словам ведущего автора работы Дженни Чжан, будущие версии могут включать мета-награды — поощрение агентов за интерпретируемость и соответствие человеческим указаниям.
Хотя лучший автоматически созданный агент пока не превзошёл уровень, достигаемый вручную разработанными системами (50% против 70%), потенциал очевиден. При достаточном числе итераций и ресурсоёмких вычислениях машины, способные к самопрограммированию, теоретически могут выйти за пределы текущих возможностей человека.
Этот подход наглядно демонстрирует новую парадигму в развитии искусственного интеллекта: не просто автоматизация, а эволюционное проектирование самих механизмов интеллекта.