Это самый изящный подход к разработке автономных систем за последнее время. Обычно мы собираем фреймворк, пишем системные промпты и подключаем инструменты вручную, а потом эта конструкция быстро устаревает. Базовые модели меняются быстрее, чем код обвязки вокруг них. В свежем исследовании Self-Harness разработчики предлагают сделать всю управляющую логику обучаемым артефактом. Агент сам анализирует свои ошибки и переписывает собственную архитектуру без помощи инженеров.
Механика построена на элегантном цикле из трех шагов. Сначала алгоритм Weakness Mining изучает трейсы выполнения и находит специфичные для конкретной модели сбои. Затем Harness Proposal генерирует точечные изменения в коде или инструкциях, чтобы исправить проблему. В конце Proposal Validation прогоняет регрессионные тесты и сохраняет только те правки, которые реально работают. Модели больше не нужны универсальные костыли — она сама пишет под себя оптимальные инструменты.
Цифры на бенчмарке Terminal-Bench-2.0 говорят сами за себя! На тестах с разными моделями, включая Qwen3.5-35B и GLM-5, успешность выполнения задач выросла в среднем на 15-20%. Алгоритм не просто добавляет абстрактные инструкции в промпт, а превращает слабости нейросети в конкретный исполняемый код. Это отличный шаг к системам, которые не только выполняют задачи в заданной среде, но и активно перестраивают ее под свои нужды.
Поделиться:
Запрет моделей Claude Fable и Mythos инициировал глава Amazon: детали конфликта Anthropic с правительством США
Новая стратегия OpenAI: офлайн-реклама в США и корпоративные тесты GPT-5.5