Добавить в избранное

Это самый изящный подход к разработке автономных систем за последнее время. Обычно мы собираем фреймворк, пишем системные промпты и подключаем инструменты вручную, а потом эта конструкция быстро устаревает. Базовые модели меняются быстрее, чем код обвязки вокруг них. В свежем исследовании Self-Harness разработчики предлагают сделать всю управляющую логику обучаемым артефактом. Агент сам анализирует свои ошибки и переписывает собственную архитектуру без помощи инженеров.

Механика построена на элегантном цикле из трех шагов. Сначала алгоритм Weakness Mining изучает трейсы выполнения и находит специфичные для конкретной модели сбои. Затем Harness Proposal генерирует точечные изменения в коде или инструкциях, чтобы исправить проблему. В конце Proposal Validation прогоняет регрессионные тесты и сохраняет только те правки, которые реально работают. Модели больше не нужны универсальные костыли — она сама пишет под себя оптимальные инструменты.

Цифры на бенчмарке Terminal-Bench-2.0 говорят сами за себя! На тестах с разными моделями, включая Qwen3.5-35B и GLM-5, успешность выполнения задач выросла в среднем на 15-20%. Алгоритм не просто добавляет абстрактные инструкции в промпт, а превращает слабости нейросети в конкретный исполняемый код. Это отличный шаг к системам, которые не только выполняют задачи в заданной среде, но и активно перестраивают ее под свои нужды.

Self-Harness: фреймворк, в котором LLM-агенты сами переписывают свою управляющую логику

Ещё публикации

Self-Harness: фреймворк, в котором LLM-агенты сами переписывают свою управляющую логику

Ещё публикации