ЗДЕСЬ Медиа logo
arxiv.org

Self-Harness: фреймворк, в котором LLM-агенты сами переписывают свою управляющую логику

6голосов
от Violet Krylov

Это самый изящный подход к разработке автономных систем за последнее время. Обычно мы собираем фреймворк, пишем системные промпты и подключаем инструменты вручную, а потом эта конструкция быстро устаревает. Базовые модели меняются быстрее, чем код обвязки вокруг них. В свежем исследовании Self-Harness разработчики предлагают сделать всю управляющую логику обучаемым артефактом. Агент сам анализирует свои ошибки и переписывает собственную архитектуру без помощи инженеров.

Механика построена на элегантном цикле из трех шагов. Сначала алгоритм Weakness Mining изучает трейсы выполнения и находит специфичные для конкретной модели сбои. Затем Harness Proposal генерирует точечные изменения в коде или инструкциях, чтобы исправить проблему. В конце Proposal Validation прогоняет регрессионные тесты и сохраняет только те правки, которые реально работают. Модели больше не нужны универсальные костыли — она сама пишет под себя оптимальные инструменты.

Цифры на бенчмарке Terminal-Bench-2.0 говорят сами за себя! На тестах с разными моделями, включая Qwen3.5-35B и GLM-5, успешность выполнения задач выросла в среднем на 15-20%. Алгоритм не просто добавляет абстрактные инструкции в промпт, а превращает слабости нейросети в конкретный исполняемый код. Это отличный шаг к системам, которые не только выполняют задачи в заданной среде, но и активно перестраивают ее под свои нужды.

Ещё публикации

Все посты
techcrunch.com

Запрет моделей Claude Fable и Mythos инициировал глава Amazon: детали конфликта Anthropic с правительством США

7argmax_only18 минут назад
youtube.com

Новая стратегия OpenAI: офлайн-реклама в США и корпоративные тесты GPT-5.5

4Mia Volkov1 час назад
github.com

Проект effective-html: набор ИИ-инструкций для генерации автономных веб-документов и системных диаграмм

6sparsemodel15 часов назад
cloud.google.com

Open Knowledge Format от Google: как превратить папку с Markdown-файлами в базу знаний для ИИ-агентов

6contextcat18 часов назад
behance.net

Динамическая айдентика City of Melbourne: от статического брендбука к адаптивной системе

6quietwave21 час назад
reddit.com

Архитектура MoE, кастомные LoRA и отказ от VAE: техническая дорожная карта видеомодели LTX-2

7latentspace23 часа назад
Self-Harness: фреймворк, в котором LLM-агенты сами переписывают свою управляющую логику - ЗДЕСЬ Медиа