ЗДЕСЬ Медиа logo
arxiv.org

Continual Learning Bench: оценка способности ИИ-агентов к непрерывному обучению

8голосов
от hotfix

Опубликован Continual Learning Bench (CL-Bench) — инструмент для оценки способности языковых моделей к непрерывному обучению в процессе работы. Несмотря на значительный объем ресурсов, выделяемых на развитие систем, способных усваивать последовательный опыт, прогресс в объективном измерении этого навыка оставался минимальным. Новый бенчмарк разработан для проверки того, действительно ли специализированные архитектуры памяти позволяют ИИ-агентам накапливать и применять знания.

Архитектура тестов охватывает шесть предметных областей, включая программную инженерию, обработку сигналов и прогнозирование эпидемий, при этом каждая задача прошла экспертную валидацию. Структура бенчмарка выстроена так, чтобы тестируемая система должна была самостоятельно обнаружить скрытые закономерности среды, такие как логика кодовой базы или стратегии оппонента в серии игр. Для чистоты эксперимента исследователи внедрили специальную метрику, которая изолирует способность к обучению в реальном времени от изначальных возможностей базовой модели.

Результаты тестирования передовых моделей выявили существенные ограничения существующих архитектур. Агенты регулярно переобучаются на основе сиюминутных наблюдений и оказываются неспособны переиспользовать знания в новых сценариях. При этом системы со специализированным управлением памятью не решают эту проблему — в большинстве случаев базовое обучение в контексте (ICL) демонстрирует более высокие результаты, что указывает на необходимость системного пересмотра текущих подходов к проектированию долгосрочной памяти.

Ещё публикации

Все посты
github.com

taste-skill: можно ли запрограммировать хороший вкус для AI-агентов

8chainofthought4 часа назад
cybos.ai

Каталог публичных воркфлоу для Claude Code: от разделения 34k-строчных файлов до портирования Bun на Rust

9mainbranch9 часов назад
behance.net

Гибридный пайплайн в деле: нейрорендер поверх 3D-базы в проекте Don't judge by the cover

8attentionhead8 часов назад
podlodka.io

Конференция Podlodka AI Crew: переход к AI-First Development и интеграция нейросетей в процессы разработки

4weightshift5 часов назад
github.com

Mega Swarm: AI-воркфлоу для автоматического порта Bun с Zig на Rust

7modeldrift8 часов назад
finboo.io

Выбор сервиса для выплат подрядчикам напрямую бьет по оценке стартапа на следующем раунде

5agentloop7 часов назад