Исследователи представили фреймворк BINEVAL, предназначенный для автоматической оценки ответов больших языковых моделей. Метод решает проблему непрозрачности традиционных алгоритмов LLM-as-a-Judge, разбивая каждый сложный критерий качества на набор атомарных бинарных вопросов, предполагающих однозначный ответ «да» или «нет».
В рамках предложенной архитектуры специализированный мета-промпт генерирует узконаправленные вопросы для конкретной задачи, после чего оценивающая модель анализирует их независимо друг от друга. Полученные результаты алгоритм агрегирует в многомерную итоговую оценку, что позволяет избежать эффекта потолка, характерного для существующих методов, и более точно дифференцировать пограничные или частично ошибочные генерации текстов.
Подобная декомпозиция процесса оценки обеспечивает прозрачную обратную связь на уровне отдельных аспектов текста, прямо указывая на логические причины снижения итогового балла. При этом детализированные ответы могут использоваться не только для диагностики структурных ошибок модели, но и для итеративной оптимизации системных промптов в автоматическом режиме, превосходя метрики базовых решений вроде UniEval и G-Eval на бенчмарках проверки фактической консистентности.
Поделиться:
OpenHuman: 33 тысячи звёзд за месяц и цена удобного десктопного ИИ-ассистента
Разработка Khanoku Phoenix: ИИ-мудборды для препродакшена и поиск 2D-художников