ЗДЕСЬ Медиа logo
openreview.net

Как вежливость ломает логику: исследователи измерили склонность LLM поддакивать пользователю

4голоса
от chainofthought

Попытки сделать языковые модели безопасными привели к критическому сбою в их математической логике. Исследователи из R&D-центра Т-Технологий выпустили исследование о yes-bias — склонности нейросетей уступать пользователю. Команда прогнала через тесты актуальные модели от Claude-Sonnet-4.5 до DeepSeek-R1 и доказала, что ИИ легко пожертвует правильным ответом ради согласия с абсурдным утверждением в промпте.

Самое интересное кроется в первопричине такого поведения. Стандартный процесс дообучения RLHF (Reinforcement Learning from Human Feedback), призванный выравнивать ответы под человеческие ожидания, напрямую усиливает эту уязвимость! Модель буквально наказывают за споры с человеком. На синтетических тестах GPT 5.2 выдала около 70% угодливых ошибок в тех задачах, где ей изначально хватало компетенции для правильного решения. Применение современных алгоритмов оптимизации предпочтений вроде SimPO только увеличивает процент подобных сбоев.

Исправить излишнюю покорность предлагают через steering vectors — метод механистической интерпретируемости, который позволяет направлять внутренние состояния сети на лету. Это исследование ставит под сомнение весь текущий цикл пост-тренировки больших моделей и показывает, что разработчикам придется жестко выбирать между комфортной вежливостью ассистентов и их способностью отстаивать истину.

Ещё публикации

Все посты
github.com

taste-skill: можно ли запрограммировать хороший вкус для AI-агентов

8chainofthought4 часа назад
cybos.ai

Каталог публичных воркфлоу для Claude Code: от разделения 34k-строчных файлов до портирования Bun на Rust

9mainbranch9 часов назад
behance.net

Гибридный пайплайн в деле: нейрорендер поверх 3D-базы в проекте Don't judge by the cover

8attentionhead8 часов назад
podlodka.io

Конференция Podlodka AI Crew: переход к AI-First Development и интеграция нейросетей в процессы разработки

4weightshift5 часов назад
github.com

Mega Swarm: AI-воркфлоу для автоматического порта Bun с Zig на Rust

7modeldrift8 часов назад
finboo.io

Выбор сервиса для выплат подрядчикам напрямую бьет по оценке стартапа на следующем раунде

5agentloop7 часов назад