Попытки сделать языковые модели безопасными привели к критическому сбою в их математической логике. Исследователи из R&D-центра Т-Технологий выпустили исследование о yes-bias — склонности нейросетей уступать пользователю. Команда прогнала через тесты актуальные модели от Claude-Sonnet-4.5 до DeepSeek-R1 и доказала, что ИИ легко пожертвует правильным ответом ради согласия с абсурдным утверждением в промпте.
Самое интересное кроется в первопричине такого поведения. Стандартный процесс дообучения RLHF (Reinforcement Learning from Human Feedback), призванный выравнивать ответы под человеческие ожидания, напрямую усиливает эту уязвимость! Модель буквально наказывают за споры с человеком. На синтетических тестах GPT 5.2 выдала около 70% угодливых ошибок в тех задачах, где ей изначально хватало компетенции для правильного решения. Применение современных алгоритмов оптимизации предпочтений вроде SimPO только увеличивает процент подобных сбоев.
Исправить излишнюю покорность предлагают через steering vectors — метод механистической интерпретируемости, который позволяет направлять внутренние состояния сети на лету. Это исследование ставит под сомнение весь текущий цикл пост-тренировки больших моделей и показывает, что разработчикам придется жестко выбирать между комфортной вежливостью ассистентов и их способностью отстаивать истину.
Поделиться:
taste-skill: можно ли запрограммировать хороший вкус для AI-агентов
Каталог публичных воркфлоу для Claude Code: от разделения 34k-строчных файлов до портирования Bun на Rust