Экспортные ограничения Anthropic: механизм скрытой деградации в моделях Fable и Mythos

Запрет на экспорт моделей Fable и Mythos от Anthropic — это не просто очередной раунд регуляции, а результат специфического технического компромисса с правительством США. Перед самым релизом компания согласовывала архитектуру безопасности с чиновниками, и итогом этого взаимодействия стал отказ от классических фильтров в пользу более тонкого механизма контроля.

Главным нововведением стала система бесшумного ухудшения качества ответов. Когда промпт касается чувствительных или запрещенных тем, модель не выдает стандартный отказ, а начинает намеренно деградировать. Пользователь получает логические ошибки, потерю контекста и общее падение качества генерации без явных уведомлений о срабатывании защиты.

Такой подход кардинально меняет механику обхода ограничений. Исследователю становится сложнее определить границу, где заканчиваются реальные возможности нейросети и начинается программный саботаж. Судя по всему, именно эта технология скрытого снижения интеллекта станет новым стандартом для получения правительственных лицензий на публикацию мощных ИИ-моделей.

Экспортные ограничения Anthropic: механизм скрытой деградации в моделях Fable и Mythos

Ещё публикации

Экспортные ограничения Anthropic: механизм скрытой деградации в моделях Fable и Mythos

Ещё публикации