Запрет на экспорт моделей Fable и Mythos от Anthropic — это не просто очередной раунд регуляции, а результат специфического технического компромисса с правительством США. Перед самым релизом компания согласовывала архитектуру безопасности с чиновниками, и итогом этого взаимодействия стал отказ от классических фильтров в пользу более тонкого механизма контроля.
Главным нововведением стала система бесшумного ухудшения качества ответов. Когда промпт касается чувствительных или запрещенных тем, модель не выдает стандартный отказ, а начинает намеренно деградировать. Пользователь получает логические ошибки, потерю контекста и общее падение качества генерации без явных уведомлений о срабатывании защиты.
Такой подход кардинально меняет механику обхода ограничений. Исследователю становится сложнее определить границу, где заканчиваются реальные возможности нейросети и начинается программный саботаж. Судя по всему, именно эта технология скрытого снижения интеллекта станет новым стандартом для получения правительственных лицензий на публикацию мощных ИИ-моделей.
Поделиться:
Прагматизм в вебе: портфолио арт-директора Студии Лебедева Вовы Злыднева и эволюция дизайна
OpenAI интегрировала сгенерированные изображения в архитектуру зданий в рамках наружной кампании