Правительство США сняло экспортные ограничения с моделей Anthropic. Claude Fable 5 возвращается в публичный доступ 1 июля, но с важным архитектурным компромиссом. Внезапная блокировка случилась в середине июня после того, как исследователи из Amazon нашли способ обхода защиты — джейлбрейк заставлял нейросеть находить уязвимости в софте и писать рабочие эксплойты.
Чтобы вернуть доступ к модели, разработчикам пришлось экстренно внедрить новый классификатор безопасности. Фильтр перехватывает 99% подобных запросов, но ценой частых ложных срабатываний. При рутинном написании кода или дебаггинге система может перестраховаться и посчитать задачу угрозой. В таких случаях запрос не отменяется, а автоматически перенаправляется к менее мощной, но проверенной Opus 4.8.
Инцидент вскрыл проблему оценки ИИ-угроз регуляторами. Внутренние тесты Anthropic показали, что аналогичный эксплойт без проблем генерируют старые модели вроде GPT-5.5 или Kimi K2.7. Чтобы избежать подобных блокировок, компания совместно с Amazon, Microsoft и Google начала разработку единого стандарта оценки джейлбрейков. Индустрии нужен общий фреймворк, который позволит властям отличать реальные киберугрозы от стандартных возможностей нейросетей.
Поделиться:
Брутальная айдентика японского чайного дома Lambert от студии SODAA
Без пассивной агрессии и корпоративного пафоса: как составить адекватное прощальное письмо при увольнении