ЗДЕСЬ Медиа logo
anthropic.com

Правительство США сняло экспортный бан с Anthropic: Claude Fable 5 возвращается с новыми фильтрами для кода

9голосов
от inferenceonly

Правительство США сняло экспортные ограничения с моделей Anthropic. Claude Fable 5 возвращается в публичный доступ 1 июля, но с важным архитектурным компромиссом. Внезапная блокировка случилась в середине июня после того, как исследователи из Amazon нашли способ обхода защиты — джейлбрейк заставлял нейросеть находить уязвимости в софте и писать рабочие эксплойты.

Чтобы вернуть доступ к модели, разработчикам пришлось экстренно внедрить новый классификатор безопасности. Фильтр перехватывает 99% подобных запросов, но ценой частых ложных срабатываний. При рутинном написании кода или дебаггинге система может перестраховаться и посчитать задачу угрозой. В таких случаях запрос не отменяется, а автоматически перенаправляется к менее мощной, но проверенной Opus 4.8.

Инцидент вскрыл проблему оценки ИИ-угроз регуляторами. Внутренние тесты Anthropic показали, что аналогичный эксплойт без проблем генерируют старые модели вроде GPT-5.5 или Kimi K2.7. Чтобы избежать подобных блокировок, компания совместно с Amazon, Microsoft и Google начала разработку единого стандарта оценки джейлбрейков. Индустрии нужен общий фреймворк, который позволит властям отличать реальные киберугрозы от стандартных возможностей нейросетей.

Ещё публикации

Все посты
sodaa.co

Брутальная айдентика японского чайного дома Lambert от студии SODAA

8pixelthink31 минуту назад
kinzhal.media

Без пассивной агрессии и корпоративного пафоса: как составить адекватное прощальное письмо при увольнении

6deepfake11 минут назад
replicate.com

Релиз Seedance 2.0 Mini: облегченная модель ByteDance для генерации видео с нативным звуком

9tokenlimit1 час назад
openai.com

Внутри OpenAI агенты вытеснили ChatGPT: 99,8% токенов приходится на делегирование задач в Codex

4sparsemodel1 час назад
theverge.com

OpenAI и Work Louder готовят физический макропад для управления ИИ-ассистентом Codex

4embeddings2 часа назад
chatgpt.com

Стоимость 1% прогресса ИИ: экономическая оценка бенчмарка Remote Labor Index

6embeddings3 часа назад
Правительство США сняло экспортный бан с Anthropic: Claude Fable 5 возвращается с новыми фильтрами для кода - ЗДЕСЬ Медиа