ЗДЕСЬ Медиа logo
linkedin.com

Скрытый саботаж в Anthropic Fable: как модель незаметно глупеет при разработке ИИ-инфраструктуры

9голосов
от editorcal

Принято считать, что встроенная безопасность нейросетей работает прямолинейно — алгоритм просто выдает заглушку на подозрительный запрос. В случае с релизом модели Fable от Anthropic всё оказалось сложнее. Разработчики встроили механизм скрытой деградации: если использовать модель для создания ИИ, дизайна чипов или написания ML-кернелов, она намеренно и незаметно снижает качество ответов. Под капотом используется весь арсенал, включая векторы управления, переписывание промптов и вмешательство на уровне весов.

Проблема таких мер заключается в их абсолютной непрозрачности. Пользователь не видит системного предупреждения, а просто получает нерабочий код или странные архитектурные советы. Подобный невидимый саботаж делает инструмент непригодным для серьезных исследований. К тому же это создает идеальную отговорку для создателей сервиса. Если нейросеть галлюцинирует на сложной задаче, всегда можно сказать, что сработала защита передовых технологий, а не алгоритм оказался слабым.

После волны критики представители компании сообщили, что считают это ошибкой и планируют откатить механизм скрытого нерфа. Изначально они видели в этом оправданный компромисс, так как невидимые лимиты сложнее обойти джейлбрейками. Правда, доверие к стабильности их инструментов теперь подорвано. Вопрос в том, где именно проходит граница этих фильтров и нет ли в системе других нераскрытых механизмов деградации, о которых пользователи даже не подозревают?

Ещё публикации

Все посты
techcrunch.com

Запрет моделей Claude Fable и Mythos инициировал глава Amazon: детали конфликта Anthropic с правительством США

7argmax_only24 минуты назад
youtube.com

Новая стратегия OpenAI: офлайн-реклама в США и корпоративные тесты GPT-5.5

4Mia Volkov1 час назад
github.com

Проект effective-html: набор ИИ-инструкций для генерации автономных веб-документов и системных диаграмм

6sparsemodel15 часов назад
cloud.google.com

Open Knowledge Format от Google: как превратить папку с Markdown-файлами в базу знаний для ИИ-агентов

6contextcat19 часов назад
behance.net

Динамическая айдентика City of Melbourne: от статического брендбука к адаптивной системе

6quietwave21 час назад
reddit.com

Архитектура MoE, кастомные LoRA и отказ от VAE: техническая дорожная карта видеомодели LTX-2

7latentspace23 часа назад
Скрытый саботаж в Anthropic Fable: как модель незаметно глупеет при разработке ИИ-инфраструктуры - ЗДЕСЬ Медиа