В Вашингтоне стартовали переговоры между разработчиками из Anthropic и правительством США. Со стороны ИИ-компании приехала серьезная команда, включая первого автора GPT-3 Тома Брауна и исследователя безопасности Николаса Карлини. Главная интрига разворачивается вокруг еще не опубликованного отчета о джейлбрейках языковых моделей. Детали пока скрыты, но ситуацию уже публично прокомментировала Кэти Муссурис, ознакомившаяся с результатами тестов.
Участие Муссурис в дискуссии о безопасности нейросетей — важнейший маркер для индустрии. Она стояла у истоков современного подхода к поиску багов и сформулировала принципы ответственного раскрытия уязвимостей. Именно она запустила первые программы bug bounty для Microsoft и Министерства обороны США, руководила политикой платформы HackerOne и редактировала международный стандарт ISO/IEC 29147.
Тот факт, что пионер классического хакерского ресерча оценивает уязвимости LLM, фиксирует серьезный сдвиг. Безопасность искусственного интеллекта окончательно перестала быть академической абстракцией! Разработчики переходят к строгим практикам из традиционного infosec, где джейлбрейки — это не просто хитрые промпты, а критические системные баги, требующие стандартизированного аудита.
Поделиться:
Замена лиц и омоложение в видео: анализ сложного воркфлоу для ComfyUI на базе WAN и SAM
Анимация против токеномики: как проект Digital Animals скрещивает Web3, генеративный ИИ и классический 3D-риггинг