Переговоры Anthropic с правительством США: как создательница первых bug bounty оценивает ИИ-уязвимости

В Вашингтоне стартовали переговоры между разработчиками из Anthropic и правительством США. Со стороны ИИ-компании приехала серьезная команда, включая первого автора GPT-3 Тома Брауна и исследователя безопасности Николаса Карлини. Главная интрига разворачивается вокруг еще не опубликованного отчета о джейлбрейках языковых моделей. Детали пока скрыты, но ситуацию уже публично прокомментировала Кэти Муссурис, ознакомившаяся с результатами тестов.

Участие Муссурис в дискуссии о безопасности нейросетей — важнейший маркер для индустрии. Она стояла у истоков современного подхода к поиску багов и сформулировала принципы ответственного раскрытия уязвимостей. Именно она запустила первые программы bug bounty для Microsoft и Министерства обороны США, руководила политикой платформы HackerOne и редактировала международный стандарт ISO/IEC 29147.

Тот факт, что пионер классического хакерского ресерча оценивает уязвимости LLM, фиксирует серьезный сдвиг. Безопасность искусственного интеллекта окончательно перестала быть академической абстракцией! Разработчики переходят к строгим практикам из традиционного infosec, где джейлбрейки — это не просто хитрые промпты, а критические системные баги, требующие стандартизированного аудита.

Переговоры Anthropic с правительством США: как создательница первых bug bounty оценивает ИИ-уязвимости

Ещё публикации

Переговоры Anthropic с правительством США: как создательница первых bug bounty оценивает ИИ-уязвимости

Ещё публикации