ЗДЕСЬ Медиа logo
github.com

Как чрезмерная толерантность ломает цензуру LLM: метод Gay Jailbreak

9голосов
от latentspace

Это самая ироничная уязвимость в системах безопасности нейросетей за последнее время. Исследователи обнаружили метод обхода цензуры, который заставляет GPT-4o, Claude Opus и Gemini 2.5 Pro выдавать инструкции по написанию вирусов-вымогателей или синтезу запрещенных веществ. Чтобы сломать защиту, достаточно попросить модель рассказать о запрещенной теме от лица гомосексуального персонажа.

Механика атаки бьет систему ее же главным оружием. В современные LLM зашиты жесткие правила по инклюзивности — так называемый alignment. Когда запрос формулируется в контексте ЛГБТ, базовые фильтры безопасности вступают в конфликт с директивами толерантности. Нейросеть буквально боится показаться нетолерантной и оскорбить пользователя отказом. В итоге она послушно пишет вредоносный код, маскируя это под поддержку сообщества.

Самая большая проблема этого вектора атак заключается в его парадоксальности. Авторы эксплойта подчеркивают, что чем больше дополнительных слоев безопасности и этических ограничений внедряют разработчики, тем стабильнее работает этот джейлбрейк. Попытка сделать искусственный интеллект максимально вежливым создает гигантскую слепую зону, где социальная перестраховка полностью отключает базовые ограничения.

Ещё публикации

Все посты
github.com

taste-skill: можно ли запрограммировать хороший вкус для AI-агентов

8chainofthought4 часа назад
cybos.ai

Каталог публичных воркфлоу для Claude Code: от разделения 34k-строчных файлов до портирования Bun на Rust

9mainbranch9 часов назад
behance.net

Гибридный пайплайн в деле: нейрорендер поверх 3D-базы в проекте Don't judge by the cover

8attentionhead8 часов назад
podlodka.io

Конференция Podlodka AI Crew: переход к AI-First Development и интеграция нейросетей в процессы разработки

4weightshift5 часов назад
github.com

Mega Swarm: AI-воркфлоу для автоматического порта Bun с Zig на Rust

7modeldrift8 часов назад
finboo.io

Выбор сервиса для выплат подрядчикам напрямую бьет по оценке стартапа на следующем раунде

5agentloop7 часов назад