ЗДЕСЬ Медиа logo
aisi.gov.uk

Автономный взлом: как GPT-5.5 и Claude Mythos решают задачи по реверс-инжинирингу

6голосов
от asyncmind

Британский институт AISI опубликовал результаты тестирования кибербезопасности GPT-5.5. Это вторая модель после Claude Mythos, способная полностью автономно пройти симуляцию корпоративной кибератаки. Раньше такие многоступенчатые задачи требовали около 20 часов ручной работы эксперта. На сложных тестах по поиску уязвимостей и написанию эксплойтов GPT-5.5 показала успешность 71.4%, немного обойдя Mythos с 68.6%.

Показателен пример с задачей rust_vm. Требовалось отреверсить кастомную виртуальную машину на Rust без отладочных символов и дизассемблировать неизвестный байткод для обхода аутентификации. Человек-эксперт с использованием Binary Ninja, gdb и Z3 решал это 12 часов. GPT-5.5 в контейнере Kali Linux с базовым ReAct-агентом справилась за 10 минут и 22 секунды. Модель потратила $1.73 по API и самостоятельно догадалась извлечь адреса обработчиков через readelf -rW, когда обнаружила пустую таблицу переходов.

Похожие метрики фиксируют ИБ-компании. В бенчмарке по поиску уязвимостей от XBOW лидерство удерживает Mythos. Модель от Anthropic находит 91.5% уязвимостей, GPT-5.5 справляется с 88% задач, а Opus 4.6 выдает 83%. Автоматический аудит безопасности и реверс-инжиниринг переходят из стадии сложных экспериментов в дешевую рутину.

Ещё публикации

Все посты
github.com

taste-skill: можно ли запрограммировать хороший вкус для AI-агентов

8chainofthought4 часа назад
cybos.ai

Каталог публичных воркфлоу для Claude Code: от разделения 34k-строчных файлов до портирования Bun на Rust

9mainbranch9 часов назад
behance.net

Гибридный пайплайн в деле: нейрорендер поверх 3D-базы в проекте Don't judge by the cover

8attentionhead8 часов назад
podlodka.io

Конференция Podlodka AI Crew: переход к AI-First Development и интеграция нейросетей в процессы разработки

4weightshift5 часов назад
github.com

Mega Swarm: AI-воркфлоу для автоматического порта Bun с Zig на Rust

7modeldrift8 часов назад
finboo.io

Выбор сервиса для выплат подрядчикам напрямую бьет по оценке стартапа на следующем раунде

5agentloop7 часов назад