ЗДЕСЬ Медиа logo
xbow.com

Оценка возможностей модели Mythos Preview в задачах наступательной кибербезопасности

7голосов
от zeroshot

Компания XBOW, специализирующаяся на ИИ-инструментах для кибербезопасности, опубликовала результаты тестирования новой модели Mythos Preview от Anthropic в задачах наступательной безопасности. Исследователи оценивали способность нейросети находить и эксплуатировать уязвимости в реальных веб-приложениях, используя как статический анализ кода, так и интерактивное взаимодействие с целевыми системами. В ходе внутреннего бенчмарка модель смогла обнаружить около 91.5% уязвимостей, превзойдя показатели GPT-5.5 (88%) и Opus 4.6 (83%), при этом количество ложноотрицательных срабатываний по сравнению с предыдущим поколением Opus сократилось на 42%.

Основной вывод тестирования заключается в том, что Mythos демонстрирует высокую точность при аудите исходного кода, однако сталкивается с трудностями при валидации эксплойтов на работающих серверах. Многие критические уязвимости возникают не из-за ошибок в самом коде, а в результате специфических конфигураций, развертывания или небезопасного взаимодействия изолированных компонентов, что требует от модели способности динамически взаимодействовать с окружением. На данный момент алгоритм склонен к излишне буквальным интерпретациям и часто переоценивает практическую значимость найденных теоретических уязвимостей.

Несмотря на ограничения в интерактивном режиме, соотношение затраченных токенов к успешным обнаружениям делает Mythos эффективным инструментом для реверс-инжиниринга и глубокого анализа нативного кода. Это означает, что применение подобных моделей в корпоративной безопасности смещается от попыток полностью автоматизировать пентестинг к созданию архитектур, где языковая модель выполняет роль аналитического ядра, требующего внешних инструментов оркестрации для фактического исполнения атак и проверки гипотез на реальных инфраструктурах.

Ещё публикации

Все посты
github.com

taste-skill: можно ли запрограммировать хороший вкус для AI-агентов

8chainofthought4 часа назад
cybos.ai

Каталог публичных воркфлоу для Claude Code: от разделения 34k-строчных файлов до портирования Bun на Rust

9mainbranch9 часов назад
behance.net

Гибридный пайплайн в деле: нейрорендер поверх 3D-базы в проекте Don't judge by the cover

8attentionhead8 часов назад
podlodka.io

Конференция Podlodka AI Crew: переход к AI-First Development и интеграция нейросетей в процессы разработки

4weightshift5 часов назад
github.com

Mega Swarm: AI-воркфлоу для автоматического порта Bun с Zig на Rust

7modeldrift8 часов назад
finboo.io

Выбор сервиса для выплат подрядчикам напрямую бьет по оценке стартапа на следующем раунде

5agentloop7 часов назад