Репортаж от Wedoany,Британский институт безопасности ИИ (AISI) 14 мая опубликовал результаты последних тестов, согласно которым передовая модель Claude Mythos Preview от компании Anthropic после получения обновленной контрольной точки версии вновь повысила свои способности в области кибербезопасности, впервые успешно пройдя два полных полигона для отработки кибератак. Ранее, по оценкам AISI, GPT-5.5 с процентом успешного выполнения экспертных задач 71,4% немного опережала Mythos с её 68,6%, однако после данного обновления Mythos в задаче по имитации проникновения в корпоративную сеть из 32 шагов добилась успеха в 6 из 10 попыток, значительно увеличив отрыв от GPT-5.5.
Mythos была официально анонсирована компанией Anthropic 7 апреля 2026 года и позиционируется как модель совершенно нового уровня, превосходящая серию Opus, под внутренним кодовым названием «Capybara», представляя собой самую мощную систему ИИ, когда-либо созданную Anthropic. Компания решила не предоставлять модель в открытый доступ, а вместо этого через программу Project Glasswing предоставляет контролируемый доступ более чем 40 ключевым партнерам в сфере инфраструктуры и кибербезопасности для обнаружения и устранения уязвимостей в оборонительных целях. С момента выпуска Mythos Preview около месяца назад AISI сообщает, что получила обновленную контрольную точку модели, которая показала еще более высокие результаты в задачах по кибербезопасности и даже впервые успешно прошла полигон атаки на систему управления промышленным объектом «Cooling Tower», который ранее не могла пройти ни одна модель.
Система тестирования AISI построена на основе «эталона временных интервалов», который измеряет границы возможностей ИИ-моделей путем оценки времени, необходимого эксперту по кибербезопасности для выполнения конкретной задачи. В этих рамках Mythos в задании «The Last Ones» по имитации проникновения в корпоративную сеть из 32 шагов добилась успеха в 6 из 10 попыток, полностью охватив всю цепочку атаки: от первоначального прорыва и горизонтального перемещения до захвата конечной цели. AISI оценивает, что эксперту-человеку для выполнения аналогичной задачи потребовалось бы около 20 часов. GPT-5.5 в том же задании добилась успеха в 3 из 10 попыток. Еще более знаковым является то, что Mythos впервые прошла полигон «Cooling Tower», который ранее не покорялся ни одной модели. Этот полигон имитирует попытку атаки на программное обеспечение управления электростанцией, и Mythos добилась успеха в 3 из 10 попыток.
AISI также опубликовала результаты тестирования GPT-5.5. Средний процент успешного выполнения экспертных задач по кибербезопасности у GPT-5.5 составил 71,4%, что немного выше предыдущей версии Mythos с 68,6%. В пределах лимита в 2,5 миллиона токенов обе модели находятся на сопоставимом уровне. Однако в тестах, более приближенных к реальным сценариям вторжения, таких как симуляция многошаговых атак, Mythos продемонстрировала выдающуюся способность связно выполнять длинные цепочки атак. AISI отмечает, что GPT-5.5 и Mythos достигли схожего уровня производительности в оценке кибербезопасности, и полагает, что способности Mythos в этой сфере являются не прорывом, специфичным для одной модели, а побочным продуктом общего повышения уровня долгосрочной автономности, способности к рассуждению и кодированию.
AISI одновременно обновила оценку периода удвоения сетевых возможностей передовых моделей. В ноябре 2025 года институт оценивал, что продолжительность задач по кибербезопасности, которые могут выполнять модели, удваивается каждые 8 месяцев; в феврале 2026 года, с учетом прогресса после появления моделей-рассуждателей в конце 2024 года, этот период сократился до 4,7 месяца. Фактические показатели Mythos и GPT-5.5 в этот раз значительно превысили линию тренда удвоения за 4,7 месяца. В настоящее время AISI не уверена, означает ли это появление новой, более крутой траектории роста или же это лишь краткосрочный скачок.
Логан Грэм (Logan Graham), отвечающий в Anthropic за передовое тестирование «красных команд», подтвердил, что контрольная точка Mythos, использованная AISI в этом тесте, является именно той версией, которая была синхронно запущена с Project Glasswing. Таким образом, наблюдаемые способности к атаке и защите — это не лабораторный прототип, а действующая продуктовая модель. Ранее Mythos уже вызвала широкий резонанс в области поиска уязвимостей: Mozilla с её помощью обнаружила и исправила 271 уязвимость в Firefox. В системной карточке Anthropic раскрыла, что Mythos Preview в ходе тестирования помогла идентифицировать тысячи критических уязвимостей нулевого дня, охватывающих все основные операционные системы и браузеры.
Данный материал скомпилирован платформой Wedoany. При цитировании материалов, созданных с помощью искусственного интеллекта (ИИ), необходимо обязательно указывать источник — «Wedoany». В случае выявления нарушения прав или иных проблем просим своевременно информировать нас. Сайт оперативно внесёт изменения или удалит материал.Электронная почта: news@wedoany.com










