Репортаж от Wedoany,В апреле Anthropic запустила модель Mythos (в рамках проекта Glasswing, предназначенного для обнаружения и устранения уязвимостей в инфраструктуре интернета), а затем выпустила её ограниченную версию Fable 5. Anthropic чётко заявила, что Fable не будет поддерживать некоторые высокорисковые направления исследований в области кибербезопасности, биологии и химии. При поступлении запросов, связанных с этими областями, модель автоматически понижается с уровня Fable до уровня Opus, и пользователь уведомляется о происходящем понижении.
Суть спора заключается в том, что для исследователей, работающих в таких областях, как проектирование сверхмощных чипов или создание больших языковых моделей ИИ передового уровня, процесс понижения не виден пользователю. Anthropic описала это поведение в 319-страничном системном картридже, но в пользовательском интерфейсе нет никаких подсказок, и пользователь фактически получает вывод уровня Opus. Журнал Fortune назвал это поведение «скрытым саботажем», а Wired сообщил, что такая практика может подорвать исследования ИИ. Mythos и Glasswing значительно мощнее инструмента безопасности Claude от Anthropic, который предназначен для работы на Opus и всё ещё может сканировать кодовые базы и помогать выявлять некоторые проблемы.
Салли Винсент, старший инженер по исследованию угроз в компании по анализу безопасности Exabeam, в электронном письме заявила, что к заявлениям об устойчивости к взлому следует относиться с осторожностью, так как эти результаты «представляют собой оценку на определённый момент времени», и добавила, что «злоумышленники постоянно адаптируются». Роб Т. Ли, главный специалист по ИИ и руководитель исследований в SANS Institute, в письме ZDNET отметил, что Fable 5 — это «новое и умное решение, но Fable 5 будет подвергаться атакам. Тот же уровень, который предотвращает вредоносное использование, также препятствует легитимным оборонительным исследованиям». При попытке развить навыки цифровой криминалистики он был понижен до Opus 4.8 и считает, что «независимо от того, является ли это умным способом остановить злоумышленников или нет, это мешает тем, кто будет создавать инструменты следующего поколения, получать новые оборонительные возможности». Он также отметил, что даже в рамках Glasswing доступ ограничен и контролируется, но в организациях с тысячами сотрудников любой из них может быть мотивирован передать доступ преступным группам.
Перед лицом споров Anthropic ответила, что изменит меры безопасности Fable 5, сделав их видимыми. Начиная с этой недели, помеченные запросы будут явно откатываться до Opus 4.8, а помеченные запросы через API будут возвращать причину отказа. Компания заявила, что текущие меры безопасности «охватывают несколько узких задач, таких как конвейеры данных для LLM передового масштаба и разработка ядер для некоторых нестандартных чипов», и эти меры «предотвращают использование нашей самой мощной модели иностранными противниками способами, которые создают серьёзные риски для безопасности». Anthropic также добавила: «Мы сделали неправильный компромисс, и мы извиняемся за то, что не нашли правильного баланса. Создание этих мер безопасности — сложная техническая задача: по мере того, как мы улучшаем эти классификаторы для противодействия новым угрозам, пользователи могут столкнуться с большим количеством ложных срабатываний. Мы работаем над тем, чтобы как можно быстрее сократить их количество». Принимая решение о том, делать ли понижение видимым или невидимым, компания столкнулась с выбором: «Скрытые меры безопасности труднее обнаружить и обойти. Это означает, что меры безопасности могут быть более целенаправленными», но эти скрытые меры безопасности были обнаружены в течение нескольких часов.
Текущее использование показывает, что классификатор срабатывает примерно на 0,05% задач, затрагивая менее 0,05% организаций. Anthropic заявила, что видимые меры безопасности требуют более широкого охвата для повышения устойчивости, что приводит к большему количеству ошибочно помеченных запросов, но «они не влияют на подавляющее большинство задач по кодированию и машинному обучению». Эшли Кэсован, управляющий директор Центра управления ИИ IAPP, похвалила Anthropic за то, что она сохранила Mythos достаточно долго, чтобы «установить необходимые ограждения в своём программном обеспечении», отметив при этом, что «мы ещё не видели, какое влияние могут оказать эти модели при таком масштабе развёртывания». Крис Бём, полевой технический директор поставщика сетевой сегментации Zero Networks, охарактеризовал это достижение как сдержанность, а не сырую мощность: Anthropic «приручила её до уровня, достаточного для безопасного широкого распространения», а наградой стал масштаб: обычные защитники наконец-то могут действовать со скоростью атакующих, «при условии, что меры безопасности сохранятся».
Что касается политики хранения данных, Anthropic будет хранить подсказки и ответы для моделей уровня Mythos в течение 30 дней, а подсказки, нарушающие политику, — дольше. Эта политика уже вызвала беспокойство у таких компаний, как Microsoft, которая ограничила использование сотрудниками и сформировала юридическую группу для оценки этой политики. Итаи Маор, вице-президент по анализу угроз в компании по безопасности Cato Networks, считает, что защита Fable 5 достаточно сильна для оппортунистических хакеров, но «хорошо финансируемые и мотивированные злоумышленники» обратятся к другим методам. Он также отметил, что «когда классификаторы становятся слишком строгими, начинают появляться ложные срабатывания. Те же меры контроля, которые предназначены для предотвращения вредоносной деятельности, могут также помешать легитимным пользователям использовать модель в законных целях». Он добавил: «С корпоративной точки зрения, требование о 30-дневном хранении заслуживает внимания. Организациям в регулируемых отраслях необходимо точно знать, какие данные хранятся и соответствует ли это их требованиям соответствия и законодательства, прежде чем использовать эти модели в чувствительных средах».
Данный материал скомпилирован платформой Wedoany. При цитировании материалов, созданных с помощью искусственного интеллекта (ИИ), необходимо обязательно указывать источник — «Wedoany». В случае выявления нарушения прав или иных проблем просим своевременно информировать нас. Сайт оперативно внесёт изменения или удалит материал.Электронная почта: news@wedoany.com









