Репортаж от Wedoany,Компания Anthropic представила Claude Sonnet 5, предлагающий производительность, близкую к флагманской, по средней цене, чтобы привлечь корпоративных разработчиков, ориентированных на затраты. Компания ускоряет подготовку к первичному публичному размещению акций (IPO), и эта модель поможет проверить, выдержит ли высокая оценка частного рынка scrutiny публичного рынка. Anthropic называет его «самой агентной моделью Sonnet на сегодняшний день», которая станет моделью по умолчанию для пользователей тарифов Free и Pro, а также будет доступна клиентам Max, Team и Enterprise. Вводная цена API составляет 2 доллара за миллион входных токенов и 10 долларов за миллион выходных токенов до 31 августа; после этого цены вырастут до 3 и 15 долларов соответственно, что всё ещё значительно ниже цен на флагманскую модель Anthropic Opus 4.8: 5 долларов за входные и 25 долларов за выходные токены.
Sonnet 5 демонстрирует значительное улучшение по всем показателям, раскрытым Anthropic, по сравнению со своим предшественником Sonnet 4.6. В бенчмарке агентного программирования SWE-bench Pro Sonnet 5 набрал 63,2%, тогда как Sonnet 4.6 — 58,1%, что близко к показателю Opus 4.8 в 69,2%. В оценке программирования Terminal-Bench 2.1 Sonnet 5 показал 80,4%, Sonnet 4.6 — 67,0%, а Opus 4.8 — 82,7%. В многодисциплинарном мышлении, измеряемом «Последним экзаменом человечества», Sonnet 5 без использования инструментов набрал 43,2%, а с инструментами — 57,4%, что практически равно показателю Opus 4.8 в 57,9%. В задачах по использованию компьютера, оцененных через OSWorld-Verified, Sonnet 5 достиг 81,2%, превысив предыдущие 78,5%. В бенчмарке интеллектуальной работы GDPval-AA v2 результат составил 1 618 баллов, превзойдя 1 615 у Opus 4.8 и 1 395 у Sonnet 4.6.

Эти данные оценок показывают, что Sonnet 5 перешёл в уровень производительности, практически совпадающий с флагманской моделью Anthropic, при этом стоимость за токен по стандартным ценам примерно на 60% ниже. Акцент на агентных возможностях отражает смещение фокуса в индустрии ИИ в сторону систем, способных автономно выполнять многошаговые рабочие процессы. Сооснователь раннего доступа к партнёрской программе Cursor Суалех Асиф отметил, что модель придерживается плана и выдаёт чистые многошаговые изменения, оставаясь при этом экономически эффективной. Старший инженер Zapier Дэниел Шепард описал, как при тестировании двухэтапной автоматизированной задачи модель смогла выполнить то, что ранее «застревало на полпути».

В Sonnet 5 используется обновлённый токенизатор, аналогичный изменениям, внедрённым в Opus 4.7, что меняет способ обработки текста моделью. Один и тот же ввод в зависимости от типа контента может отображаться в примерно 1,0–1,35 раза больше токенов. Anthropic заявляет, что вводные цены откалиброваны так, чтобы переход был «примерно нейтральным по стоимости», но корпоративным клиентам с высокими рабочими нагрузками следует тщательно оценивать конкретные сценарии использования. Раскрытие информации о безопасности Anthropic показывает, что уровень галлюцинаций и лести у Sonnet 5 ниже, чем у Sonnet 4.6, модель лучше отклоняет вредоносные запросы и более устойчива к атакам с внедрением подсказок в агентной среде. В автоматическом аудите поведения Sonnet 5 в целом показал более низкие результаты, чем Sonnet 4.6. Однако по сравнению с более мощными Opus 4.8 и Claude Mythos Preview Sonnet 5 демонстрирует «несколько более высокий уровень дисфункционального поведения». В оценке разработки эксплойта для Firefox 147 обе модели Sonnet не смогли разработать действенный эксплойт, набрав по 0,0%, но частичный успех Sonnet 5 составил 13,2% против 8,8% у Sonnet 4.6, что всё ещё значительно ниже 68,8% у Opus 4.8 и 88,4% у Mythos 5. В Sonnet 5 по умолчанию включена кибербезопасность, эти же средства защиты используются в Opus 4.7 и 4.8, но они менее ограничительны, чем в Fable 5. Организации, уже участвующие в программе верификации сети, автоматически получают те же разрешения.

Выпуск Sonnet 5 приходится на критический период для Anthropic. В начале июня компания конфиденциально подала проспект IPO в Комиссию по ценным бумагам и биржам США, а CNBC назвала это «самым ожидаемым публичным размещением в истории технологий». По данным The Guardian, в феврале Anthropic привлёк 30 миллиардов долларов при оценке в 380 миллиардов долларов, с годовой выручкой в 14 миллиардов долларов, которая «утраивалась каждый год за последние три года». В конце мая Anthropic завершил раунд финансирования H на 65 миллиардов долларов под совместным руководством Altimeter Capital, Sequoia Capital и других, с пост-инвестиционной оценкой в 965 миллиардов долларов и уровнем выручки, превышающим 47 миллиардов долларов. Аналитик PitchBook Харрисон Рольфес заявил CNBC, что ключевым показателем является валовая прибыль, которую внешние наблюдатели ещё не видели. В этом контексте Sonnet 5 призван повысить производительность по конкурентоспособной цене, демонстрируя способность компании предлагать привлекательные продукты в разных ценовых сегментах и стимулировать широкое внедрение. Губернатор Калифорнии Гэвин Ньюсом объявил о предоставлении Claude всем государственным учреждениям штата со скидкой 50% и бесплатном обучении персонала. Руководитель Anthropic в Америке Кейт Дженсен назвала этот шаг «стремлением сделать Claude доступным для людей, которые поддерживают работу Калифорнии».

Anthropic находится во всё более переполненной области. OpenAI (привлёкший 122 миллиарда долларов при оценке в 852 миллиарда долларов в марте) также стремится к IPO; SpaceX Илона Маска после слияния с xAI оценивает IPO в 135 долларов за акцию при оценке в 1,77 триллиона долларов; Google, Meta и азиатские ИИ-стартапы борются за один и тот же корпоративный рынок. Гил Лурья, руководитель отдела технологических исследований D.A. Davidson, заявил CNBC, что, хотя Anthropic «кажется лидером» среди передовых ИИ-моделей, «большая часть их текущего использования приходится на эксперименты и пробы, что может быть неустойчивым». Sonnet 5, предлагая производительность, близкую к Opus, по цене Sonnet, напрямую нацелен на превращение экспериментального использования в производственный доход. Три фактора определят его значимость: реальная надёжность агентов, экономика токенизатора и сама история IPO. Когда документы S-1 станут публичными, инвесторы будут изучать, какой уровень приносит большую часть выручки и валовой прибыли. Аналитик PitchBook Рольфес отметил CNBC, что окно IPO 2026 года «либо станет самым важным циклом IPO со времён интернет-эры, либо самым дорогим уроком на публичном рынке в истории в плане разрыва между нарративом и фундаментальными показателями».









