Языковая модель VibeThinker-3B с 30 миллиардами параметров от Sina Weibo по способности к рассуждению сравнима с OpenAI_Глобальные новости

Языковая модель VibeThinker-3B с 30 миллиардами параметров от Sina Weibo по способности к рассуждению сравнима с OpenAI

2026-06-21 09:51

В избр.

Репортаж от Wedoany，Команда из девяти исследователей Sina Weibo представила VibeThinker-3B — компактную языковую модель с 3 миллиардами параметров, которая в ряде тестов на рассуждение соответствует или превосходит более крупные системы от Google DeepMind, OpenAI, компании по безопасности ИИ Anthropic и DeepSeek.

Модель набрала 94,3 балла на AIME 2026, что сопоставимо с производительностью DeepSeek V3.2 (671 миллиард параметров) и превосходит результат Gemini 3 Pro (91,7 балла). Благодаря методу тестового расширения под названием «Оценка надёжности на уровне утверждений» (Claim-Level Reliability Assessment) показатель VibeThinker-3B на AIME 2026 вырос до 97,1.

На других тестах VibeThinker-3B показала 91,4 балла на AIME 2025, 89,3 на HMMT 2025, 93,8 на BruMO 2025 и 76,4 на IMO-AnswerBench. В области программирования модель достигла показателя Pass@1 в 80,2 на LiveCodeBench v6 и получила 96,1% принятых решений на невидимых ранее еженедельных и двухнедельных соревнованиях LeetCode, проходивших с конца апреля по конец мая 2026 года. На тесте следования инструкциям IFEval её результат составил 93,4.

Модель успешно решила 123 из 128 впервые представленных задач LeetCode, превзойдя в одинаковых условиях оценки GPT-5.2, Doubao Seed 2.0 Pro, Kimi K2.5 и Claude Opus 4.6.

Количество параметров VibeThinker-3B примерно в 224 раза меньше, чем у DeepSeek V3.2. Для сравнения, GLM-5 имеет 744 миллиарда параметров, а Kimi K2.5 — более триллиона. Модель достаточно компактна для работы на потребительском ноутбуке. Исследователи считают, что проверяемые задачи на рассуждение (например, математика и программирование) можно эффективнее сжать в небольшие модели, чем обширные фактические знания, и называют это «гипотезой сжатия параметров покрытия».

Модель не превосходит другие во всех областях. В тесте GPQA-Diamond она набрала 70,2 балла, тогда как Gemini 3 Pro — 91,9, а Claude Opus 4.5 — 87,0. Исследователи отмечают, что это подтверждает их аргумент: компактные модели могут быть сильны в проверяемых задачах на рассуждение, но не заменяют крупные модели, обеспечивающие более широкий охват знаний.

VibeThinker-3B основана на Qwen2.5-Coder-3B от Alibaba и улучшена с помощью четырёхэтапного процесса пост-обучения. Первый этап включает контролируемую тонкую настройку на данных по математике, программированию, STEM-рассуждению, диалогам и следованию инструкциям, после чего переходит к более сложным и длинным задачам на рассуждение. Из обучающих выборок удаляются образцы с цепочками рассуждений короче 5000 токенов, а также те, которые ранняя версия VibeThinker-1.5B могла решить более чем на 75%. На втором этапе применяется обучение с подкреплением с помощью оптимизации политики, управляемой максимальной энтропией (MaxEnt-Guided Policy Optimization), для задач по математике, программированию и STEM. Исследователи использовали одно окно в 64 000 токенов вместо постепенного расширения контекстного окна, так как постепенное расширение снижало производительность на масштабе 3B. Отдельный этап «длинное-в-короткое математическое RL» (Long2Short Math RL) поощряет более короткие правильные ответы, чтобы уменьшить излишнюю многословность. На третьем этапе успешные цепочки рассуждений из контрольных точек обучения с подкреплением дистиллируются обратно в единую модель. На последнем этапе применяется обучение с подкреплением для задач следования инструкциям с использованием проверок на основе правил и модели вознаграждения.

Результаты тестов вызвали интерес, но также породили опасения, что модель может быть чрезмерно оптимизирована под бенчмарки. Некоторые пользователи сообщают, что модель слабее в реальных задачах программирования, включая трудности с распространёнными инструментами разработки. Другие задаются вопросом, почему модель не тестировалась на более широких программных инженерных бенчмарках. Исследователи утверждают, что обучающие данные прошли строгую очистку от загрязнения бенчмарками, включая фильтрацию перекрывающегося текста. Недавние соревнования LeetCode обеспечивают лучшую защиту от утечки данных, так как они проводились после любых возможных дат завершения обучения. Тем не менее, сообщения пользователей по-прежнему указывают на разрыв между оценками на бенчмарках и реальной производительностью.

Модель выпущена под лицензией MIT, её веса доступны через Hugging Face и ModelScope. В течение первого дня после выпуска разработчики уже создали GGUF-квантованные версии и производные модели.

Sina Weibo более известна своей платформой социальных сетей, чем передовыми исследованиями в области ИИ. VibeThinker-3B — это второй крупный открытый релиз ИИ компании за семь месяцев. Выпущенная в ноябре 2025 года VibeThinker-1.5B, как утверждается, превзошла оригинальный DeepSeek R1 по нескольким математическим бенчмаркам. Команда сообщает, что стоимость её пост-обучения составила 7800 долларов, тогда как оценочная стоимость DeepSeek R1 — 294 000 долларов.

Исследователи не утверждают, что VibeThinker-3B может заменить крупные универсальные модели. Они считают, что в гибридных системах ИИ небольшие модели могут обрабатывать задачи на рассуждение, а крупные системы — предоставлять фактические знания. Такой подход может снизить стоимость развёртывания продвинутых рассуждений и обеспечить мощные математические и программные возможности на устройствах с ограниченным аппаратным обеспечением. Ключевой вопрос заключается в том, сможет ли производительность модели на бенчмарках трансформироваться в надёжные реальные приложения.

Данный материал скомпилирован платформой Wedoany. При цитировании материалов, созданных с помощью искусственного интеллекта (ИИ), необходимо обязательно указывать источник — «Wedoany». В случае выявления нарушения прав или иных проблем просим своевременно информировать нас. Сайт оперативно внесёт изменения или удалит материал.Электронная почта: news@wedoany.com

Китай