Языковая модель VibeThinker-3B с 30 миллиардами параметров от Sina Weibo по способности к рассуждению сравнима с OpenAI
2026-06-21 09:51
В избр.

Репортаж от Wedoany,Команда из девяти исследователей Sina Weibo представила VibeThinker-3B — компактную языковую модель с 3 миллиардами параметров, которая в ряде тестов на рассуждение соответствует или превосходит более крупные системы от Google DeepMind, OpenAI, компании по безопасности ИИ Anthropic и DeepSeek.

Модель набрала 94,3 балла на AIME 2026, что сопоставимо с производительностью DeepSeek V3.2 (671 миллиард параметров) и превосходит результат Gemini 3 Pro (91,7 балла). Благодаря методу тестового расширения под названием «Оценка надёжности на уровне утверждений» (Claim-Level Reliability Assessment) показатель VibeThinker-3B на AIME 2026 вырос до 97,1.

На других тестах VibeThinker-3B показала 91,4 балла на AIME 2025, 89,3 на HMMT 2025, 93,8 на BruMO 2025 и 76,4 на IMO-AnswerBench. В области программирования модель достигла показателя Pass@1 в 80,2 на LiveCodeBench v6 и получила 96,1% принятых решений на невидимых ранее еженедельных и двухнедельных соревнованиях LeetCode, проходивших с конца апреля по конец мая 2026 года. На тесте следования инструкциям IFEval её результат составил 93,4.

Модель успешно решила 123 из 128 впервые представленных задач LeetCode, превзойдя в одинаковых условиях оценки GPT-5.2, Doubao Seed 2.0 Pro, Kimi K2.5 и Claude Opus 4.6.

Количество параметров VibeThinker-3B примерно в 224 раза меньше, чем у DeepSeek V3.2. Для сравнения, GLM-5 имеет 744 миллиарда параметров, а Kimi K2.5 — более триллиона. Модель достаточно компактна для работы на потребительском ноутбуке. Исследователи считают, что проверяемые задачи на рассуждение (например, математика и программирование) можно эффективнее сжать в небольшие модели, чем обширные фактические знания, и называют это «гипотезой сжатия параметров покрытия».

Модель не превосходит другие во всех областях. В тесте GPQA-Diamond она набрала 70,2 балла, тогда как Gemini 3 Pro — 91,9, а Claude Opus 4.5 — 87,0. Исследователи отмечают, что это подтверждает их аргумент: компактные модели могут быть сильны в проверяемых задачах на рассуждение, но не заменяют крупные модели, обеспечивающие более широкий охват знаний.

VibeThinker-3B основана на Qwen2.5-Coder-3B от Alibaba и улучшена с помощью четырёхэтапного процесса пост-обучения. Первый этап включает контролируемую тонкую настройку на данных по математике, программированию, STEM-рассуждению, диалогам и следованию инструкциям, после чего переходит к более сложным и длинным задачам на рассуждение. Из обучающих выборок удаляются образцы с цепочками рассуждений короче 5000 токенов, а также те, которые ранняя версия VibeThinker-1.5B могла решить более чем на 75%. На втором этапе применяется обучение с подкреплением с помощью оптимизации политики, управляемой максимальной энтропией (MaxEnt-Guided Policy Optimization), для задач по математике, программированию и STEM. Исследователи использовали одно окно в 64 000 токенов вместо постепенного расширения контекстного окна, так как постепенное расширение снижало производительность на масштабе 3B. Отдельный этап «длинное-в-короткое математическое RL» (Long2Short Math RL) поощряет более короткие правильные ответы, чтобы уменьшить излишнюю многословность. На третьем этапе успешные цепочки рассуждений из контрольных точек обучения с подкреплением дистиллируются обратно в единую модель. На последнем этапе применяется обучение с подкреплением для задач следования инструкциям с использованием проверок на основе правил и модели вознаграждения.

Результаты тестов вызвали интерес, но также породили опасения, что модель может быть чрезмерно оптимизирована под бенчмарки. Некоторые пользователи сообщают, что модель слабее в реальных задачах программирования, включая трудности с распространёнными инструментами разработки. Другие задаются вопросом, почему модель не тестировалась на более широких программных инженерных бенчмарках. Исследователи утверждают, что обучающие данные прошли строгую очистку от загрязнения бенчмарками, включая фильтрацию перекрывающегося текста. Недавние соревнования LeetCode обеспечивают лучшую защиту от утечки данных, так как они проводились после любых возможных дат завершения обучения. Тем не менее, сообщения пользователей по-прежнему указывают на разрыв между оценками на бенчмарках и реальной производительностью.

Модель выпущена под лицензией MIT, её веса доступны через Hugging Face и ModelScope. В течение первого дня после выпуска разработчики уже создали GGUF-квантованные версии и производные модели.

Sina Weibo более известна своей платформой социальных сетей, чем передовыми исследованиями в области ИИ. VibeThinker-3B — это второй крупный открытый релиз ИИ компании за семь месяцев. Выпущенная в ноябре 2025 года VibeThinker-1.5B, как утверждается, превзошла оригинальный DeepSeek R1 по нескольким математическим бенчмаркам. Команда сообщает, что стоимость её пост-обучения составила 7800 долларов, тогда как оценочная стоимость DeepSeek R1 — 294 000 долларов.

Исследователи не утверждают, что VibeThinker-3B может заменить крупные универсальные модели. Они считают, что в гибридных системах ИИ небольшие модели могут обрабатывать задачи на рассуждение, а крупные системы — предоставлять фактические знания. Такой подход может снизить стоимость развёртывания продвинутых рассуждений и обеспечить мощные математические и программные возможности на устройствах с ограниченным аппаратным обеспечением. Ключевой вопрос заключается в том, сможет ли производительность модели на бенчмарках трансформироваться в надёжные реальные приложения.

Данный материал скомпилирован платформой Wedoany. При цитировании материалов, созданных с помощью искусственного интеллекта (ИИ), необходимо обязательно указывать источник — «Wedoany». В случае выявления нарушения прав или иных проблем просим своевременно информировать нас. Сайт оперативно внесёт изменения или удалит материал.Электронная почта: news@wedoany.com

Связанные продукты
Связанные рекомендации
Ланкастерский университет запускает ядерный симулятор стоимостью 2 миллиона фунтов стерлингов
2026-06-20
Deutsche Telekom T-Systems и SupplyOn объединяют усилия для внедрения ИИ в европейские цепочки поставок
2026-06-20
Американская компания Hyperscale Data планирует закупить гуманоидных роботов на 13,4 млн долларов в третьем квартале 2026 года для развертывания в Мичигане
2026-06-20
Amazon рассматривает возможность продажи чипов Trainium AI центрам обработки данных
2026-06-20
Индийская компания Synergy Quantum представляет интегрированный постквантовый защищённый комплект SynQ Suite
2026-06-20
Американская компания Allbirds переименована в Smartbird, получив 143 миллиона долларов на переход в сферу ИИ-инфраструктуры
2026-06-20
Anglian Water и What Caused This создают цифровую платформу для анализа первопричин
2026-06-20
Американская компания Panthalassa завершила раунд финансирования серии B на сумму 140 миллионов долларов для расширения плавучей платформы данных
2026-06-20
UltramapGlobal обновляет платформу мониторинга оптоволоконных кабелей
2026-06-20
OQC инвестирует 92 миллиона евро в создание глобального центра исследований и производства в Барселоне, Испания
2026-06-20
Последние новости
1
Индийская Amber подписала соглашение с Oppo о производстве смартфонов
2
Чешские O2 и Cetin завершат расширение сети в 32 локациях к концу июня
3
DFSK из Гонконга (Китай) представляет праворульный E5 PLUS с запасом хода 1200 км
4
Нидерландская TNO представляет платформу Möbius для переработки остаточных пластиковых потоков механической рециклинга
5
Учёные Калифорнийского университета разработали молекулярную солнечную батарею с плотностью энергии более 1,6 МДж/кг
6
Факультет прикладных наук Ахена и UIT разрабатывают контейнерную пилотную установку для производства биогаза
7
Руководитель Tata Technologies заявил, что Индия становится следующей крупной возможностью для мировых автопроизводителей
8
Греческая Capital Clean Energy приняла танкер для СПГ объемом 174 тыс. куб. м
9
Tenneco прогнозирует двузначный рост бизнеса в Индии до 2028 года
10
Китайская компания Noematrix завершила привлечение финансирования на сотни миллионов юаней, ускоряя внедрение воплощённого интеллекта