Репортаж от Wedoany,В первой демонстрации автоматического исследователя alphaXiv была использована китайская модель с открытым исходным кодом GLM-5.2, заменившая передовые модели компании Anthropic — Claude Fable 5 и Mythos 5, доступ к которым ранее был ограничен властями США. Команда alphaXiv четко заявила, что это лишь их собственная демонстрация, а не независимое тестирование; причиной выбора альтернативы с открытым исходным кодом стала недоступность передовых моделей для исследований, что побудило сообщество открытого кода искать замену.
В ходе показательной работы GLM-5.2 самостоятельно выполнила сравнение двух схем обучения с подкреплением — полностью асинхронной и комбинированной синхронной. Эксперимент проводился на двух узлах, каждый из которых был оснащен восемью ускорителями H100, на основе фреймворка SkyRL на наборе задач по кодированию Harbor. В описании команды указано, что агент самостоятельно исправил проблемы окружения (зависимость libnuma), выполнил все запуски и представил итоговые сравнительные данные по пропускной способности и стабильности вознаграждения.
Функция автоматического исследователя alphaXiv предназначена для решения проблемы воспроизводимости кода из научных статей. После замены в адресе статьи arxiv на autoarxiv агент автоматически развертывает репозиторий, исправляет окружение, проводит минимальную проверку воспроизводимости и оценивает стоимость полного воспроизведения результатов. Этот процесс включает инженерные этапы — сборку и проверку чужого кода, а не научные открытия. Для частного кода существует отдельная платформа OpenResearch.sh.
GLM-5.2 от китайской компании Z.ai (ранее Zhipu AI) — это модель с открытым исходным кодом на архитектуре MoE, содержащая около 750 миллиардов параметров, с активацией примерно 40 миллиардов параметров на каждый токен, длиной контекста в 1 миллион токенов и лицензией MIT. Команда отмечает, что ключевой особенностью модели являются не результаты бенчмарков, а то, что ее веса с открытым исходным кодом не могут быть отозваны регулирующими органами — это гарантия для инструментов, требующих предсказуемого доступа.
Команда alphaXiv признает, что GLM-5.2 лишена визуальных возможностей: когда другие модели напрямую считывают тренды с графиков WandB (сервис отслеживания экспериментов), GLM пишет код на numpy для анализа сырых чисел — этого достаточно для простых запусков, но может мешать в сложных задачах. Команда отмечает, что на текущем этапе модель еще не занимается настоящими исследованиями; ее преимущество заключается в решении задач реализации и воспроизведении существующих работ. Под самостоятельным исследованием здесь понимается инженерный цикл экспериментов, а не научные открытия.
Данный материал скомпилирован платформой Wedoany. При цитировании материалов, созданных с помощью искусственного интеллекта (ИИ), необходимо обязательно указывать источник — «Wedoany». В случае выявления нарушения прав или иных проблем просим своевременно информировать нас. Сайт оперативно внесёт изменения или удалит материал.Электронная почта: news@wedoany.com









