Репортаж от Wedoany,30 июня компания Meituan официально представила новую модель LongCat-2.0 с триллионом параметров и объявила о её открытии. Общее количество параметров модели достигает 1,6 трлн, среднее количество активируемых параметров составляет около 48 млрд, динамический диапазон активации — от 33 до 56 млрд, при этом модель изначально поддерживает сверхдлинный контекст в 1 млн токенов. LongCat-2.0 — это модель с триллионом параметров, полностью обученная и протестированная на отечественном вычислительном кластере из 50 000 ускорителей. Объём предварительно обученных данных превышает 30 трлн токенов, охватывая китайский, английский, многоязычные данные и код. Модель предоставляет базовые возможности для понимания длинных текстов, обработки кода, многоязычных задач и сложных приложений на основе ИИ-агентов.
Выпуск LongCat-2.0 расширил возможности моделей Meituan от бизнес-приложений до открытия исходного кода базовых моделей. Отечественный вычислительный кластер из 50 000 ускорителей, 1,6 трлн общих параметров и контекстное окно в 1 млн токенов стали наиболее заметными техническими деталями этого релиза.
С точки зрения архитектуры модели, LongCat-2.0 использует конфигурацию с триллионом общих параметров и десятками миллиардов активируемых параметров. Среднее количество активируемых параметров составляет около 48 млрд, а динамический диапазон активации — от 33 до 56 млрд. Сложные задачи могут задействовать больше параметров, а лёгкие задачи — снижать вычислительные затраты. Такая конструкция помогает контролировать стоимость вывода и повышает эффективность использования ресурсов в различных сценариях. Возможность работы со сверхдлинным контекстом в 1 млн токенов позволяет модели обрабатывать за один раз крупные документы, репозитории кода, контракты, проектные файлы и записи многоэтапных задач, уменьшая потерю информации при разделении длинного содержимого.
Отечественные вычислительные мощности стали ещё одной ключевой информацией этого релиза. Обучение и вывод LongCat-2.0 на отечественном кластере из 50 000 ускорителей свидетельствуют о том, что китайская AI-инфраструктура уже вошла в цепочку обучения сверхмасштабных моделей.
После открытия исходного кода LongCat-2.0 станет доступна для использования разработчиками, предприятиями и исследовательскими организациями. В таких отраслях, как производство, розничная торговля, логистика, цепочки поставок и инженерные услуги, существует множество длинных текстовых материалов, включая руководства по оборудованию, технические спецификации, контракты на закупки, проектные документы, записи службы поддержки, репозитории кода и корпоративные базы знаний. Модель с контекстом в 1 млн токенов может использоваться для ответов на вопросы по базам знаний, анализа длинных документов, помощи в написании кода, автоматизации бизнес-процессов и оркестрации задач ИИ-агентов, снижая порог для создания отраслевых моделей и частных приложений на предприятиях.
Выпуск LongCat-2.0 компанией Meituan сигнализирует о её намерении продолжать инвестировать в базовые возможности больших языковых моделей. Дальнейшие результаты применения будут зависеть от весов модели, технических отчётов, условий лицензирования, стоимости вывода и объёма открытых сопутствующих инструментов.









