Репортаж от Wedoany,Новое поколение большой языковой модели Grok 4.5 от американской компании в области искусственного интеллекта xAI перешло на этап внутреннего тестирования в SpaceX и Tesla. 28 июня по местному времени Илон Маск сообщил, что Grok 4.5 создана на базе фундаментальной модели V9 с 1,5 триллиона параметров, а в дополнительное обучение были включены данные, связанные с Cursor. Ранние оценки показывают, что производительность этой модели близка к флагманской модели Anthropic Claude Opus, а возможно, даже превосходит её. В настоящее время Grok 4.5 продолжает оптимизироваться с помощью обучения с подкреплением, а сопутствующий тестовый бенчмарк Grok Build также находится в стадии доработки.
Особенность этого внутреннего тестирования заключается в том, что сценарии испытаний развёрнуты непосредственно внутри двух высокосложных инженерных предприятий — SpaceX и Tesla. SpaceX занимается ракетами, спутниками, сетью Starlink, производственной инженерией и управлением полётными задачами; Tesla — разработкой автомобилей, заводским производством, автономным вождением, энергетическими системами и робототехникой. Размещение новой модели в этих реальных инженерных средах означает, что xAI должна проверить не только её способности в области общих вопросов-ответов, генерации кода и логических рассуждений, но и то, сможет ли она обрабатывать инженерную документацию, исследовательские задачи, автоматизированные процессы и сложное деловое взаимодействие.
Использование в Grok 4.5 фундаментальной модели V9 с 1,5 триллиона параметров показывает, что xAI продолжает следовать курсу на крупномасштабные фундаментальные модели. Сам по себе размер параметров не равен конечным возможностям, но крупномасштабные фундаментальные модели обеспечивают более высокую ёмкость для логических рассуждений, программирования, интеграции знаний и обобщения при решении множества задач. На реальную производительность продукта также влияют качество обучающих данных, стратегии пост-обучения, методы обучения с подкреплением, способность к использованию инструментов, возможности обработки контекста и эффективность онлайн-системы логического вывода. Маск подчеркнул, что обучение с подкреплением всё ещё значительно улучшает модель, что указывает на то, что Grok 4.5 ещё не готова к финальному релизу.
Включение данных Cursor в дополнительное обучение — это наиболее значимая с точки зрения индустрии часть данной новости. Cursor — один из наиболее часто используемых разработчиками инструментов ИИ для программирования. Соответствующие данные могут помочь модели лучше понять реальные процессы разработки, контекст кода, пути отладки и способы инженерного взаимодействия. Конкуренция в области больших моделей перешла от этапа «может ли писать код» к этапу «может ли участвовать в программной инженерии». Хорошая модель для программирования должна понимать структуру проекта, зависимости функций, обратную связь от тестов, журналы ошибок и намерения при многократных изменениях. Если Grok 4.5 пройдёт дополнительное обучение на таких данных, это может усилить её способности к генерации кода и выполнению инженерных задач.
Сравнение с Claude Opus также указывает на то, что xAI помещает Grok 4.5 в ряд конкурирующих передовых моделей. Claude Opus долгое время считалась одной из наиболее сильных моделей в области высококачественных текстовых рассуждений, анализа кода и решения сложных задач. Формулировка Маска «близка, а возможно, и превосходит» всё ещё относится к ранним внутренним оценкам и не означает, что победа подтверждена сторонними бенчмарками. Для внешних разработчиков и корпоративных клиентов реальная конкурентоспособность Grok 4.5 потребует ожидания более полных публичных оценок, результатов работы API, задач с длинным контекстом, задач по программированию и результатов многозадачных агентных сценариев.
Доработка тестового бенчмарка Grok Build также заслуживает внимания. Передовые большие модели больше не оцениваются только по традиционным экзаменационным вопросам и одношаговым ответам. Всё больше компаний, разрабатывающих модели, начинают создавать внутренние бенчмарки, ориентированные на реальные задачи. Если Grok Build будет ориентирован на сценарии сборки программного обеспечения, генерации продуктов, выполнения инженерных задач или разработки агентов, он может стать важным инструментом xAI для измерения практической полезности моделей. Способность модели стабильно разбивать сложные задачи на шаги, вызывать инструменты, писать код, находить ошибки и постоянно улучшаться определит, сможет ли она войти в производственные процессы предприятий.
Маск также сообщил, что SpaceX в оставшиеся месяцы этого года будет ежемесячно выпускать новую модель, полностью обученную с нуля. Если этот темп будет выдержан, это будет означать, что xAI и инженерная система под руководством Маска пытаются перейти к более частой итерации фундаментальных моделей. В отличие от простого пост-обучения или выпуска минорных обновлений, обучение новой модели с нуля требует огромных вычислительных мощностей, данных, инженерных усилий по обучению и поддержки систем оценки. Ежемесячный выпуск новых моделей — задача высокой сложности, которая также проверит инженерные возможности xAI в области кластеров для обучения, конвейеров данных, архитектуры моделей и процессов релиза.
Внутреннее тестирование Grok 4.5 в SpaceX и Tesla может также повлиять на способы применения ИИ в экосистеме Маска. Tesla может тестировать возможности модели в инженерном проектировании, оптимизации производства, послепродажном обслуживании, внутренней разработке ПО и разработке роботов; SpaceX — в документации по задачам, спутниковой сети, инженерном моделировании и координации сложных процессов. Если результаты внутреннего тестирования будут стабильными, Grok 4.5 впоследствии может быть глубже интегрирована в исследовательские и операционные системы предприятий Маска, а не просто использоваться как чат-бот для обычных пользователей.
Это также отражает сдвиг конкуренции в области передовых моделей ИИ в сторону «возможности модели + реальный сценарий + инженерный цикл». OpenAI, Anthropic, Google, Meta и xAI борются за более сильные модели, но тот, кто сможет внедрить модель в реальную организацию и добиться повышения производительности, с большей вероятностью получит долгосрочную коммерческую ценность. Выбор Grok 4.5 в пользу внутреннего тестирования сначала в SpaceX и Tesla, по сути, представляет собой стресс-тест модели в условиях сложного инженерного предприятия, чтобы проверить, способна ли она войти в высокоценные производственные сценарии.
Дальнейшие точки наблюдения сосредоточены на трёх аспектах: во-первых, когда Grok 4.5 будет открыта для внешних пользователей или разработчиков; во-вторых, смогут ли её публичные оценки подтвердить ранние заявления о «близости или превосходстве над Opus»; в-третьих, сможет ли внутреннее тестирование в SpaceX и Tesla трансформироваться в воспроизводимые корпоративные возможности ИИ. По мере продолжения обучения с подкреплением и доработки бенчмарка Grok Build, сможет ли Grok 4.5 превратиться из модели для внутреннего тестирования в основного конкурента на передовом рынке ИИ, станет важнейшим пунктом наблюдения для xAI на следующем этапе.
Данный материал скомпилирован платформой Wedoany. При цитировании материалов, созданных с помощью искусственного интеллекта (ИИ), необходимо обязательно указывать источник — «Wedoany». В случае выявления нарушения прав или иных проблем просим своевременно информировать нас. Сайт оперативно внесёт изменения или удалит материал.Электронная почта: news@wedoany.com









