Американская NVIDIA запускает сервис мониторинга GPU-кластеров Fleet Intelligence_Глобальные новости

Американская NVIDIA запускает сервис мониторинга GPU-кластеров Fleet Intelligence

2026-05-14 11:59

В избр.

Репортаж от Wedoany，Американская компания NVIDIA объявила о запуске сервиса мониторинга GPU-кластеров Fleet Intelligence. Это управляемый сервис для крупномасштабных GPU-кластеров в инфраструктуре искусственного интеллекта, который обеспечивает видимость операций в реальном времени, мониторинг работоспособности и проверку целостности. Сервис уже бесплатно доступен клиентам, использующим дата-центровые GPU NVIDIA на базе систем Hopper, Blackwell и Vera Rubin, и способен независимо работать в гетерогенных инфраструктурных средах, независимо от стека оркестрации или планировщика.

Платформа передает телеметрические данные GPU в облачный сервис, размещенный на NVIDIA NGC, через легковесный хост-агент, который интегрирует такие технологии, как GPUd, NVIDIA Data Center GPU Manager и NVIDIA Attestation SDK. NVIDIA также опубликовала агент Fleet Intelligence в виде открытого исходного кода на GitHub, чтобы операторы могли проводить аудит телеметрического конвейера и собираемых данных. Fleet Intelligence агрегирует телеметрические данные, такие как загрузка GPU, пропускная способность памяти, энергопотребление, состояние NVLink, температурные показатели, ошибки ECC и показатели надежности оборудования, помогая операторам выявлять недоиспользуемые ресурсы, своевременно обнаруживать сбои и сокращать время простоя крупных AI-кластеров.

В этом выпуске особое внимание уделяется возможностям обеспечения целостности и аттестации, основанным на технологии конфиденциальных вычислений NVIDIA. Fleet Intelligence использует корневые сертификаты доверия NVIDIA и сервис удаленной аттестации NVIDIA для криптографической проверки целостности прошивки и среды выполнения GPU, а также может подтверждать, что GPU работает с одобренной прошивкой и неизмененной конфигурацией, сверяясь с эталонным манифестом целостности, связанным с версией vBIOS. NVIDIA заявляет, что сервис объединяет ее опыт эксплуатации облачного сервиса DGX Cloud, охватывающего сотни тысяч GPU. Среди клиентов раннего доступа — Lambda и IREN, которые предоставляли оперативную обратную связь в процессе разработки.

Fleet Intelligence поддерживает GPU Hopper, Blackwell и Vera Rubin, однако аттестация GPU в настоящее время поддерживается только для архитектур Vera Rubin и Blackwell. Телеметрические данные охватывают показатели GPU, CPU, NVLink, PCIe, сети, энергопотребления и температуры. Сервис поддерживает интеграцию с электронной почтой, Slack и пользовательскими оповещениями, а проверки работоспособности используют технологии GPUd и DCGM. Агент работает в режиме только для чтения, не изменяя конфигурацию хоста, а сервис включает функции исторических отчетов, панелей инвентаризации и визуализации аномалий. NVIDIA опубликовала агент в виде открытого исходного кода для обеспечения возможности аудита и бесплатно предоставляет его операторам дата-центровых GPU NVIDIA и облачным арендаторам.

По словам Чуан Ли, директора по науке Lambda: «NVIDIA Fleet Intelligence позволяет исследовательской команде Lambda с минимальными настройками получить сквозную видимость всего нашего кластера NVIDIA Blackwell/Hopper GPU. Его оповещения фиксируют как активные сбои, так и ранние предупредительные сигналы. Его отчеты превращают состояние всего кластера в действенные инсайты». Fleet Intelligence представляет собой независимый от развертывания уровень телеметрии и мониторинга, подходящий для различных инфраструктурных сред и не зависящий от выбранного пользователем стека оркестрации или планировщика.

Аналитики полагают, что NVIDIA расширяется от сферы GPU-чипов к операционному программному обеспечению и инструментам управления инфраструктурой для AI-фабрик. Fleet Intelligence дополняет ее стек AI-инфраструктуры, который уже включает системы DGX, структуру NVLink, сеть Spectrum-X, оркестрацию Mission Control и технологии конфиденциальных вычислений. По мере масштабирования AI-кластеров до десятков тысяч ускорителей, спрос на более высокую загрузку GPU со стороны гиперскейлеров и предприятий продолжает расти. Этот запуск также отражает усиление конкуренции в сфере наблюдаемости AI-инфраструктуры и эксплуатации GPU: такие поставщики, как AMD, Intel, и ряд стартапов создают собственные фреймворки телеметрии, надежности и оркестрации. Интегрируя аппаратную телеметрию, аттестацию прошивки и операционную аналитику непосредственно в стек своей платформы, NVIDIA укрепляет свои позиции вертикально интегрированного поставщика AI-инфраструктуры.

Данный материал скомпилирован платформой Wedoany. При цитировании материалов, созданных с помощью искусственного интеллекта (ИИ), необходимо обязательно указывать источник — «Wedoany». В случае выявления нарушения прав или иных проблем просим своевременно информировать нас. Сайт оперативно внесёт изменения или удалит материал.Электронная почта: news@wedoany.com

США

Информация и коммуникация Интеллектуальная обработка данных

Эта новость является результатом компиляции и перепечатки информации из глобального Интернета и стратегических партнеров. Она предназначена только для читателей. Если у вас возникнут какие-либо нарушения или другие проблемы, пожалуйста, своевременно сообщите нам. Этот сайт изменить или удалить ее. Перепечатка этой статьи без официального разрешения строго запрещена.электронная почта：news@wedoany.com

Предыдущий：Nokia внедряет ИИ-агентов для ускорения автоматизации работы широкополосных сетей

Следующий：Лондонская компания Fractile, разрабатывающая чипы для ИИ, привлекла 220 миллионов долларов в раунде финансирования серии B для ускорения разработки чипов логического вывода