Репортаж от Wedoany,Американская компания NVIDIA объявила о запуске сервиса мониторинга GPU-кластеров Fleet Intelligence. Это управляемый сервис для крупномасштабных GPU-кластеров в инфраструктуре искусственного интеллекта, который обеспечивает видимость операций в реальном времени, мониторинг работоспособности и проверку целостности. Сервис уже бесплатно доступен клиентам, использующим дата-центровые GPU NVIDIA на базе систем Hopper, Blackwell и Vera Rubin, и способен независимо работать в гетерогенных инфраструктурных средах, независимо от стека оркестрации или планировщика.
Платформа передает телеметрические данные GPU в облачный сервис, размещенный на NVIDIA NGC, через легковесный хост-агент, который интегрирует такие технологии, как GPUd, NVIDIA Data Center GPU Manager и NVIDIA Attestation SDK. NVIDIA также опубликовала агент Fleet Intelligence в виде открытого исходного кода на GitHub, чтобы операторы могли проводить аудит телеметрического конвейера и собираемых данных. Fleet Intelligence агрегирует телеметрические данные, такие как загрузка GPU, пропускная способность памяти, энергопотребление, состояние NVLink, температурные показатели, ошибки ECC и показатели надежности оборудования, помогая операторам выявлять недоиспользуемые ресурсы, своевременно обнаруживать сбои и сокращать время простоя крупных AI-кластеров.
В этом выпуске особое внимание уделяется возможностям обеспечения целостности и аттестации, основанным на технологии конфиденциальных вычислений NVIDIA. Fleet Intelligence использует корневые сертификаты доверия NVIDIA и сервис удаленной аттестации NVIDIA для криптографической проверки целостности прошивки и среды выполнения GPU, а также может подтверждать, что GPU работает с одобренной прошивкой и неизмененной конфигурацией, сверяясь с эталонным манифестом целостности, связанным с версией vBIOS. NVIDIA заявляет, что сервис объединяет ее опыт эксплуатации облачного сервиса DGX Cloud, охватывающего сотни тысяч GPU. Среди клиентов раннего доступа — Lambda и IREN, которые предоставляли оперативную обратную связь в процессе разработки.
Fleet Intelligence поддерживает GPU Hopper, Blackwell и Vera Rubin, однако аттестация GPU в настоящее время поддерживается только для архитектур Vera Rubin и Blackwell. Телеметрические данные охватывают показатели GPU, CPU, NVLink, PCIe, сети, энергопотребления и температуры. Сервис поддерживает интеграцию с электронной почтой, Slack и пользовательскими оповещениями, а проверки работоспособности используют технологии GPUd и DCGM. Агент работает в режиме только для чтения, не изменяя конфигурацию хоста, а сервис включает функции исторических отчетов, панелей инвентаризации и визуализации аномалий. NVIDIA опубликовала агент в виде открытого исходного кода для обеспечения возможности аудита и бесплатно предоставляет его операторам дата-центровых GPU NVIDIA и облачным арендаторам.
По словам Чуан Ли, директора по науке Lambda: «NVIDIA Fleet Intelligence позволяет исследовательской команде Lambda с минимальными настройками получить сквозную видимость всего нашего кластера NVIDIA Blackwell/Hopper GPU. Его оповещения фиксируют как активные сбои, так и ранние предупредительные сигналы. Его отчеты превращают состояние всего кластера в действенные инсайты». Fleet Intelligence представляет собой независимый от развертывания уровень телеметрии и мониторинга, подходящий для различных инфраструктурных сред и не зависящий от выбранного пользователем стека оркестрации или планировщика.
Аналитики полагают, что NVIDIA расширяется от сферы GPU-чипов к операционному программному обеспечению и инструментам управления инфраструктурой для AI-фабрик. Fleet Intelligence дополняет ее стек AI-инфраструктуры, который уже включает системы DGX, структуру NVLink, сеть Spectrum-X, оркестрацию Mission Control и технологии конфиденциальных вычислений. По мере масштабирования AI-кластеров до десятков тысяч ускорителей, спрос на более высокую загрузку GPU со стороны гиперскейлеров и предприятий продолжает расти. Этот запуск также отражает усиление конкуренции в сфере наблюдаемости AI-инфраструктуры и эксплуатации GPU: такие поставщики, как AMD, Intel, и ряд стартапов создают собственные фреймворки телеметрии, надежности и оркестрации. Интегрируя аппаратную телеметрию, аттестацию прошивки и операционную аналитику непосредственно в стек своей платформы, NVIDIA укрепляет свои позиции вертикально интегрированного поставщика AI-инфраструктуры.
Данный материал скомпилирован платформой Wedoany. При цитировании материалов, созданных с помощью искусственного интеллекта (ИИ), необходимо обязательно указывать источник — «Wedoany». В случае выявления нарушения прав или иных проблем просим своевременно информировать нас. Сайт оперативно внесёт изменения или удалит материал.Электронная почта: news@wedoany.com










