Американская NVIDIA запускает сервис мониторинга GPU-кластеров Fleet Intelligence
2026-05-14 11:59
В избр.

Репортаж от Wedoany,Американская компания NVIDIA объявила о запуске сервиса мониторинга GPU-кластеров Fleet Intelligence. Это управляемый сервис для крупномасштабных GPU-кластеров в инфраструктуре искусственного интеллекта, который обеспечивает видимость операций в реальном времени, мониторинг работоспособности и проверку целостности. Сервис уже бесплатно доступен клиентам, использующим дата-центровые GPU NVIDIA на базе систем Hopper, Blackwell и Vera Rubin, и способен независимо работать в гетерогенных инфраструктурных средах, независимо от стека оркестрации или планировщика.

Платформа передает телеметрические данные GPU в облачный сервис, размещенный на NVIDIA NGC, через легковесный хост-агент, который интегрирует такие технологии, как GPUd, NVIDIA Data Center GPU Manager и NVIDIA Attestation SDK. NVIDIA также опубликовала агент Fleet Intelligence в виде открытого исходного кода на GitHub, чтобы операторы могли проводить аудит телеметрического конвейера и собираемых данных. Fleet Intelligence агрегирует телеметрические данные, такие как загрузка GPU, пропускная способность памяти, энергопотребление, состояние NVLink, температурные показатели, ошибки ECC и показатели надежности оборудования, помогая операторам выявлять недоиспользуемые ресурсы, своевременно обнаруживать сбои и сокращать время простоя крупных AI-кластеров.

В этом выпуске особое внимание уделяется возможностям обеспечения целостности и аттестации, основанным на технологии конфиденциальных вычислений NVIDIA. Fleet Intelligence использует корневые сертификаты доверия NVIDIA и сервис удаленной аттестации NVIDIA для криптографической проверки целостности прошивки и среды выполнения GPU, а также может подтверждать, что GPU работает с одобренной прошивкой и неизмененной конфигурацией, сверяясь с эталонным манифестом целостности, связанным с версией vBIOS. NVIDIA заявляет, что сервис объединяет ее опыт эксплуатации облачного сервиса DGX Cloud, охватывающего сотни тысяч GPU. Среди клиентов раннего доступа — Lambda и IREN, которые предоставляли оперативную обратную связь в процессе разработки.

Fleet Intelligence поддерживает GPU Hopper, Blackwell и Vera Rubin, однако аттестация GPU в настоящее время поддерживается только для архитектур Vera Rubin и Blackwell. Телеметрические данные охватывают показатели GPU, CPU, NVLink, PCIe, сети, энергопотребления и температуры. Сервис поддерживает интеграцию с электронной почтой, Slack и пользовательскими оповещениями, а проверки работоспособности используют технологии GPUd и DCGM. Агент работает в режиме только для чтения, не изменяя конфигурацию хоста, а сервис включает функции исторических отчетов, панелей инвентаризации и визуализации аномалий. NVIDIA опубликовала агент в виде открытого исходного кода для обеспечения возможности аудита и бесплатно предоставляет его операторам дата-центровых GPU NVIDIA и облачным арендаторам.

По словам Чуан Ли, директора по науке Lambda: «NVIDIA Fleet Intelligence позволяет исследовательской команде Lambda с минимальными настройками получить сквозную видимость всего нашего кластера NVIDIA Blackwell/Hopper GPU. Его оповещения фиксируют как активные сбои, так и ранние предупредительные сигналы. Его отчеты превращают состояние всего кластера в действенные инсайты». Fleet Intelligence представляет собой независимый от развертывания уровень телеметрии и мониторинга, подходящий для различных инфраструктурных сред и не зависящий от выбранного пользователем стека оркестрации или планировщика.

Аналитики полагают, что NVIDIA расширяется от сферы GPU-чипов к операционному программному обеспечению и инструментам управления инфраструктурой для AI-фабрик. Fleet Intelligence дополняет ее стек AI-инфраструктуры, который уже включает системы DGX, структуру NVLink, сеть Spectrum-X, оркестрацию Mission Control и технологии конфиденциальных вычислений. По мере масштабирования AI-кластеров до десятков тысяч ускорителей, спрос на более высокую загрузку GPU со стороны гиперскейлеров и предприятий продолжает расти. Этот запуск также отражает усиление конкуренции в сфере наблюдаемости AI-инфраструктуры и эксплуатации GPU: такие поставщики, как AMD, Intel, и ряд стартапов создают собственные фреймворки телеметрии, надежности и оркестрации. Интегрируя аппаратную телеметрию, аттестацию прошивки и операционную аналитику непосредственно в стек своей платформы, NVIDIA укрепляет свои позиции вертикально интегрированного поставщика AI-инфраструктуры.

Данный материал скомпилирован платформой Wedoany. При цитировании материалов, созданных с помощью искусственного интеллекта (ИИ), необходимо обязательно указывать источник — «Wedoany». В случае выявления нарушения прав или иных проблем просим своевременно информировать нас. Сайт оперативно внесёт изменения или удалит материал.Электронная почта: news@wedoany.com

Эта новость является результатом компиляции и перепечатки информации из глобального Интернета и стратегических партнеров. Она предназначена только для читателей. Если у вас возникнут какие-либо нарушения или другие проблемы, пожалуйста, своевременно сообщите нам. Этот сайт изменить или удалить ее. Перепечатка этой статьи без официального разрешения строго запрещена.электронная почта:news@wedoany.com
Связанные продукты
Связанные рекомендации
Малайзийская группа Kuok планирует инвестировать 5,3 млрд евро в строительство центра обработки данных мощностью 300 МВт в Милане, Италия
2026-07-05
Доля доходов Airtel в Индии составляет 36%: компания расширяет 5G и углубляет финансовые услуги
2026-07-05
Израильская компания по кибербезопасности Dream привлекла $260 млн и планирует выход на рынок Латинской Америки
2026-07-05
Индийская Bharti Airtel расширяет покрытие сети на пути паломничества Амарнатх
2026-07-05
Авиакомпания United Airlines впервые развернула облачную развлекательную систему на борту Boeing 787-9
2026-07-05
В AIRI разработали нейросеть Genatator для аннотации генов
2026-07-05
Vodafone Ireland завершила первую в Европе демонстрацию экстренной связи с прямым подключением устройств к спутнику
2026-07-05
Третий OSAT-завод в Индии запущен в производство, CG Semiconductor — 300 миллионов чипов в год
2026-07-05
Южнокорейский Naver раскрыл ключевые технологии AI Tab, уровень сервиса достиг 108 баллов
2026-07-05
SK Telecom из Южной Кореи продвигает строительство AI-центров обработки данных мощностью 15 ГВт
2026-07-05
Последние новости
1
Малайзийская группа Kuok планирует инвестировать 5,3 млрд евро в строительство центра обработки данных мощностью 300 МВт в Милане, Италия
2
Доля доходов Airtel в Индии составляет 36%: компания расширяет 5G и углубляет финансовые услуги
3
Израильская компания по кибербезопасности Dream привлекла $260 млн и планирует выход на рынок Латинской Америки
4
Индийская Bharti Airtel расширяет покрытие сети на пути паломничества Амарнатх
5
Запасы железной руды в портах Китая достигли рекордного уровня, фьючерсы упали ниже 740 юаней за тонну
6
Refined Energy объявляет окончательные результаты зимнего бурения 2026 года на участке Dufferin West в Канаде
7
Компания McLaren Resources завершила беспилотную магнитную съемку на золоторудном проекте МакКул в Онтарио
8
В Южной Корее возобновлена добыча вольфрама на руднике Сан-Донг с годовой мощностью 4600 тонн
9
Китай доминирует в переработке минералов, горно-обогатительная отрасль к 2035 году может внести 34 триллиона долларов в мировой ВВП
10
Проекты на миллиарды долларов застопорились из-за отсутствия дорог к критически важным полезным ископаемым на Крайнем Севере Канады