Американская NVIDIA запускает сервис мониторинга GPU-кластеров Fleet Intelligence
2026-05-14 11:59
В избр.

Репортаж от Wedoany,Американская компания NVIDIA объявила о запуске сервиса мониторинга GPU-кластеров Fleet Intelligence. Это управляемый сервис для крупномасштабных GPU-кластеров в инфраструктуре искусственного интеллекта, который обеспечивает видимость операций в реальном времени, мониторинг работоспособности и проверку целостности. Сервис уже бесплатно доступен клиентам, использующим дата-центровые GPU NVIDIA на базе систем Hopper, Blackwell и Vera Rubin, и способен независимо работать в гетерогенных инфраструктурных средах, независимо от стека оркестрации или планировщика.

Платформа передает телеметрические данные GPU в облачный сервис, размещенный на NVIDIA NGC, через легковесный хост-агент, который интегрирует такие технологии, как GPUd, NVIDIA Data Center GPU Manager и NVIDIA Attestation SDK. NVIDIA также опубликовала агент Fleet Intelligence в виде открытого исходного кода на GitHub, чтобы операторы могли проводить аудит телеметрического конвейера и собираемых данных. Fleet Intelligence агрегирует телеметрические данные, такие как загрузка GPU, пропускная способность памяти, энергопотребление, состояние NVLink, температурные показатели, ошибки ECC и показатели надежности оборудования, помогая операторам выявлять недоиспользуемые ресурсы, своевременно обнаруживать сбои и сокращать время простоя крупных AI-кластеров.

В этом выпуске особое внимание уделяется возможностям обеспечения целостности и аттестации, основанным на технологии конфиденциальных вычислений NVIDIA. Fleet Intelligence использует корневые сертификаты доверия NVIDIA и сервис удаленной аттестации NVIDIA для криптографической проверки целостности прошивки и среды выполнения GPU, а также может подтверждать, что GPU работает с одобренной прошивкой и неизмененной конфигурацией, сверяясь с эталонным манифестом целостности, связанным с версией vBIOS. NVIDIA заявляет, что сервис объединяет ее опыт эксплуатации облачного сервиса DGX Cloud, охватывающего сотни тысяч GPU. Среди клиентов раннего доступа — Lambda и IREN, которые предоставляли оперативную обратную связь в процессе разработки.

Fleet Intelligence поддерживает GPU Hopper, Blackwell и Vera Rubin, однако аттестация GPU в настоящее время поддерживается только для архитектур Vera Rubin и Blackwell. Телеметрические данные охватывают показатели GPU, CPU, NVLink, PCIe, сети, энергопотребления и температуры. Сервис поддерживает интеграцию с электронной почтой, Slack и пользовательскими оповещениями, а проверки работоспособности используют технологии GPUd и DCGM. Агент работает в режиме только для чтения, не изменяя конфигурацию хоста, а сервис включает функции исторических отчетов, панелей инвентаризации и визуализации аномалий. NVIDIA опубликовала агент в виде открытого исходного кода для обеспечения возможности аудита и бесплатно предоставляет его операторам дата-центровых GPU NVIDIA и облачным арендаторам.

По словам Чуан Ли, директора по науке Lambda: «NVIDIA Fleet Intelligence позволяет исследовательской команде Lambda с минимальными настройками получить сквозную видимость всего нашего кластера NVIDIA Blackwell/Hopper GPU. Его оповещения фиксируют как активные сбои, так и ранние предупредительные сигналы. Его отчеты превращают состояние всего кластера в действенные инсайты». Fleet Intelligence представляет собой независимый от развертывания уровень телеметрии и мониторинга, подходящий для различных инфраструктурных сред и не зависящий от выбранного пользователем стека оркестрации или планировщика.

Аналитики полагают, что NVIDIA расширяется от сферы GPU-чипов к операционному программному обеспечению и инструментам управления инфраструктурой для AI-фабрик. Fleet Intelligence дополняет ее стек AI-инфраструктуры, который уже включает системы DGX, структуру NVLink, сеть Spectrum-X, оркестрацию Mission Control и технологии конфиденциальных вычислений. По мере масштабирования AI-кластеров до десятков тысяч ускорителей, спрос на более высокую загрузку GPU со стороны гиперскейлеров и предприятий продолжает расти. Этот запуск также отражает усиление конкуренции в сфере наблюдаемости AI-инфраструктуры и эксплуатации GPU: такие поставщики, как AMD, Intel, и ряд стартапов создают собственные фреймворки телеметрии, надежности и оркестрации. Интегрируя аппаратную телеметрию, аттестацию прошивки и операционную аналитику непосредственно в стек своей платформы, NVIDIA укрепляет свои позиции вертикально интегрированного поставщика AI-инфраструктуры.

Данный материал скомпилирован платформой Wedoany. При цитировании материалов, созданных с помощью искусственного интеллекта (ИИ), необходимо обязательно указывать источник — «Wedoany». В случае выявления нарушения прав или иных проблем просим своевременно информировать нас. Сайт оперативно внесёт изменения или удалит материал.Электронная почта: news@wedoany.com

Связанные продукты
Связанные рекомендации
Американская privacy-tech компания Secludy привлекла $4 млн посевных инвестиций и официально запустила платформу
2026-05-14
Американская компания Backblaze примет участие в выставке AI & Big Data Expo в Северной Америке, представив высокопроизводительное объектное хранилище для ускорения AI-конвейеров
2026-05-14
Американская компания Quest Software выпустила облачный инструмент для моделирования данных и расширила библиотеку AI-ассистентов, усилив платформу управления доверенными данными
2026-05-14
Лондонская компания Fractile, разрабатывающая чипы для ИИ, привлекла 220 миллионов долларов в раунде финансирования серии B для ускорения разработки чипов логического вывода
2026-05-14
Американская NVIDIA запускает сервис мониторинга GPU-кластеров Fleet Intelligence
2026-05-14
Nokia внедряет ИИ-агентов для ускорения автоматизации работы широкополосных сетей
2026-05-14
Генеральный директор Verizon установил верхний предел охвата оптоволокном в 50 миллионов, делая ставку на многомиллиардные доходы от инфраструктуры ИИ
2026-05-14
Немецкая NVision привлекла 55 миллионов долларов в раунде B, переходя от квантового зондирования к квантовым вычислениям
2026-05-14
Американская компания Infleqtion представила систему радиочастотного зондирования на ридберговских атомах Quantum Spectrum, одновременное развертывание в США, Великобритании и Австралии
2026-05-14
Dell и Intel обсуждают вызовы безопасности AI-фабрик: параллельное развитие нулевого доверия и квантовой защиты
2026-05-14
Последние новости
1
Досрочно завершено бетонирование фундамента реакторного здания энергоблока №3 Курской АЭС-2
2
Росатом и Индонезия обсудили сотрудничество в области ядерной энергетики, включая проекты АЭС и малые модульные реакторы
3
Импорт сжиженного природного газа ЕС из России в первом квартале достиг максимума с 2022 года
4
Казахстан принял закон об управлении радиоактивными отходами, планируется создание национального оператора по обращению с отработавшим ядерным топливом
5
Атомэнергопроект заявил, что в ближайшие недели начнется заливка первого бетона на АЭС в Узбекистане
6
В Туркменистане введено в эксплуатацию первое сухогрузное судно отечественной постройки
7
Четыре западных разработчика электрических летательных аппаратов вертикального взлёта и посадки продвигают лётные испытания, Archer и Joby нацелены на начало эксплуатации в 2026 году
8
Uganda Airlines получила в мокрый лизинг Boeing 737-800 от Ethiopian Airlines
9
Правительство Великобритании и Wayve подписали меморандум о взаимопонимании для ускорения развития технологий автономного вождения
10
Группа LATAM Airlines (Чили) пересматривает операционную базу для A321XLR из-за роста сборов в аэропорту Лимы