Американская компания Thunderbit запускает Web Data API и MCP-сервер для интеграции в AI-рабочие процессы
2026-05-26 11:49
В избр.

Репортаж от Wedoany,25 мая американская AI-платформа для работы с веб-данными Thunderbit выпустила API для разработчиков, сервер протокола контекста модели (MCP) и инструмент командной строки, ориентированные на AI-агентов, RAG-конвейеры, базы знаний и автоматизированные рабочие процессы, преобразуя сложные веб-страницы в Markdown или структурированные данные. Thunderbit заявляет, что на данный момент у платформы уже более 100 000 пользователей.

Этот релиз сосредоточен на инженерном аспекте получения веб-данных для AI-приложений. При создании агентов, систем retrieval-augmented generation (RAG), проведении маркетинговых исследований, сборе лидов, мониторинге данных электронной коммерции и внутренних систем автоматизации предприятиям часто требуется извлекать контент со страниц товаров, страниц каталогов, результатов поиска, разделов комментариев, прайс-листов и длинного хвоста веб-страниц. Традиционные методы веб-скрапинга полагаются на CSS-селекторы, XPath или написание правил парсинга для отдельных сайтов, и как только структура веб-страницы меняется, процесс сбора данных может выйти из строя. Расширение Thunderbit возможностей извлечения веб-данных на API для разработчиков, MCP-сервер и CLI означает, что эти возможности могут быть более непосредственно интегрированы в AI-приложения, скрипты автоматизации и внутренние системы предприятий.

Ядром релиза является Thunderbit Distill. Это адаптивный движок преобразования HTML в Markdown, выполняющий высокоточную конвертацию сложных веб-страниц. Thunderbit раскрывает, что во внутренней оценке преобразования HTML в Markdown показатель ROUGE-L у Distill составил 0,87, что позволяет генерировать более чистый и полный Markdown на таких типах страниц, как страницы товаров, прайс-листы, каталоги, результаты поиска и отзывы, без необходимости писать отдельные правила для каждого сайта.

Функция Extract, в свою очередь, ориентирована на вывод структурированных данных. Разработчики могут получать данные в формате JSON или CSV с указанного URL в соответствии с пользовательской схемой для использования в базах данных, электронных таблицах, задачах обогащения данных и внутренних инструментах. Комбинация Distill и Extract служит, с одной стороны, для AI-агентов, RAG, баз знаний и приема контента, а с другой — для табличных данных, бизнес-систем и процессов автоматизации. Для корпоративных AI-команд ценность таких инструментов заключается не в простом «парсинге веб-страниц», а в уменьшении помех от веб-шума, навигационных панелей, скриптов, рекламы и шаблонного контента, влияющих на качество входных данных для больших моделей, позволяя AI-системам получать более стабильные, вычислимые и пригодные для повторного использования данные.

Добавление MCP-сервера облегчает интеграцию Thunderbit в экосистему инструментов для агентов. Протокол контекста модели используется для соединения AI-ассистентов с внешними инструментами, базами данных, файловыми системами и бизнес-сервисами. Предоставив AI-ассистентам возможность получения веб-данных через MCP-сервер, Thunderbit позволяет разработчикам встраивать сбор веб-контента, извлечение полей, преобразование в Markdown и вывод структурированных данных в рабочие процессы, поддерживающие MCP, такие как Claude Desktop и Cursor. Для команд продаж, операционных отделов, электронной коммерции, исследований и контента это означает, что задачи по обработке данных, которые ранее зависели от ручного копирования, браузерных плагинов или одноразовых скриптов, теперь могут быть включены в многократно вызываемую цепочку AI-инструментов.

Thunderbit сообщает, что их расширение для Chrome и веб-приложение уже используются командами продаж, электронной коммерции, исследований и операций для извлечения десятков миллионов страниц ежемесячно. Выпуск API для разработчиков, MCP-сервера и CLI представляет собой дальнейшее открытие возможностей извлечения веб-данных, ранее ориентированных на пользователей без кода, для разработчиков и корпоративных инженерных команд. Соучредитель и генеральный директор компании Шуай Гуань заявил, что эффективность AI-агентов зависит от их способности реально получать доступ к пригодным для использования веб-данным, и Thunderbit стремится преобразовывать постоянно меняющиеся веб-страницы в данные, которые программное обеспечение может надежно использовать.

Влияние этого релиза на рынок корпоративного программного обеспечения и интеллектуальной обработки данных в основном проявляется на уровне подключения данных для AI-приложений. После внедрения приложений на основе больших моделей предприятия быстро сталкиваются с проблемой нестабильного доступа к внешним веб-страницам, страницам поставщиков, отраслевым каталогам, информации о конкурентах, публичным ценам, данным отзывов и неструктурированному веб-контенту. Если качество источников данных нестабильно, это может создать шум в базах знаний RAG, цепочках задач агентов и автоматизированных процессах принятия решений. Одновременный запуск Thunderbit API, MCP-сервера и CLI указывает на то, что AI-инструменты расширяются от «фронтального взаимодействия» к «бэкенд-конвейерам данных», и разработчики больше не сосредотачиваются только на возможностях моделей, но и начинают обращать внимание на то, могут ли модели получать чистые, отслеживаемые и структурно согласованные входные данные.

Последующие этапы включают адаптацию инструментов разработчика Thunderbit в системах AI-агентов и корпоративных RAG, отзывы об интеграции в экосистему MCP-серверов, а также изменение масштабов использования их возможностей извлечения веб-данных командами в сфере электронной коммерции, продаж, исследований и операций. На данном этапе можно подтвердить, что Thunderbit выпустила API для разработчиков, MCP-сервер и CLI; в публичной информации не раскрываются список корпоративных клиентов, количество платящих пользователей, данные о доходах, конкретные затраты на поставщиков моделей или крупные контракты, поэтому не следует расширять повествование до утверждения о наличии подтвержденных корпоративных коммерческих заказов.

Данный материал скомпилирован платформой Wedoany. При цитировании материалов, созданных с помощью искусственного интеллекта (ИИ), необходимо обязательно указывать источник — «Wedoany». В случае выявления нарушения прав или иных проблем просим своевременно информировать нас. Сайт оперативно внесёт изменения или удалит материал.Электронная почта: news@wedoany.com

Связанные продукты
Связанные рекомендации
Ожидается, что 6G в Китае будет запущен в коммерческую эксплуатацию в 2030 году, уже получено первое в мире разрешение на использование тестовой частоты 6 ГГц
2026-05-26
Американская pSemi представит радиочастотные переключатели и широкополосные технологии на IMS 2026
2026-05-26
Канада запускает конкурс по созданию квантовых повторителей для поддержки разработки дальнодействующих квантовых сетей
2026-05-26
NTT и Kubota проверили связь для дистанционного управления сельхозтехникой в горной местности
2026-05-26
Google Cloud (США) запускает в Сингапуре коридор AI-стартапов в Юго-Восточной Азии
2026-05-26
Китайская компания H3C провела международный саммит NAVIGATE, продемонстрировав полный стек инфраструктуры для ИИ
2026-05-26
Американская компания Thunderbit запускает Web Data API и MCP-сервер для интеграции в AI-рабочие процессы
2026-05-26
Китайские компании SmartSens и Unisoc нацелены на высокоскоростные оптические соединения на базе MicroLED
2026-05-26
SK Hynix из Южной Кореи представляет решение для охлаждения iHBM, ориентированное на память для ИИ следующего поколения
2026-05-26
Японская SoftBank запустит облачный сервис GPU для AI-дата-центров в октябре
2026-05-26
Последние новости
1
Новый Южный Уэльс, Австралия, преобразует пилотный проект по электротягачам в постоянную меру
2
CRSC на высоком уровне представлен на Всемирной конференции беспилотных летательных аппаратов
3
Премьер Госсовета КНР Ли Цян: необходимо в полной мере задействовать эффект зоны свободной торговли между Китаем и Сербией, расширять и улучшать торгово-экономическое сотрудничество двух стран
4
Президент Южного Судана принял участие в церемонии ввода в эксплуатацию проекта компании CCCC
5
Китайская компания Dajin Heavy Industry и нидерландская Jumbo подписали контракт на строительство двух тяжелых крановых судов, поставка в третьем квартале 2028 года
6
Air Canada в июне открывает 7 новых дальнемагистральных маршрутов, включая Шанхай Пудун и Будапешт
7
CMA CGM Group назначает Эслу Бору управляющим директором контейнерной линии ANL
8
Китайская ракетная академия «Ханчжэн Цзисе» завершила локализацию высокотемпературных и высоконапорных плавающих шаровых кранов
9
Hengli Heavy Industry сдаст VLCC греческого судовладельца почти на полгода раньше срока
10
Ожидается, что 6G в Китае будет запущен в коммерческую эксплуатацию в 2030 году, уже получено первое в мире разрешение на использование тестовой частоты 6 ГГц