Репортаж от Wedoany,25 мая американская AI-платформа для работы с веб-данными Thunderbit выпустила API для разработчиков, сервер протокола контекста модели (MCP) и инструмент командной строки, ориентированные на AI-агентов, RAG-конвейеры, базы знаний и автоматизированные рабочие процессы, преобразуя сложные веб-страницы в Markdown или структурированные данные. Thunderbit заявляет, что на данный момент у платформы уже более 100 000 пользователей.
Этот релиз сосредоточен на инженерном аспекте получения веб-данных для AI-приложений. При создании агентов, систем retrieval-augmented generation (RAG), проведении маркетинговых исследований, сборе лидов, мониторинге данных электронной коммерции и внутренних систем автоматизации предприятиям часто требуется извлекать контент со страниц товаров, страниц каталогов, результатов поиска, разделов комментариев, прайс-листов и длинного хвоста веб-страниц. Традиционные методы веб-скрапинга полагаются на CSS-селекторы, XPath или написание правил парсинга для отдельных сайтов, и как только структура веб-страницы меняется, процесс сбора данных может выйти из строя. Расширение Thunderbit возможностей извлечения веб-данных на API для разработчиков, MCP-сервер и CLI означает, что эти возможности могут быть более непосредственно интегрированы в AI-приложения, скрипты автоматизации и внутренние системы предприятий.
Ядром релиза является Thunderbit Distill. Это адаптивный движок преобразования HTML в Markdown, выполняющий высокоточную конвертацию сложных веб-страниц. Thunderbit раскрывает, что во внутренней оценке преобразования HTML в Markdown показатель ROUGE-L у Distill составил 0,87, что позволяет генерировать более чистый и полный Markdown на таких типах страниц, как страницы товаров, прайс-листы, каталоги, результаты поиска и отзывы, без необходимости писать отдельные правила для каждого сайта.
Функция Extract, в свою очередь, ориентирована на вывод структурированных данных. Разработчики могут получать данные в формате JSON или CSV с указанного URL в соответствии с пользовательской схемой для использования в базах данных, электронных таблицах, задачах обогащения данных и внутренних инструментах. Комбинация Distill и Extract служит, с одной стороны, для AI-агентов, RAG, баз знаний и приема контента, а с другой — для табличных данных, бизнес-систем и процессов автоматизации. Для корпоративных AI-команд ценность таких инструментов заключается не в простом «парсинге веб-страниц», а в уменьшении помех от веб-шума, навигационных панелей, скриптов, рекламы и шаблонного контента, влияющих на качество входных данных для больших моделей, позволяя AI-системам получать более стабильные, вычислимые и пригодные для повторного использования данные.
Добавление MCP-сервера облегчает интеграцию Thunderbit в экосистему инструментов для агентов. Протокол контекста модели используется для соединения AI-ассистентов с внешними инструментами, базами данных, файловыми системами и бизнес-сервисами. Предоставив AI-ассистентам возможность получения веб-данных через MCP-сервер, Thunderbit позволяет разработчикам встраивать сбор веб-контента, извлечение полей, преобразование в Markdown и вывод структурированных данных в рабочие процессы, поддерживающие MCP, такие как Claude Desktop и Cursor. Для команд продаж, операционных отделов, электронной коммерции, исследований и контента это означает, что задачи по обработке данных, которые ранее зависели от ручного копирования, браузерных плагинов или одноразовых скриптов, теперь могут быть включены в многократно вызываемую цепочку AI-инструментов.
Thunderbit сообщает, что их расширение для Chrome и веб-приложение уже используются командами продаж, электронной коммерции, исследований и операций для извлечения десятков миллионов страниц ежемесячно. Выпуск API для разработчиков, MCP-сервера и CLI представляет собой дальнейшее открытие возможностей извлечения веб-данных, ранее ориентированных на пользователей без кода, для разработчиков и корпоративных инженерных команд. Соучредитель и генеральный директор компании Шуай Гуань заявил, что эффективность AI-агентов зависит от их способности реально получать доступ к пригодным для использования веб-данным, и Thunderbit стремится преобразовывать постоянно меняющиеся веб-страницы в данные, которые программное обеспечение может надежно использовать.
Влияние этого релиза на рынок корпоративного программного обеспечения и интеллектуальной обработки данных в основном проявляется на уровне подключения данных для AI-приложений. После внедрения приложений на основе больших моделей предприятия быстро сталкиваются с проблемой нестабильного доступа к внешним веб-страницам, страницам поставщиков, отраслевым каталогам, информации о конкурентах, публичным ценам, данным отзывов и неструктурированному веб-контенту. Если качество источников данных нестабильно, это может создать шум в базах знаний RAG, цепочках задач агентов и автоматизированных процессах принятия решений. Одновременный запуск Thunderbit API, MCP-сервера и CLI указывает на то, что AI-инструменты расширяются от «фронтального взаимодействия» к «бэкенд-конвейерам данных», и разработчики больше не сосредотачиваются только на возможностях моделей, но и начинают обращать внимание на то, могут ли модели получать чистые, отслеживаемые и структурно согласованные входные данные.
Последующие этапы включают адаптацию инструментов разработчика Thunderbit в системах AI-агентов и корпоративных RAG, отзывы об интеграции в экосистему MCP-серверов, а также изменение масштабов использования их возможностей извлечения веб-данных командами в сфере электронной коммерции, продаж, исследований и операций. На данном этапе можно подтвердить, что Thunderbit выпустила API для разработчиков, MCP-сервер и CLI; в публичной информации не раскрываются список корпоративных клиентов, количество платящих пользователей, данные о доходах, конкретные затраты на поставщиков моделей или крупные контракты, поэтому не следует расширять повествование до утверждения о наличии подтвержденных корпоративных коммерческих заказов.
Данный материал скомпилирован платформой Wedoany. При цитировании материалов, созданных с помощью искусственного интеллекта (ИИ), необходимо обязательно указывать источник — «Wedoany». В случае выявления нарушения прав или иных проблем просим своевременно информировать нас. Сайт оперативно внесёт изменения или удалит материал.Электронная почта: news@wedoany.com










