Китайская компания Baidu опубликовала в открытом доступе модель Unlimited OCR с 3 миллиардами параметров
2026-06-26 14:59
В избр.

Репортаж от Wedoany,22 июня компания Baidu выпустила в открытый доступ модель Unlimited OCR, предназначенную для решения проблемы замедления работы сквозных OCR-моделей при обработке длинных документов. Общее количество параметров модели составляет 3 миллиарда, при этом во время вывода активируется только 500 миллионов параметров.

Baidu открывает Unlimited OCR: на базе DeepSeek OCR, обработка документов без замедления ИИ

Сквозные OCR-модели используют единую архитектуру нейронной сети, объединяя обнаружение текста и распознавание символов в одной системе, напрямую преобразуя входное изображение в текстовую последовательность, отказываясь от традиционного процесса сначала обнаружения текстовых блоков, а затем их отдельного распознавания. Каждый сгенерированный токен в основных сквозных OCR-моделях увеличивает кэш ключей и значений (KV cache), что приводит к постоянному росту использования видеопамяти и задержки, и пользователи замечают, что обработка многостраничных документов замедляется к концу.

Baidu открывает Unlimited OCR: на базе DeepSeek OCR, обработка документов без замедления ИИ

Unlimited OCR продолжает архитектуру DeepSeek OCR, сохраняя DeepEncoder и декодер смеси экспертов (MoE). На стороне кодирования используется двухуровневое визуальное кодирование, на этапе соединения выполняется 16-кратное сжатие токенов, сжимая PDF-изображение размером 1024×1024 в 256 визуальных токенов, что снижает нагрузку на предварительное заполнение на начальном этапе.

Что касается обучения, Unlimited OCR продолжает обучение на контрольной точке DeepSeek OCR в течение 4000 шагов, замораживая DeepEncoder и обучая только декодер. Данные для обучения включают около 2 миллионов образцов документов, обучение проводится на 8×16 A800 GPU. Соотношение данных: примерно 9:1 для одно- и многостраничных документов, многостраничные образцы создаются путем конкатенации.

Baidu открывает Unlimited OCR: на базе DeepSeek OCR, обработка документов без замедления ИИ

Бенчмарки показывают, что Unlimited OCR набирает 93,23 балла в OmniDocBench v1.5, что выше 87,01 у DeepSeek OCR и 89,17 у DeepSeek OCR 2. Его расстояние редактирования текста составляет 0,038, CDM для формул — 92,61, TEDS для таблиц — 90,93, а расстояние редактирования порядка чтения — 0,045. В OmniDocBench v1.6 общий балл модели достигает 93,92.

Baidu открывает Unlimited OCR: на базе DeepSeek OCR, обработка документов без замедления ИИ

Данный материал скомпилирован платформой Wedoany. При цитировании материалов, созданных с помощью искусственного интеллекта (ИИ), необходимо обязательно указывать источник — «Wedoany». В случае выявления нарушения прав или иных проблем просим своевременно информировать нас. Сайт оперативно внесёт изменения или удалит материал.Электронная почта: news@wedoany.com

Связанные продукты
Связанные рекомендации
Испанская авиакомпания Iberia завершила первый коммерческий рейс с Wi-Fi от Starlink
2026-06-26
Американская компания Sophia Space проведет орбитальные испытания технологии центров обработки данных в 2027 году
2026-06-26
В округе Ньяндаруа запущен цифровой центр Pasenga
2026-06-26
Ethio Telecom участвует в ICCA2026, укрепляя лидерство в области кибербезопасности
2026-06-26
China Tower присоединяется к GSMA, ускоряя трансформацию мобильной инфраструктуры с помощью ИИ
2026-06-26
Палау первой завершила пилотный проект по постквантовому шифрованию Forward Edge-AI
2026-06-26
Versa из США и Noris сотрудничают в продвижении суверенного SASE-решения в Германии
2026-06-26
Китайская компания Sixents и onocoy запускают GNSS-референсную станцию
2026-06-26
Китайская компания Quectel представляет многопротокольный модуль Wi-Fi 6 и BLE 5.4
2026-06-26
Китайская компания ZTE представила AIR Core — опорную сеть нового поколения
2026-06-26
Последние новости
1
Британская компания Mindstone выпустила операционную систему Rebel с открытым исходным кодом для ИИ-агентов
2
Американская компания Hang Ten привлекла $32 млн в рамках посевного раунда финансирования
3
STMicroelectronics представляет 3D-лидарный модуль прямого времени пролёта с дальностью измерения 9 метров
4
Компания OZ Lifting (США) представила на выставке WEFTEC две модели кранов-мачт из нержавеющей стали
5
Немецкий производитель подъемного оборудования eepos представит алюминиевый консольный кран грузоподъемностью 1000 кг
6
В аэропорту Адани Мундра начались регулярные коммерческие рейсы
7
Американская строительная компания Jordan Foster Construction выиграла контракт на реконструкцию автомагистрали стоимостью 146 миллионов долларов
8
Генеральный директор Северной железной дороги Индии проинспектировал модернизацию станций Амрит на участке Лакхнау-Барабанки
9
Авиакомпания Breeze Airways с сентября добавит 11 новых маршрутов
10
Модернизация паллетной транспортной системы на химическом складе Zschimmer & Schwarz в Германии