Репортаж от Wedoany,Французская компания в сфере искусственного интеллекта Mistral AI во вторник представила свою оптическую модель распознавания символов четвёртого поколения OCR 4. Ключевая возможность этой модели заключается не только в извлечении текста, но и в возврате структурированного представления документа, включающего ограничивающие рамки, классификацию типов блоков и оценку достоверности для каждого слова. Продукт позиционируется для рынка корпоративных развёртываний с самостоятельным хостингом в регулируемых отраслях, где предприятия не могут передавать конфиденциальные документы облачным провайдерам, находящимся под юрисдикцией США.

OCR 4 поддерживает 170 языков из 10 языковых семей и может обрабатывать форматы PDF, DOC, PPT и OpenDocument. В Mistral заявляют, что предыдущие поколения модели в основном преобразовывали страницы в чистый текст и таблицы, тогда как OCR 4 напрямую возвращает структурированное представление документа. Модель уже доступна через Mistral API, Document AI в Mistral Studio, Amazon SageMaker и Microsoft Foundry, а поддержка Snowflake Parse Document ожидается в ближайшее время. Ценообразование начинается от 4 долларов США за 1000 страниц, а оптовая цена по API со скидкой составляет 2 доллара США за 1000 страниц.
Инженерной основой OCR 4 является вывод иерархического представления документа, а не плоского текстового потока. Каждый текстовый блок сопровождается локализацией с помощью ограничивающей рамки, классификацией типа (например, заголовок, таблица, формула, подпись), а также оценкой достоверности на уровне страницы и слова. В Mistral отмечают, что ограничивающие рамки — это наиболее часто запрашиваемая клиентами функция, позволяющая нижестоящим системам соотносить извлечённую информацию с конкретным положением на странице. Функция классификации блоков позволяет использовать абзацы заголовков для иерархического разделения в семантическом поиске, направлять табличные блоки в конвейеры структурированных данных, а блоки подписей — запускать рабочие процессы редактирования в системах соответствия требованиям. Оценка достоверности даёт организациям возможность программно направлять области с низкой достоверностью на ручную проверку, одновременно автоматически утверждая извлечение с высокой достоверностью.
В независимой оценке Mistral сообщает, что ручная оценка, проведённая независимыми аннотаторами на более чем 600 реальных документах на более чем 12 языках, показала, что OCR 4 достигла среднего показателя побед в 72% при прямом сравнении с основными конкурентами. Модель набрала 85,20 балла на OlmOCRBench и 93,07 балла на OmniDocBench. Однако Mistral также самостоятельно провела аудит и публично раскрыла артефакты в оценках, включая ошибки в эталонных аннотациях, проблемы с сопоставлением символов LaTeX, предположения о порядке чтения столбцов и другие, считая, что общие баллы носят лишь ориентировочный, а не окончательный характер. Примечательно, что в публичном рейтинге OlmOCRBench OCR 4 в настоящее время занимает третье место, уступая некоторым моделям с открытым весом, таким как Chandra OCR 2. PaddleOCR-VL-1.6 заявляет о комплексном результате в 96,33 балла на OmniDocBench.
Ранние отзывы корпоративных клиентов предоставляют конкретные данные. Инженер по ИИ из финансовой AI-компании Rogo, Эйдан Донохью, отметил, что на наборе данных финансовых вопросов и ответов, насыщенных диаграммами, OCR 4 «достигает сопоставимой точности при снижении затрат примерно в 8 раз и задержки примерно в 17 раз» по сравнению с ведущими агентными парсерами документов. Инженер по ИИ из компании по управлению интеллектуальной собственностью Anaqua, Иван Михайлов, заявил, что «скорость обработки страницы OCR 4 примерно в 4 раза выше, чем у существующих поставщиков».
Геополитическим фоном этого релиза стало отключение компанией Anthropic 12 июня своих новейших моделей Fable 5 и Mythos 5 из-за экспортных ограничений США, что привело к сбоям в обслуживании корпоративных клиентов в финансовом, медицинском и критически важном инфраструктурном секторах. Этот инцидент подтвердил предупреждения генерального директора Mistral Артура Менша о рисках зависимости Европы от американских ИИ-компаний. Менш ранее заявлял, что американские компании «держат ключ к своим моделям», и недавно подчеркнул, что «Европа отстаёт в создании инфраструктуры, поэтому мы инвестируем, чтобы сократить этот разрыв». Модель развёртывания OCR 4 с самостоятельным хостингом в одном контейнере позволяет документам не покидать инфраструктуру клиента, работая полностью под юрисдикцией ЕС.
За день до релиза Mistral компания Baidu представила модель с 3 миллиардами параметров под названием Unlimited-OCR, распространяемую с открытым весом по лицензии MIT. Эта модель использует технику, называемую Reference Sliding Window Attention (R-SWA), позволяющую за один прямой проход анализировать целые PDF-файлы и многостраничные сканы без необходимости разбиения на части или склейки. Аналитики рассматривают эти два релиза как расхождение двух парадигм в области AI для документов в июне 2026 года: самостоятельный хостинг с открытым весом для длинного контекста и коммерциализированное структурированное извлечение. Для исследовательских групп, работающих на одном GPU, Unlimited-OCR может быть более подходящей, тогда как OCR 4 ориентирована на соглашения об уровне обслуживания, соглашения об обработке данных и аудит соответствия, связанные с корпоративными ИТ-закупками.
С отраслевой точки зрения, OCR 4 является точкой входа Mistral в корпоративные бюджеты на ИИ. Модель напрямую поддерживает Search Toolkit от Mistral — фреймворк для открытого компонуемого поиска. Архитектурно OCR 4 выполняет роль уровня извлечения в конвейерах генерации с дополненным поиском (RAG) и корпоративного поиска. По сообщениям Bloomberg, Mistral находится на ранней стадии переговоров о привлечении финансирования в размере около 3 миллиардов евро при оценке примерно в 20 миллиардов евро. Компания ставит целью достичь выручки в 1 миллиард евро к 2026 году. Генеральный директор Mistral недавно также возразил против призыва Папы Римского «разоружить» ИИ, заявив, что Европа не может отставать от американских технологических гигантов и должна обладать собственными ИИ-возможностями.



Данный материал скомпилирован платформой Wedoany. При цитировании материалов, созданных с помощью искусственного интеллекта (ИИ), необходимо обязательно указывать источник — «Wedoany». В случае выявления нарушения прав или иных проблем просим своевременно информировать нас. Сайт оперативно внесёт изменения или удалит материал.Электронная почта: news@wedoany.com









