Тестирование отечественных мультимодальных моделей: Step 3.7 Flash лидирует по скорости и стоимости_Глобальные новости

Тестирование отечественных мультимодальных моделей: Step 3.7 Flash лидирует по скорости и стоимости

2026-07-02 14:25

В избр.

Репортаж от Wedoany，На фоне перехода мультимодальных моделей от демонстраций к промышленному внедрению три модели — Step 3.7 Flash, Qwen3.6-flash и MiniMax M3 — прошли практическое тестирование в сценариях разработки и бизнеса. Сравнительная оценка по двум задачам — распознаванию блок-схем и анализу документов — показала, что все три модели демонстрируют стабильное качество визуального понимания и структурированного вывода, однако различаются по скорости отклика и потреблению токенов.

Оценка проводилась по трём параметрам: качество, скорость и стоимость. Были выбраны два типа промышленных сценариев: первый — восстановление бизнес-логики по системной блок-схеме в процессе разработки агента, второй — структурированное извлечение данных из счетов-фактур через API в бизнес-системе. Тестирование показало, что ни одна из трёх моделей не допустила серьёзных ошибок распознавания, а качество вывода было достаточно высоким.

В сценарии понимания блок-схемы модель должна была точно извлечь 10 шагов бизнес-логики из блок-схемы авторизации в мини-программе WeChat. Step 3.7 Flash полностью распознала все 10 шагов, каждый из которых полностью соответствовал исходной блок-схеме. MiniMax M3 также выдала 10 шагов с корректной логикой. Qwen3.6-flash объединила шаги 3 и 4, выдав 9 шагов, но общая логика осталась верной. При сопоставимом качестве вывода Step 3.7 Flash показала самую высокую скорость отклика и наименьшее потребление токенов.

В другом тесте, ориентированном на бизнес-системы, модель должна была вывести ключевые поля из электронного счёта-фактуры в заданной JSON-структуре. Все три модели точно распознали и структурированно вывели необходимую информацию. Step 3.7 Flash выполнила задачу за 5,6 секунды, потребив 1409 токенов; MiniMax M3 — за 6,1 секунды, потребив 2216 токенов; Qwen3.6-flash — за 7,38 секунды, потребив 2008 токенов. Стоимость структурированного извлечения одного документа составила менее 1 фыня.

По итогам двух тестов стабильность качества визуального понимания и структурированного вывода всех трёх моделей соответствует начальным производственным требованиям, ошибок извлечения не зафиксировано. Для сценариев с частыми вызовами агентов или бизнес-API ключевыми дифференцирующими показателями становятся задержка отклика и потребление токенов. В данном сравнении Step 3.7 Flash, сохраняя одинаковое качество вывода, демонстрирует более высокую скорость отклика и меньшую стоимость, что делает её предпочтительной для первоочередного тестирования в производственной среде.

Китай

Информация и коммуникация Интеллектуальная обработка данных Искусственный интеллект

Эта новость является результатом компиляции и перепечатки информации из глобального Интернета и стратегических партнеров. Она предназначена только для читателей. Если у вас возникнут какие-либо нарушения или другие проблемы, пожалуйста, своевременно сообщите нам. Этот сайт изменить или удалить ее. Перепечатка этой статьи без официального разрешения строго запрещена.электронная почта：news@wedoany.com

Предыдущий：Западно-Капская провинция ЮАР сотрудничает с Transnet для улучшения порта, чтобы предотвратить перенаправление экспорта винограда

Следующий：Ускоритель NVIDIA Rubin Ultra 2027 года отказывается от схемы с 4 кристаллами