Репортаж от Wedoany,На фоне перехода мультимодальных моделей от демонстраций к промышленному внедрению три модели — Step 3.7 Flash, Qwen3.6-flash и MiniMax M3 — прошли практическое тестирование в сценариях разработки и бизнеса. Сравнительная оценка по двум задачам — распознаванию блок-схем и анализу документов — показала, что все три модели демонстрируют стабильное качество визуального понимания и структурированного вывода, однако различаются по скорости отклика и потреблению токенов.
Оценка проводилась по трём параметрам: качество, скорость и стоимость. Были выбраны два типа промышленных сценариев: первый — восстановление бизнес-логики по системной блок-схеме в процессе разработки агента, второй — структурированное извлечение данных из счетов-фактур через API в бизнес-системе. Тестирование показало, что ни одна из трёх моделей не допустила серьёзных ошибок распознавания, а качество вывода было достаточно высоким.
В сценарии понимания блок-схемы модель должна была точно извлечь 10 шагов бизнес-логики из блок-схемы авторизации в мини-программе WeChat. Step 3.7 Flash полностью распознала все 10 шагов, каждый из которых полностью соответствовал исходной блок-схеме. MiniMax M3 также выдала 10 шагов с корректной логикой. Qwen3.6-flash объединила шаги 3 и 4, выдав 9 шагов, но общая логика осталась верной. При сопоставимом качестве вывода Step 3.7 Flash показала самую высокую скорость отклика и наименьшее потребление токенов.
В другом тесте, ориентированном на бизнес-системы, модель должна была вывести ключевые поля из электронного счёта-фактуры в заданной JSON-структуре. Все три модели точно распознали и структурированно вывели необходимую информацию. Step 3.7 Flash выполнила задачу за 5,6 секунды, потребив 1409 токенов; MiniMax M3 — за 6,1 секунды, потребив 2216 токенов; Qwen3.6-flash — за 7,38 секунды, потребив 2008 токенов. Стоимость структурированного извлечения одного документа составила менее 1 фыня.
По итогам двух тестов стабильность качества визуального понимания и структурированного вывода всех трёх моделей соответствует начальным производственным требованиям, ошибок извлечения не зафиксировано. Для сценариев с частыми вызовами агентов или бизнес-API ключевыми дифференцирующими показателями становятся задержка отклика и потребление токенов. В данном сравнении Step 3.7 Flash, сохраняя одинаковое качество вывода, демонстрирует более высокую скорость отклика и меньшую стоимость, что делает её предпочтительной для первоочередного тестирования в производственной среде.










