Репортаж от Wedoany,Американский AI-стартап Perceptron Inc. 12 мая 2026 года официально представил свою флагманскую модель видеоанализа и рассуждений Mk1. Стоимость составляет 0,15 доллара США за миллион входных токенов и 1,5 доллара США за миллион выходных токенов, что на 80–90% ниже, чем у аналогичных передовых моделей, таких как Anthropic Claude Sonnet 4.5, OpenAI GPT-5 и Google Gemini 3.1 Pro. Модель разработана специально для понимания видео и воплощенных рассуждений, ориентирована на сценарии в реальных отраслях, таких как производство, робототехника и безопасность, и призвана преодолеть ограничения высоких затрат на API для масштабного развертывания.
Mk1 в ряде отраслевых бенчмарков достигает или превосходит передовые модели при затратах, сопоставимых с легковесными моделями. В бенчмарке пространственного мышления EmbSpatialBench Mk1 набрала 85,1 балла, превысив результат Google Robotics-ER 1.5 (78,4 балла) и Alibaba Q3.5-27B (около 84,5 балла); в тесте на понимание референциальных выражений RefSpatialBench Mk1 получила 72,4 балла, значительно опередив GPT-5m (9,0 балла) и Claude Sonnet 4.5 (2,2 балла). Что касается видео-бенчмарков, в сложном подмножестве EgoSchema Mk1 набрала 41,4 балла, заметно опередив Gemini 3.1 Flash-Lite (25,0 балла); в VSI-Bench достигла 88,5 балла — это самый высокий результат среди оцениваемых моделей.
Дизайн модели сфокусирован на темпоральном мышлении в физическом мире. Mk1 анализирует видео с динамической частотой кадров, поддерживая до 2 FPS, с контекстным окном в 32K токенов, что позволяет покадрово отслеживать цепочки событий и возвращать структурированные временные метки. Пользователь загружает длинный видеопоток и формулирует запрос, а модель может определить узлы событий и сгенерировать временную кодировку. В области робототехники эта способность позволяет напрямую преобразовывать материалы телеоперации в обучающие данные для планирования пути и обнаружения захвата, сжимая разрозненные этапы визуального понимания, разметки действий и замкнутого цикла данных в единый вызов модели. Помимо видео, Mk1 также демонстрирует передовой уровень в задачах распознавания изображений, сложного оптического распознавания символов (OCR) и извлечения структурированных документов, поддерживая точное распознавание положения стрелок и цифровых показаний на приборных панелях и промышленных панелях управления.
Компания основана Арменом Агаджаняном и Акшатом Шриваставой всего два года назад. Генеральный директор Агаджанян ранее занимался исследованиями в области ИИ в Meta FAIR и Microsoft, а технический директор Шривастава специализируется на физическом ИИ и робототехнике. На презентации Агаджанян заявил: «Мы создали Perceptron, чтобы системы ИИ могли понимать физический мир. До этого стоимость передового визуального понимания значительно превышала возможности большинства промышленных и потребительских приложений, и мы изменили это». Шривастава далее отметил, что робототехника является самой строгой тестовой средой для реального физического ИИ, требующей замкнутого цикла восприятия, рассуждения и исполнения в реальных условиях, и Mk1 разрабатывалась именно с этим ориентиром.
С самого начала проект Perceptron был нацелен на передовую эффективность — в системе координат, образованной совокупным баллом в бенчмарках видео и воплощенного мышления и смешанной стоимостью токенов, Mk1 находится в том же диапазоне производительности, что и GPT-5 и Gemini 3.1 Pro, но по стоимости приближается к легковесным вариантам. Это позволяет предприятиям при развертывании масштабировать системы визуального понимания без ущерба для точности и вновь включать в бюджет проекты, ранее отложенные из-за высокой стоимости, такие как контроль качества на производственных линиях, инвентаризация складов и инспекции с помощью дронов.
Mk1 оснащена рядом специализированных возможностей для промышленных сценариев. Встроенные механизмы контекстного обучения и мультимодальных подсказок позволяют пользователю, предоставив лишь одно эталонное изображение или видео, искать совпадения на всех новых изображениях, исключая необходимость в обучающих данных и пайплайнах тонкой настройки. Функции указания и подсчета позволяют точно обрабатывать плотные сцены — количество автомобилей на парковке, запасы на полках, детали на поддонах — в которых предыдущие модели часто допускали ошибки подсчета или позиционный дрейф.
Mk1 немедленно становится доступной для разработчиков и предприятий через платформу Perceptron AI API и OpenRouter. Компания расположена в Белвью и Карнейшене, штат Вашингтон. Mk1 — первый представитель семейства закрытых моделей Perceptron, в то время как предыдущая серия открытых моделей Isaac продолжит поддерживаться.
Данный материал скомпилирован платформой Wedoany. При цитировании материалов, созданных с помощью искусственного интеллекта (ИИ), необходимо обязательно указывать источник — «Wedoany». В случае выявления нарушения прав или иных проблем просим своевременно информировать нас. Сайт оперативно внесёт изменения или удалит материал.Электронная почта: news@wedoany.com









