Репортаж от Wedoany,Южнокорейские софтверные компании активно используют комбинацию таких технологий, как оптимизация промптов, LLM-шлюзы, локальное развертывание и мультимодельные стратегии, чтобы снизить резкий рост затрат на токены, вызванный распространением AI-агентов.
![[Источник изображения: сгенерировано nanobanana2]](https://img.wedoany.com/2026/0702/20260702085636297.png)
Для выполнения задач AI-агенты многократно самостоятельно вызывают языковые модели и используют различные инструменты, что приводит к увеличению расхода токенов в несколько раз и даже в десятки раз по сравнению с использованием человеком. Одна южнокорейская компания с начала этого года внедрила AI-агентов во всей организации, ежемесячно потребляя около 250 миллиардов токенов, что порождает ежемесячные затраты на инфраструктуру в размере от 200 до 300 миллионов южнокорейских вон.
Некоторые компании начинают с облегчения промптов и кэширования. WISEITECH сокращает ненужные длинные вводы и повторные вызовы, а Naver Cloud оптимизирует модели в зависимости от задачи. Компании рассматривают LLM-шлюзы как ключевые узлы управления, осуществляя мониторинг использования моделей в различных отделах в реальном времени. Hancom интегрирует системы маршрутизации и отката, а NDS строит шлюзы на основе LiteLLM.
Многие компании также применяют локальное развертывание. MakinaRocks подключает модели с открытым исходным кодом к собственной инфраструктуре vLLM, а S2W использует собственные GPU-серверы для обработки задач с большим объемом. Мультимодельная стратегия позволяет передавать стандартизированные повторяющиеся задачи легковесным моделям или моделям с открытым исходным кодом. Crowdworks использует коммерческие модели, такие как Amazon Bedrock, в сочетании с мини-моделями. CyNapse Soft внедряет технологии Serena MCP и LSP, разделяя исходный код на семантические блоки, что позволяет сэкономить около 20% токенов по сравнению с фреймворками с открытым исходным кодом.
Оптимизация затрат в эпоху генеративного AI проверяет способность компаний проектировать архитектуру. Удаление повторяющихся запросов через кэширование, изоляция конфиденциальных данных при локальном развертывании и замена дорогостоящих моделей с помощью маршрутизации — построение комплексной системы контроля станет критерием, определяющим устойчивость софтверных компаний.









