Репортаж от Wedoany,Ли Ки Чан (Lee Ki-chang), директор Naver Cloud, заявил на сессии Tech Deep Talk, прошедшей 2-го числа в районе Каннамгу, Сеул, что в диалоговом поисковом сервисе AI Tab применяется продуктовая нативная LLM (Product Native LLM), разработанная на основе HyperCLOVA X. Он отметил, что цель Naver — занять явное преимущество в уровне сервиса, сохраняя базовые возможности на уровне, превосходящем конкурентов, и максимально сокращая разрыв в профессиональных возможностях с мировыми лидерами.
AI Tab — это диалоговый поисковый сервис, официально запущенный Naver 26-го числа прошлого месяца. Он способен понимать намерения и контекст поиска пользователя, предоставлять ответы и связывать их с реальными действиями, такими как покупки и поиск мест. В этой продуктовой нативной LLM данные Naver, сценарии использования сервиса и отзывы пользователей полностью отражены в дизайне модели.

Модель разрабатывается на основе трех основных компонентов: данные, архитектура и обучение. Качество обучающих данных повышается с помощью фильтра качества документов, а также создается «конвейер сбора неструктурированных данных» (비스형 데이터 수집 파이프라인), который на этапе предварительного обучения отражает данные из таких областей, как поиск, покупки, места и информация о жизни. В архитектуре используется структура MoE (смесь экспертов), что обеспечивает более высокую скорость отклика и пропускную способность по сравнению с оригинальной HCX (HyperCLOVA X), а также сокращает сквозную задержку (E2E Latency). Модель улучшает вычислительные затраты, делая их линейно пропорциональными длине входных данных, сохраняя стабильную скорость отклика и высокую пропускную способность при длинных контекстах.

На этапе обучения вычислительные ресурсы для обучения с подкреплением были увеличены более чем в два раза по сравнению с оригинальной HCX. Впервые применена технология уточняющего обучения с подкреплением (Clarify RL), которая поощряет запрос дополнительных условий для неотвеченных вопросов, улучшая явление галлюцинаций. Также применяется технология дистилляции на основе собственной политики (OPD, On-Policy Distillation), где ответы, сгенерированные обучаемой моделью, модифицируются высокопроизводительной моделью на уровне токенов, что эффективно компенсирует слабые профессиональные области. Структура постоянно улучшается: по мере повышения производительности высокопроизводительной модели, обучаемая модель также усиливается.
В результатах собственного бенчмарка Naver, оценивающего качество выполнения задач, таких как «поиск, покупки, бронирование», для модели, применяемой в AI Tab, уровень сервиса составил 108 баллов, что выше среднего показателя конкурентов в 100 баллов и максимального показателя конкурентов в 106 баллов. Базовые возможности, такие как выполнение инструкций и вызов инструментов на японском языке, получили 104 балла, превысив средний показатель конкурентов в 100 баллов. Профессиональные возможности, такие как решение научных задач уровня доктора наук, получили 97 баллов, что немного ниже среднего показателя конкурентов в 100 баллов. Директор Ли Ки Чан пояснил, что базовые и профессиональные возможности можно улучшить, приложив усилия, но стратегически было решено сосредоточить инвестиции на возможностях, связанных с сервисом.
На мероприятии Naver также раскрыла ключевую технологию «Управление упряжкой» (Harness Engineering), обеспечивающую стабильную работу AI Tab. Она работает в четыре этапа: понимание намерений пользователя и управление длинным контекстом диалога, рассуждения, связанные с сервисами, такими как поиск, покупки и места, предоставление источников и выполнение соединений.
Naver представила видение эволюции в мультимодального агента (Multimodal Agent) с центром на Smart Lens, применяемом в поисковой строке. С момента запуска Smart Lens в 2017 году, предоставляющего услуги поиска по изображениям, через комбинированный поиск изображений и текста в 2022 году, до запуска Smart Lens X AI Briefing в прошлом году, выполняющего понимание и обобщение изображений, компания постоянно проводит технологические обновления.

Руководитель группы Naver Юн Сан Ду (Yoon Sang-doo) заявил, что в настоящее время AI-агент Naver в основном основан на текстовом вводе, но в будущем он будет развиваться в направлении мультимодального агента, способного понимать намерения через изображения и связывать их с реальными действиями.










