Репортаж от Wedoany,ByteDance 9 апреля представила нативную полнодуплексную голосовую большую модель Seeduplex, которая уже полностью развернута в приложении Doubao. Seeduplex разработана на основе фреймворка «слушать и говорить одновременно». Пользователи в процессе голосового взаимодействия могут перебивать в любой момент, не дожидаясь окончания речи собеседника. Модель способна в реальном времени воспринимать и переключать состояние между слушанием и говорением, что значительно повышает естественность и плавность взаимодействия по сравнению с полудуплексным режимом. Предыдущая сквозная голосовая модель Doubao использовала полудуплексный механизм, где пользователь должен был дождаться полного вывода модели, прежде чем продолжить вводить голосовые команды, что явно ограничивало темп диалога.
Ключевая техническая сложность полнодуплексного голосового взаимодействия заключается в точном определении границ речи, степени смысловой завершенности и момента для перебивания. Seeduplex, благодаря нативной мультимодальной архитектуре, одновременно обрабатывает входящий и исходящий аудиопотоки, обеспечивая отклик на уровне миллисекунд. ByteDance не раскрыла конкретные технические показатели, такие как количество параметров модели, источники обучающих данных или задержку при выводе. По сравнению с традиционными каскадными решениями, где модули распознавания и синтеза речи работают независимо, нативная полнодуплексная архитектура объединяет право принятия решений о слушании и говорении в единой модели, избегая задержек связи и потерь информации между модулями.
Реализация полнодуплексного голосового диалога на мобильных устройствах сталкивается с множеством проблем, включая эхоподавление, подавление фонового шума и работу с низким энергопотреблением. Внедрение Seeduplex в приложение Doubao означает, что ByteDance решила проблемы обработки параллельных голосовых потоков в реальном времени и адаптации к вычислительным мощностям на стороне устройства. Пользователи могут естественно перебивать как при использовании внешнего динамика, так и в наушниках. Модель определяет, следует ли прервать текущую фразу или продолжить ее вывод, основываясь на степени смысловой завершенности, имитируя механизм чередования реплик в межличностном диалоге. Эта парадигма взаимодействия больше похожа на живой разнос, уменьшая механистичность и усталость от ожидания при использовании голосового помощника.
Запуск этой модели знаменует эволюцию парадигмы взаимодействия с потребительскими голосовыми помощниками от «поочередных реплик» к «естественному диалогу». Пользователи приложения Doubao могут с сегодняшнего дня испытать функцию полнодуплексного голосового диалога внутри приложения.
Данная статья переведена и подготовлена Weidu. При цитировании с использованием ИИ необходимо указать источник «Weidu». В случае нарушения авторских прав или других проблем, пожалуйста, сообщите нам своевременно, и сайт внесет изменения или удалит материал. Электронная почта: news@wedoany.com
Данный материал скомпилирован платформой Wedoany. При цитировании материалов, созданных с помощью искусственного интеллекта (ИИ), необходимо обязательно указывать источник — «Wedoany». В случае выявления нарушения прав или иных проблем просим своевременно информировать нас. Сайт оперативно внесёт изменения или удалит материал.Электронная почта: news@wedoany.com









