ByteDance запустила в приложении Doubao полнодуплексную голосовую модель Seeduplex
2026-04-09 13:54
В избр.

Репортаж от Wedoany,ByteDance 9 апреля представила нативную полнодуплексную голосовую большую модель Seeduplex, которая уже полностью развернута в приложении Doubao. Seeduplex разработана на основе фреймворка «слушать и говорить одновременно». Пользователи в процессе голосового взаимодействия могут перебивать в любой момент, не дожидаясь окончания речи собеседника. Модель способна в реальном времени воспринимать и переключать состояние между слушанием и говорением, что значительно повышает естественность и плавность взаимодействия по сравнению с полудуплексным режимом. Предыдущая сквозная голосовая модель Doubao использовала полудуплексный механизм, где пользователь должен был дождаться полного вывода модели, прежде чем продолжить вводить голосовые команды, что явно ограничивало темп диалога.

Ключевая техническая сложность полнодуплексного голосового взаимодействия заключается в точном определении границ речи, степени смысловой завершенности и момента для перебивания. Seeduplex, благодаря нативной мультимодальной архитектуре, одновременно обрабатывает входящий и исходящий аудиопотоки, обеспечивая отклик на уровне миллисекунд. ByteDance не раскрыла конкретные технические показатели, такие как количество параметров модели, источники обучающих данных или задержку при выводе. По сравнению с традиционными каскадными решениями, где модули распознавания и синтеза речи работают независимо, нативная полнодуплексная архитектура объединяет право принятия решений о слушании и говорении в единой модели, избегая задержек связи и потерь информации между модулями.

Реализация полнодуплексного голосового диалога на мобильных устройствах сталкивается с множеством проблем, включая эхоподавление, подавление фонового шума и работу с низким энергопотреблением. Внедрение Seeduplex в приложение Doubao означает, что ByteDance решила проблемы обработки параллельных голосовых потоков в реальном времени и адаптации к вычислительным мощностям на стороне устройства. Пользователи могут естественно перебивать как при использовании внешнего динамика, так и в наушниках. Модель определяет, следует ли прервать текущую фразу или продолжить ее вывод, основываясь на степени смысловой завершенности, имитируя механизм чередования реплик в межличностном диалоге. Эта парадигма взаимодействия больше похожа на живой разнос, уменьшая механистичность и усталость от ожидания при использовании голосового помощника.

Запуск этой модели знаменует эволюцию парадигмы взаимодействия с потребительскими голосовыми помощниками от «поочередных реплик» к «естественному диалогу». Пользователи приложения Doubao могут с сегодняшнего дня испытать функцию полнодуплексного голосового диалога внутри приложения.

Данная статья переведена и подготовлена Weidu. При цитировании с использованием ИИ необходимо указать источник «Weidu». В случае нарушения авторских прав или других проблем, пожалуйста, сообщите нам своевременно, и сайт внесет изменения или удалит материал. Электронная почта: news@wedoany.com

Данный материал скомпилирован платформой Wedoany. При цитировании материалов, созданных с помощью искусственного интеллекта (ИИ), необходимо обязательно указывать источник — «Wedoany». В случае выявления нарушения прав или иных проблем просим своевременно информировать нас. Сайт оперативно внесёт изменения или удалит материал.Электронная почта: news@wedoany.com

Связанные продукты
Связанные рекомендации
ByteDance запустила в приложении Doubao полнодуплексную голосовую модель Seeduplex
2026-04-09
Функция голосового перевода Google Meet официально запущена на мобильных платформах Android и iOS
2026-04-09
Китайская компания China Resources Power выпустила «RunDianHong»: перестраивая цифровой фундамент генерации силой открытого исходного кода
2026-04-03
Рост цен на вычислительные мощности ИИ распространяется на облачные услуги, CITIC Securities: в апреле следим за тремя направлениями результатов деятельности
2026-04-03
120 триллионов токенов в день: дневной объем использования токенов в повседневном AI-приложении Doubao вырос в 1000 раз за два года
2026-04-03
Еженедельный рост вызовов OpenRouter на 11%, CITIC Securities: Быстрое внедрение AI Agent к 2026 году выглядит многообещающим
2026-04-03
DayOne планирует инвестировать 6,9 миллиарда долларов в дата-центры в Малайзии в этом году, удвоив штат сотрудников до 1200 человек
2026-04-03
3 миллиона точек охвата: Brightspeed второй год подряд добавляет более 1 миллиона оптоволоконных подключений
2026-04-03
Google выпускает семейство открытых больших моделей Gemma 4, охватывающее четыре варианта параметров от 2 до 31 миллиарда
2026-04-03
400 миллионов долларов за «фармацевтический мозг»: Anthropic впервые приобретает ИИ-биотехнологическую компанию Coefficient Bio
2026-04-03
Последние новости
1
Глобальный ренессанс атомной энергетики: Китай нажимает на «кнопку ускорения» для «утроения атомных мощностей»
2
Автономные грузовые перевозки в холодном климате в Хэйхэ (Китай) успешно прошли приемку, пробег превысил 25 000 км
3
Китайская Fujian Hengwang инвестирует 1,2 млрд долларов в строительство сталелитейного завода мощностью 3 млн тонн в Казахстане
4
CRRC Tangshan поставила легкое метро в Казахстан: 19 поездов начали комплексное автоматическое тестирование и наладку
5
Алматы планирует добавить четыре новых международных направления к 2026 году: Шэньчжэнь и Токио в списке прямых рейсов
6
3,66 миллиарда долларов! Узбекистан продвигает строительство скоростной автомагистрали Ташкент-Андижан
7
Беларусь готова поделиться с Узбекистаном опытом строительства АЭС
8
Беларусь и Узбекистан договорились углубить сотрудничество в сфере ядерной энергетики
9
Польский Центральный транспортный хаб стоимостью 30,7 млрд евро получил экологическое разрешение, строительство терминала начнется в 2026 году
10
В Австрии и Словении введена в эксплуатацию новая трубопроводная система тоннеля Караванкен A11