Китайское приложение Soul App открыло исходный код модели SoulX-Transcriber для транскрипции многопользовательских диалогов, объединяющей идентификацию говорящего, временные метки и распознавание текста
2026-06-03 16:23
В избр.

Репортаж от Wedoany,3 июня команда AI приложения Soul App (Soul AI Lab) совместно с исследовательской группой ASLP@NPU Северо-западного политехнического университета и компанией Moonstep AI официально открыла исходный код сквозной модели транскрипции многопользовательских диалогов SoulX-Transcriber. Модель предназначена для сценариев с длинными аудиозаписями и несколькими говорящими, позволяя напрямую генерировать структурированные результаты, включающие временные метки, идентификацию говорящего и текст транскрипции, на основе аудио многопользовательского диалога.

SoulX-Transcriber нацелена на решение сложных проблем распознавания речи в реальных диалоговых сценариях. В таких ситуациях, как конференции, подкасты, групповые чаты, контроль качества обслуживания клиентов, интервью и многопользовательские голосовые социальные взаимодействия, аудио не представляет собой последовательные высказывания одного говорящего. Часто встречаются быстрая смена говорящих, перебивания, наложение голосов, путаница из-за похожих голосов, фоновый шум и неточное определение границ. Традиционные решения обычно разбивают процесс на несколько модулей: обнаружение голосовой активности, разделение говорящих, кластеризацию говорящих и автоматическое распознавание речи, которые работают последовательно. Ошибка на любом этапе усиливается в последующей транскрипции. SoulX-Transcriber использует сквозную структуру, обрабатывая «кто говорит, когда говорит и что говорит» в единой модели, стремясь уменьшить передачу ошибок в каскадных системах и улучшить способность понимания структуры в сценариях с несколькими говорящими.

Информация из открытого репозитория показывает, что SoulX-Transcriber поддерживает загрузку весов моделей для китайского и английского языков и распространяется по лицензии Apache 2.0.

С технической точки зрения, модель основана на структуре большой аудиоязыковой модели и использует стратегию многоэтапного обучения с учетом говорящего, усиливая способности к представлению говорящего, восприятию границ и распознаванию перекрывающейся речи. Согласно техническому отчету, при обучении модель комбинирует данные реальных диалогов с псевдоразметкой и смоделированные данные многопользовательских диалогов. Это позволяет, с одной стороны, сохранить акустическую среду и интерактивные особенности реального аудио, а с другой — усилить различия между говорящими, структуру диалога и способность к обобщению на разных доменах с помощью контролируемых смоделированных данных. На наборах данных многопользовательских конференций, таких как AISHELL-4, AliMeeting и AMI, SoulX-Transcriber продемонстрировала производительность, ориентированную на многопользовательскую голосовую транскрипцию. Во внутренних оценках на общих сценариях модель также охватила более сложные многодоменные данные, включая повседневные диалоги, аудио из фильмов и подкасты. Для разработчиков модель может выводить не только обычный текст транскрипции, но и синхронно генерировать метки говорящих и временные границы, что облегчает использование аудиоконтента в таких процессах, как составление протоколов встреч, модерация контента, систематизация базы знаний, анализ обслуживания клиентов и мультимедийный поиск.

Такие модели имеют прямую ценность для голосовых интерактивных продуктов и обработки корпоративных аудиоданных. Многие компании уже накопили записи совещаний, телефонных разговоров, тренингов, интервью, подкастов и диалогов с клиентами. Однако без точного различения говорящих, временных отрезков и текстового содержания эти аудиозаписи трудно преобразовать в доступные для поиска, анализа и повторного использования цифровые активы. Модель транскрипции многопользовательских диалогов, преобразуя исходное аудио в структурированный результат, может быть далее связана с такими приложениями, как генерация резюме, извлечение тем, анализ эмоций, накопление знаний и контроль качества бизнес-процессов. Само приложение Soul App имеет сценарии многопользовательского голосового взаимодействия и социального общения. Продолжающееся открытие исходного кода моделей для голоса, цифровых аватаров и генерации подкастов лабораторией Soul AI Lab также указывает на то, что их технологическая траектория в области ИИ формирует последовательную стратегию вокруг реального времени взаимодействия, мультимодального выражения и понимания диалогов.

С точки зрения индустрии обработки языка, распознавание речи переходит от транскрипции отдельных предложений к этапу «понимания реальных многопользовательских диалогов». В будущем предприятиям и платформам потребуется не просто преобразовывать звук в текст, а восстанавливать сложное аудио в структурированный контент, который можно отслеживать, атрибутировать, редактировать и искать. После открытия исходного кода SoulX-Transcriber исследователи и разработчики смогут проводить вторичную разработку, сосредоточившись на транскрипции конференций, обработке длинных аудиозаписей, идентификации нескольких говорящих, структурировании контента подкастов и анализе данных голосовых социальных сетей. Дальнейшие переменные будут сосредоточены на стабильности работы с реальными длинными аудиозаписями, расширении на другие языки, адаптации к шумной среде, максимальном количестве говорящих, стоимости вывода, а также на эффективности интеграции с корпоративными рабочими процессами и системами контент-платформ.

Данный материал скомпилирован платформой Wedoany. При цитировании материалов, созданных с помощью искусственного интеллекта (ИИ), необходимо обязательно указывать источник — «Wedoany». В случае выявления нарушения прав или иных проблем просим своевременно информировать нас. Сайт оперативно внесёт изменения или удалит материал.Электронная почта: news@wedoany.com

Связанные продукты
Связанные рекомендации
Американская компания Point Wild приобретает Funambol, интегрируя возможности облачных данных в защищенную платформу телекоммуникационных каналов
2026-06-03
ЕС планирует перевыдачу лицензий на мобильную спутниковую связь в диапазоне 2 ГГц: прямая связь с устройствами и правительственная безопасная связь войдут в единую систему авторизации
2026-06-03
Канадская компания Ataccama представляет доверенные продукты данных, а корпоративная обработка данных для ИИ переходит к семантике и единому управлению
2026-06-03
Американская компания Workday запускает Agent Passport: верификация корпоративных ИИ-агентов выходит на уровень ключевых процессов в сфере HR и финансов
2026-06-03
SES из Люксембурга развертывает многоорбитальную спутниковую связь на борту для мексиканской Viva, широкополосный доступ в интернет появится на сотне самолетов
2026-06-03
Выручка американской GitLab в первом квартале выросла на 23%, платформа DevSecOps переходит к оркестровке AI-агентов
2026-06-03
Модель MAI-Transcribe-1.5 от Microsoft (США) интегрирована в Foundry: модель транскрипции на 43 языках дополняет рабочий процесс голосового ИИ
2026-06-03
Объем мирового рынка NAND в первом квартале вырос на 81,8% по сравнению с предыдущим кварталом, доля поставок китайской YMTC в 13% становится отраслевой переменной
2026-06-03
Израильская компания Camtek получила заказы на сумму более 105 миллионов долларов, оборудование для контроля и измерения HBM расписано до 2027 года
2026-06-03
Lanner (Тайвань, Китай) совместно с Qualcomm и другими компаниями демонстрирует AI-on-RAN: частные сети 5G выходят на уровень периферийного вывода
2026-06-03
Последние новости
1
Американская компания Point Wild приобретает Funambol, интегрируя возможности облачных данных в защищенную платформу телекоммуникационных каналов
2
ЕС планирует перевыдачу лицензий на мобильную спутниковую связь в диапазоне 2 ГГц: прямая связь с устройствами и правительственная безопасная связь войдут в единую систему авторизации
3
В 2025 году инвестиции в регион Атакама (Чили) превысили 150 миллиардов песо, утверждено новое соглашение на 490 миллиардов песо на десять лет
4
Проект Haza de la Era в Испании повышает энергоэффективность с помощью решений Saint-Gobain
5
Дубайский морской город вводит в эксплуатацию Морской бизнес-центр 2 с уровнем предварительной аренды 78%
6
Мекка и Королевская комиссия по святым местам заключили контракты на 6 участков застройки с инвестициями в 3,54 млрд долларов США
7
Компания IDE из США выиграла проект крупнейшего в Западном полушарии завода по опреснению морской воды с суточной производительностью 100 миллионов галлонов
8
Канадская компания Ataccama представляет доверенные продукты данных, а корпоративная обработка данных для ИИ переходит к семантике и единому управлению
9
Американская компания Workday запускает Agent Passport: верификация корпоративных ИИ-агентов выходит на уровень ключевых процессов в сфере HR и финансов
10
SES из Люксембурга развертывает многоорбитальную спутниковую связь на борту для мексиканской Viva, широкополосный доступ в интернет появится на сотне самолетов