Репортаж от Wedoany,3 июня команда AI приложения Soul App (Soul AI Lab) совместно с исследовательской группой ASLP@NPU Северо-западного политехнического университета и компанией Moonstep AI официально открыла исходный код сквозной модели транскрипции многопользовательских диалогов SoulX-Transcriber. Модель предназначена для сценариев с длинными аудиозаписями и несколькими говорящими, позволяя напрямую генерировать структурированные результаты, включающие временные метки, идентификацию говорящего и текст транскрипции, на основе аудио многопользовательского диалога.
SoulX-Transcriber нацелена на решение сложных проблем распознавания речи в реальных диалоговых сценариях. В таких ситуациях, как конференции, подкасты, групповые чаты, контроль качества обслуживания клиентов, интервью и многопользовательские голосовые социальные взаимодействия, аудио не представляет собой последовательные высказывания одного говорящего. Часто встречаются быстрая смена говорящих, перебивания, наложение голосов, путаница из-за похожих голосов, фоновый шум и неточное определение границ. Традиционные решения обычно разбивают процесс на несколько модулей: обнаружение голосовой активности, разделение говорящих, кластеризацию говорящих и автоматическое распознавание речи, которые работают последовательно. Ошибка на любом этапе усиливается в последующей транскрипции. SoulX-Transcriber использует сквозную структуру, обрабатывая «кто говорит, когда говорит и что говорит» в единой модели, стремясь уменьшить передачу ошибок в каскадных системах и улучшить способность понимания структуры в сценариях с несколькими говорящими.
Информация из открытого репозитория показывает, что SoulX-Transcriber поддерживает загрузку весов моделей для китайского и английского языков и распространяется по лицензии Apache 2.0.
С технической точки зрения, модель основана на структуре большой аудиоязыковой модели и использует стратегию многоэтапного обучения с учетом говорящего, усиливая способности к представлению говорящего, восприятию границ и распознаванию перекрывающейся речи. Согласно техническому отчету, при обучении модель комбинирует данные реальных диалогов с псевдоразметкой и смоделированные данные многопользовательских диалогов. Это позволяет, с одной стороны, сохранить акустическую среду и интерактивные особенности реального аудио, а с другой — усилить различия между говорящими, структуру диалога и способность к обобщению на разных доменах с помощью контролируемых смоделированных данных. На наборах данных многопользовательских конференций, таких как AISHELL-4, AliMeeting и AMI, SoulX-Transcriber продемонстрировала производительность, ориентированную на многопользовательскую голосовую транскрипцию. Во внутренних оценках на общих сценариях модель также охватила более сложные многодоменные данные, включая повседневные диалоги, аудио из фильмов и подкасты. Для разработчиков модель может выводить не только обычный текст транскрипции, но и синхронно генерировать метки говорящих и временные границы, что облегчает использование аудиоконтента в таких процессах, как составление протоколов встреч, модерация контента, систематизация базы знаний, анализ обслуживания клиентов и мультимедийный поиск.
Такие модели имеют прямую ценность для голосовых интерактивных продуктов и обработки корпоративных аудиоданных. Многие компании уже накопили записи совещаний, телефонных разговоров, тренингов, интервью, подкастов и диалогов с клиентами. Однако без точного различения говорящих, временных отрезков и текстового содержания эти аудиозаписи трудно преобразовать в доступные для поиска, анализа и повторного использования цифровые активы. Модель транскрипции многопользовательских диалогов, преобразуя исходное аудио в структурированный результат, может быть далее связана с такими приложениями, как генерация резюме, извлечение тем, анализ эмоций, накопление знаний и контроль качества бизнес-процессов. Само приложение Soul App имеет сценарии многопользовательского голосового взаимодействия и социального общения. Продолжающееся открытие исходного кода моделей для голоса, цифровых аватаров и генерации подкастов лабораторией Soul AI Lab также указывает на то, что их технологическая траектория в области ИИ формирует последовательную стратегию вокруг реального времени взаимодействия, мультимодального выражения и понимания диалогов.
С точки зрения индустрии обработки языка, распознавание речи переходит от транскрипции отдельных предложений к этапу «понимания реальных многопользовательских диалогов». В будущем предприятиям и платформам потребуется не просто преобразовывать звук в текст, а восстанавливать сложное аудио в структурированный контент, который можно отслеживать, атрибутировать, редактировать и искать. После открытия исходного кода SoulX-Transcriber исследователи и разработчики смогут проводить вторичную разработку, сосредоточившись на транскрипции конференций, обработке длинных аудиозаписей, идентификации нескольких говорящих, структурировании контента подкастов и анализе данных голосовых социальных сетей. Дальнейшие переменные будут сосредоточены на стабильности работы с реальными длинными аудиозаписями, расширении на другие языки, адаптации к шумной среде, максимальном количестве говорящих, стоимости вывода, а также на эффективности интеграции с корпоративными рабочими процессами и системами контент-платформ.
Данный материал скомпилирован платформой Wedoany. При цитировании материалов, созданных с помощью искусственного интеллекта (ИИ), необходимо обязательно указывать источник — «Wedoany». В случае выявления нарушения прав или иных проблем просим своевременно информировать нас. Сайт оперативно внесёт изменения или удалит материал.Электронная почта: news@wedoany.com









