Microsoft Releases VibeVoice-ASR: A Unified Speech-to-Text Model Designed to Handle 60-Minute Long-Form Audio in a Single Pass

Microsoft випускає VibeVoice-ASR: уніфікована модель перетворення мови на текст, розроблена для обробки 60-хвилинного довгого аудіо за один проход

https://ift.tt/YAFBq2b

Компанія Microsoft випустила VibeVoice-ASR як частину сімейства VibeVoice — моделей голосового штучного інтелекту з відкритим кодом на передовій. VibeVoice-ASR описується як уніфікована модель перетворення мови на текст, здатна обробляти 60-хвилинне довге аудіо за один проход та виводити структурні транскрипції, які кодують Хто, Коли та Що, з підтримкою налаштованих гарячих слів.

VibeVoice розміщено в одному репозиторії, який містить моделі Text-to-Speech, реального часу TTS та Automatic Speech Recognition під ліцензією MIT. VibeVoice використовує безперервні токенізатори мови, що працюють із частотою 7,5 Гц, та фреймворк фільтрування наступного токена, де Велика мовна модель розмірковує над текстом і діалогом, а діфузійна голова генерує акустичні деталі. Цей фреймворк головним чином документується для TTS, але визначає загальний контекст дизайну, в якому існує VibeVoice-ASR.

Довготривалий ASR з одним глобальним контекстом

На відміну від звичайних систем ASR (автоматичного розпізнавання мови), які спочатку ділять аудіо на короткі сегменти, а потім виконують діаризацію та вирівнювання як окремі компоненти, VibeVoice-ASR розроблено для прийому до 60 хвилин безперервного аудіо в рамках бюджету довжини 64K токенів. Модель зберігає одну глобальну репрезентацію всієї сесії. Це означає, що модель може підтримувати ідентифікацію мовця та контекст теми протягом всієї години, замість перезавантаження кожні кілька секунд.

60-хвилинна обробка за один проход

Першою ключовою рисою є те, що багато традиційних систем ASR обробляють довге аудіо, розділяючи його на короткі сегменти, через що може загубитися глобальний контекст. Замість цього VibeVoice-ASR приймає до 60 хвилин безперервного аудіо в межах вікна з 64K токенів, щоб підтримувати послідовне відстеження мовця та семантичний контекст протягом всього запису.

Це важливо для завдань на зразок транскрипції зустрічей, лекцій та довгих дзвінків служби підтримки. Один проход над повною послідовністю спрощує пайплайн обробки. Немає потреби впроваджувати власну логіку злиття часткових гіпотез або виправлення міток мовців на межах між сегментами аудіо.

Налаштовувані гарячі слова для точності доменної лексики

Друга ключова ознака — налаштовані гарячі слова. Користувачі можуть надавати гарячі слова, такі як назви продуктів, назви організацій, технічні терміни або контекст з оточення. Модель використовує ці гарячі слова, щоб керувати процесом розпізнавання.

Це дозволяє впливати на розпізнавання так, щоб воно наближалося до правильної орфографії та вимови доменно-специфічних токенів без повторного навчання моделі. Наприклад, розробник може передати внутрішні назви проектів або клієнтсько-специфічні терміни під час висновку. Це корисно при розгортанні тієї ж базової моделі для кількох продуктів, які мають подібні акустичні умови, але різні словники.

Microsoft також надає каталог finetuning-asr з скриптами тонкої настройки на основі LoRA для VibeVoice-ASR. Разом із гарячими словами та тонкою настройкою LoRA забезпечують шлях як для легкого адаптування, так і для більш глибокої доменної спеціалізації.

Багата транскрипція, діаризація та таймінг

Третя ознака — багата транскрипція з визначенням Хто, Коли та Що. Модель одночасно виконує ASR, діаризацію та позначення часу, і повертає структурований вихід, який вказує, хто сказав що і коли.

Нижче наведено три графіки оцінки під назвами DER, cpWER та tcpWER.

https://ift.tt/5gwXbQ2

DER — це коефіцієнт помилки діаризації; він вимірює, наскільки добре модель відносить сегменти мовлення до відповідного мовця

cpWER та tcpWER — це метрики помилки слів, обчислені в розмовних умовах

Ці графіки узагальнюють, наскільки добре модель працює з даними довгого формату з кількома мовцями, що є основним цільовим режимом цієї системи ASR.

Структурований формат вихідних даних добре підходить для подальшої обробки, такої як підсумовування за мовцем, виділення дійових пунктів або аналітичні панелі. Оскільки сегменти, мовці та часові мітки вже надходять з однієї моделі, код у подальшій обробці може трактувати транскрипт як журнал подій з прив’язкою до часу.

Ключові висновки

VibeVoice-ASR — уніфікована модель перетворення мови на текст, яка обробляє 60-хвилинне довге аудіо за один проход у контексті до 64К токенів.

Модель спільно виконує ASR, діаризацію та позначення часу, тож на виході вона видає структуровані транскрипти, які кодують Хто, Коли та Що за одну інференс-операцію.

Налаштовувані гарячі слова дозволяють користувачам вводити доменно-специфічні терміни, такі як назви продуктів або технічна термінологія, щоб підвищити точність розпізнавання без додаткового навчання моделі.

Оцінювання за DER, cpWER та tcpWER зосереджене на розмовних сценаріях з кількома мовцями, що узгоджується з використанням моделі у зустрічах, лекціях та довгих дзвінках.

VibeVoice-ASR випущено у стек відкритого коду VibeVoice під ліцензією MIT із офіційними вагами, скриптами тонкої настройки та онлайн-плейграундом для експериментів.

Перегляньте ваги моделі, репозиторій та Playground. Також не соромтеся слідкувати за нами у Twitter та приєднатися до нашого ML SubReddit з понад 100 тис. учасників та підписатися на нашу розсилку. Чи ви в Telegram? Тепер ви також можете долучитися до нас у Telegram.

Стаття Microsoft Releases VibeVoice-ASR: A Unified Speech-to-Text Model Designed to Handle 60-Minute Long-Form Audio in a Single Pass з’явилася першою на MarkTechPost.

HI-FI News

via MarkTechPost https://ift.tt/Fo0Nuxy

22 січня 2026 р. о 22:16

January 22, 2026 at 10:16PM

Microsoft Releases VibeVoice-ASR: A Unified Speech-to-Text Model Designed to Handle 60-Minute Long-Form Audio in a Single Pass

Коментарі

Залишити відповідь Скасувати коментар