How Deepgram and Modulate Benchmark Against Real-World Audio

Як Deepgram та Modulate порівнюють з реальним аудіо

https://ift.tt/Y27HDBx

Існує десятки публічних наборів даних для порівняння, універсально прийняті метрики точності та багато академічних праць з ASR, тому може здаватися, що визначити найкращий API для транскрипції буде легко. Але, як і в багатьох речах у житті, деталі мають значення, і більшість бенчмарків засновані на чистих наборах даних, що не відображають реальну ситуацію у житті.

Deepgram у своїй статті про кращі API для розпізнавання мови у текст стверджує, що їхня транскрипційна модель Nova-3 має WER 5.26%. Проте, при тестуванні на більш складних та реалістичних наборах даних ASR, Nova-3 показував WER до 28.1% (на Earnings-22).

Це підкреслює важливу проблему: більшості постачальників транскрипції тестуються на LibriSpeech (LS).

Я поясню, чому це є проблемою нижче, але спершу порівняємо реальні бенчмарки Deepgram із нашою моделлю Modulate.

Налаштування експерименту: тестування Modulate та Deepgram із реальним аудіо

Більшість наборів даних не є достатньо надійними для надання справжніх бенчмарків, і жоден один бенчмарк не може розповісти повну історію, тому ми протестували Deepgram (Nova-2 та Nova-3) і Modulate за трьома незалежними наборами даних для бенчмарку:

AMI Meeting Corpus
VoxPopuli
Earnings-22

AMI Meeting Corpus

AMI Meeting Corpus був створений Університетом Едінбургу разом із кількома співпрацівниками в рамках проекту Augmented Multi-party Interaction (AMI). Це один із найскладніших і найреалістичніших ASR-бенчмарків, доступних, оскільки він складається з багатокористувацьких зустрічей, стендапів та спільних дзвінків.

Є перекриваюча мова, переривання, перехресна завада, реальний фон шуму (клавіатура, шелест паперу, акустика приміщення) та природна динаміка розмови, що робить його своєрідним “золотим стандартом” для реального ASR-моделювання розмов у реальному світі.

VoxPopuli

VoxPopuli — багатомовний корпус парламентських виступів, який може не звучати настільки надійним для хорошого бенчмарку, як такий набір даних, як AMI.

Однак завдяки довшому, структурованому, односпікерському мовленню з різними акцентами, акустикою приміщень та розташуванням мікрофона, він все ще корисний для перевірки того, як добре модель працює з формальним, якісним мовленням.

Обидва набори AMI та Vox допомагають встановити спектр продуктивності для двох моделей

Earnings-22

Earnings-22 — це колекція розмов з фінансовими звітами з тривалого формату (30–60 хвилин), доменно-специфічною лексикою, перехрещенням спікерів з боку виконавчого та аналітичного підрозділів та шумними умовами. Якість аудіо варіюється залежно від конкретних телефонних ліній та систем конференцій.

Переклад: це один з найкращих способів перевірити, як моделі обробляють чутливі розмови з великою кількістю фінансової термінології та потребою в довгому контексті.

Саме довгий контекст, стиль розмови колл-центру та спеціалізована термінологія роблять цей набір даних досить поширеним у щільних дослідженнях ASR. Особливо для моделей, призначених для використання у контакт-центрах, продажах та підтримці клієнтів.

WER: як компанії ASR порівнюють моделі

WER (Word Error Rate) вимірює, наскільки добре система ASR транскрибує аудіо, рахуючи такі три помилки відносно загальної кількості слів у правильному транскрипті:

Вставки
Вилучення
Замінювання

WER розраховується за такою формулою:

Результати тестування Modulate та Deepgram за трьома складними бенчмарками

Ми знаємо, що у чистому тесті Nova-3 має пакетний WER 5.26%, так?

Незалежно від того, яку модель тестуєте… якщо ви використовуєте чистий набір даних, ви отримаєте WER нижче 10%. Якщо додати рівень форматування в набори даних, які ми використали, помилки зростають у середньому на 10% для більшості моделей.

Ось що робить наступні дані досить вражаючими.

Загальні результати продуктивності

Обидві моделі ASR демонструють помітне збільшення помилок у порівнянні з цими наборами даних та чистими наборами на кшталт LibriSpeech. Проте видно, що помилка Deepgram зросла з діапазону від 3% до майже 23% з AMI.

Бенчмарк	Опис (коротко)	WER Velma	WER Nova-3	Різниця / Перевага
Earnings‑22	Довгий формат, шумний, доменно-специфічний аудіо	7.5%	15.7%	близько 2× кращий
VoxPopuli	Чисте парламентське мовлення	8.0%	8.2%	майже ідентичний
AMI	Багатоспікерне, перекриваюче, шумне	14.9%	28.1%	близько в 2× краще

Існує явна тенденція: API Modulate стабільно забезпечує нижчі рівні помилок, і всі моделі масштабуються подібно зі збільшенням складності. За такими драматичними відмінностями в абсолютній точності варто запитати, що саме викликає різницю.

Чи довжина аудіо-сегментів є причиною різниці?

Більшість моделей ASR попередньо навчені на аудіо-сегментах приблизно по 30 секунд. Більшість наборів даних розділяють аудіо на сегменти близько по 30 секунд кожен, як видно нижче, за винятком AMI.

Набір даних	Як визначають сегменти	Типова довжина сегмента
Earnings‑22	Повні дзвінки + опційна версія з розбиттям	~30с
VoxPopuli	Розбитий за допомогою скриптів прив’язки	~15–30 секунд
AMI	Сегментація за высказываннями	~5с до ~120с (переважно менше 60)

З огляду на ці міркування, схоже, що тривалість аудіо-сегментів не впливає на результат. Тож слід розглядати саме складність самого аудіо та труднощі розрахунку WER.

Проблеми з обчисленням WER

Важливо пам’ятати, що не всі помилки однакові. Відмінності у використанні великої літер, пунктуації та орфографії можуть бути оцінені по-іншому або неправильно враховані, що впливає на загальний WER незалежно від того, наскільки технічно правильний переклад.

Наприклад, переклад може використати британське написання слова (наприклад center; analyse) або може включати саму цифру, а не записати її словами (“15” замість “fifteen”).

Також існують мовленнєві маркери, що впливають на точність транскрипції, включно з:

Нелексичні вокалізації: короткі звуки на кшталт “ммх”, “м-м” або “ух-ха”, що сигналізують згоду, вагання або активне слухання.
Гучні події: фонові або тілесні звуки, такі як кашель, стоганя, відхилення у горлі або чхання під час мовлення.
Просодичні маркери: символи, що вказують на зміни висоти або інтонації, такі як підйом, спад або зміна середнього тону у голосі спікера.
Маркування завершення мовлення (або дисклієнс‑термінатори): індикатори завершення, перерви або зростаюча інтонація, які сигналізують неповну або питанняві вислови.

Одна з причин, чому ми тестували API транскрипції Modulate та Deepgram на AMI, VOX та Earnings-22, полягає у поширеності цих маркерів конкретно для розмов.

Вони справляють реальний виклик для більшості систем ASR, збільшуючи кількість помилок транскрипції та створюючи більш достовірне представлення того, наскільки добре системи справляються з реальними сценаріями.

Результати Earnings-22

Звонки Earnings-22 тривалі та шумні, але також насичені лексикою галузі. Природа цього матеріалу призводить до більшої кількості маркерів розмови. Тому це один із найбільш складних наборів даних.

Vox Populi

Як один із найчистіших наборів з найбільшою структурою і з участю лише одного спікера, ми бачимо, що обидві моделі працювали практично однаково з Vox Populi.

З трьох наборів також ясно видно, що цей набір містив найменшу кількість маркерів розмови, і, відповідно, найменший виклик.

AMI Meeting Corpus

AMI відомий своєю складністю через кілька спікерів, чиї голоси часто перекриваються, а також через велику кількість маркерів розмови. З цих причин ми бачимо найбільший розрив між Deepgram та Modulate, який мав прибл. у 2 рази нижшу помилку порівняно з опонентом, на 14.9% (у порівнянні з 28.1%).

Порівняння реальної вартості (не лише ціна за хвилину)

Попри високу точність Modulate, варто також зауважити, що це коштує дешевше, ніж його спадкоємець. Не лише базова ціна транскрипції, на яку зазвичай звертають увагу порівняння моделей, але й реальна вартість, пакетна ціна та стрімінг.

Пакетна та стрімінг‑ціна все‑у‑одному

Пакетна ціна все включено означає загальну вартість за годину, коли ви обробляєте попередньо записане аудіо (не живе) та включаєте всі функції, які вам справді потрібні для запуску ASR у виробництві.

Стрімінг все включено означає загальну вартість за годину, коли ви обробляєте живе аудіо (у реальному часі або майже в реальному часі) з усіма необхідними функціями.

Порівнюючи ці два підходи, видно, що Modulate надає більш високу точність у різних складних наборах даних за нижчою вартістю як для пакетної, так і для стрімінгової оплати:

Modulate має низьку ціну всього $0.03/година проти $0.38/година у Deepgram (прибл. 12x розрив) для пакетної оплати все включено та $0.06/година проти $0.58/година у Deepgram (прибл. 10x розрив) для стрімінгової.

Порівняння реальних витрат

Реальні витрати = транскрипція + діаризація + редагування (редакція) + інтелектуальні функції

Deepgram стягує $0.12/година зайвого за редагування та діаризацію. Modulate включає обидві функції безкоштовно, а також забезпечує виявлення емоцій (більше 20 емоцій) та визначення акцентів (більше 20 акцентів), функції, які Deepgram не пропонує за будь-яку ціну.

Модель ціноутворення Deepgram виглядає керованою за невеликих обсягів, але як тільки ви масштабуєтеся, витрати на діаризацію швидко зростають. Якщо використовується ASR для виявлення шахрайства, Deepgram також вимагатиме від вас побудувати власні класифікатори емоцій/акцентів.

Для команд, які обробляють мільйони хвилин на місяць, ці витрати швидко зростають.

Modulate пропонує більш бюджетний варіант, включивши все у базову ставку.

Пробіл за функціями (що ви отримуєте… і чого ні)

Deepgram — один із найпомітніших ASR, бо він надає стабільний розпізнаваний текст. Але на цьому все закінчується.

Додаткові функції, які можуть бути необхідні для використання кол‑центрів, відділів продажів та розмов підтримки клієнтів, особливо у випадку виявлення шахрайства, включають:

Виявлення емоцій
Класифікація акцентів
Вищі поведінкові сигнали
Редагування
Діаризація
Виявлення дипфейків

Давайте розглянемо це поруч.

Функція	Modulate	Deepgram
Транскрипція	Включено	Включено
Виявлення емоцій	Включено	Н недоступно
Виявлення акцентів	Включено	Не доступно
PII редагування	Включено	Включено
Діаризація спікерів	Включено	Доступно, +$0.12/год
Виявлення дипфейку	Включено	Ні
Всі функції включені в базову ціну	Так	Ні

Deepgram застережений як лише ASR‑двигун, тобто він може лише повертати текст. Modulate — це двигун розуміння розмови.

Коли потрібна базова транскрипція ASR, ця різниця не має такого великого впливу. Однак контакт-центри, які хочуть фіксувати розчарування, запитання чи ризик ескалації у реальному часі, можуть віддати перевагу Modulate.

Додавання емоційного контексту та стану спікера також відкриває Modulate для використання у навчанні агентів та QA‑автоматизації. Розпізнавання емоційного стану голосу, ознаки обману та патерни акцентів роблять виявлення шахрайства простим завданням.

Чисті ASR-бенчмарки не відображають реальну продуктивність

Більшість порівнянь бенчмарків базується на наборі LibriSpeech, бо він безкоштовний, масштабований і чистий. Але через те, що в ньому близько 1 000 годин читаного англійського мовлення з LibriVox, він… занадто чистий.

Мова читається, а не розмовляє. У ньому немає акцентів чи емоційних варіантів. Немає фонового шуму. Усі маркери, які ви очікуєте у реальних розмовах з клієнтами, відсутні у наборі LibriSpeech.

Звісно, сучасні моделі ASR добре працюють на чистих наборах даних, що стосується не лише LS, але й часто використуваних наборів як Common Voice (CV) та FLEURS (або FLoRes; FL). Порівняйте ці моделі з реальними наборами даних, такі як TalkBank, і ви побачите стрибки продуктивності, як і з Nova-3 від Deepgram.

Навіть TalkBank має свої обмеження. Він складається із п’ятнадцяти наборів даних, зібраних і записаних різними дослідниками з різними цілями — це лише одна з проблем.

Більш реалістичні бенчмарки походять із тестування моделей на складніших наборах даних, таких як AMI Meeting Corpus та VoxPopuli, які ми використали для тестування Modulate та Deepgram.

Як запустити цей бенчмарк самостійно

Хоча бенчмарки допомагають отримати базове розуміння того, як система ASR може працювати, немає нічого кращого за тестування на вашому власному продукційному аудіо.

Ось практична структура для оцінки ASR, які ви перевіряєте за допомогою власного аудіо:

Крок 1: Збір аудіо‑зразків

Більшість наборів даних складається з понад 100 аудіо‑зразків. Можливо, не вдасться зібрати таку кількість самостійно, але прагніть зібрати 50–100 зразків із власної бази записів.

Переконайтеся, що ці зразки містять:

Акценти
Спеціалізований лексикон
Фоновий шум
Більше одного спікера
Маркери розмови (переривання, “ммм” та “ей)”

Кожен клип має тривати щонайменше 30–60 секунд для справжньої оцінки. Якщо у кліпі є лише одне речення, ви втратите аспект розмови, який потрібен.

Крок 2: Прогони API кожного провайдера

Якщо тестуєте кілька API, зберігайте однакові умови по всьому. Використовуйте ті самі аудіо‑файли, ту саму частоту дискретизації, стратегію поділу на сегменти та налаштування діаризації/редагування. Фактично, ви хочете створити власний набір даних, який будете використовувати знову і знову без змін.

Ви хочете порівняти продуктивність моделі, а не відмінності у попередній обробці.

Крок 3: Розрахуйте WER за транскрипціями, підтвердженими людиною

Щоб отримати точне вимірювання, потрібен грунтовний транскрипт для кожного клипа. Це означає людину‑транскриптора або якийсь інший двоетапний процес перевірки. Якщо у вас вже є QA‑перевірені транскрипти, можете використати їх і зекономити час та зусилля.

Крок 4: Оцінка загальних витрат із усіма потрібними функціями

Як я вже зазначав упродовж цього матеріалу, точність — це лише половина історії. Потрібно також обчислити реальну вартість з урахуванням:

Базова ціна транзакції
Діаризація
Редагування
Виявлення емоцій
Виявлення акцентів
Затримки/граничні вимоги
Ціниза пакетної та стрімінгової обробки

Як показав наш експеримент, бенчмарки з дуже чистими наборами не дають точного розуміння продуктивності. Тестування вашого власного аудіо — один із найкращих способів упевнитися, що ви отримуєте точний бенчмарк для API, які оцінюєте.

Якщо шукаєте відтворюваний скрипт для бенчмарку (і приклад API-запиту), ми маємо його тут для вас.

HI-FI News

через HackerNoon https://hackernoon.com

14 квітня 2026 року 18:01 PM

April 14, 2026 at 06:01PM

How Deepgram and Modulate Benchmark Against Real-World Audio

Налаштування експерименту: тестування Modulate та Deepgram із реальним аудіо

AMI Meeting Corpus

VoxPopuli

Earnings-22

WER: як компанії ASR порівнюють моделі

Результати тестування Modulate та Deepgram за трьома складними бенчмарками

Загальні результати продуктивності

Чи довжина аудіо-сегментів є причиною різниці?

Проблеми з обчисленням WER

Результати Earnings-22

Vox Populi

AMI Meeting Corpus

Порівняння реальної вартості (не лише ціна за хвилину)

Пакетна та стрімінг‑ціна все‑у‑одному

Порівняння реальних витрат

Пробіл за функціями (що ви отримуєте… і чого ні)

Чисті ASR-бенчмарки не відображають реальну продуктивність

Як запустити цей бенчмарк самостійно

Крок 1: Збір аудіо‑зразків

Крок 2: Прогони API кожного провайдера

Крок 3: Розрахуйте WER за транскрипціями, підтвердженими людиною

Крок 4: Оцінка загальних витрат із усіма потрібними функціями

Коментарі

Залишити відповідь Скасувати коментар