Real-Time Voicemail Detection in Telephony Audio Using Temporal Speech Activity Features

від

у

Реальний час виявлення голосової пошти в телефонному зв’язку за допомогою тимчасових ознак активності мови

https://ift.tt/FO0cbYA

Виходящі системи телефонного набрання з AI повинні у реальному часі відрізняти вітальні повідомлення голосової пошти від живих людських відповідей, щоб уникати марних взаємодій з агентами та розривів дзвінків. Ми представляємо легковагову методику, яка витягує 15 тимчасових ознак з патерну мовної активності попередньо натренованого нейронного детектора активності мови (VAD), після чого класифікує за допомогою ледь глибокого ансамблю на основі дерев. На двох наборах оцінювання загальною кількістю 764 телефонних записів система досягає сумарної точності 96.1% (734/764), з 99.3% (139/140) у тестовому наборі з експертним маркуванням та 95.4% (595/624) у відкладеному виробничому наборі. У продакшн-валідованні понад 77 000 дзвінків було зафіксовано 0.3% помилково-позитивних та 1.3% помилково-негативних випадків. Повна кінцева оцінка виконується за 46 мс на стандартному двоядерному CPU без GPU, здатному підтримувати понад 380 одночасних WebSocket дзвінків. У нашому пошуку серед 3 780 комбінацій моделей, ознак та порогів, важливість ознак зосереджувалася у трьох тимчасових змінних. Додавання трансляційних ключових слів або ознак на основі звукового сигналу не покращило найкращу конфігурацію в реальному часі та суттєво збільшило затримку. Наші результати свідчать, що тимчасові патерни мовлення є сильним сигналом для розрізнення вітальних повідомлень голосової пошти від живих людських відповідей.

HI-FI News

через штучний інтелект https://ift.tt/OsDap2u

14 квітня 2026 р. о 05:27 AM

April 14, 2026 at 05:27AM


Коментарі

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *