Реальний час виявлення голосової пошти в телефонному зв’язку за допомогою тимчасових ознак активності мови
https://ift.tt/FO0cbYA
Виходящі системи телефонного набрання з AI повинні у реальному часі відрізняти вітальні повідомлення голосової пошти від живих людських відповідей, щоб уникати марних взаємодій з агентами та розривів дзвінків. Ми представляємо легковагову методику, яка витягує 15 тимчасових ознак з патерну мовної активності попередньо натренованого нейронного детектора активності мови (VAD), після чого класифікує за допомогою ледь глибокого ансамблю на основі дерев. На двох наборах оцінювання загальною кількістю 764 телефонних записів система досягає сумарної точності 96.1% (734/764), з 99.3% (139/140) у тестовому наборі з експертним маркуванням та 95.4% (595/624) у відкладеному виробничому наборі. У продакшн-валідованні понад 77 000 дзвінків було зафіксовано 0.3% помилково-позитивних та 1.3% помилково-негативних випадків. Повна кінцева оцінка виконується за 46 мс на стандартному двоядерному CPU без GPU, здатному підтримувати понад 380 одночасних WebSocket дзвінків. У нашому пошуку серед 3 780 комбінацій моделей, ознак та порогів, важливість ознак зосереджувалася у трьох тимчасових змінних. Додавання трансляційних ключових слів або ознак на основі звукового сигналу не покращило найкращу конфігурацію в реальному часі та суттєво збільшило затримку. Наші результати свідчать, що тимчасові патерни мовлення є сильним сигналом для розрізнення вітальних повідомлень голосової пошти від живих людських відповідей.
HI-FI News
через штучний інтелект https://ift.tt/OsDap2u
14 квітня 2026 р. о 05:27 AM
April 14, 2026 at 05:27AM

Залишити відповідь