VocSim: Безтренувальний Бенчмарк для Ідентичності Контенту в Одно джерело Аудіо
Загальнофункціональні аудіо репрезентації мають на меті відобразити акустично змінні інстанції одного й того ж події в близькі точки, вирішуючи ідентичність контенту в умовах нульового навчання. На відміну від контрольованих бенчмарків класифікації, які вимірюють адаптивність через оновлення параметрів, ми представляємо VocSim, безтренувальний бенчмарк, який досліджує внутрішню геометричну вирівняність заморожених векторів. VocSim агрегує 125 тисяч кліпів з одного джерела з 19 корпусів, які охоплюють людську мову, вокалізації тварин та навколишні звуки. Обмежуючися аудіо з одного джерела, ми ізолюємо репрезентацію контенту від впливу розділення джерел. Ми оцінюємо вектори, використовуючи Precision@k для локальної чистоти та Глобальний коефіцієнт відокремлення (GSR) для класового відділення в точках. Щоб відкалібрувати GSR, ми повідомляємо про підвищення у порівнянні з емпіричною базовою лінією перестановки. В різноманітних фундаментальних моделях проста система, заморожені функції кодувальника Whisper, часо-частотне згортання та PCA без міток, демонструє сильну продуктивність у нульовому режимі. Проте, VocSim також виявляє постійну прогалину в узагальненні. На сліпій, малоресурсній мові, локальне вилучення різко падає. Хоча продуктивність залишається статистично відмінною від випадкової, абсолютна геометрична структура колапсує, вказуючи на невдачу в узагальненні на невідомі фонетичні тактики. Як зовнішня валідація, наші найкращі вектори прогнозують перцептивну подібність птахів, покращують біоакустичну класифікацію та досягають найсучасніших результатів у бенчмарку HEAR. Ми припускаємо, що внутрішня геометрична якість, виміряна тут, є проксі для корисності в неназваних наступних застосуваннях. Ми публікуємо дані, код та публічний лідерборд для стандартизації оцінювання внутрішньої геометрії аудіо.
December 12, 2025 at 03:50AM

Залишити відповідь