UltraEval-Audio: A Unified Framework for Comprehensive Evaluation of Audio Foundation Models

від

у

UltraEval-Audio: Єдина структура для комплексної оцінки аудіо моделей

Розвиток аудіо моделей базового рівня різко прискорився з появою GPT-4o. Однак, відсутність комплексної оцінки стала критичним вузьким місцем для подальшого прогресу в цій сфері, зокрема в генерації аудіо. Поточна оцінка аудіо стикається з трьома основними проблемами: (1) оцінка аудіо не має єдиної структури, набори даних і код розкидані по різних джерелах, що ускладнює чесне та ефективне порівняння між моделями; (2) аудіо кодеки, як ключовий компонент аудіо базових моделей, не мають широко прийнятої та комплексної методології оцінки; (3) існуючі мовні бенчмарки в значній мірі залежать від англійської мови, що ускладнює об’єктивну оцінку продуктивності моделей на китайській мові. Щоб вирішити першу проблему, ми представляємо UltraEval-Audio, єдину структуру оцінки для аудіо моделей базового рівня, спеціально розроблену для завдань розуміння та генерації аудіо. UltraEval-Audio має модульну архітектуру, підтримує 10 мов і 14 основних категорій завдань, одночасно інтегруючи 24 основні моделі та 36 авторитетних бенчмарків. Щоб підвищити ефективність досліджень, структура надає можливість оцінки за одну команду, супроводжуючи це реальними публічними рейтингами. Для другої проблеми UltraEval-Audio використовує нову комплексну оцінку для аудіо кодеків, оцінюючи продуктивність за трьома основними вимірами: семантична точність, вірність тембру і акустична якість. Щоб вирішити третю проблему, ми пропонуємо два нові китайські бенчмарки, SpeechCMMLU і SpeechHSK, розроблені для оцінки знань китайської мови та мовної флюентності. Ми сподіваємось, що UltraEval-Audio надасть як академії, так і промисловості прозору, ефективну та справедливу платформу для порівняння аудіо моделей. Наш код, бенчмарки та рейтинги доступні за адресою https://ift.tt/m93dgTD.

January 6, 2026 at 04:30AM


Коментарі

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *