The Sonar Moment: Benchmarking Audio-Language Models in Audio Geo-Localization

від

у

Сонарний момент: Бенчмаркінг аудіо-мовних моделей у аудіо-геолокації

Геолокація має на меті визначити географічне походження конкретного сигналу. У комп’ютерному зору геолокація слугувала вимогливим бенчмарком для композиційного мислення і є важливою для громадської безпеки. На противагу цьому, прогрес в аудіо-геолокації обмежений через нестачу пар високоякісних аудіо-локацій. Щоб заповнити цю прогалину, ми представляємо AGL1K – перший бенчмарк аудіо-геолокації для аудіо мовних моделей (ALMs), що охоплює 72 країни і території. Щоб вибрати надійно локалізовані зразки з краудсорсингової платформи, ми пропонуємо метрику аудіо-локалізованості, яка кількісно оцінює інформативність кожного запису, отримуючи 1,444 кураторських аудіокліпів. Оцінки на 16 ALMs показують, що ALMs здатні виконувати аудіо-геолокаційні завдання. Ми виявили, що закриті моделі суттєво перевершують відкриті моделі, і що мовні підказки часто домінують як основа для прогнозування. Ми також аналізуємо сліди мислення ALMs, регіональні упередження, причини помилок і інтерпретованість метрики локалізованості. Загалом, AGL1K встановлює бенчмарк для аудіо-геолокації і може сприяти розвитку ALMs з кращими можливостями геопросторового мислення.

January 7, 2026 at 04:13AM


Коментарі

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *