Generalizable Prompt Tuning for Audio-Language Models via Semantic Expansion

від

у

Узагальнюване налаштування промптів для аудіо-мовних моделей через семантичне розширення

https://ift.tt/Zb3DRJq

Налаштування промптів досягло значного прогресу у моделях з візуальною та мовною інформацією (VLMs) і нещодавно застосовується до аудіо-мовних моделей (ALMs). Проте їхня здатність до узагальнення в ALMs залишається здебільшого недостатньо вивченою. Ми спостерігаємо, що традиційне налаштування промптів для ALMs також зазнає впливу балансу між базовим та новим (Base-New Tradeoff), і визначаємо, що ця проблема випливає з порушеної семантичної структури простору ембеддингів. Щоб вирішити цю проблему, ми пропонуємо Семантично Розширене Налаштування Промптів (SEPT) — плагін-плей рамку, яка явно регулює простір ембеддингів промптів шляхом інтеграції семантичних сусідів, згенерованих великими мовними моделями. SEPT запроваджує нову втрату семантичного розширення з маржинальними обмеженнями, що сприяють компактності всередині класів та відокремленню між класами, тим самим посилюючи семантичну структуру простору ембеддингів промптів. Для всебічної оцінки ми встановлюємо перший бенчмарк-набір для узагальнення промптів в ALMs, що охоплює як загальне узагальнення від базових до нових, так і міждатасетну перенесуваність. Розширені експерименти демонструють, що SEPT стабільно підвищує узагальнюючу продуктивність у різних базових підходах до налаштування промптів, водночас зберігаючи обчислювальні витрати під час інференсу. Код доступний за адресою https://ift.tt/OR7VYCg.

HI-FI News

за допомогою штучного інтелекту https://ift.tt/n2CKs6U

30 січня 2026 року о 04:14

January 30, 2026 at 04:14AM


Коментарі

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *