Узагальнюване налаштування промптів для аудіо-мовних моделей через семантичне розширення
https://ift.tt/Zb3DRJq
Налаштування промптів досягло значного прогресу у моделях з візуальною та мовною інформацією (VLMs) і нещодавно застосовується до аудіо-мовних моделей (ALMs). Проте їхня здатність до узагальнення в ALMs залишається здебільшого недостатньо вивченою. Ми спостерігаємо, що традиційне налаштування промптів для ALMs також зазнає впливу балансу між базовим та новим (Base-New Tradeoff), і визначаємо, що ця проблема випливає з порушеної семантичної структури простору ембеддингів. Щоб вирішити цю проблему, ми пропонуємо Семантично Розширене Налаштування Промптів (SEPT) — плагін-плей рамку, яка явно регулює простір ембеддингів промптів шляхом інтеграції семантичних сусідів, згенерованих великими мовними моделями. SEPT запроваджує нову втрату семантичного розширення з маржинальними обмеженнями, що сприяють компактності всередині класів та відокремленню між класами, тим самим посилюючи семантичну структуру простору ембеддингів промптів. Для всебічної оцінки ми встановлюємо перший бенчмарк-набір для узагальнення промптів в ALMs, що охоплює як загальне узагальнення від базових до нових, так і міждатасетну перенесуваність. Розширені експерименти демонструють, що SEPT стабільно підвищує узагальнюючу продуктивність у різних базових підходах до налаштування промптів, водночас зберігаючи обчислювальні витрати під час інференсу. Код доступний за адресою https://ift.tt/OR7VYCg.
HI-FI News
за допомогою штучного інтелекту https://ift.tt/n2CKs6U
30 січня 2026 року о 04:14
January 30, 2026 at 04:14AM

Залишити відповідь