Adaptive Perturbation Selection for Contrastive Audio Decoding

від

у

Adaptive Perturbation Selection for Contrastive Audio Decoding

https://ift.tt/FcGMYNg

Великі моделі аудіо-мовлення (LALMs) часто галюцінують, переобґрунтовуючи акустичні свідчення мовними пріоритетами. Хоча контрастивне декодування (CD) пропонує безнавчальне пом’якшення, існуючі методи покладаються на прямолінійні збурення, такі як маскування або шум, leaving структуральні перетворення аудіо невивченими. Ми досліджуємо цей простір дизайну, оцінюючи різноманітну бібліотеку цільових аудіо-збурень та адаптивно обираючи оптимальну негативну гілку для кожного завдання та прикладу. По-перше, ми вдосконалюємо попереднє проектування запитів, показуючи, що просте подвійне обмеження так/ні знижує схильність моделі неправильно підтверджувати відсутні аудіо-ознаки. По-друге, оцінюючи нашу бібліотеку в царинах часу, спектру, частоти та амплітуди, виявляється, що оптимальні перетворення дуже залежать від завдання; наприклад, зворотний порядок аудіо порушує часову послідовність, підвищуючи точність завдання з часової послідовності з 74.7% до 81.4%. Нарешті, ми навчили легковагий селектор збурень на прихованих станах моделі для динамічного спрямування негативних гілок, що дає додаткове підвищення на +4.3% у завданні на існування.

HI-FI News

через Штучний Інтелект https://ift.tt/U9ycF7H

2 липня 2026 року о 06:11 за ранковою часом into українську. Тільки текст, який перекладено.

July 2, 2026 at 06:11AM


Коментарі

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *