Оцінювання Audio Language Models на справедливість, безпеку та захист
https://ift.tt/Suk2EWA
Аудіо великі мовні моделі (ALLMs) нещодавно просунулися у розмовній взаємодії, інтегруючи обробку мовлення з великими мовними моделями. Проте існуючі оцінювання справедливості, безпеки та захисту (FSS) залишаються розрізненими, в основному через те, що ALLMs принципово відрізняються у способі представлення акустичної інформації та місця, де відбувається семантичне міркування. Різниці, які рідко роблять явними. Відтак оцінювання часто зливає структурно різні системи, роблячи невидимим взаємозв’язок між дизайном моделі та спостережуваною поведінкою FSS. У цій роботі ми вводимо структурну таксономію (рівень системи та репрезентації) ALLMs, що класифікує системи за двома осями: форма представлення аудіо-входу (наприклад, дискретне проти неперервного) та місце розташування семантичного міркування (наприклад, каскадне, мультимодальне або аудіо-нативне). Ґрунтуючись на таксономії, ми пропонуємо об’єднану рамку оцінювання, яка оцінює семантичну інваріантність за паралінгвістичними варіантами, поведінку відмови та токсичності за небезпечними запитами та надійність до зловмисних аудіо-perturbacij. Ми застосовуємо цю рамку до двох репрезентативних систем і спостерігаємо систематичні різниці у відмовах, успішності атак та токсичності між аудіо та текстовим вводом. Наші висновки демонструють, що поведінка FSS тісно пов’язана з тим, як акустична інформація інтегрована в семантичне міркування, підкреслюючи необхідність оцінювання аудіо-мовних моделей з урахуванням структури.
HI-FI News
через Штучний інтелект https://ift.tt/GdxBr46
17 березня 2026 р. о 05:01AM
March 17, 2026 at 05:01AM

Залишити відповідь