Evaluation of Audio Language Models for Fairness, Safety, and Security

від

у

Оцінювання Audio Language Models на справедливість, безпеку та захист
https://ift.tt/Suk2EWA

Аудіо великі мовні моделі (ALLMs) нещодавно просунулися у розмовній взаємодії, інтегруючи обробку мовлення з великими мовними моделями. Проте існуючі оцінювання справедливості, безпеки та захисту (FSS) залишаються розрізненими, в основному через те, що ALLMs принципово відрізняються у способі представлення акустичної інформації та місця, де відбувається семантичне міркування. Різниці, які рідко роблять явними. Відтак оцінювання часто зливає структурно різні системи, роблячи невидимим взаємозв’язок між дизайном моделі та спостережуваною поведінкою FSS. У цій роботі ми вводимо структурну таксономію (рівень системи та репрезентації) ALLMs, що класифікує системи за двома осями: форма представлення аудіо-входу (наприклад, дискретне проти неперервного) та місце розташування семантичного міркування (наприклад, каскадне, мультимодальне або аудіо-нативне). Ґрунтуючись на таксономії, ми пропонуємо об’єднану рамку оцінювання, яка оцінює семантичну інваріантність за паралінгвістичними варіантами, поведінку відмови та токсичності за небезпечними запитами та надійність до зловмисних аудіо-perturbacij. Ми застосовуємо цю рамку до двох репрезентативних систем і спостерігаємо систематичні різниці у відмовах, успішності атак та токсичності між аудіо та текстовим вводом. Наші висновки демонструють, що поведінка FSS тісно пов’язана з тим, як акустична інформація інтегрована в семантичне міркування, підкреслюючи необхідність оцінювання аудіо-мовних моделей з урахуванням структури.

HI-FI News

через Штучний інтелект https://ift.tt/GdxBr46

17 березня 2026 р. о 05:01AM

March 17, 2026 at 05:01AM


Коментарі

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *