Hijacking Large Audio-Language Models via Context-Agnostic and Imperceptible Auditory Prompt Injection

від

у

Перехоплення великих аудіо- мовних моделей через контекстно-незалежну та непомітну аудіопідказкову ін’єкцію

https://ift.tt/PdIvleA

Сучасні великі аудіо- мовні моделі (LALMs) забезпечують розумні голосові взаємодії, тісно поєднуючи аудіо та текст. Однак ця інтеграція розширює поверхню для атак за межі тексту та впроваджує вразливості у безперервний, високовимірний аудіоканал. Хоча попередні роботи вивчали аудіо-джейлбрейки, ризики безпеки від зловмисної ін’єкції аудіо та маніпуляцій подальшою поведінкою залишаються недостатньо вивченими. У цій роботі ми розкриваємо раніше недооцінений загрозу — аудіопідказкову ін’єкцію, за реалістичних обмежень доступу лише до аудіоданих та сильної перцепційної непомітності. Щоб систематично аналізувати цю загрозу, ми пропонуємо AudioHijack — загальну рамку, яка генерує контекстно-незалежне та непомітне атакувальне аудіо, щоб перехопити LALMs. AudioHijack використовує оцінку градієнтів на основі семплінгу для енд-ту-енд оптимізації за різними моделями, обходячи недиференційовану аудіо-токенізацію. Завдяки нагляду за увагою та навчанню у багатьох контекстах, воно спрямовує увагу моделі на атакувальне аудіо та узагальнює до невідомих контекстів користувачів. Також ми розробили конволюційний метод злиття, який модуляє збурення в природну реверберацію, роблячи їх надзвичайно непомітними для користувачів. Розгорнуті експерименти на 13 сучасних LALMs показують послідовне перехоплення в 6 категоріях зловмисної поведінки, досягаючи середніх рівнів успіху від 79% до 96% на невідомих контекстах користувачів із високою акустичною точністю. Реальні дослідження демонструють, що комерційні голосові агенти від Mistral AI та Microsoft Azure можуть бути змушені виконувати несанковані дії від імені користувачів. Ці висновки виявляють критичні вразливості LALMs і підкреслюють потребу у спеціалізованій обороні.

HI-FI News

через штучний інтелект https://ift.tt/dVtBoyC

17 квітня 2026 року о 05:14 ранку

April 17, 2026 at 05:14AM


Коментарі

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *