Sparse Tokens Suffice: Jailbreaking Audio Language Models via Token-Aware Gradient Optimization
https://ift.tt/Yf94w2d
Jailbreak-атаки на аудіо-моделі мови (ALMs) оптимізують аудіо-п perturbації, щоб викликати небезпечні генерації, і зазвичай оновлюють увесь сигнал у часі під час оптимізації. У цій роботі ми досліджуємо необхідність такого щільного оптимізування, аналізуючи структуру градієнтів, прив’язаних до токенів, в ALMs. Ми виявляємо, що енергія градієнтів є дуже нерівномірною між аудіо-токенами, що вказує на те, що домінує лише невелика підмножина токено-налаштованих аудіо-регіонів сигналу оптимізації. Натхнені цим висновком, ми пропонуємо Token-Aware Gradient Optimization (TAGO), який дозволяє щільному Jailbreak-оптимізуванню завдяки збереженню лише градієнтів хвилі, суміжних з аудіо-токенами, що мають високу енергію градієнтів, у той час як інші градієнти маскуються на кожній ітерації. В трьох ALMs TAGO перевершує базові методи, і значна розрідженість зберігає високий рівень успішності атаки (наприклад, на Qwen3-Omni ASR_l залишається на 86% із коефіцієнтом збереження токенів 0.25 порівняно з 87% при повному збереженні токенів). Ці результати демонструють, що щільні оновлення хвилі є в значній мірі надмірними, і ми закликаємо майбутні дослідження в галузі аудіо jailbreaking та безпекової відповідності до подальшого використання цієї гетерогенної структури градієнтів на рівні токенів.
HI-FI News
via Artificial Intelligence https://ift.tt/iJnZDI8
7 травня 2026 р. о 05:30 за місцевим часом
в українському перекладі. Тільки текст, який перекладено, поверніть.
May 7, 2026 at 05:30AM

Залишити відповідь