SoundBreak: систематичне дослідження атак лише через аудіо на тризмодальні моделі
Мультимодальні базові моделі, які інтегрують аудіо, зір та мову, демонструють високі результати у задачах розуміння та генерації, проте їх стійкість до адверсарних маніпуляцій залишається недостатньо зрозумілою. Ми вивчаємо реалістичну та недостатньо досліджену загрозу: нецільові атаки, що здійснюються лише через аудіо, на тризмодальні моделі з аудіо, відео та мовою. Ми аналізуємо шість комплементарних цілей атак, що націлені на різні етапи мультимодальної обробки, включаючи репрезентації аудіо-енкодера, міжмодальну увагу, приховані стани та ймовірності виходу. У трьох сучасних моделях та на кількох бенчмарках ми показуємо, що аудіо-тільки спотворення можуть викликати серйозні мультимодальні збої, забезпечуючи до 96% успішних атак. Додатково ми демонструємо, що атаки можуть бути успішними за низьких перцепційних спотворень (LPIPS <= 0.08, SI-SNR >= 0) та виграють більше від розширеної оптимізації, ніж від збільшення обсягу даних. Переносимість між моделями та енкодерами залишається обмеженою, тоді як системи розпізнавання мов, такі як Whisper, переважно реагують на величину збурення, досягаючи більш як 97% успішних атак за умов серйозних спотворень. Ці результати виявляють раніше не помічену поверхню атак однієї модальності у мультимодальних системах та мотивують впровадження захистів, що забезпечують крос-модальну узгодженість.
HI-FI News
через штучний інтелект
26 січня 2026 р. о 04:12 ранку
January 26, 2026 at 04:12AM

Залишити відповідь