Voice AI Systems Are Vulnerable to Hidden Audio Attacks

Системи голосового штучного інтелекту вразливі до прихованих аудіо-атак

AI-послуги голосу та аудіо стають дедалі більш інтегрованими у повсякденне життя: від цифрових помічників до смарт-абонентів та ботів обслуговування клієнтів. Зростають можливості великих аудіо- language моделей (LALMs), які можуть як аналізувати, так і генерувати аудіо, тепер роблять можливим керування пристроями за допомогою голосових команд, автоматично розшифровувати наради або визначати пісню, що лунає на фоні. Ці моделі також все частіше оснащуються здатністю взаємодіяти з зовнішніми сервісами та керувати іншими додатками та інструментами.

Але ці інструменти можуть бути «викрадені» за допомогою непомітних звуків, embedded у аудіо, змушуючи їх виконувати несанкціоновані команди без відома користувача. Нові дослідження, які буде представлено на IEEE Symposium on Security and Privacy у Сан-Франциско наступного тижня, показують, що змінений аудіокліп, невидимий для людського вуха, може маніпулювати поведінкою моделі з середньою успішністю від 79 до 96 відсотків. Шкірки розроблені так, щоб працювати незалежно від того, які інструкції надає користувач поряд із аудіо, тобто їх можна повторно використовувати для атаки тієї самої моделі кілька разів.

Автори перевірили підхід проти 13 провідних відкритих моделей, включаючи комерційні AI-голосові сервіси від Microsoft та Mistral, і показали, що їх можна змусити моделі проводити чутливі веб-пошуки, завантажувати файли з джерел, контрольованих нападником, та надсилати електронні листи з даними користувача.

«Знадобиться лише півгодини, щоб натренувати цей сигнал, а потім, оскільки цей сигнал контекстно-агностичний, його можна використовувати для атаки цільової моделі тоді, коли завгодно, не зважаючи на те, що говорить користувач», — говорить провідний автор Meng Chen, аспірант університету Чжецзян в Китаї.

Як відбуваються атаки за допомогою протидією аудіо

Дослідження ґрунтується на багатьох роках роботи над «адверсаріальними аудіо-екземплярами» — аудіо, зміненому для обману моделей машинного навчання. Попередні роботи зосереджувались переважно на тому, як ці файли можуть спричиняти неправильні прогнози в моделях, які виконують завдання односторонньої обробки, такі як розпізнавання мови або класифікація аудіо.

Що вирізняє цю нову роботу, за словами Чена, це те, що вона націлена на генеративні моделі, здатні виробляти відповіді та виконувати дії. Їхня техніка, називана AudioHijack, експлуатує критичну вразливість безпеки в дизайні LALM: оскільки ці моделі можуть приймати інструкції у аудіо-форматі, зловмисні інструкції можуть бути заховані у маніпульованих кліпах, щоб викликати широкий спектр небажаних поведінкових реакцій.

Багато попередніх атак на генеративні моделі вимагали від атакувальника повного контролю над фінальним аудіовходом та оригінальними інструкціями, даними моделі, тобто фактично виступали користувачем. Тут атакувальник маніпулює лише аудіоданими, які обробляються моделлю, що дозволяє атакувати модель під час її використання іншою особою.

Приклади з реального світу включають приховування шкідливих інструкцій у онлайн-відео, музичних кліпах або голосових нотатках, які користувачі питають у ШІ, або мовлення шкідливого аудіо під час дзвінка Zoom, яке потім завантажується до сервісів транскрипції ШІ. Чен каже, що більш пізні не оприлюднені дослідження також продемонстрували здатність вводити свої шкідливі аудіо у живий голосовий чат з ШІ у реальному часі.

Дослідники використали випробуваний підхід до створення адверсаріальних прикладів. Це передбачає коригування чисельних значень, що представляють форму хвилі у цифровому аудіофайлі таким чином, щоб не значно змінювати звучання, але викликати непередбачувану поведінку моделі, коли дані обробляються. Техніка спирається на алгоритм оптимізації, який багато разів підлаштовує аудіокліп, вимірює вплив на відповідь моделі, а потім використовує цей сигнал для подальшого корегування аудіо, доки модель не зробить те, що хоче нападник.

Цільові генеративні аудіо-моделі

Застосування цього до генеративних моделей становить серйозну проблему. Старіші AI-системи надають детальний зворотний зв’язок про те, як малі зміни у сирому аудіо впливають на відповіді. Генеративні моделі, однак, ділять аудіо на шматки і призначають їм числові представленя під назвою «токени», відображаючи кожен фрагмент до найближчого відповідника. Це грубший процес, що ускладнює визначення того, чи зміна приближила модель до бажаної поведінки, чим ускладнює роботу алгоритму оптимізації. Тож Чен та колеги розробили спосіб наближеної оцінки тонкого зворотного зв’язку, необхідного для того, щоб алгоритм оптимізації міг регулювати маніпуляцію.

Це вимагало повного доступу до моделі, обмежуючи дослідників відкритими моделями з публічно доступними вагами. Проте вони виявили, що атаки, розроблені для відкритих моделей, перейшли на комерційні моделі від Microsoft та Mistral, які мають спільну базову архітектуру.

У відповідь на запит про коментарі представник Microsoft сказав: «Ми вдячні за роботу дослідників з метою поглибити розуміння цього типу техніки. Це дослідження оцінює стійкість моделі через контрольовані прямі взаємодії з самою моделлю, що допомагає інформувати наш підхід до відновлення стійкості моделі. На практиці AI-моделі часто інтегруються у користувацькі застосунки, й ми надаємо розробникам інструменти та поради, які вони можуть використати для впровадження додаткових рівнів захисту, що допомагають захистити користувачів».

Mistral не відповіло на запит про коментарі до моменту публікації.

Зробити AudioHijack більш ефективним

Атака проприєтярі closed-моделі від компаній, таких як OpenAI та Anthropic, набагато складніша через обмежену публічну інформацію про їхні архітектури. Але ці моделі часто використовують компоненти з відкритим кодом — такі як попередньо навчені аудіо-енкодери — які також можуть бути таргетовані аналогічно, над чим команда зараз працює.

Щоб забезпечити, що атака працюватиме незалежно від інструкцій користувача поруч із шкідливим аудіокліпом, дослідники поєднали аудіокліп з різними інструкціями користувача на кожен раунд процесу оптимізації.

Вони також знайшли спосіб заволодіти механізмом уваги моделі, компонентом, який допомагає моделі визначати частини аудіо, які релевантні завданню. Дослідники ввели міру того, скільки уваги приділяє модель шкідливому аудіо порівняно з інструкціями користувача на кожному кроці, використовуючи це у процесі оптимізації, щоб створювати зразки, які привертають більшої уваги від моделі.

Щоб зробити маніпуляції важче виявити людським слухачем, дослідники використали техніку, яку вони раніше розробили, що змушує звук аудіо звучати як природна реверберація. Це складніше для людей виявити, ніж попередні підходи, які додавали шум до вихідного сигналу.

Тестування на сучасних AI-аудіо-моделях

Команда продемонструвала шість категорій атак: змусити модель стверджувати, що вона не може обробляти аудіо, відмовити у виконанні запитів користувача, відповіді з неправдивою інформацією, вставляти шкідливі посилання, змінювати персоналію моделі та ініціювати несанкціоноване використання інструментів.

І, на жаль, підхід виявився стійким до поширених захистів. Надання моделям прикладів шкідливих інструкцій, на які слід звертати увагу, зменшувало успішність атаки всього на 7 відсотків, тоді як прохання моделі розмірковувати, чи відповіді відповідають інструкціям користувача, ловило лише 28 відсотків атак.

«Ці захисні механізми на одній точці неефективні проти нашої атаки через те, що моделі важко відрізнити нормальний намір користувача від атаки нашого зловмисника», — каже Чен.

Єдиною ефективною тактикою було моніторинг внутрішніх механізмів уваги моделей, щоб виявляти спроби AudioHijack спрямувати увагу на шкідливе аудіо. Проте дослідники показали, що зловмисник, який усвідомлює цю оборону, може зменшити маніпуляцію увагою за рахунок незначного зменшення успішності атаки.

У реальному світі такий вид аудіо-атаки буде стикається з додатковими викликами, такими як компресія та різні післяобробні механізми, які можуть погіршити сигнали, каже Eugene Bagdasarian, асистент-професор компʼютерних наук у Університеті Массачусетса в Амхерсті. Але він зазначає, що багатомодальні атаки на моделі AI залишаються суттєво нерозв’язаною проблемою.

«З текстовими даними ми можемо зрозуміти, що щось не так (особливі символи, підозрілі речення тощо), але аудіомодальність справді складна для розуміння через обмеженість нашого слуху», — пише він у листі.

HI-FI News

через IEEE Spectrum

24 січня 2026 року

(див. історію та посилання вище)

May 18, 2026 at 12:00PM

Voice AI Systems Are Vulnerable to Hidden Audio Attacks

Коментарі

Залишити відповідь Скасувати коментар