Towards Explicit Acoustic Evidence Perception in Audio LLMs for Speech Deepfake Detection

від

у

До явного сприйняття акустичних доказів у аудіо LLM для виявлення мовних дипфейків

https://ift.tt/LnGsu1x

Виявлення мовних дипфейків (SDD) зосереджується на визначенні того, чи є даний сигнал мовлення справжнім, чи синтетично згенерованим. Існуючі методи на основі великих аудіо-моделей мови (LLM) відзначаються у розумінні змісту; однак їхні передбачення часто схиляються до семантично корельованих ознак, через що дрібні акустичні артефакти залишаються поза увагою під час прийняття рішень. У результаті, фальшиве мовлення з природною семантикою може обійти детектори, незважаючи на наявність тонких акустичних аномалій; це свідчить, що проблема полягає не в відсутності акустичних даних, а в їхній недостатній доступності, коли переважає семантично домінуюче мислення. Щоб вирішити цю проблему, ми досліджуємо SDD у парадигмі аудіо LLM та запроваджуємо SDD з Аудиторно-Сприйняттєвою Посиленою Аудіо-Великимою Мовною Моделлю (SDD-APALLM) — акустично посилений каркас, розроблений для явного висвітлення дрібних часово-частотних доказів як доступних акустичних ознак. Поєднуючи сире аудіо з структурованими спектрограмами, запропонований фреймворк надає аудіо-LLM можливість більш ефективно уловлювати тонкі акустичні розбіжності без шкоди для їхнього семантичного розуміння. Експериментальні результати свідчать про стабільне зростання точності виявлення та стійкості, особливо у випадках, коли семантичні ознаки вводять у оману. Подальший аналіз показує, що ці покращення виникають з координованого використання семантичної та акустичної інформації, на відміну від простого об’єднання модальностей.

HI-FI News

via Artificial Intelligence https://ift.tt/VFtxiOL

2 лютого 2026 року о 04:13 ранку

February 2, 2026 at 04:13AM


Коментарі

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *