FlowFake: рідинні мережі для виявлення аудіо-факапів на основі глибокого навчання
https://ift.tt/7jY4H9E
Аудіо-факи, створені за допомогою нейронних систем синтезу тексту в мову та клонування голосу, становлять загрозу верифікації спікера та публічному дискурсу у масштабі. Основна проблема — узагальнення між наборами даних: детектори, навчені на одному конвейєрі синтезу, падають на невідомих підробках. Ми стверджуємо, що ця помилка зумовлена переважно структурними артефактами синтетичної мови, які є аномаліями траєкторій на кількох масштабах часу. Хоча кожен існуючий детектор агрегує статистику фреймів у фіксованому вікні, це відхиляє архітектуру від сигналу. Ми пропонуємо FlowFake, архітектуру рідинного часу-сталого (LTC), чия прихована станова величина еволюціонує через навчений ОДУ, з адаптивними за нейрон періодами часу одночасно вирішуючи спектральні (10 мс) та просодичні (2 с) ознаки. За всього 34К параметрів FlowFake досягає формальної стабільності BIBO та інтеграційної помилки O(dt^4). У чотирьох наборах даних для крос-доменної оцінки (ASVspoof2019-LA, FakeOrReal, InTheWild, MLAAD) FlowFake досягає 75.29% на ASVspoof2019, навчавшись лише на FakeOrReal, та 79.97% — навчавшись лише на MLAAD. Він перевершує RawGAT-ST та Whisper-DF у кожній оцінюваній парі та відповідає за параметрами SSL Wav2vec2 (у 300 разів більший) за 0.01% від їх кількості параметрів. Вихідний код доступний на: https://ift.tt/Jexv5Qh
HI-FI News
через ШІ https://ift.tt/vYQa9Pz
19 червня 2026 року о 05:13 за Київським часом
June 19, 2026 at 05:13AM

Залишити відповідь