Zero-Shot to Zero-Lies: Detecting Bengali Deepfake Audio through Transfer Learning

від

у

Нульове висновування до нульових обманів: Виявлення бенгальського аудіо-глибоких фейків за допомогою перенесеного навчання

Швидкий розвиток систем синтезу мови та конвертації голосу зробив аудіо-глибокі фейки серйозною загрозою безпеці. Виявлення бенгальських глибоких фейків залишається значною мірою невивченим. У цій роботі ми вивчаємо автоматичне виявлення бенгальських аудіо-глибоких фейків за допомогою набору даних BanglaFake. Ми оцінюємо нульове висновування з кількома попередньо натренованими моделями. До них належать Wav2Vec2-XLSR-53, Whisper, PANNsCNN14, WavLM та Audio Spectrogram Transformer. Результати нульового висновування показують обмежену здатність до виявлення. Найкраща модель, Wav2Vec2-XLSR-53, досягає 53,80% точності, 56,60% AUC та 46,20% EER. Потім ми налаштовуємо кілька архітектур для виявлення бенгальських глибоких фейків. До них належать Wav2Vec2-Base, LCNN, LCNN-Attention, ResNet18, ViT-B16 та CNN-BiLSTM. Налаштовані моделі показують сильний приріст продуктивності. ResNet18 досягає найвищої точності 79,17%, F1-оцінки 79,12%, AUC 84,37% та EER 24,35%. Експериментальні результати підтверджують, що налаштування значно покращує продуктивність у порівнянні з нульовим висновуванням. Це дослідження надає перший систематичний еталон виявлення бенгальського аудіо-глибоких фейків. Воно підкреслює ефективність налаштованих моделей глибокого навчання для цієї мови з обмеженими ресурсами.

December 29, 2025 at 04:14AM


Коментарі

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *