X-AVDT: Audio-Visual Cross-Attention for Robust Deepfake Detection

Бер 10, 2026

—

від

X-AVDT: Аудіо-відео перехресна увага для надійного виявлення глибоких підробок

https://ift.tt/FeiGZBY

Зростання кількості надзвичайно реалістичних синтетичних відео, створених сучасними генеративними системами, значно підвищує ризик зловмисного використання, створюючи виклики як для людей, так і для існуючих детекторів. У цьому контексті ми беремо погляд зі сторони генератора і спостерігаємо, що внутрішні механізми перехресної уваги в цих моделях зберігають тонку узгодженість мовлення та руху, що надає корисні ознаки відповідності для виявлення підробок. Спираючись на це розуміння, ми пропонуємо X-AVDT, надійний та загальновживаний детектор глибоких підробок, який досліджує внутрішні аудіовізуальні сигнали генератора, доступні через інверсію DDIM, щоб розкрити ці ознаки. X-AVDT видобуває дві доповнювальні сигнали: (i) відеопоміжний композиційний сигнал, що фіксує відмінності, викликані інверсією, та (ii) ознаку перехресної уваги аудіо-відео, що відображає узгодження модальностей, яке забезпечується під час генерації. Для забезпечення достовірної оцінки між різними генераторами ми також вводимо MMDF, новий мультимодальний датасет глибоких підробок, що охоплює різноманітні типи маніпуляцій та швидко розвиваються парадигми синтезу, включаючи GANs, дифузію та сумісність потоків. Різноманітні експерименти демонструють, що X-AVDT досягає провідної продуктивності на MMDF та сильно узгоджується з зовнішніми бенчмарками та невидимими генераторами, випереджаючи існуючі методи з точністю, що зросла на 13,1%. Наші висновки підкреслюють важливість використання внутрішніх ознак консистентності аудіо-відео для надійності до майбутніх генераторів у виявленні глибоких підробок.

HI-FI News

через штучний інтелект https://ift.tt/z71eiQf

10 березня 2026 року о 05:00 ранку

March 10, 2026 at 05:00AM

X-AVDT: Audio-Visual Cross-Attention for Robust Deepfake Detection

Коментарі

Залишити відповідь Скасувати коментар