From Talking to Singing: A New Challenge for Audio-Visual Deepfake Detection

від

у

Від розмови до співу: новий виклик для детекції аудіо-візуальних дипfake
https://ift.tt/53l8GNU

Завдяки швидким досягненням у генеративних моделях з аудіо- та візуальними даними, надійна детекція підробок стає дедалі важливішою. Існуючі методи детекції аудіо-візуальних дипфейків зазвичай покладаються на міжмодальні невідповідності. У піснях ритмічна вокалізація ослаблює цей зв’язок і вносить суттєвий зсув домену, що суттєво погіршує продуктивність детекції. Ми зібрали набір даних Singing Head DeepFake (SHDF) за допомогою генеративних моделей, чутливих до ритму, щоб заповнити прогалину у benchmarks для співу. Щоб впоратися з міжсценарними зсувами доменів, ми запропонували рамку Text-guided Audio-Visual Forgery Detection (T-AVFD), яка узгоджується з обома сценаріями говоріння та співу. T-AVFD складається з навчальника патернів автентичності обличчя та модуля навчання різних ваг для мультимодальності. Навчальник патернів синхронізує ознаки обличчя з багатомірними текстовими описами для навчання узагальнюваних патернів автентичності. Модуль навчання ваг зберігає внутрішню аудіовізуальну узгодженість та адаптивно інтегрує її з патернами автентичності за допомогою диференційного зважування. Розгорнуті експерименти на кількох наборах даних дипфейків із ведучими головами та SHDF демонструють стабільне покращення порівняно з існуючими базовими лініями та високу стійкість до різноманітних збурень.

HI-FI News
через Штучний інтелект
https://ift.tt/C06M1Os

27 травня 2026 р. о 05:46.

May 28, 2026 at 05:46AM


Коментарі

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *