Від розмови до співу: новий виклик для детекції аудіо-візуальних дипfake
https://ift.tt/53l8GNU
Завдяки швидким досягненням у генеративних моделях з аудіо- та візуальними даними, надійна детекція підробок стає дедалі важливішою. Існуючі методи детекції аудіо-візуальних дипфейків зазвичай покладаються на міжмодальні невідповідності. У піснях ритмічна вокалізація ослаблює цей зв’язок і вносить суттєвий зсув домену, що суттєво погіршує продуктивність детекції. Ми зібрали набір даних Singing Head DeepFake (SHDF) за допомогою генеративних моделей, чутливих до ритму, щоб заповнити прогалину у benchmarks для співу. Щоб впоратися з міжсценарними зсувами доменів, ми запропонували рамку Text-guided Audio-Visual Forgery Detection (T-AVFD), яка узгоджується з обома сценаріями говоріння та співу. T-AVFD складається з навчальника патернів автентичності обличчя та модуля навчання різних ваг для мультимодальності. Навчальник патернів синхронізує ознаки обличчя з багатомірними текстовими описами для навчання узагальнюваних патернів автентичності. Модуль навчання ваг зберігає внутрішню аудіовізуальну узгодженість та адаптивно інтегрує її з патернами автентичності за допомогою диференційного зважування. Розгорнуті експерименти на кількох наборах даних дипфейків із ведучими головами та SHDF демонструють стабільне покращення порівняно з існуючими базовими лініями та високу стійкість до різноманітних збурень.
HI-FI News
через Штучний інтелект
https://ift.tt/C06M1Os
27 травня 2026 р. о 05:46.
May 28, 2026 at 05:46AM

Залишити відповідь