EMO-BOOST: Emotion-Augmented Audio-Visual Features for Improved Generalization in Deepfake Detection

від

у

EMO-BOOST: Емоціє-Аґментовані аудіовізуальні ознаки для покращеної узагальненості в детекції дипфейків

https://ift.tt/jCNe8As

З кожним розвитком генеративних моделей ШІ для форенсики стає дедалі більш вимогливим. Постійне появлення нових технік генерації робить неможливим збір даних для кожної маніпуляції з метою навчання моделі детекції дипфейків. Тому узагальнення на дипфейки, які не зустрічалися під час навчання, є однією з головних проблем сучасних досліджень у детекції дипфейків. Щоб впоратися з цією проблемою, ми застосовуємо високорівневі семантичні підказки та стверджуємо, що ці підказки можуть підтримувати низькорівневі сфокусовані підходи з узагальненням на невідомі типи маніпуляцій. У цій роботі ми досліджуємо емоції як високорівневу семантичну підказку. Ми пропонуємо Emo-Boost, мультимодальний фреймворк детекції дипфейків, який поєднує готовий з коробки RGB- та акустично-орієнтований детектор дипфейків із нашим емоційним детектором дипфейків EmoForensics. EmoForensics використовує модулі розпізнавання емоцій з зображення та аудіо та моделює внутрішньо- та міжмодальну часову узгодженість в емоційних поданнях з аудіовізуального потоку. Ми виявили, що EmoForensics та низькорівневий сфокусований метод зчитують взаємодоповнювані сигнали. Відтак поєднання обох сигналів у EmoBoost покращує середній показник узагальнення за межами маніпуляцій (AUC) на 2.1% на FakeAVCeleb.

HI-FI News

через Штучний Інтелект https://ift.tt/xneOgwm

20 травня 2026 р. о 05:24AM

May 20, 2026 at 05:24AM


Коментарі

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *