EMO-BOOST: Емоціє-Аґментовані аудіовізуальні ознаки для покращеної узагальненості в детекції дипфейків
https://ift.tt/jCNe8As
З кожним розвитком генеративних моделей ШІ для форенсики стає дедалі більш вимогливим. Постійне появлення нових технік генерації робить неможливим збір даних для кожної маніпуляції з метою навчання моделі детекції дипфейків. Тому узагальнення на дипфейки, які не зустрічалися під час навчання, є однією з головних проблем сучасних досліджень у детекції дипфейків. Щоб впоратися з цією проблемою, ми застосовуємо високорівневі семантичні підказки та стверджуємо, що ці підказки можуть підтримувати низькорівневі сфокусовані підходи з узагальненням на невідомі типи маніпуляцій. У цій роботі ми досліджуємо емоції як високорівневу семантичну підказку. Ми пропонуємо Emo-Boost, мультимодальний фреймворк детекції дипфейків, який поєднує готовий з коробки RGB- та акустично-орієнтований детектор дипфейків із нашим емоційним детектором дипфейків EmoForensics. EmoForensics використовує модулі розпізнавання емоцій з зображення та аудіо та моделює внутрішньо- та міжмодальну часову узгодженість в емоційних поданнях з аудіовізуального потоку. Ми виявили, що EmoForensics та низькорівневий сфокусований метод зчитують взаємодоповнювані сигнали. Відтак поєднання обох сигналів у EmoBoost покращує середній показник узагальнення за межами маніпуляцій (AUC) на 2.1% на FakeAVCeleb.
HI-FI News
через Штучний Інтелект https://ift.tt/xneOgwm
20 травня 2026 р. о 05:24AM
May 20, 2026 at 05:24AM

Залишити відповідь