Multi-Speaker Conversational Audio Deepfake: Taxonomy, Dataset and Pilot Study

Лют 3, 2026

—

від

Глибокі підробки аудіо з багатоголосою розмовою: таксономія, набір даних та пілотне дослідження

https://ift.tt/I6BLvwe

Швидкий розвиток технологій перетворення тексту на мову (TTS) зробив аудіо‑глибокі підробки все більш реалістичними та доступними, що піднімає значні питання безпеки та довіри. Хоча існуючі дослідження здебільшого зосереджені на виявленні аудіо‑підробок з однією мовцем, реальні зловмисні застосунки у багатоголосних розмовних контекстах також з’являються як значна недосліджена загроза. Щоб заповнити цю прогалину, ми пропонуємо концептуальну таксономію багатоголосих розмовних аудіо‑глибоких підробок, відрізняючи часткові маніпуляції (зміна одного або кількох учасників) та повні маніпуляції (цілі розмови синтезовані). На першому кроці ми вводимо новий набір даних багатоголосих розмовних аудіо‑глибоких підробок (MsCADD) із 2 830 аудіокліпами, що містять реальні та повністю синтетичні розмови між двома учасниками, згенеровані за допомогою моделей на основі VITS та SoundStorm, заснованих на NotebookLM, для імітації природного діалогу з варіаціями у статі говоріння та спонтанності розмови. MsCADD обмежено до типів глибоких підробок через синтез мови (TTS). Ми порівнюємо три нейронні базові моделі: LFCC-LCNN, RawNet2 та Wav2Vec 2.0 на цьому наборі даних і повідомляємо показники у термінах F1‑міри, точності, показника істинних позитивів (TPR) та показника істинних негативів (TNR). Результати свідчать, що ці базові моделі забезпечили корисний еталон, однак вони також підкреслюють, що існує значний розрив у дослідженні багатоголосих глибоких підробок щодо надійного виявлення синтетичних голосів за різних розмовних динаміках. Наш набір даних та еталони забезпечують основу для майбутніх досліджень з виявлення підробок у розмовних сценаріях, що є дуже недослідженою областю, але також суттєвою загрозою для надійності аудіоінформації. Набір MsCADD є загальнодоступним, щоб підтримати відтворюваність та бенчмаркінг дослідницькою спільнотою.

HI-FI News

через штучний інтелект https://ift.tt/OKuJQ7k

3 лютого 2026 р. о 05:42 ранку

February 3, 2026 at 05:42AM

Multi-Speaker Conversational Audio Deepfake: Taxonomy, Dataset and Pilot Study

Коментарі

Залишити відповідь Скасувати коментар