Audio ControlNet for Fine-Grained Audio Generation and Editing

від

у

Audio ControlNet для дрібнозернистого управління генерацією та редагуванням аудіо

https://ift.tt/FdxvBhC

Ми досліджуємо завдання дрібнозернистої генерації тексту в аудіо (T2A). Хоча нещодавні моделі можуть синтезувати високоякісний аудіо за текстовими описами, вони часто не мають точного контролю над такими атрибутами, як гучність, висота тону та звукові події. На відміну від попередніх підходів, які повторно навчають моделі під конкретні типи контролю, ми пропонуємо навчати моделі ControlNet на базі попередньо навчених моделей T2A, щоб досягти контрольованої генерації над гучністю, висотою тону та подіями. Ми представляємо дві конструкції, T2A-ControlNet та T2A-Adapter, і показуємо, що модель T2A-Adapter забезпечує більш ефективну структуру з потужними можливостями контролю. Лише з додатковими 38 млн параметрів T2A-Adapter досягає передових результатів на AudioSet-Strong як за рівнем подій, так і за рівнем сегментів за F1-оцінками. Далі ми розширюємо цю рамку до редагування аудіо, пропонуючи T2A-Editor для видалення та вставлення аудіо-подій у часових позиціях, заданих інструкціями. Моделі, код, пайплайни даних та бенчмарки будуть випущені, щоб підтримати майбутні дослідження з керованої генерації та редагування аудіо.

HI-FI News

через штучний інтелект https://ift.tt/kbG1TRZ

5 лютого 2026 року об 04:11 ранку

February 5, 2026 at 04:11AM


Коментарі

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *