
Meta AI презентує SAM Audio: Передова єдина модель, яка використовує інтуїтивні та багатоформатні запити для розділення звуку
Meta випустила SAM Audio, модель для розділення звуку, що керується запитами, яка вирішує поширене завдання редагування — ізоляцію одного звуку з реального міксу без створення кастомної моделі для кожного класу звуку. Meta випустила три основні версії: sam-audio-small, sam-audio-base та sam-audio-large. Модель доступна для завантаження та тестування у Segment Anything Playground.
Архітектура
SAM Audio використовує окремі енкодери для кожного сигналу умови: аудіоенкодер для міксу, текстовий енкодер для опису природною мовою, спан-енкодер для часових якорів та візуальний енкодер, який отримує візуальний запит із відео, плюс маску об’єкта. Закодовані потоки об’єднуються в часово вивірені характеристики, потім обробляються дифузійним трансформером, який застосовує самоуправління до часово вивіреного представлення та крос-увагу до текстової особливості, після чого декодер DACVAE відтворює звукові хвилі та видає два виходи: цільовий аудіосигнал та резидуальний аудіосигнал.
Що робить SAM Audio і що означає «сегмент» тут?
SAM Audio бере вхідний запис, який містить кілька перекриваючихся джерел, наприклад, мову, трафік та музику, і відокремлює цільове джерело на основі запиту. У публічному API інференції модель Produces 2 виходи: result.target та result.residual. Дослідницька команда описує target як ізольований звук, а residual як усе інше.
Цей інтерфейс target плюс residual безпосередньо відображається на операціях редагування. Якщо ви хочете видалити гавкіт собаки з підкасту, ви можете вважати гавкіт ціллю, а потім відняти його, зберігши тільки резидуальне. Якщо ви хочете витягти гітарну партію з концертного кліпу, ви замість цього зберігаєте цільову звукову хвилю. Meta використовує саме такі приклади, щоб пояснити, що має на увазі модель.
Три типи запитів, які постачає Meta
Meta позиціонує SAM Audio як єдину об’єднану модель, яка підтримує три типи запитів, і стверджує, що ці запити можуть використовуватися окремо або в комбінації.
Текстове запрошення: Ви описуєте звук природною мовою, наприклад, «гавкіт собаки» або «спів», і модель відокремлює цей звук від міксу. Meta вважає текстові запити одним з основних режимів взаємодії, а відкритий репозиторій містить приклад кінцевого використання із SAMAudioProcessor та model.separate.
Візуальне запрошення: Ви натискаєте на особу або об’єкт у відео та просите модель ізолювати аудіо, пов’язане з цим візуальним об’єктом. Команда Meta описує візуальне запрошення як вибір звучачого об’єкта у відео. У випущеному коді візуальне запрошення реалізується шляхом передачі відеофреймів плюс масок у процесор через masked_videos.
Спан-запрошення: Команда Meta називає спан-запрошення першим у своєму роді в індустрії. Ви позначаєте часові сегменти, де відбувається цільовий звук, потім модель використовує ці спани для керування розділенням. Це важливо для неоднозначних випадків, наприклад, коли той же інструмент з’являється в кількох фрагментах, або коли звук присутній лише коротко, і ви хочете запобігти надмірному розділенню.
Результати
Команда Meta позиціонує SAM Audio як досягнення передового рівня продуктивності в різних реальних сценаріях і представляє його як єдину альтернативу однопорядковим аудіоінструментам. Команда публікує суб’єктивну таблицю оцінювання за категоріями: General, SFX, Speech, Speaker, Music, Instr(wild), Instr(pro), з загальними балами 3,62 для sam audio small, 3,28 для sam audio base і 3,50 для sam audio large, а також бали Instr(pro) досягають 4,49 для sam audio large.
Основні висновки
SAM Audio — це єдина модель для розділення звуку, яка сегментує звук з комплексних міксів, використовуючи текстові запити, візуальні запити та запити за часовими інтервалами.
Основний API генерує дві звукові хвилі на запит: цільову для ізольованого звуку та резидуальну для всього іншого, що чітко відображає звичайні операції редагування, такі як видалення шуму, витяг стем або збереження амбієнту.
Meta випустила кілька контрольних точок і варіантів, включаючи sam-audio-small, sam-audio-base, sam-audio-large, а також TV-варианти, які, за словами репозиторію, показують кращі результати для візуального запрошення. Репозиторій також публікує суб’єктивну таблицю оцінювання за категоріями.
Випуск включає інструменти не тільки для інференції; Meta надає модель sam-audio-judge, яка оцінює результати розділення відповідно до текстового опису за загальною якістю, відтворенням, точністю та вірністю.
Перегляньте технічні деталі та сторінку GitHub. Не соромтеся також ознайомитися з нашою сторінкою GitHub для навчальних посібників, кодів і записників. Також не забудьте підписатися на нас у Twitter і приєднатися до нашого понад 100,000 підрозділу ML у Reddit та підписатися на наш бюлетень. Зачекайте! Ви в Telegram? Тепер ви також можете приєднатися до нас у Telegram.
December 17, 2025 at 06:55PM

Залишити відповідь