Stability AI’s New Audio Tool Builds Full Six-Minute Songs

від

у

Stability AI випускає новий аудіотехнологічний інструмент, який складає цілі пісні тривалістю до шести хвилин

https://ift.tt/90dbHvz

Stability AI, студія, яка створила Stable Diffusion, випустила новий ряд аудіомоделей під назвою Stable Audio 3.0. Головна риса: її найсильніша модель пише готову, студійної якості музику, що триває понад шість хвилин, згідно з компанією.

Stable Audio 3.0.

Stable Audio 3.0.

Stable Audio 3.0. Зображення: Stability AI

Ключові висновки:

  • Stable Audio 3.0 включає чотири моделі, три з яких з відкритими вагами, всі навчалися на повністю ліцензійних музичних даних.
  • Середня та велика моделі складають треки тривалістю до 6 хвилин 20 секунд, що більш ніж вдвічі перевищує можливості версії 2024 року.
  • Одна мала модель може писати повні пісні безпосередньо на телефоні або ноутбуку, без потреби підключення до хмари.

Сімейство розділяється на чотири моделі, призначені для різних завдань. Є мала модель SFX та мала модель, обидві з 459 мільйонами параметрів, плюс середня модель на 1,4 мільярда та велика на 2,7 мільярда. Дві малі моделі обробляють звук та генерацію музики до двох хвилин, їх легке використати на пристрої, який у вас already є.

Середня та велика моделі йдуть далі. Кожна може створити повну композицію тривалістю 6 хвилин 20 секунд, зберігаючи форму та мелодичний тон стабільно протягом усього часу. Це більш ніж вдвічі довше, ніж Stable Audio 2.0 могла зафіксувати під час запуску у 2024 році.

Три з чотирьох з’являються з відкритими вагами, вільними для завантаження, запуску та модифікації: малі SFX, малі та середня. У 2024 році Stability випустила Stable Audio Open, що досягала 47 секунд музики. Перехід тут є значним. За словами компанії, мала модель є єдиною, яка може написати повний музичний трек повністю на пристрої, тобто автономна генерація більше не зупиняється на коротких зразках.

Велика модель працює по-іншому. До неї можна дістатися лише через API або платну самостійну хостинг, а будь-яка компанія з доходом понад 1 мільйон доларів потребує корпоративної ліцензії для комерційного використання.

Багато конкурентів заповнюють ринок генерації музики, серед яких Google та ElevenLabs. Але судові розгляди навколо Suno та Udio зробили одне очевидне: забезпечення прав на дані та укладання угод із музичними лейблами може визначити, які з цих сервісів виживуть. Здається, Stability це зрозуміла вже раніше. Минулого року компанія підписала угоди з Warner Music Group та Universal Music Group для спільної розробки моделей та інструментів створення, і заявляє, що вся ця сімейство моделей ґрунтується на повністю ліцензованих даних.

За спеціальною ліцензією Stability AI Community License компанія заявляє, що ви володієте тим, що створюєте, і можете продавати або розповсюджувати це вільно. Організації з доходом понад 1 мільйон доларів переходять на Enterprise License, яка також забезпечує юридичну відповідальність. За словами Stability, інші відкриті музичні моделі “або обмежують комерційне використання, або несуть ризики, пов’язані з навчанням на неліцензійній музиці.”

Технічна основа — це нова архітектура, яку компанія описує як “новий семантико-акустичний автоенкодер,” завдяки чому моделі можуть розтягувати аудіо далі та регулювати його більш гнучко. Тривалість генерації масштабується до секунди, тож ви просите саме ту тривалість, яку хочете. Мала версія 3.0 writes до двох хвилин, різко зростаючи порівняно з 11 секундами Stable Audio Open Small та 47 секундами Stable Audio Open.

Є ще більше під капотом для тих, хто хоче тюнінгувати. моделі підтримують навчання LoRa, ефективний метод тонкої настройки, спочатку популярний у генерації зображень, а тепер поширюється на аудіо, дозволяючи адаптувати модель до власної аудіотеми. Stability публікує документацію з навчання LoRa разом з вагами для 3.0 Small та 3.0 Medium. Архітектура також підтримує інпейтинг аудіо: редагування одного сегмента, одночасна переробка кількох або розширення композиції за межі її оригінального закінчення без початку з нуля.

Stability висвітлює відкритий реліз в знайомих термінах. “Музика завжди еволюціонує завдяки спільній творчості її спільноти,” – написала компанія, посилаючись на ремікс-культури, інтерполяції та махапи як способи, за якими художники будують одне на одному. Вона хоче, щоб генеративне аудіо зростало так само, як зросла генерація зображень після Stable Diffusion. “Ми вважаємо, що найкращі інновації ще чекають на створення,” – додала компанія.

Цей відкритий ряд також є базовим табором. Stability говорить, що вже будує наступне покоління повністю ліцензійних аудіо-моделей, призначених для професіоналів, утім окремий пакет продуктів для працюючих музикантів, хоча деталі зрихтовано. Етан Каплан, раніше головний цифровий директор Universal Audio та Fender, приєднується, щоб очолити ці професійні музичні зусилля.

Компанія відверто говорить про ставки за ліцензійований штучний інтелект. Як сказано, “AI, орієнтований на художника, переможе лише тоді, коли досвід продукту на ліцензійній платформі буде кращим за досвід на ліцензійній платформі.” Відповідальне навчання, іншими словами, відкриває двері, але продукт все одно має бути якісним.

Stable Audio 3.0 Small та Medium доступні на Hugging Face. Велика модель працює через Stability AI API та самостійний хостинг для корпоративних установок.

Написано Аліус Нореіка

HI-FI News

через Technology Org https://ift.tt/KQTqkt8

21 травня 2026 р. о 09:52 за місцевим часом

May 21, 2026 at 09:52AM


Коментарі

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *