Stability AI’s Stable Audio 3.0 Doubles Song Length and Opens Weights to Experimenters

від

у

Stability AI’s Stable Audio 3.0 подвоює тривалість пісні та відкриває ваги для експериментаторів
https://ift.tt/xYCr57b

Stability AI щойно випустила сімейство аудіомоделей, які виводять генеровану музику у нову сферу. Компанія, що стоїть за Stable Diffusion, оголосила Stable Audio 3.0 у середу. Найбільша версія створює професійного рівня треки, що тривають понад шість хвилин. Це різко відрізняється від попередніх зусиль.

У релізі представлені чотири моделі. Вони варіюються від компактних версій із 459 мільйонами параметрів до великої моделі на 2,7 мільярда параметрів. Малі варіанти справляються зі звуковими ефектами та музикою. Обидві версії можуть працювати безпосередньо на телефонах або планшетах. Інтернет-з’єднання не потрібно. Вони дають до двох хвилин вихідного матеріалу.

Середні та великі моделі справляються ще більше. Вони генерують повні композиції тривалістю 6 хвилин і 20 секунд. Узгодженість зберігається. Мелодичні лінії лишаються послідовними. Музична структура зберігається від вступу до аутро. Ця можливість більш ніж подвоює те, що Stable Audio 2.0 доставляв у 2024 році.

Stability AI навчала все на ліцензованих даних. Компанія уклала партнера з Warner Music Group та Universal Music Group минулого року. Ці угоди мають значення зараз. Suno та Udio стикаються з судовими позовами щодо матеріалів для навчання. Судові процеси продовжують розглядати наслідки. TechCrunch повідомив, що ліцензування може вирішити, які аудіогенератори виживуть довгостроково.

Відкриті ваги супроводжують три з чотирьох моделей. Малі версії SFX, малу та середню можна завантажувати та модифікувати. Великі модель лишається за API та платним самохостингом. Компанії з доходом понад 1 мільйон доларів зобов’язані отримати корпоративну ліцензію. Користувачі володіють своїми виходами. Вони можуть розповсюджувати та комерціалізувати їх за допомогою Stability AI Community License до досягнення цього порогу доходу.

І час здається продуманим. Музичні лейбли дивляться на штучний інтелект з рівною часткою цікавості та обережності. Stability AI найняла Етана Каплана для керівництва його просуванням до професійних інструментів для музики. Каплан раніше обіймав посаду головного цифрового директора в Universal Audio та Fender. Інші генератори слідували подібним шляхам. Suno залучив колишнього CEO Merlin Джеремі Сироту на посаду комерційного директора. ElevenLabs додали Дерека Коурноєра з Kobalt.

Попередні версії підготували ґрунт. Stable Audio Open з 2024 року охопив лише 47 секунд у своїй відкритій релізії. Модель 2.0 досягла трьох хвилин, але вимагала більшої інфраструктури. Тепер маленька модель 3.0 запускається локально і все ще досягає двох хвилин. Такий зсув відкриває двері для мобільних творців та експериментування на пристрої.

Генерація різної тривалості додає гнучкості. Запити можуть вимагати від 30-секундних петль до майже альбомних творів. Особливо середня модель блищить у музикальності. Вона краще розуміє фразування, динаміку та тематичний розвиток. Виходи зберігають тон на протязі довших відрізків часу. Повтори виглядають навмисними, а не збоями.

Stability AI також докладно описала підтримку навчання LoRA вперше. Творцям дозволяється точно налаштовувати ці моделі на своїх власних аудіотеках. Документація пояснює процес. Компанія презентувала реліз як запрошення. “Це наша відкритна запрошення до експериментування з генеративним аудіо,” розмістила вона на X. “Ми вважаємо, що найкращі інновації все ще чекають на створення”.

Конкуренти заповнюють простір. Google розвиває свої Lyria-моделі. ElevenLabs розширює музичні функції. Але лише небагато пропонує відкриті ваги у такому масштабі у поєднанні з подовженим триванням. Ліцензійований датасет дає Stability AI нарративну перевагу серед напруженості галузі. Чи візьмуть лейбли ці інструменти та обмежать їх, залишаться невизначеними.

Billboard зазначив, що сімейство включає три музичні моделі й одну, призначену для аудіо-спеціальних ефектів. Варіант SFX націлений на звукових дизайнерів, які потребують швидких, контрольованих ефектів без повної структури пісні. Його маленький розмір робить його практичним для інтеграції в ігри чи відеоредактори на скромному обладнанні.

Crypto Briefing підкреслив, як 3.0 подвоює тривалість попередника, одночасно додаючи легку версію для побутових пристроїв. Такий комбінований підхід може прискорити впровадження за межами спеціалізованих аудіо робочих станцій. Хобісти, незалежні музиканти та продуктові команди отримують нові можливості.

Decoder звернув увагу на відкриту вагову стратегію як на відмінну рису. Три моделі поставляються без обмежень на використання або модифікацію. Лише найбільша залишає лише комерційне використання. Такий багаторівневий підхід відображає стиль роботи Stability AI з моделями для зображень. Він будував громадську динаміку, водночас захищаючи високопродуктивні можливості для платних клієнтів.

Індустріальні спостерігачі швидко звернули увагу. Пости на X розтиражували оголошення протягом кількох хвилин. Багато хто виділяв шість хвилин тривалості та ліцензовані дані для навчання. Деякі прямо порівнювали з триваючими судовими суперечками в іншій частині AI-музики. Розмови поєднували зацікавлення з питаннями щодо якості за повної тривалості.

Stability AI продовжує вдосконалювати свою професійну пропозицію. Деталі нових музикантських продуктів залишаються скромними. Очікуйте тіснішої інтеграції з цифровими робочими станціями для аудіо та інструментами відділення стемів. Компанія розуміє, що її успіх у генеруванні зображень зумовлений як відкритими моделями, так і корпоративними сервісами. Здається, аудіо йде тим самим шляхом.

Виклики залишаються. Узгодженість у довгій формі все ще випробовує кожного генератора. Шість хвилин випробовують терпіння та обчислювальні потужності. Мелодійні винаходи можуть збитися з курсу. Гармонічні прогресії іноді замикаються занадто передбачувано. Проте стрибок з менш ніж хвилини до понад шести є справжнім архітектурним прогресом. Дифузійні техніки еволюціонували. Підбір навчальних даних покращено. Інференс-оптимізації зроблено, щоб робота на пристрої була життєздатною.

Отже, питання зміщується. Як насправді музиканти будуть користуватися цими інструментами? Деякі запросять цілі треки та трохи відредагують. Інші створюватимуть стеми, накладатимуть їх вручну або повертатимимуть вихідні дані для повторної обробки. Шлях налаштування LoRA може виявитися найпотужнішим. Можливі персональні моделі голосу, навчені на приватних бібліотеках, можуть з’явитися. Тут також очікуються проблеми з авторським правом.

Крок Stability AI додає тиск на весь сектор. Відкрита доступність заохочує швидке експериментування спільноти. Очікуйте тонке налаштування, інтерфейси та плагіни протягом декількох днів. У той же час ліцензійний фундамент може заохрити лейбли досліджувати ліцензійні угоди, а не судові позови. Наступні кілька місяців покажуть, чи зберігатиметься цей баланс.

Єдине, що виглядає чітко. Генеративне аудіо перейшло ще одну межу. Треки довжиною, щоб заповнити вступ подкасту або підтримати рекламу без петль уже стали нормою. Моделі, що згодом з’являться, збудують на цій основі. І розмова про власність, кредит та креативність стане голоснішою з кожною довшою композицією.

HI-FI News

via WebProNews https://ift.tt/KVFLMbt

21 травня 2026 р. о 11:49 ранку

May 21, 2026 at 11:49AM


Коментарі

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *