Unlocking next generation audio production with MPEG-H on AWS

Відкриваючи аудіо-пroduкцію наступного покоління за допомогою MPEG-H на AWS

https://ift.tt/KEJDRNA

Більшість людей сьогодні сприймають аудіо у фіксованих форматах: рівні діалогу, коментарі та доступність заздалегідь встановлені. А що як би у вас була повна контроль над тим, як ви чуєте шоу або спортивний матч? Технології наступного покоління аудіо (NGA), такі як MPEG-H Audio, роблять це можливим: глядачі можуть регулювати чіткість діалогу, обирати альтернативні коментарі або увімкнути аудіо-опис за допомогою інтерактивного та плавного відтворення у одному потоці.

У цьому дописі ми розглядаємо, як впровадити NGA-процеси у хмарі за допомогою MPEG-H Audio для доставлення захоплюючого, інтерактивного аудіо масштабу.

Стандартний робочий процес виробництва MPEG-H із використанням локальних серверів широко застосовується сьогодні. Проте оскільки більше мовників переводять частини своїх виробничих процесів у хмару, нам потрібно переосмислити та адаптувати поточний підхід, де вихідне відео та аудіо—including metadata—повинні передаватися та оброблятися по-іншому (наприклад у стиснених форматах замість базових сигналів або ST 2110).

Цей зразок був розроблений у співпраці з партнерами AWS та технологічними лідерами для побудови та забезпечення повного MPEG-H-процесу виробництва у хмарі, що призводить до фінального доставлення адаптивного бітрейт-контенту (ABR) з NGA споживачеві.

Jünger Audio надає flexAI для обробки аудіо в режимі реального часу, створення метаданих та відтворення.
MainConcept розгортає свій Live Encoder для як у contribution, так і у distribution кодування.
Techex вносить contributed darwin для обробки потоків та модуляції.
Fraunhofer IIS забезпечує бібліотеки створення, кодування та декодування метаданих MPEG-H, які підтримують увесь процес.

Що таке NGA?

Протягом десятиліть аудіо в ефірах та стрімінгу поставлялося як фіксовані мікси — ліворуч/праворуч у стерео або заздалегідь визначені розташування динаміків у об’ємному звучанні. Хоча такий підхід точно відтворював творчу задумку у традиційних системах, він обмежував взаємодію аудиторії з контентом.

NGA змінює цю парадигму. Телекомпанії та постачальники стрімінгу можуть відрізняти свої гібридні та хмарні виробництва за рахунок можливостей аудіо на основі об’єктів, тоді як стандарти новітнього покоління телевізійних систем — ATSC 3.0 в США та DTV+ в Бразилії — зобов’язують використання NGA-кодеків паралельно з ефективним стисненням відео (HEVC, VVC) для доставки більш якісного з більш низькою пропускною здатністю, з європейським DVB та японським ARIB, що досліджують подібні напрямки. Для великих live-спортивних подій мовники можуть запускати хмарні NGA-процеси за запитом та зупиняти їх після події, уникнувши дорогих он-преміс hardware-інвестицій.

Завдяки широкій метаданійній рамці NGA дозволяє кожному пристрою споживача генерувати відтворювальні сигнали, оптимізовані під конкретні характеристики відтворювального пристрою та його слухового середовища. Багатосистемний аудіовізійний приймач може відтворювати звук для 12+ динаміків, тоді як той самий NGA-бітстрім може відтворюватися на мобільному пристрої для бінаурального навушникового відтворення — кожен з індивідуально оптимізованим динамічним діапазоном і просторовою подачею.

Об’єктно-орієнтоване аудіо та метадані як рушії NGA

Об’єктно-орієнтоване аудіо — основна парадигма NGA. Замість доставки фіксованого стерео або оточення, об’єктно-орієнтоване аудіо зберігає окремі елементи звуку — наприклад діалоги, коментарі, музика та звукові ефекти — як окремі аудіо-об’єкти. Кожний об’єкт супроводжується метаданими, що описують:

Що представляє аудіо-елемент (наприклад, діалог, атмосфера, музика)
Де його слід розмістити у тривимірному звуковому полі
Коли він активний у часі
Як його слід відтворювати або презентувати на різних пристроях
Який тип та ступінь інтерактивності користувача дозволені
Розмір/характеристики гучності кожного аудіо-об’єкта

Цей поділ дає можливість як персоналізації — наприклад, вибір мов або регулювання рівня діалогу, так і занурювальне аудіо, дозволяючи звукам динамічно розташовуватись навколо слухача у тривимірному просторі.

Розуміння MPEG-H Audio

MPEG-H Audio — міжнародний аудіо-стандарт, розроблений ISO/IEC MPEG, з ключовими технологіями, внесеними Fraunhofer IIS. Він спеціально розроблений для надання NGA-послуг у трансляційних та стрімінгових застосунках.

Основні можливості MPEG-H Audio включають:

Підтримка багатоформатного аудіо: підтримує канальне аудіо (стерео та традиційне об’ємне звучання), об’єктно-орієнтоване аудіо та Higher-Order Ambisonics (HOA) для просунутої просторової відтворюваності — у тому числі будь-яку комбінацію цих форматів у одному потоці
Інтерактивні аудіо-можливості: дає користувачеві контроль над елементами аудіо, такими як вибір мови, підвищення діалогу, альтернативні записи коментарів та персоналізовані мікси within межами, визначених творцем контенту
Інмерально-занурююче відтворення: підтримує тривимірні формати з висотними каналами, включаючи поширені конфігурації на зразок 5.1+4H та 7.1+4H
Адаптивне відтворення: автоматично оптимізує відтворення аудіо для пристроїв від висококласних домашніх кінотеатрів до саундбарів, телевізорів та мобільних пристроїв за допомогою бінаурального відтворення
Функції доступності: нативно підтримують підсилення діалогу, додавання аудіо-опису та інші функції для покращення слуху

Партнерська співпраця: створення хмарного NGA-робочого процесу

Цей хмарний NGA-виробничий процес об’єднує спеціалізований досвід кількох партнерів AWS та технологічних організацій, кожен з яких вносить критично важливі можливості:

Jünger Audio приносить глибоку експертизу в обробку аудіо зі своєю платформою flexAI, яка виконує складне завдання реального часу створення метаданих та відтворення. FlexAI дозволяє мовникам створювати та керувати NGA-аудіо та потоками метаданих у реальному часі в живих виробничих середовищах, підтримуючи як S-ADM, так і MPEG-H Control Track.
MainConcept надає Live Encoder, професійну кодерну рішення, що управляє як внесенням (contribution) SDI-потоків у хмару, так і кодуванням розповсюдження (створенням контенту AVC, HEVC або VVC у виходах HLS, CMAF та DASH).
Techex вносить darwin — складну платформу обробки потоків, яка демультиплексує вхідні потоки, направляє аудіо до систем обробки та ремультиплексує оброблені потоки з дотриманням часової синхронізації — критично для професійних трансляцій.
Fraunhofer IIS, дослідницька організація за технологією MPEG-H Audio, надає бібліотеки кодування, декодування та відтворення, що забезпечують весь NGA-досвід від виробництва до відтворення.

Разом ці партнери забезпечують повний хмарний NGA-процес виробництва, що зберігає якість трансляції та використовує масштабованість і гнучкість хмари.

Роль метаданих у NGA-виробництві

Об’єктно-орієнтоване аудіо — фундаментальна парадигма NGA систем. Замість доставки фіксованого стерео або оточення, об’єктно-орієнтоване аудіо зберігає окремі елементи звуку — діалоги, коментарі, музика та звукові ефекти — як окремі аудіо-об’єкти. кожен об’єкт супроводжується метаданими, що описують те, що аудіо-елемент представляє, де його слід розмістити, коли він активний, як його слід відтворювати на різних пристроях, який тип та рівень взаємодії дозволені, та гучність кожного аудіо-об’єкта.

У NGA-виробництві всі функції взаємодії з користувачем визначаються продюсерами через метадані. Процес створення та управління цими метаданими називають авторингом. Під час авторингу постачальник контенту визначає, які аудіо-елементи доступні для користувача, як з ними можна взаємодіяти і як вони відтворюються під час відтворення.

Формати MPEG-H для виробництва

MPEG-H Master містить усі незпаковані аудіо-елементи та повний набір виробничих та авторинг-метаданих, що визначають сцену MPEG-H Audio. Для живого виробництва, яке використовує інфраструктуру на основі SDI, MPEG-H використовує метод Control Track для доставки метаданих. Control Track — це PCM-аудіосигнал, що несе всі метадані MPEG-H та повністю узгоджений з відповідними аудіо- та відеоданими. Оскільки він передається та редагується як будь-який інший аудіосигнал, він стійкий до конверсій частот дискретизації або змін рівня, що робить його ідеальним для живого виробництва.

Впровадження NGA-про production в AWS

Оскільки аудіо-експерієнси еволюціонують до більшої зануреності та персоналізації, виробничі процеси також мають еволюцію. Традиційне виробництво медіа залежало від локальної інфраструктури — позавідомчі фургони OB, студії та спеціалізоване обладнання — для управління незпакованим медіа, авторингом у реальному часі та розповсюдженням. Оскільки живе виробництво все більш переходить у хмару, NGA-процеси виграють від перенесення інструментів до контенту, а не контенту до інструментів. Масштабованість хмари дозволяє одночасно доставляти захоплюючі мікси з кількох аудіо-студій по всьому світу у централізовану ланцюг публікації. Такий розподілений підхід дозволяє мовникам динамічно виділяти ресурси під час пікових подій та зменшувати їх після події, оплачуючи лише використане, зберігаючи при цьому якість на рівні трансляцій.

Архітектура рішення

Рисунок 1: Архітектура рішення та потік сигналів

1. Захоплення аудіо: Індивідуальні джерела аудіо — такі як коментарі, амбіентні звуки та ефекти — захоплюються окремо як дискретні PCM-аудіосигнали. Таке розділення дозволяє інтерактивність та занурююче відтворення на стороні споживача (пристрої, такі як телевізори та планшети). Live Encoder MainConcept (у режимі внесення) отримує відеопотік з 16 каналами вбудованого PCM-аудіо через базову смугу (SDI). Наявність 16 каналів дозволяє використати більше об’єктів для збагачення досвіду користувача. Live Encoder — що вже інтегрував MPEG-H кодування Fraunhofer — виводить потік як MPEG-H contribution бітстрім плюс відео як Transport Stream (TS) через SRT. Потік SRT потім надсилається до AWS Cloud для обробки.
A також використовується Jünger Audio AIXpressor для моніторингу відповідаючого каналу з хмари.

За потреби авторинг може виконуватись на місці, забезпечуючи додаткову гнучкість для клієнтів, які використовують локальні AIXpressor-установки. У такому випадку він отримує AV-потік, демультиплікує аудіо, потім авторить та відтворює для моніторингу. Потім авторизоване аудіо та метадані відправляються до енкодера внесення.

2. Створення метаданих: Jünger Audio flexAI обробляє аудіо-елементи та створює метадані, що визначають:

Біти канального базису: Наприклад, 5.1+4H та 7.1+4H іммерсивний мікс
Аудіо-об’єкти: Наприклад, коментатори на кількох мовах
Пресети та презентації: Комбінації базисів та об’єктів, адаптовані під різні обрані користувачем варіанти

Techex darwin (що працює в AWS) отримує SRT-TS (або NDI-потоки залежно від вимог системи), який демультиплексує вхідний потік до його основних аудіо- та відео-стрімів. Аудіо-бітстрім передається через SRT до хмарного екземпляру Jünger Audio flexAI. У flexAI бітстрім MPEG-H аудіо декодується до PCM-аудіо для відтворення метаданих та модуляції їх у PCM-аудіо-доріжку (Control Track). Залежно від робочого процесу вхідні метадані можуть редагуватися або створюватися з нуля. Після авторингу та відтворення у flexAI аудіо та метадані відправляються назад до darwin як MPEG-H Audio-бітстрім через SRT. Darwin тоді ремультиплексує оброблене аудіо, включаючи метадані, з відео-потоком, зберігаючи часову прив’язку.

Рис. 2: Модуль MPEG-H Rendering від Jünger Audio flexAI

Рис. 3: Знімок Techex darwin для маршрутизації SRT, (де-)мультиплексування та підтягування кадрів

3. Розповсюдження:
Вивід з darwin надсилається через SRT-TS до MainConcept Live Encoder, що працює у режимі розповсюдження. Live Encoder отримує SRT-TS та кодує його у повні потоки HLS, DASH або CMAF, включаючи MPEG-H Audio та AVC, HEVC або VVC-відповідні відео-сегменти, та відповідний маніфест, які зберігаються в Amazon Simple Storage Service (Amazon S3), що завершує NGA-виробничий процес у хмарному середовищі. Amazon CloudFront — це CDN для OTT-доставки з Amazon S3 як джерелом.

Рис. 4: Інтерфейс користувача MainConcept Live Encoder для кодування викладу AVC та MPEG-H Audio

4. Відтворення на пристрої:

Розшифрувач декодер отримує бітстрім MPEG-H Audio, що містить аудіо та відповідні метадані, та декодує його у PCM Audio
Вбудований у декодер рендерер адаптує мікс під доступну конфігурацію відтворення (саундбар, навушники або повна системи об’ємного звучання) за допомогою метаданих
Інтерактивність користувача увімкнена, дозволяючи вибір мови, рівня діалогу, треків коментарів та інших персоналізованих опцій за допомогою екрана на екрані

Бібліотеки MPEG-H для кодування, декодування та відтворювачів забезпечуються Fraunhofer IIS.

Рис. 5: Інтерфейс MPEG-H Audio на iOS-мобільному плеєрі для вибору аудіо-об’єктів та персоналізації користувача

Висновок

У цьому дописі ми обговорювали впровадження хмарних NGA-процесів виробництва з використанням MPEG-H Audio на AWS. Поєднавши експертність обробки аудіо Jünger Audio, можливості кодування MainConcept, платформу обробки потоків Techex та MPEG-H технологію Fraunhofer IIS, мовники можуть впровадити професійні NGA-процеси в хмарі без компромісів щодо якості чи функціональності.

Хмарний підхід забезпечує гнучкість та ефективність, дозволяючи масштабуватися до мільйонів одночасних глядачів.

Зверніться до представника AWS щоб дізнатися більше про цей робочий процес або дізнатися, як ми можемо прискорити ваш бізнес.

Додаткове читання:

HI-FI News

через AWS для блогу M&E https://ift.tt/si5ReN8

12 квітня 2026 р. о 21:19

April 12, 2026 at 09:19PM