Transformer Model Achieves Native Multimodal Support for Video, Audio

Модель Transformer Досягає рідної мультимодальної підтримки для відео та аудіо

Google представив Gemini Omni Flash, модель на основі трансформера з унікальною здатністю: рідна підтримка кількох типів входів — текст, зображення, відео та аудіо, що дозволяє створювати та редагувати контент з будь-якого входу. Побудована на архітектурі, детально описаній у праці Васвані та співавторів, модель представляє просування в розумінні та створенні медіа, забезпечуючи високу якість створення відео та розмовне редагування. Відео для навчання не просто збиралися; їх відбирали за відповідністю, безпекою та якістю, а потім семантично унікалізували, демонструючи проактивний підхід до відповідального розвитку штучного інтелекту. Цей амбітний проект підтримували пристрої обробки Tensor (TPU) від Google, апаратне забезпечення, спеціально розроблене для пришвидшення навчання великих мовних моделей та обробки величезних обчислювальних навантажень, необхідних для такої складної системи.

Архітектура Transformer забезпечує мультимодальне генерування відео

Gemini Omni Flash приймає текст, зображення, відео та аудіо одночасно як вхідні дані, що є рідкісною досягненням серед сучасних мультимодальних моделей, які часто потребують перетворення на один тип даних перед обробкою. Ця «рідна» підтримка, побудована на архітектурі трансформера, вперше детально описаній у праці, дозволяє більш пряме та ефективне управління різноманітними потоками даних, спрощуючи процес створення відео. Нова модель Google не просто поєднує існуючі технології; вона радикально переосмислює те, як ШІ розуміє та створює візуальний контент. Розробка Gemini Omni Flash пріоритетно дотримувалася відповідальних практик штучного інтелекту поза межами стандартного модераційного контенту. Таке ретельне попереднє опрацювання даних має вирішальне значення для зменшення упередженості та підвищення надійності згенерованих результатів, викликаючи виклики, що продовжують впливати на багато систем генеративного ШІ. Моделі здібності поширюються на створення відео високої роздільної здатності, точне дотримання складних інструкцій та навіть симуляцію реалістичної фізики.

Досягнення такого рівня продуктивності вимагало значних обчислювальних ресурсів. Ефективність, досягнута за допомогою TPU, узгоджується з зобов’язанням Google діяти сталим способом, що відображає зростаюче наголошування на екологічно свідомому розвитку ШІ. Хоча виклики залишаються у таких сферах, як підтримка послідовності під час редагувань та точне відображення тексту, Gemini Omni Flash представляє значний поступ у мультимодальному генеруванні відео, відкриваючи можливості для застосувань від персоналізованої освіти до прискорених досліджень у таких галузях, як робототехніка та комп’ютерне зір.

Навчання TPU та сталене впровадження

Поточний сплеск можливостей генеративного ШІ, який демонструють моделі на кшталт Gemini Omni Flash, базується на прогресах у спеціалізованому апаратному забезпеченні та ефективних методах навчання. Хоча архітектури трансформерів, як спочатку описано в праці, забезпечують основну рамку для цих моделей, реалізації їх потенціалу вимагають значної обчислювальної потужності, що зумовило значні інвестиції в спеціально розроблені процесори, такі як TPU від Google. Це не просто по суті покращення традиційних CPU, а радикальна зміна парадигми в тому, як навчаються великі мовні моделі, дозволяючи швидшу обробку та більшу складність моделі. Розробка Gemini Omni Flash спеціально скористалася TPU, рішучістю відображати масштаб проекту та зобовітем до сталих практик.

Навчання включало ретельну підготовку, а не просто збір даних; аудіо- та відеодані були аннотовані текстовими підписами на різних рівнях деталізації, а навчальні відео також фільтрувалися за різними показниками відповідності, безпеки та якості та семантично уникалізувалися. Таке семантичне унікалізування свідчить про складний процес, що виходить за межі простого видалення однакових файлів, з метою усунення надмірної інформації та підвищення ефективності навчання. Використання TPU Pods, великих кластерів таких процесорів, додатково демонструє інфраструктуру, необхідну для обробки складнощів такої великої базової моделі, розподіляючи обчислювальне навантаження для прискореної обробки. Ефективність, досягнута за рахунок використання TPU, в більшій мірі стосується не лише швидкості, а й узгоджується з ширшим екологічним занепокоєнням. Навчання було спрощене за допомогою програмних інструментів, таких як JAX та ML Pathways, що зумовлено подальшим оптимізуванням процесу під архітектуру TPU. Цей цілісний підхід, поєднуючи спеціалізоване апаратне забезпечення, вдосконалене оброблення даних та оптимізоване програмне забезпечення, стає дедалі критичнішим, оскільки моделі ШІ продовжують зростати за розміром та складністю, вимагаючи як продуктивності, так і відповідального управління ресурсами.

Відомчий вислів: Gemini Omni Flash — наш наступний крок до моделей, які можуть створювати й редагувати будь-що з будь-якого входу — починаючи з відео.

Оцінки з питань безпеки та обмежень контенту

Розробка Gemini Omni Flash від Google була пов’язана з ретельним процесом оцінювання, який виходить за рамки типової фільтрації контенту, зосереджуючись на проактивних заходах безпеки та відповідальних практиках штучного інтелекту. Архітектура моделі, трансформерна система, детально описана у праці, включає рідну мультимодальну підтримку, приймаючи текстові, зображення, відео та аудіо входи одночасно, що вимагає суттєвої оцінки для забезпечення послідовного та безпечного оброблення по всіхmodalях. Це не просто розпізнавання контенту; це розуміння його наслідків для різних типів входів. Ключовим аспектом відповідального розвитку була ретельна підготовка навчальних даних. Семантичне унікалізування, зокрема, свідчить про використання алгоритмів, здатних ідентифікувати та видаляти майже однаковий контент, навіть якщо він виражений інакше, виходячи за рамки простого співпадання ключових слів. Такий рівень гігієни даних є критичним для побудови моделі, що реагує прогностично та етично на різноманітні запити.

Обчислювальні вимоги навчання Gemini Omni Flash були задоволені за допомогою Tensor Processing Units (TPU) Google. Ці спеціалізовані апаратні акселератори, розроблені для інтенсивних обчислень, притаманні великим мовним моделям, дозволили ефективне навчання та масштабування. Оцінювання включало автоматизовані та людські оцінювання, проведені зовнішніми фахівцями, які свідомо намагалися виявити вразливості та дотримання політик безпеки. Google також запустив свій інструмент цифрового відбитка SynthID для перевірки контенту, згенерованого ШІ, і наразі обмежує здатність моделі змінювати мову, водночас розробляючи подальші заходи безпеки.

Залишайтеся в курсі. Дивіться сьогоднішні новини про квантові обчислення на Quantum Zeitgeist, де найостанніші прориви в кубітах, устаткуванні, алгоритмах та галузевих угодах.

HI-FI News

через Quantum Zeitgeist https://ift.tt/CxL83s6

23 травня 2026 року, 08:44

Відповідь українською. Прямий переклад наданого тексту.

May 22, 2026 at 08:44AM

Transformer Model Achieves Native Multimodal Support for Video, Audio

Коментарі

Залишити відповідь Скасувати коментар