NVIDIA Launches Nemotron 3 Nano Omni Model, Unifying Vision, Audio and Language for AI Agents

NVIDIA представляє Nemotron 3 Nano Omni-модель, об’єднуючи зір Vision, Audio та Language для агентів ШІ

https://ift.tt/jsdel3J

Найкращий у класі відкритий омні-модальний модельний інтелект з найвищою ефективністю та точністю для підтримки агентних робочих процесів, таких як використання комп’ютера, аналітика документів та аудіо-візуальне мислення.

29 квітня 2026 — системи агентів ШІ сьогодні поєднують окремі моделі для зору, мовлення та мови — що призводить до втрати часу та контексту, коли дані передаються з однієї моделі в іншу.

Credit: NVIDIA

Упроваджено цього тижня Nemotron 3 Nano Omni від NVIDIA — це відкритий мультимодальний модельний інструмент, який об’єднує ці можливості в єдину систему, дозволяючи агентам давати швидші, розумніші відповіді з розвиненим мисленням across відео, аудіо, зображення та текст. Ця найкраща у класі модель надає підприємствам та розробникам шлях до впровадження більш ефективних та точних мультимодальних агентів із повною гнучкістю та контролем над розгортанням.

Nemotron 3 Nano Omni визначає новий рубіж ефективності для відкритих мультимодальних моделей з провідною точністю та низькою вартістю, побивши шість лідерських таблиць для складної аналітики документів та розуміння відео та аудіо.

Компанії в галузі ШІ та програмного забезпечення, які вже adopтують Nemotron 3 Nano Omni, включають Aible, Applied Scientific Intelligence (ASI), Eka Care, Foxconn, H Company, Palantir та Pyler, тоді як Dell Technologies, Docusign, Infosys, K-Dense, Lila, Oracle та Zefr оцінюють модель.

«Щоб будувати корисних агентів, ви не можете чекати кілька секунд, поки модель розпізнає екран», — сказав Готрі Клуа, CEO H Company. «Будуючи на основі Nemotron 3 Nano Omni, наші агенти можуть швидко інтерпретувати записи з екрана з роздільною здатністю 1920×1080 пікселів — це раніше було недоступно. Це не лише прискорення: це фундаментальна зміна того, як наші агенти сприймають та взаємодіють із цифровим середовищем у реальному часі.»

Nemotron 3 Nano Omni дозволяє швидших, більш економічних мультимодальних агентів

Уявімо собі агент ШІ для підтримки клієнтів, що обробляє запис з екрану під час аналізу завантажених аудіо з дзвінків та перевірки даних журналів — або агента в сфері фінансів, завдання якого — розбір PDF-файлів, таблиць, діаграм та голосових нотаток. Сьогодні більшість агентних систем виконують ці завдання за допомогою окремих моделей для зору, мови та прослуховування.

Такий підхід збільшує затримку через повторні прогнози, фрагментує контекст між модальностями та додає витрат та помилки з часом.

Поєднавши кодування зору та аудіо в його архітектурі 30B-A3B, гібридна суміш експертів Nemotron 3 Nano Omni усуває потребу в окремих моделях сприйняття, підвищуючи ефективність прогнозування масштабовано. Він поєднує цю ефективність із потужною мультимодальною точністю сприйняття, дозволяючи системам ШІ досягати у 9 разів більшої пропускної здатності, ніж інші відкриті омні-моделі за однакової взаємодії. Результат — нижчі витрати та краща масштабованість без втрати швидкості чи якості.

У агентних системах Nemotron 3 Nano Omni може працювати поряд із приватними хмарними моделями або іншими відкритими моделями NVIDIA Nemotron — наприклад Nemotron 3 Super для високочастотного виконання або Nemotron 3 Ultra для складного планування — а також із приватними моделями від інших постачальників, для підтримки підагентів у роботі агентних робочих процесів, таких як використання комп’ютера, аналітика документів та аудіо-відео мислення.

– Агенти використання комп’ютера — Nemotron 3 Nano Omni живить петлю зору для агентів, що переміщуються серед графічних інтерфейсів користувача, міркують над вмістом на екрані та відслідковують стан користувацького інтерфейсу з часом. Остання версія комп’ютерного агента H Company, що працює на Nemotron 3 Nano Omni, використовує рішучий роздільну здатність введення 1920×1080 пікселів для досягнення високо-дільного візуального мислення. У попередніх оцінках на бенчмарку OSWorld ця інтеграція показала значний прорив у навігації складними графічними інтерфейсами та використанні можливостей Nemotron 3 Nano Omni з обробкою дуже високої роздільної здатності зображень.
– Документальна аналітика — Інтерпретує документи, діаграми, таблиці, знімки екрана та змішані мультимедійні введення, дозволяючи агентам міркувати щодо візуальної структури та текстового вмісту узгоджено. Важливо для корпоративного аналізу та відповідних робочих процесів.
– Розуміння аудіо та відео — Для обслуговування клієнтів, досліджень та моніторингу, Nemotron 3 Nano Omni підтримує контекст аудіо-відео, поєднуючи сказане, показане та документоване в єдине ланцюгове мислення, замість ізольованих підсумків.

Відкритий та настроюваний, розгорнутий де завгодно

Nemotron 3 Nano Omni випускається з відкритими вагами, наборами даних та методами навчання — надаючи організаціям повну прозорість та контроль над тим, як модель настроюється та розгортається.

Розробники можуть використовувати інструменти на кшталт NVIDIA NeMo для настройки, оцінки та оптимізації для сфер конкретного використання. Оскільки сімейство моделей Nemotron відкрите, організації можуть розгортати їх у середовищах, що відповідають вимогам регуляцій, суверенітету чи локалізації даних.

Сімейство Nemotron 3 — включаючи моделі Nano, Super та Ultra — за останній рік набрало понад 50 мільйонів завантажень. Omni розширює можливості сімейства у мультимодальні та агентні домени.

Модель доступна на Hugging Face, OpenRouter та build.nvidia.com як мікро-сервіс NVIDIA NIM та через широку екосистему NVIDIA Cloud Partners, платформиInference та постачальники хмарних сервісів.

Його відкита, легка архітектура підтримує стало розгортання з локальних систем на кшталт NVIDIA Jetson апаратного забезпечення, NVIDIA DGX Spark та DGX Station до дата-центрів та хмарних середовищ.

Джерело: Карі Брискі, NVIDIA

Публікація NVIDIA Launches Nemotron 3 Nano Omni Model, Unifying Vision, Audio and Language for AI Agents з’явилася першою на HPCwire.

HI-FI News

via Systems Archives – HPCwire https://ift.tt/QJRSuVi

29 квітня 2026 року о 08:43

Примітка: наведено лише текст, який підлягає перекладу.

April 30, 2026 at 08:43AM

NVIDIA Launches Nemotron 3 Nano Omni Model, Unifying Vision, Audio and Language for AI Agents

Коментарі

Залишити відповідь Скасувати коментар