
NVIDIA запускає Nemotron 3 Nano Omni-модель, об’єднуючи Vision, Audio та Language для агентів ІІ із до 9x більшою ефективністю AI-агентів
https://ift.tt/0uQh4eB
Системи агентів штучного інтелекту сьогодні використовують окремі моделі для зору, промови та мови — втрачаючи час і контекст при передачі даних з однієї моделі до іншої.
Розкритий сьогодні NVIDIA Nemotron 3 Nano Omni — це відкритий мультимодальний модельний пакет, який об’єднує ці можливості в одну систему, даючи агентам можливість швидше та розумніше відповідати з використанням розумних висновків у відео, аудіо, зображеннях та тексті. Ця передова модель для підприємств та розробників забезпечує шлях до більш ефективних та точних мультимодальних AI-агентів з повною гнучкістю розгортання та контролю.
Nemotron 3 Nano Omni встановлює новий рубіж ефективності для відкритих мультимодальних моделей з провідною точністю та низькою вартістю, перемістивши сталі лідери за складною обчислювальною інтелігенцією документів та розуміння відео і аудіо.
AI та компанії з розробки програмного забезпечення вже застосовують Nemotron 3 Nano Omni, зокремаAible, Applied Scientific Intelligence (ASI), Eka Care, Foxconn, H Company, Palantir та Pyler, з Dell Technologies, DocuSign, Infosys, K-Dense, Lila, Oracle та Zefr оцінюють модель.
«Щоб створювати корисних агентів, ви не можете чекати секунди, поки модель інтерпретує екран,» сказав Гот’є Клуа, генеральний директор H Company. «Модульні на Nemotron 3 Nano Omni наші агенти можуть швидко інтерпретувати записи з дисплея у форматі Full HD — раніше це було нереалістично. Це не просто прискорення: це фундаментальна зміна того, як наші агенти сприймають і взаємодіють із цифровими середовищами у реальному часі.»
Nemotron 3 Nano Omni забезпечує швидших, економніших мультимодальних агентів
Уявіть ІІ-агента служби підтримки, який опрацьовує запис екрану, аналізує завантажені аудіозаписи дзвінків та перевіряє журнали даних — або агента з фінансів, що має розбирати PDF-файли, електронні таблиці, діаграми та голосові нотатки. Сьогодні більшість систем агентів виконують ці завдання з окремими моделями для зору, мови та мовлення.
Такий підхід збільшує затримку через повторні проходи висновків, розгалужує контекст між модальностями та додає витрати й похибки з часом.
Поєднавши кодування зору та аудіо в рамках гібридної архітектури 30B-A3B з Mixture-of-Experts (MoE), Nemotron 3 Nano Omni позбавляє потреби в окремих моделях сприйняття, підвищуючи ефективність масштабування. Як перша відкрита модель, що забезпечує і такий рівень ефективності, і сильний мультимодальний рівень сприйняття, вона дозволяє ІІ-системам досягати до 9x вищу пропускну здатність порівняно з іншими відкритими омні-моделями за тією самою інтерактивністю. Результат — нижчі витрати та краща масштабованість без шкоди відповідності чи якості.
Поєднуючи кодування зору й аудіо в межах 30B-A3B гібридної архітектури mixture-of-experts, Nemotron 3 Nano Omni усуває потребу в окремих моделях сприйняття, забезпечуючи ефективність висновків у масштабі. Поєднуючи це з сильною мультимодальною точністю сприйняття, дає можливість AI-системам досягати 9x вищої пропускної здатності порівняно з іншими відкритими омні-моделями з тією ж інтерактивністю. Результат — нижчі витрати й краща масштабованість без шкоди оперативності чи якості.
У агентних системах Nemotron 3 Nano Omni може працювати поруч із пропрієтарними хмарними моделями або іншими відкритими моделями NVIDIA Nemotron — наприклад Nemotron 3 Super для високочастотного виконання або Nemotron 3 Ultra для складного планування — а також з пропрієтарними моделями від інших постачальників, щоб живити суб-агентів для агентних робочих потоків, таких як використання комп’ютера, документна інтелектуальність та аудіо-відео висновки.
- Агенти використання комп’ютера — Nemotron 3 Nano Omni забезпечує цикл сприйняття для агентів, які керують графічними користувацькими інтерфейсами, роздумують над вмістом на екрані та розуміють стан інтерфейсу з часом. Останній комп’ютерний агент H Company, який виконує використання комп’ютера, живлячись Nemotron 3 Nano Omni, використовує вітрор Unionnative роздільну здатність 1920×1080 пікселів для досягнення високої точності візуального мислення. У попередніх оцінках на бенчмарку OSWorld ця інтеграція показала значний прорив у навігації складними графічними інтерфейсами та використала можливість Nemotron 3 Nano Omni обробляти дуже високі роздільності зображень.
- Документна інтелектуальність — Інтерпретує документи, діаграми, таблиці, знімки екрана та змішані медіа-входи, дозволяючи агентам розуміти взаємозв’язок між візуальною структурою та текстовим змістом послідовно. Важливо для аналізу підприємств та робочих процесів з дотриманням вимог.
- Розуміння аудіо та відео — Для служби підтримки, досліджень та моніторингу, Nemotron 3 Nano Omni зберігає контекст аудіо-відео, поєднуючи те, що сказано, показано та документовано в єдиному потоці висновків замість розрізнених підсумків.

Відкритий та настроюваний, розгортається будь-де
Nemotron 3 Nano Omni випущено з відкритими вагами, наборами даних та технічними прийомами навчання — надаючи організаціям повну прозорість та контроль над тим, як модель налаштовується та розгортається.
Розробники можуть використовувати інструменти, такі як NVIDIA NeMo для налаштування, оцінки та оптимізації для вузькоспецифічних задач. Оскільки сімейство Nemotron відкрито, організації можуть розгортати їх у середовищах, що відповідають вимогам регуляторики, суверенітету або локалізації даних.
Сімейство Nemotron — включно з моделями Nano, Super та Ultra — за останній рік завантажило понад 50 мільйонів разів . Omni розширює можливості сімейства у мультимодальних та агентних доменах.
Модель доступна на Hugging Face, OpenRouter і build.nvidia.com як мікро-сервіс NVIDIA NIM та через широку екосистему NVIDIA Cloud Partners, платформиInference та постачальники хмарних послуг.
Його відкрита легка архітектура підтримує послідовне розгортання з локальних систем, таких як NVIDIA DGX Spark та DGX Station у центри обробки даних та хмарні середовища.
Відвідайте технічний блог NVIDIA для навчальні матеріали, рецепти та посібники з розгортання для використання Nemotron 3 Nano Omni. Слідкуйте за оновленнями щодо агентного штучного інтелекту, NVIDIA Nemotron та іншим, підписавшись на новини NVIDIA,приєднавшись до спільноти та слідкуючи за NVIDIA AI на LinkedIn, Instagram, X та Facebook.
Перегляньте самонавчальні відео-уроки та трансляції.
HI-FI News
через NVIDIA Blog https://ift.tt/dqogiZQ
19:46 28 квітня 2026 р.
April 28, 2026 at 06:46PM

Залишити відповідь