OpenAI accelerates push into advanced Audio AI as it prepares to launch an audio device next year

від

у

OpenAI прискорює впровадження передових технологій у сфері аудіо штучного інтелекту, готуючись до запуску аудіопристрою наступного року.

Компанія OpenAI, творець ChatGPT, розпочинає новий рік з оновленим акцентом на досягненнях у сфері складного аудіоінтелекту. Згідно з останніми звітами від The Information, компанія консолідувала інженерні, продуктові та дослідницькі команди, щоб представити трансформаційну аудіомодель до кінця березня, яка буде здатна генерувати надзвичайно природну мову та керувати безперервними, реальними розмовами, що нагадують людський діалог. Наступна модель обіцяє реалістичні перерви, накладання мови та нюансовані емоційні тони — особливості, відсутні в сучасних голосових інтерфейсах. Очолюваний Кумданом Кумаром, колишнім дослідником Character.AI з фахом у синтезі мови, проект об’єднує зусилля в області інженерії, продукції та досліджень. Це закриває прогалини у точності та швидкості в порівнянні з текстовими моделями OpenAI, дозволяючи забезпечити плавний діалог, що відчувається як справжній людський обмін.

Цей аудит аудіо підтримує вхід OpenAI на ринок споживчої електроніки. “Аудіо-орієнтований особистий пристрій” заплановано до запуску приблизно через рік, потенційно розширюючи асортимент продуктів, що включає розумні окуляри та спікери без екрана. Зусилля базуються на придбанні io Products Inc., стартапу Джоні Айва, у травні 2025 року, з оцінкою в 6,5 мільярда доларів. Айв, іконічний дизайнер iPhone, підкреслює необхідність зменшення залежності від екранів через голосові досвіди. Обробка на пристрої може забезпечити легкі моделі, покращуючи ефективність та конфіденційність — схоже на Google’s Gemini Nano на пристроях Pixel.

Щоб надати деякий контекст, робота OpenAI в аудіосфері розпочалася з Whisper, автоматичної системи розпізнавання мови, випущеної у 2022 році, яка отримала широке визнання за точність у різних акцентах і шумних умовах, але була по суті не розмовною, призначеною для транскрипції, а не діалогу. Наступні голосові функції, накладені на текстові моделі, покращили якість перетворення тексту в мову, але все ще працювали в малопотужному, затриманому режимі, що здавалося механічним у прямій взаємодії. Перехід до GPT-4o та рідних голосових режимів означав структурну зміну, де аудіо стало сприйматися як перший клас вхідних та вихідних даних, а не просто оболонка навколо тексту.

Побоювання OpenAI з’являються у час, коли інші AI та технологічні компанії роблять прогрес у цьому напрямку – спрямоване прослуховування Meta в окулярах Ray-Ban, Аудіо огляди Google для пошуку та інтеграція xAI Grok в автомобільному голосовому управлінні Tesla. Стартапи досліджують форм-фактори, такі як AI підвіски та кільця, хоча успіхи варіюються – AI Pin та підвіска Friend від Humane стикнулися з труднощами. Іншими словами, Meta фокусується на мультимодальному голосі в носимих пристроях, Google експериментує з усними підсумками пошуку, а нові стартапи просувають безекранні супутники — хоча побоювання щодо конфіденційності та змішане впровадження вказують на ризики на цьому початковому ринку. Володіючи інтерфейсом, OpenAI прагне уникнути комерціалізації, забезпечуючи, щоб ChatGPT залишався основною точкою доступу, а не проміжним програмним забезпеченням для екосистем конкурентів.

На даний момент маржі апаратного забезпечення (близько 38%) світять на фоні програмного забезпечення з 70%, але пристрої можуть сприяти підпискам та укладенню зобов’язань. Аналітики вважають, що це відображає історичні зміни: переважаюча технологія програє без контролю з боку споживачів. З баченням дизайну Айва та майстерністю штучного інтелекту OpenAI компанія зосереджується на голосі як наступному домінуючому інтерфейсі, який може перетворити будинки, автомобілі та повсякденне життя на плавні розмовні простори. Проте, надзвичайно природна мова, нюансовані емоційні тони та “емпатійне” слухання можуть призвести до глибшого емоційного зв’язку з AI. Це викликає ризики виникнення “атрофії емпатії”, коли користувачі звикають до супутника, який ніколи не сперечається, що потенційно робить заплутані людські взаємодії виснажливими в порівнянні. Інша проблема — подальше поширення глибинних підробок – з можливістю імітувати людські емоційні нюанси, бар’єр між “безпечним” знайомим голосом і шахрайським клоном зникає.

Оригінальний контент опублікований на The Tech Portal – глобальні новини технологій, останні новини гаджетів та найсвіжіші технологічні новини.

January 2, 2026 at 11:55AM


Коментарі

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *