
Gpt-realtime 1.5: вимовлене аудіо пропускає цифру в довгих повторюваних цифрових рядках (транскрипція правильна, аудіо неправильне)
https://ift.tt/pWfYbFj
Hello Dear team
Підсумок
Коли gpt-realtime-1.5 вимовляє числовий ідентифікатор, що містить послідовність повторюваних цифр, згенероване аудіо часом пропускає одну з повторюваних цифр, тоді як транскрипція на тому ж кроці правильна. Це створює мовчазну розбіжність між тим, що чує абонент, і тим, що реєструє/відображає система.
Оточення
-
Модель:
gpt-realtime-1.5 -
Ендпойнт:
POST /v1/realtime/calls(WebRTC) -
Голос:
alloy -
Вхідна транскрипція:
whisper-1 -
Узгоджений аудіокодек: PCMU 8 кГц (G.711 μ-law, вузькосмуговий телефонний зв’язок)
-
Виявлення черги:
server_vad
Відтворення
-
Почніть сесію реального часу через WebRTC з узгодженим кодеком PCMU/8000.
-
Нехай помічник прочитає вголос шестицифровий ідентифікатор, що містить чотири послідовні нулі, наприклад
100007. -
Порівняйте
response.output_audio(те, що чує абонент) з транскрипцієюresponse.content_part.doneдля того самогоitem_id.
Спостережуване
-
Транскрипт (правильний): "The code 100007 corresponds to the Beixinqiao Subdistrict within the Dongcheng District of Beijing." -
Аудіо (некоректне): помічник вимовляє "10007"— пропущено одну нуль.
Обидва належать до одного й того ж елемента помічника (item_DXM5QOn44mZwT09RQqkpG), тієї ж відповіді (resp_DXM5QaL3R7PfYT4IJS6cH), тож аудіо та текстові потоки розійшлися під час тієї ж генерації.
Очікувано
Аудіо-вивід відповідає транскрипції; усі шість цифр у 100007 вимовляються.
Примітки / Гіпотези
-
Режим несправності здається специфічним для послідовностей однакових цифр (чотири послідовні нулі). У тій же сесії коротші або не повторювані числа вимовлялися правильно.
-
Ймовірно вузькосмуговий PCMU загострює проблему, але не викликає її: транскрипція (голова) видає правильну послідовність токенів, тож пропуск відбувається в генерації аудіо, а не в логіці розуміння.
-
У системному запиті не було надано підказок щодо вимови; модель обрала власне прочитання числа.
Вплив
Для телефонії / використання рецепції це мовчазно спотворює ідентифікатори, номери телефонів, коди підтвердження та розширення, які абоненти записують або повторюють. Помилка важко виявити у продакшені, оскільки транскрипти на стороні сервера виглядають правильними.
Мої наступні кроки
-
Пізніше перевірю, чи це пов’язано з монослоговими числами чи чи впливає на числа з більш ніж одним складом — наприклад Seven… Що якщо помістити 5 цифр 7 посередині? Де виникне збій?
-
Так чи інакше — я застряг тут, бо зразки, які мені потрібні, мають багато нулів посередині
-
для розробників у реальному часі: Переконайтесь у паритеті між послідовностями токенів текстової голови та аудіо-голови для числових рядків, особливо за вузькосмугових частот виводу. Вони повинні вимовляти те саме.
Щиро дякую
Бог благословив
HI-FI News
через спільноту розробників OpenAI – останні пости https://ift.tt/zWc0edx
22 квітня 2026 р. о 11:59 ранку
April 22, 2026 at 11:59AM

Залишити відповідь