Gpt-realtime 1.5: spoken audio drops digit in long repeated-digit numeric strings (transcript correct, audio wrong)

Gpt-realtime 1.5: вимовлене аудіо пропускає цифру в довгих повторюваних цифрових рядках (транскрипція правильна, аудіо неправильне)

https://ift.tt/pWfYbFj

Hello Dear team

Підсумок

Коли gpt-realtime-1.5 вимовляє числовий ідентифікатор, що містить послідовність повторюваних цифр, згенероване аудіо часом пропускає одну з повторюваних цифр, тоді як транскрипція на тому ж кроці правильна. Це створює мовчазну розбіжність між тим, що чує абонент, і тим, що реєструє/відображає система.

Оточення

Модель: gpt-realtime-1.5
Ендпойнт: POST /v1/realtime/calls (WebRTC)
Голос: alloy
Вхідна транскрипція: whisper-1
Узгоджений аудіокодек: PCMU 8 кГц (G.711 μ-law, вузькосмуговий телефонний зв’язок)
Виявлення черги: server_vad

Відтворення

Почніть сесію реального часу через WebRTC з узгодженим кодеком PCMU/8000.
Нехай помічник прочитає вголос шестицифровий ідентифікатор, що містить чотири послідовні нулі, наприклад 100007.
Порівняйте response.output_audio (те, що чує абонент) з транскрипцією response.content_part.done для того самого item_id.

Спостережуване

Транскрипт (правильний): "The code 100007 corresponds to the Beixinqiao Subdistrict within the Dongcheng District of Beijing."
Аудіо (некоректне): помічник вимовляє "10007" — пропущено одну нуль.

Обидва належать до одного й того ж елемента помічника (item_DXM5QOn44mZwT09RQqkpG), тієї ж відповіді (resp_DXM5QaL3R7PfYT4IJS6cH), тож аудіо та текстові потоки розійшлися під час тієї ж генерації.

Очікувано

Аудіо-вивід відповідає транскрипції; усі шість цифр у 100007 вимовляються.

Примітки / Гіпотези

Режим несправності здається специфічним для послідовностей однакових цифр (чотири послідовні нулі). У тій же сесії коротші або не повторювані числа вимовлялися правильно.
Ймовірно вузькосмуговий PCMU загострює проблему, але не викликає її: транскрипція (голова) видає правильну послідовність токенів, тож пропуск відбувається в генерації аудіо, а не в логіці розуміння.
У системному запиті не було надано підказок щодо вимови; модель обрала власне прочитання числа.

Вплив

Для телефонії / використання рецепції це мовчазно спотворює ідентифікатори, номери телефонів, коди підтвердження та розширення, які абоненти записують або повторюють. Помилка важко виявити у продакшені, оскільки транскрипти на стороні сервера виглядають правильними.

Мої наступні кроки

Пізніше перевірю, чи це пов’язано з монослоговими числами чи чи впливає на числа з більш ніж одним складом — наприклад Seven… Що якщо помістити 5 цифр 7 посередині? Де виникне збій?
Так чи інакше — я застряг тут, бо зразки, які мені потрібні, мають багато нулів посередині
Місто Поштовий код

Пекін 100000

Шанхай 200000

Гуанчжоу 510000

Шеньчжень 518000

Чендгу 610000
для розробників у реальному часі: Переконайтесь у паритеті між послідовностями токенів текстової голови та аудіо-голови для числових рядків, особливо за вузькосмугових частот виводу. Вони повинні вимовляти те саме.

Місто	Поштовий код
Пекін	100000
Шанхай	200000
Гуанчжоу	510000
Шеньчжень	518000
Чендгу	610000

Щиро дякую

Бог благословив

HI-FI News

через спільноту розробників OpenAI – останні пости https://ift.tt/zWc0edx

22 квітня 2026 р. о 11:59 ранку

April 22, 2026 at 11:59AM

Gpt-realtime 1.5: spoken audio drops digit in long repeated-digit numeric strings (transcript correct, audio wrong)

Коментарі

Залишити відповідь Скасувати коментар