Gpt-realtime 1.5: spoken audio drops digit in long repeated-digit numeric strings (transcript correct, audio wrong)

від

у

Gpt-realtime 1.5: вимовлене аудіо пропускає цифру в довгих повторюваних цифрових рядках (транскрипція правильна, аудіо неправильне)

https://ift.tt/pWfYbFj

Hello Dear team

Підсумок

Коли gpt-realtime-1.5 вимовляє числовий ідентифікатор, що містить послідовність повторюваних цифр, згенероване аудіо часом пропускає одну з повторюваних цифр, тоді як транскрипція на тому ж кроці правильна. Це створює мовчазну розбіжність між тим, що чує абонент, і тим, що реєструє/відображає система.

Оточення

  • Модель: gpt-realtime-1.5

  • Ендпойнт: POST /v1/realtime/calls (WebRTC)

  • Голос: alloy

  • Вхідна транскрипція: whisper-1

  • Узгоджений аудіокодек: PCMU 8 кГц (G.711 μ-law, вузькосмуговий телефонний зв’язок)

  • Виявлення черги: server_vad

Відтворення

  1. Почніть сесію реального часу через WebRTC з узгодженим кодеком PCMU/8000.

  2. Нехай помічник прочитає вголос шестицифровий ідентифікатор, що містить чотири послідовні нулі, наприклад 100007.

  3. Порівняйте response.output_audio (те, що чує абонент) з транскрипцією response.content_part.done для того самого item_id.

Спостережуване

  • :white_check_mark: Транскрипт (правильний): "The code 100007 corresponds to the Beixinqiao Subdistrict within the Dongcheng District of Beijing."

  • :cross_mark: Аудіо (некоректне): помічник вимовляє "10007" — пропущено одну нуль.

Обидва належать до одного й того ж елемента помічника (item_DXM5QOn44mZwT09RQqkpG), тієї ж відповіді (resp_DXM5QaL3R7PfYT4IJS6cH), тож аудіо та текстові потоки розійшлися під час тієї ж генерації.

Очікувано

Аудіо-вивід відповідає транскрипції; усі шість цифр у 100007 вимовляються.

Примітки / Гіпотези

  • Режим несправності здається специфічним для послідовностей однакових цифр (чотири послідовні нулі). У тій же сесії коротші або не повторювані числа вимовлялися правильно.

  • Ймовірно вузькосмуговий PCMU загострює проблему, але не викликає її: транскрипція (голова) видає правильну послідовність токенів, тож пропуск відбувається в генерації аудіо, а не в логіці розуміння.

  • У системному запиті не було надано підказок щодо вимови; модель обрала власне прочитання числа.

Вплив

Для телефонії / використання рецепції це мовчазно спотворює ідентифікатори, номери телефонів, коди підтвердження та розширення, які абоненти записують або повторюють. Помилка важко виявити у продакшені, оскільки транскрипти на стороні сервера виглядають правильними.

Мої наступні кроки

  • Пізніше перевірю, чи це пов’язано з монослоговими числами чи чи впливає на числа з більш ніж одним складом — наприклад Seven… Що якщо помістити 5 цифр 7 посередині? Де виникне збій?

  • Так чи інакше — я застряг тут, бо зразки, які мені потрібні, мають багато нулів посередині

  • Місто Поштовий код
    Пекін 100000
    Шанхай 200000
    Гуанчжоу 510000
    Шеньчжень 518000
    Чендгу 610000
  • для розробників у реальному часі: Переконайтесь у паритеті між послідовностями токенів текстової голови та аудіо-голови для числових рядків, особливо за вузькосмугових частот виводу. Вони повинні вимовляти те саме.

Щиро дякую

Бог благословив

HI-FI News

через спільноту розробників OpenAI – останні пости https://ift.tt/zWc0edx

22 квітня 2026 р. о 11:59 ранку

April 22, 2026 at 11:59AM


Коментарі

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *