Gpt-realtime-2 GA API: What is the correct audio format for g711_ulaw (Twilio/telephony)?

від

у

Gpt-realtime-2 GA API: Який правильний аудіоформат для g711_ulaw (Twilio/телефонія)?

https://ift.tt/wZX79GK

Міграція з gpt-realtime-1.5 (бета) до gpt-realtime-2 (GA API) для голосового агента на базі Twilio. GA API відхиляє старі параметри flat input_audio_format / output_audio_format і вимагає вкладений об’єкт session.audio.input.format, але правильне значення type для G.711 μ-law (який використовується медіа-потоками Twilio) невідоме.

Що ми пробували

Бета-API (працював нормально):
{
“type”: “session.update”,
“session”: {
“input_audio_format”: “g711_ulaw”,
“output_audio_format”: “g711_ulaw”
}
}

Спроби GA API (усі відхилялись):

  1. “session.input_audio_format” → Невідомий параметр: ‘session.input_audio_format’
  2. формат: { type: “g711_ulaw” } → відхилено

{
“type”: “session.update”,
“session”: {
“type”: “realtime”,
“output_modalities”: [“text”, “audio”],
“audio”: {
“input”: {
“format”: { “type”: “g711_ulaw” }
},
“output”: {
“format”: { “type”: “g711_ulaw” },
“voice”: “marin”
}
}
}
}

Питання

  1. Які дійсні значення для session.audio.input.format.type у GA API?
  2. Чи підтримується G.711 μ-law (8 кГц) у gpt-realtime-2 через WebSocket або тільки через SIP?
  3. Чи існує офіційний посібник з міграції від бети до схеми конфігурації сесії GA?

Оточення

  • Модель: gpt-realtime-2
  • З’єднання: WebSocket (wss://api.openai.com/v1/realtime)
  • Транспорт: потоки медіа Twilio (G.711 μ-law, 8 кГц)
  • Немає заголовку OpenAI-Beta (GA API його відхиляє)

Буду вдячний за будь-яку допомогу — документація GA API не перелічує дійсні типи форматів аудіо для вкладеної структури об’єкта.

HI-FI News

через спільноту розробників OpenAI – Останні дописи https://ift.tt/7Za8OAi

12 травня 2026 р. 20:38

May 12, 2026 at 08:38PM


Коментарі

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *