Gpt-realtime-2 GA API: Який правильний аудіоформат для g711_ulaw (Twilio/телефонія)?
https://ift.tt/wZX79GK
Міграція з gpt-realtime-1.5 (бета) до gpt-realtime-2 (GA API) для голосового агента на базі Twilio. GA API відхиляє старі параметри flat input_audio_format / output_audio_format і вимагає вкладений об’єкт session.audio.input.format, але правильне значення type для G.711 μ-law (який використовується медіа-потоками Twilio) невідоме.
Що ми пробували
Бета-API (працював нормально):
{
“type”: “session.update”,
“session”: {
“input_audio_format”: “g711_ulaw”,
“output_audio_format”: “g711_ulaw”
}
}
Спроби GA API (усі відхилялись):
- “session.input_audio_format” → Невідомий параметр: ‘session.input_audio_format’
- формат: { type: “g711_ulaw” } → відхилено
{
“type”: “session.update”,
“session”: {
“type”: “realtime”,
“output_modalities”: [“text”, “audio”],
“audio”: {
“input”: {
“format”: { “type”: “g711_ulaw” }
},
“output”: {
“format”: { “type”: “g711_ulaw” },
“voice”: “marin”
}
}
}
}
Питання
- Які дійсні значення для session.audio.input.format.type у GA API?
- Чи підтримується G.711 μ-law (8 кГц) у gpt-realtime-2 через WebSocket або тільки через SIP?
- Чи існує офіційний посібник з міграції від бети до схеми конфігурації сесії GA?
Оточення
- Модель: gpt-realtime-2
- З’єднання: WebSocket (wss://api.openai.com/v1/realtime)
- Транспорт: потоки медіа Twilio (G.711 μ-law, 8 кГц)
- Немає заголовку OpenAI-Beta (GA API його відхиляє)
Буду вдячний за будь-яку допомогу — документація GA API не перелічує дійсні типи форматів аудіо для вкладеної структури об’єкта.
HI-FI News
через спільноту розробників OpenAI – Останні дописи https://ift.tt/7Za8OAi
12 травня 2026 р. 20:38
May 12, 2026 at 08:38PM

Залишити відповідь