
Урізані речення для TTS API, відсутні у згенерованому аудіо
https://ift.tt/LUVJRw7
Привіт, форум!
Я використовую TTS для KI-голосового чату («майстер гри»). Рідко я помічаю, що останнє речення обрізане — у згенерованому аудіо відображається лише перша його частина. Дуже дивно: здається, обрізає завжди на останньому реченні.
Наприклад, для «I’m Jack from Roll-Bonz, but I don’t care about your food cravings — I sell tough vehicles, not snacks. The BonsAI is a robust mechanical beast with a stainless steel frame and no electronics. Why waste time on this nonsense?»,
я отримую 120k Blob (.opus/webm), без «Чому витрачати час на цю нісенітницю?».
Якщо я повторю точно такий же запит, я отримаю усе.
Чи це відома проблема?
Я використовую /api.openai.com/v1/audio/speech
Це з моїх журналів:
Text[227]: «Я Джек з Roll-Bonz, але мене не хвилюють ваші харчові примхи — я продаю міцні транспортні засоби, а не перекуси. BonsAI — це надійний механічний звір зі сталевою рамою та без електроніки. Чому витрачати час на цю нісенітницю?» Blob[123765]
Text[227]: «Я Джек з Roll-Bonz, але мене не хвилюють ваші харчові примхи — я продаю міцні транспортні засоби, а не перекуси. BonsAI — це надійний механічний звір зі сталевою рамою та без електроніки. Чому витрачати час на цю нісенітницю?» Blob[139670]
Дякую за вашу допомогу!
З повагою, Джо
Привіт і ласкаво просимо до спільноти!
Так, я помітив ту саму поведінку у недавніх тестах. Вивід зупиняється після першої частини повідомлення, що відповідає вашому випадку.
Найімовірніше це трапилося через те, що закріплена модель була оновлена до новішої версії два дні тому. Якщо ви явно виберете попередній знімок, «gpt-4o-mini-tts-2025-03-20», поведінка має повернутися до попереднього стану.
HI-FI News
через OpenAI Developer Community – останні публікації https://ift.tt/e0aAL7S
19 січня 2026 року о 12:01 після полудня
January 19, 2026 at 12:01PM

Залишити відповідь