New Audio Model Snapshots in the Realtime-API

Лют 10, 2026

—

від

Нові знімки аудіо-моделей у Realtime-API

https://ift.tt/Xw8ILFD

Будь обережний. Остання версія не завжди означає найкращу. Тестуйте останню версію (gpt-4o-mini-tts) перед розгортанням.

Також здається, що gpt-4o-mini-tts-2025-12-15 активно змінюють. Мова, згенерована сьогодні 2/10, помітно гірша за вихід від 1/13, навіть якщо я використав той самий знімок. Аудіо звучить значно темніше, майже ніби застосували агресивний фільтр нижніх частот, що призводить до зниження чіткості та погіршення вокального тону.

Наприклад, Shimmer та Nova тепер звучать дуже подібно, тоді як раніше версії були чітко відрізнялися.

Я повернувся до gpt-4o-mini-tts-2025-03-20.

HI-FI News

через OpenAI Developer Community — Останні пости https://ift.tt/uazQqie

10 лютого 2026 року о 17:44

February 10, 2026 at 05:44PM

New Audio Model Snapshots in the Realtime-API

Коментарі

Залишити відповідь Скасувати коментар