Gemini 3.1 Flash Live Brings Fluid Audio Conversations

від

у

Gemini 3.1 Flash Live приносить плавні аудіорозмови

https://ift.tt/9GEHc4L

Нова модель Google Gemini 3.1 Flash Live означає суттєвий перехід у тому, як ми взаємодіємо з штучним інтелектом, зосереджуючись specifically на тому, щоб голосові та аудіо-розмови відчувалися більш людяними.

Gemini 3.1 Flash Live — це спеціалізована модель, розроблена для виконання важкої роботи реального часу двостороннього діалогу. Хоча попередні моделі були вражаючими, вони часто страждали від незначних затримок або «незграбних пауз», які нагадували, що ви говорите з машиною. Ця нова версія створена як «мозок» за Gemini Live та Search Live, пропонуючи нижчу затримку та кращі логічні висновки.

Одна з помітних переваг — «тональні розуміння». Модель тепер може уловлювати subtile акустичні нюанси, такі як висота та темп вашого голосу. Це означає, що ШІ може відчувати, чи ви злишитесь, розгублені або зраділи, і відповідно коригувати довжину та тон своєї відповіді, щоб узгодитися з моментом. Якщо ви поспішаєте, він може дати швидку відповідь; якщо ви досліджуєте складну ідею, він може підійти більш обачно.

Для техно-ентузіастів цифри за цією релізією дуже сильні. У бенчмаркових тестах, таких як ComplexFuncBench Audio, який вимірює, наскільки добре ШІ може слідувати багатокроковим інструкціям із обмеженнями, модель набрала високу 90.8%.

Google також вирішив проблему «пам’яті». Gemini 3.1 Flash Live тепер може зберігати контекст розмови у двічі довше, ніж попередня 2.5 Flash-модель. Це змінює правила гри для тривалих сесій мозкових штурмів, де ви можете згадати ідею, згадану десять хвилин тому.

Розгортання не обмежується лише кількома регіонами. Google використовує цю модель для глобального розширення Search Live, який тепер доступний у більш ніж 200 країнах та територіях. Він підтримує понад 90 мов, роблячи розмови у режимі реального часу мультимодальними доступними для великої аудиторії.

У сфері безпеки Google впроваджує водяні знаки SynthID. Ця технологія вбудовує непомітний маркер у аудіо, створене ШІ. Це допомагає ідентифікувати контент, створений штучним інтелектом, і є частиною ширшої ініціативи щодо запобігання поширенню дезінформації, оскільки озвучування голосу та аудіо ШІ стає все більш поширеним.

HI-FI News

через iPhone in Canada https://ift.tt/WqHMvco

26 березня 2026 р., 18:45 PM

March 26, 2026 at 06:45PM


Коментарі

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *