
Основні оновлення серії моделей Qwen; Нова модель “Мова в мову” Fun-Audio-Chat-8B
Alibaba нещодавно розширила свій асортимент штучного інтелекту значними оновленнями в редагуванні зображень Qwen і контролюючих TTS, випустила з відкритим вихідним кодом модель Fun-Audio-Chat-8B з усвідомленням емоцій, та досягла успіху з ефективною Z-Image-Turbo, яка очолила рейтинги відкритих текстово-зображальних моделей.
Alibaba представила оновлення до моделей Qwen-Image-Edit і Qwen3-TTS
Alibaba презентувала два значні оновлення серії моделей Qwen. Перше, Qwen-Image-Edit-2511, є великим кроком уперед від свого попередника, пропонуючи значно покращену узгодженість та стабільніші можливості редагування реальних зображень. Особливо модель відзначається збереженням узгодженості для кількох осіб, особливо у групових фотографіях та складних сценах, що дозволяє високоякісну синтезу двох окремих індивідуальних зображень у безшовний, узгоджений груповий портрет.
Qwen-Image-Edit-2511 також впроваджує підвищену продуктивність у генерації промислового та продуктового дизайну, значно зменшене зсув зображення та покращену узгодженість особистостей і характерів. Його удосконалене геометричне мислення дозволяє безпосередньо генерувати допоміжні конструктивні лінії, що полегшує точну дизайнерську роботу та анотацію. Крім того, модель нативно інтегрує вибір популярних, розроблених спільнотою LoRAs, розкриваючи їхні ефекти без потреби в додатковій тонкій настройці.
(Запит: Жінка тримає цього кота)
У той же час Alibaba оновила свій асортимент Qwen3-TTS, представивши VoiceDesign-VD-Flash, новаторську технологію контролюючого синтезу мови. Ця модель підтримує повністю налаштовуваний голосовий вихід через інструкції у вільній формі тексту, дозволяючи точно контролювати інтонацію, ритм, емоції та особистість. Вона може навіть створити унікальну, персоналізовану голосову ідентичність з нуля, без використання попередньо встановлених голосових шаблонів. VoiceDesign-VD-Flash вже перевершила кілька провідних власницьких моделей за результатами рольових ігор і готова до застосування в креативних галузях, таких як озвучення аудіокниг, дубляж фільмів і драм, а також створення голосів анімаційних персонажів.
Alibaba випустила з відкритим вихідним кодом Fun-Audio-Chat-8B: розвинута модель “Мова в мову”
Alibaba представила Fun-Audio-Chat-8B, модель “мова в мову” з відкритим вихідним кодом, яка дозволяє пряму, природну аудіоінтеракцію з користувачами. Як останнє доповнення до родини LLM Fun, модель розроблена для різноманітних сценаріїв використання, таких як аудіочат, емоційне супутництво, розумні пристрої та автоматизація обслуговування клієнтів.
Ключовою можливістю Fun-Audio-Chat-8B є усвідомлена емоційна комунікація без явних міток чи підказок. Модель може зрозуміти емоційний стан користувача за такими показниками, як семантика, тон, швидкість мовлення, паузи та акцентуація, і реагувати відповідним чином – з дбайливістю або підтримкою. Модель також має потужні можливості виклику функцій, що дозволяє користувачам виконувати складні команди природної мови. Модель інтерпретує наміри і викликає відповідні функції для виконання завдань, підтримуючи як одиничні виклики, так і кілька паралельних викликів, щоб перетворити голосові взаємодії на дійсні результати.
Модель вирішує критичні технічні проблеми, які мучили попередні спільні моделі мови та тексту. Інтегруючи подання мови з подвоєною роздільністю, Fun-Audio-Chat-8B зменшує вимоги до обчислень до 50%, зберігаючи при цьому високу якість мовлення. Інноваційна стратегія навчання Core-Cocktail спрямована на збереження можливостей текстового LLM під час багатомодального навчання, зменшуючи невідповідності часової роздільності та катастрофічні завади. Багатоступеневий, багатозадачний процес після навчання ще більше збігає відповіді з людськими перевагами як за значенням, так і за емоційними нюансами.
Fun-Audio-Chat-8B продемонструвала виняткову продуктивність на різних тестуваннях, включаючи OpenAudioBench, VoiceBench і UltraEval-Audio, перевершивши всі порівнянні відкриті моделі у своєму класі параметрів. Модель тепер безкоштовно доступна для ширшої спільноти ШІ через GitHub, HuggingFace та ModelScope.
HI-FI новини
через Alizila
December 30, 2025 at 10:15AM

Залишити відповідь