Бенчмаркінг мовного моделювання для безвтратного стискання аудіо з повною точністю
https://ift.tt/k2VBwD1
Авторегресивні «мовні» моделі (LM), навчені на сирих вейвах, можуть бути перепризначені для безвтратного стискання аудіо, але попередні роботи обмежувалися 8-бітовим аудіо, що залишає відкритим питання, чи подібні підходи працюють у практичних налаштуваннях (16/24-біт) та чи можуть конкурувати з існуючими кодеками. Ми проводимо бенчмаркінг стискання на основі LM для аудіо з повною точністю у різноманітних доменах (музика, мова, біоакустика), зразкові частоти (16 кГц–48 кГц) та глиби зображення біт (8, 16, 24-біт). Стандартна токенізація на рівні зразків стає нераціональною при більшій глибині біт через розмір словника (65K для 16-біт; 16.7M для 24-біт). Ми пропонуємо Trilobyte, схему байтової токенізації для повного дозволу аудіо, що покращує масштабування словника з O(2^b) до O(1) та дозволяє першу раціональну 24-бітну LM-орієнтовану безвтратну стискання. Хоча LM consistently перевершують FLAC та дають найкращі в світі стискання при 8-біт та 16-біт, ми помічаємо, що приріст стискання стає більш помірним із збільшенням глибини біт понад 8-біт.
HI-FI News
via Artificial Intelligence https://ift.tt/z71eiQf
10 березня 2026 р. о 05:00 за ранком
March 10, 2026 at 05:00AM

Залишити відповідь