
Я створив Voice2Sub: локальний AI-генератор субтитрів для відео та аудіо
https://ift.tt/DWPXH7K
I built Voice2Sub because many subtitle and transcription workflows still start with uploading a media file to a browser tool.
That works for short public videos. But it becomes awkward when the file is long, private, local, or part of a repeat editing workflow.
Voice2Sub focuses on a desktop workflow:
1) Import a local video or audio file
2) Generate subtitles or transcript text with Whisper AI recognition
3) Review the result
4) Export SRT, VTT, TXT, LRC or CSV
Website: https://ift.tt/iOm7TlL
GitHub release notes: https://ift.tt/eCFJZiI
Download: https://ift.tt/HdP3QKA
Чому я зробив це як настільний застосунок
Багато творців, освітян, подкастерів та журналістів працюють із медіа, яке не завжди хочуть завантажувати у браузерний інструмент.
Приклади:
– приватні інтерв’ю
– довгі лекції
– записи курсів
– подкасти
– внутрішні зустрічі
– процеси редагування YouTube чи TikTok
– архівовані аудіо/відео файли
Локально-орієнтований настільний застосунок дає користувачам більший контроль над файлом, моделлю, форматом виводу та процесинговим робочим потоком.
Що робить Voice2Sub
Voice2Sub — це AI-генератор субтитрів та застосунок для розпізнавання мовлення на основі настільного програмного забезпечення для відео/аудіо файлів.
Зараз зосереджено на:
– створенні субтитрів з локального відео/аудіо
– створенні тексту транскрипції з мовлення
– експорту SRT, VTT, TXT, LRC та CSV
– запуску на Windows, macOS Apple Silicon та Linux
– підтримці CUDA-ускорення на сумісних системах Windows/Linux
– підтримці Metal-ускорення на Apple Silicon Mac
– наданні користувачам більшого контролю над вибором моделі та налаштуваннями транскрипції
Чому не просто використати онлайн-генератор субтитрів?
Онлайн-інструменти зручні, але настільний робочий процес корисний коли:
– медіафайл великий
– контент приватний
– користувач хоче повторну обробку
– користувач хоче локальний контроль моделі
– користувач потребує популярних форматів експорту субтитрів
– користувач працює на Windows, macOS або Linux
Voice2Sub не намагається замінити кожен онлайн-редактор відео. Він зосереджений на локальному робочому процесі субтитрів та транскрипції.
Що я вивчив під час створення
AI-частина — лише один з компонентів продукту.
Настільний AI-інструмент також потребує:
– надійні завантаження моделей
– офлайн та перериваний процес завантаження
– безпечну поведінку повторного запуску/поновлення
– міжплатформенну пакетизацію
– чіткі повідомлення про помилки
– налаштування прискорення GPU
– надійність оновлень
– локалізацію
– чисті формати експорту
– перший досвід використання, який не плутає користувачів
Одне, чого я недооцінив — наскільки важливий досвід завантаження моделі. Якщо користувач не може завантажити або вибрати AI-модель, весь продукт здається зламаним, навіть якщо двигун транскрипції працює.
Поточні платформи
Voice2Sub наразі підтримує:
– Windows x64
– macOS Apple Silicon
– Linux x64
Застосунок також підтримує апаратне прискорення, коли доступне:
– CUDA на сумісних системах NVIDIA
– Metal на Apple Silicon Mac
Поточні формати експорту
Voice2Sub може експортувати:
– SRT
– VTT
– TXT
– LRC
– CSV
Ці формати охоплюють поширені workflows субтитрів, транскрипції, текстів пісень та редагування.
Що хотів би покращити далі
Я розглядаю:
– пакетне створення субтитрів
– кращий попередній перегляд/редагування субтитрів
– workflow перекладу
– розпізнавання спікера
– кращі попередньо встановлені налаштування для YouTube, курсів, подкастів та інтерв’ю
– більше вишуканості в першому запуску та onboarding
Посилання
Website: https://ift.tt/iOm7TlL
Download: https://ift.tt/HdP3QKA
GitHub release notes: https://ift.tt/eCFJZiI
Якщо ви працюєте з субтитрами, транскрипцією, відеоредагуванням, подкастами або навчальним контентом, буду радий отримати відгук щодо робочого процесу.
HI-FI News
via DEV Community https://dev.to
May 21, 2026 at 05:52PM
May 21, 2026 at 05:52PM

Залишити відповідь