🎤🔊 ОБСУЖДАЕМ ПРЕОБРАЗОВАНИЕ ТЕКСТА В ГОЛОС И КЛОНИРОВАНИЕ ГОЛОСОВ 🔊🎤 ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
🌟 ТОП ЛОКАЛЬНЫХ МОДЕЛЕЙ ПО КАЧЕСТВУ РУССКОГО ГОЛОСА НА МАРТ 2026 🌟
🐟👑 Fish-Speech S2 Pro (FishAudio) — SOTA, ElevenLabs на локале! → zero-shot клон от 10–30 сек записи → 80+ языков (русский топ), теги эмоций [excited], [whisper], [angry], [laughing] и вообще дохуя → диалог между несколькими голосами → тяжёлая сучка (FP8 в 12 ГБ VRAM, full ~17 ГБ), но есть экспериментальный вариант для 6+ ГБ https://github.com/rodrigomatta/s2.cpp 🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹 🧠 Qwen3-TTS → клон от 3–30 сек (ВАЖНО: без reference-транскрипта текста — хуйня, если хочешь поудобнее подключи сразу QwenASR) → VoiceDesign: пишешь «весёлая молодая девка с хрипотцой» — и получаешь голос → 10 языков, включая русский → диалог между спикерами → лёгкая — влезает в 6 ГБ VRAM 🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹 🎙️ VibeVoice-7B от Майкрософт → тяжёлая, но 4-bit квантизация — запускается на 8 ГБ (проверено на 3070) → поддержка долгих спичей → подкаст-режим: 4 спикера одновременно → норм клонирование голоса 🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹 ☁️ FL CosyVoice3 → ультралёгкий 0.5 — запустится даже на тостере → 9 языков, включая русский → zero-shot клон от 3–10 сек референса 🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹 🌍 Chatterbox Multilingual (23 языка, включая русский) → zero-shot клонирование голоса 🎤 F5-tts → zero-shot клонирование голоса → официально русский не поддерживается, но есть файнтюн (см. ниже) ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 🚀 КАК ЭТИМ ПОЛЬЗОВАТЬСЯ (если что-то не понятно — спроси у ИИ лол) 🚀
🔥Вариант «всё в одном месте» — ComfyUI + TTS-Audio-Suite
1. Устанавливаем ComfyUI (Desktop для нормисов, Portable для здешних нейромантов) 2. Ставим https://github.com/diodiogod/TTS-Audio-Suite — постоянная обновляемая солярка почти всех моделей 3. Поставить FFmpeg (через winget в комадной строке: winget install FFmpeg или скачать) 4. Запускаем Комфи → перетаскиваем готовый json-воркфлоу из репозитория 5. Отсавляем включенными выбранные ноды, жмём Run 6. При первой генерации модели сами скачаются (~1–9 ГБ)
💥 Вариант «по отдельности» (кастом под каждую модель) 💥 Тоже через ComfyUI, только ставим отдельные кастомные ноды (на выбор):
в комфи в ноде F5 TTS audio advanced выбрать: model model:///ru.safetensors model_type: F5TTS_v1_Base sample_audio: emma_ru_xtts_3 ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 🎉 Если что-то не запускается — пиши, разберёмся! Голосуем, клонируем, ебём нейросети вместе! 🔥🎙️
>>1557325 → >Faster-whisper-xxl питоновский. Обычный даже время не выдает. Ты этим же делал? не, я делал Whisper.cpp, может из за этого в 2 раза разница, хотя не верится особо...
>>1557387 >Speech-to-Text Так проблема уже давно решена, если нужно локально то QwenASR, а если не важно чтобы был лоКАЛ, то можно закинуть аудио в Грок и он сам тебе его транскрибирует. А так, ASR тоже в TTS-Audio-Suite, но обсуждать их уже как-то мало смысла.
>>1557388 ну, по первому файлику примерно в 2 раза медленнее работает, 49 сек против 21, и видеокарту не так использует... (в графе 3д ничего не показывает, только по памяти)
>>1557438 >А виспер цпп 3д нагружал в том числе >>1557836 >Почему у тебя быстрее? Оно же в проц не должно упираться? та кто его знает, по идее б у меня первого уперлось бы, у меня зион 13го года и ддр3... та и нагрузка явно на видяху там шла, бо в графе 3д конкретный такой забор был, % на 75... пробуй CPP поднять, должен быть прирост
>>1557937 > Тупо закидываешь аудиофайл в чат С чатом гопотой у меня это так м не заработало. Алсо это не автоматизируемо? А что там за модель под капотом?
>>1558097 >А что там за модель под капотом? Может быть такое что там скрытая кастомная от Гугла или все та же Veo но настроенная на звук, но везде пишут что сама Gimini она мультимодальна, то есть натренена на тексте/картинках/аудио/видео одновременно.
>>1558401 Слишком дорого, и для вменяемого качества нужно много ручного труда. В читаемой нейронкой формат перевести, голоса натренировать, хорошие варианты выбрать... Это прям сильно больше, чем несколько чуваков за пару штук нанять на озвучку.
>>1557328 (OP) >Qwen3-TTS Бляя. Я это хуйню короче вчера поставил, угадайте блять чё случилось после команды реквирементс. А то что и всегда нахуй, комфи просто перестала запускаться. с стабильность.
Не, все-таки Cuda... Хм, почему мне тогда кажется что раньше я этот забор в графе 3д видел, ну то такое, может то на другой нейронке какой-то 3д юзалось...
>>1557867 >У меня интел 10 года тогда там и AVX2 походу нет? печальненько, это может ограничить спектр запускаемого софта... та и на скорость повлиять... хотя по ощущениям основная работа на видеокарте (китайцы не смогли нормально мать развести, и при работе видеокарты в наушниках довольно хорошо слышно сигналы с PCIe шины)
>>1558729 >а без комфи А без комфи там надо ставить кучу всякой хуиты, питоны, тритоны, анаконды, и пердолиться в сонсоль до скончания веков. Я не даун, что бы заниматься этой хуетой.
>>1558749 но при этом имеешь время чтоб ломать и чинить комфи) я для себя принял тактику - новый инструмент- новый venv для пайтона... тритон на винде это боль насколько я помню вообще
>>1558781 как то так, один скрин турбо, один просто лардж оно пиками мощу повышает по меньшим значениям в 20 вт разница, 70-90... как то так, пиками на макс 150 плюет
Я тута к вам с идеей нейронкой сделать аудиокнигу. Так как у меня комп не очень, то буду сам делать на silero. Пока может для себя. В планах Сделать фонетический разбор текста, расставить правильно ударения, паузы. Разбить текст по ролям и дать каждой роли отдельный голос Так как у silero мало голосов. То отдельно придется преобразователь голоса. Добавление фоновых звуков Сшивание обратно по главам
Кто-нибудь пробовал использовать llama-tts из репозитория llama.cpp? То ли help там не полный, то ли нейронных сетей нормальных в gguf для этого нет, но у меня постоянно вылетает ошибка аля "не могу открыть gguf" или "не передан файл gguf". Советовался у Claude, Deepseek и ChatGPT - пишут, что, возможно, разрабы не допилили программу.
Анончи, помогите новичку связать llm с tts Нарезал 20 кусков по 10 секунд англоязычной речи нужного мне персонажа Пытаюсь сделать так чтобы читались ответы ллмки автоматически. Ллмка эта локальная. Дипкок предложил silly tavern, накатить через дополнения. Но я ебанулся уже разбираться в этом говне без гуя с ошибками на каждом этапе и тонной мусора из зависимостей. Может я изначально не тем путем иду и нужно как-то иначе осуществлять данную функцию? Видеокарта у меня 4060 на 8 гигабайт, 32гб ОЗУ
>>1568745 >связать llm с tts >Ллмка эта локальная. >как-то иначе осуществлять данную функцию? тебе повезло, тут в кобольд только недавно завезли поддержку QwenTTS с клонированием голосоа https://github.com/LostRuins/koboldcpp/releases
Подскажите прикольные бесплатные ИИшные говорилки для голоса с ретро вайбом для фумо видео типа как тут (японский AquesTalk, тексттуспич), но чётче и экспрессивнее, русский язык. Желательно чтобы их было не ультра сложно установить, что-то простое. Виндовс 11.
>>1569814 >ттс не понимаю как обучить обучать не нужно, сейчас все делается через voice-cloning, модель клонирует голос на лету. сначала научись его делать наверное с любой моделью и потом лезь, хотя там и так понятно все должно быть.
>>1570077 Я разобрался базово в koboldcpp и получилось настроить там рекомендованную на гитхабе TTS. Но проблема в том что она очень медленная. Даже на видеокарте приходится по 5 минут ждать генерацию фразы в несколько слов. Причем LLM параллельно работает наоборот очень быстро. Ещё мне не нравится, что можно только один отрывок короткий использовать, хотя у меня их 20. Каждый раз идёт обучение с нуля, как я понял по консольке и если выбирать отрывок дольше 10 секунд, то генерация звука занимает вообще по 20 минут. Неужели нет способа на 4060 более-менее быстро генерить, чтобы озвучка занимала адекватное время?
>>1570116 >Но проблема в том что она очень медленная. Даже на видеокарте приходится по 5 минут ждать генерацию фразы в несколько слов. Возьми квант поменьше, не Q8_0, а Q4 к примеру.
https://github.com/Saganaki22/ComfyUI-OmniVoice-TTS 600+ Languages — Broadest language coverage among zero-shot TTS models Voice Cloning — Clone any voice from 3-15 seconds of reference audio Voice Design — Create synthetic voices from text descriptions (gender, age, pitch, accent) Multi-Speaker Dialogue — Generate conversations between multiple speakers using [Speaker_N]: tags Fast Inference — RTF as low as 0.025 (40x faster than real-time) Non-Verbal Expressions — Inline tags like [laughter], [sigh], [sniff]
>>1557328 (OP) Что по качеству, голосаны? Шапка актуальна? Вот эта >>1574911 нейрошляпа актуальна? Что скачать для клона и генерации с нуля, чтобы не качать все подряд и не тыкаться с этим неделю-другую, перебирая? 16 VRAM.
Вот эта йоба >>1574904 входит в топ лучших. Но походу не лучше чем Fish-Speech S2 Pro, но более доступная, так как ФишСпич требует как раз 12 ГБ VRAM, а ОмниВойс можно и на тостере запустить с 4ГБ VRAM.
>>1575156 И для 8 ГБ VRAM, да хоть для 4 ГБ VRAM подойдет OmniVoice.
>>1575198 Да, есть дизайн голоса с нуля. Ну и плюс типа 600 ЯЗЫКОВ Карл блять, 600!
>>1575198 >>1575268 Тут прикол ОмниВойса в том, что он мультиязычный - то есть клонированные голоса с одного языка можно использовать на другой язык. То есть клонируешь чей-то известный английский голос и говоришь им на русском и т.д.
>>1575252 Спасибо. Насколько вижу по шапке, там из серьезного только Рыба, Квен, Майкрософт. Остальное мелочь какая-то. Квен и Майков трогать стоит или уже стоит только Рыбу с >>1574904 смотреть?
>>1575252 >Да, есть дизайн голоса с нуля. Дизайн с нуля и в Квене есть, говорю же. Но в Квене нет такого, чтоб взять клон голоса, и уже его дизайнить. Эмоции прописать, интонации другие, прочее. Потому и спросил. Тут, походу, тоже нет. >600 ЯЗЫКОВ На-ку-я? Не, какому-нибудь маори может и понравится, что для его языка на чем они там говорят вообще? наконец-то модель сделали. Но основные то, самые часто используемые языки, практически все модели знают.
/\/\/\ Вот эту поеботу можно как-то в google colab запустить на T4? /\/\/\
Я нищий и тупой, не бейте. Звучит охуенно, но при попытке запуска этих нод через комфи всё вылетает нахуй, я так понимаю памяти не хватает. А как использовать nf4 в душе не ебу. Ну скачал модель, закинул в папку, а дальше то что? Оно один хуй пытается свою модель автоматом качать и на этом происходит разрыв жопы. А как под это кастомный ворклфлоу собрать я в душе ебу.
А вообще имеет ли смысл? Ну типа будет ли оно хоть близко таким же качественным с моём случае, как и примеры с полноценной моделью? Или будет всё тот же робовойс?
>>1576418 Уточню что в самой ноде я также выбирал bnb nf4, но оно сначала качало оригинальную модель или её часть, пыталось что-то пережимать или хуй его и вылетало. То есть автоматический вариант видимо отпадает.
>>1576418 >>1576422 это кастомная нода к ComfyUI, поэтому должен ставиться вот так - можно ли запустить ComfyUI на коллабе? Так хз, со времен Автоматика это вроде блокируется на коллабах.
Но для тех, у кого как минимум 6 ГБ VRAM есть альтернативный вариант https://github.com/rodrigomatta/s2.cpp поддерживающий квантизированную версию модели, правда придется попариться с запуском и управлять процессом придется через командую строку. В общем самый barebones вариант, но по качеству не должен уступать.
>>1576458 Да он то сам по себе ставится на комфи в колабе, просто нужно именно обойти вот это ограничение с автоскачиванием модели, чтобы оно подтягивало не полную модель, а брало уже квантованную из файлов, а с этим непонятно. А так если вопрос стоит в том пропускает ли колаб генерацию, то да пропускает, никаких проблем с нейронками в колабе нет. Мой случай упирается именно в видеопамять.
>>1579032 Это я видел. Мне бы на русском каких-нибудь ярких экспрессивных голосов. Так омнивойс затянул, звучит как магия, после старых ттс. А вот голоса русские негде брать, особенно женские... Повырезал немного блогерш и стримерш, они в основном очень вяло разговаривают.
>>1579728 Не знаю что там про бояр. Но при черипикинге омнивойса, я смог сгенерировать короткие голосовые, неотличимые от оригинала и потролить этим друзей которые ничего не заметили. Ещё пару поколений нейронок и нам конец.
>>1579728 >Или всё то же самое по качеству будет? Ну да, если VRAM выше потолка то качество магически не увеличится, только сокорость может, ну и еще на поток поставить - генерировать сразу 2-4 вариантов аудио с разными сидами.
>>1580202 Используй Fish-Speech S2 Pro со следующими тэгами. Но по моему опыту модель понимает гораздо больше тэгов чем эти. К примеру я добовлял [surprise] и еот реально удивленно говорила, еще [embarrassed] или [love] (не уверен работает или нет, но какой-то эффект есть).
>>1579938 Почему у меня сколько бы я этих локальных нейронок не пробовал, всегда получается абсолютно обоссаная проклятая срань, в которой половину слов на китайском, половину с неправильными ударениями на русском.
Единственный приемлемый результат я получал только через RVC с обученной моделью. Которая переозвучивала то, что наговорила нейронка от гугла. Но гугл пидарасы заблочили доступ в свою студию. И теперь приходится долбиться в комфи, каждую неделю скачивая новое обоссаное проклятое поделие, и убеждаться, что оно такое же как предыдущее.
>>1590477 Есть готовая сборка портативная комфи. Просто распаковываешь её, кидаешь туда файл с гитхаба омнивойс, из папки воркфлоу. И всё. Там воркфлоу сам модели скачивает.
Так, вскатываюсь в ttv и не понимаю как установить. Скачал омнивойс, закинул в комфи и пикрил, ничего не работает. Если удалить папку nodes то комфи запускается но ругается что нод, очевидно, нет. Что делать?
>>1598336 Первое что надо сделать, это поставить в браузер закладку перплексити и подобной нейронки. И любой такой элементарный вопрос спрашивать у неё. Она такую хуету понимает, можно так и писать "где взять менеджер нод комфи уи", прямо по русски с ошибками похуй. И дальше если что-то в процессе будет непонятно, тоже у неё спрашивать.
>>1599041 Тоесть ты прямо так в сонсоль и пишешь "python -m pip install"? Это чё то не то. В портативную надо именно указывать питон, который в папке python_embeded Тоесть \путь_до_портативной папки\python_embeded\python.exe -m pip install и т.д.
>>1599066 Я батник создал в папке с питоном, как видно на пике оно сработало вроде как, написано что установлено. Если запустить еще раз батник то пишет что все работает. Но в самом комфи ничего не изменилось.
>>1599085 Сначала скачал какой-то типа официальный, потому что тот манагер не хотел качать. Он не завелся, скрутил в манагере безопасность и скачал от саганаки, ничего не изменилось.
>>1599101 Так у тебя получается ничего не установлено. Тебе нужны кастомные ноды от саганаки и воркфлоу от саганаки.
По поводу секурити вот так у меня в инишнике. И всё скачалось и сходу завелось. security_level = weak Если у тебя так же и всё равно не качает, попробуй тогда через git clone скачать репозиторий вручную.
Да ебаный рот этого казино, сколько можно. Надо было обновить трансформеров и ноды появились. НО ВСЕ РАВНО НИХУЯ НЕ РАБОТАЕТ. Какой пип инсталл, куда его пихать? Что за мудак все эти инструкции писал, если бы я понимал что это значит то мне эти подсказки всратые не нужны были бы. "You can install it with `pip install accelerate", ну охуеть теперь, и что мне с этим делать? Опять создал ебучий батник и засунул туда это дерьмо - нифига. Я уже десять батников создал чтобы это говно заработало а ему надо еще и еще, это вообще кончится когда-нибудь? Что значит "используй pip install accelerate"? Гугл выдает какую-то хуйню только непонятную или еще одну папку на гитхабе которую неизвестно куда пихать.
>>1599175 Или мне надо путь батнику указывать до файла пип в папке со скриптами питона? Тогда заведется? Пиздос, чувствую я систему скоро всю наебну этими установками говна через батники.
>>1599189 Да, я так недавно комфи угандошил вайб войсом. Радуйся что хотя бы запускается пока. У меня после зависимостей вайбвойса вообще перестал.
>Надо было обновить трансформеров Так вроде скрипт установщик install.py проверяет какая там версия этих трансформеров нужна. Ты через скрипт ставил или просто вводишь рандомные команды на рандомные ошибки?
>>1599268 Так комфи тебе может так очень долго ошибки писать. Скажем если в requirements 20 зависимостей. Оно тебе будет ошибку с одной зависимостью выдавать, а после того как ты её поставишь он тебе следующую ошибку выдаст и так 20 раз будет писать.
Потому кастомные ноды, если они не встали через менеджер, надо ставить по инструкции с гитхаба. Там будет что-то типа python -m pip install requirements.txt Но в данном случае через install.py надо в папке кастом ноды
>>1599314 Просто в батнике через пробел условно "Comfy\python_embedded\python.exe comfyUI\custom_nodes\omnivoice\python.py"? так? -pip install или просто - не надо?