/ai/ - Голосовых нейронок тред (Text to speech, Voice Clone) #8

Голосовых нейронок тред (Text to speech, Voice Clone) #8 /speech/ Аноним 20/03/26 Птн 16:16:54 № 1557328 1

🎤🔊 ОБСУЖДАЕМ ПРЕОБРАЗОВАНИЕ ТЕКСТА В ГОЛОС И КЛОНИРОВАНИЕ ГОЛОСОВ 🔊🎤
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

🌟 ТОП ЛОКАЛЬНЫХ МОДЕЛЕЙ ПО КАЧЕСТВУ РУССКОГО ГОЛОСА НА МАРТ 2026 🌟

🐟👑 Fish-Speech S2 Pro (FishAudio) — SOTA, ElevenLabs на локале!
→ zero-shot клон от 10–30 сек записи
→ 80+ языков (русский топ), теги эмоций [excited], [whisper], [angry], [laughing] и вообще дохуя
→ диалог между несколькими голосами
→ тяжёлая сучка (FP8 в 12 ГБ VRAM, full ~17 ГБ), но есть экспериментальный вариант для 6+ ГБ
https://github.com/rodrigomatta/s2.cpp
🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹
🧠 Qwen3-TTS
→ клон от 3–30 сек (ВАЖНО: без reference-транскрипта текста — хуйня, если хочешь поудобнее подключи сразу QwenASR)
→ VoiceDesign: пишешь «весёлая молодая девка с хрипотцой» — и получаешь голос
→ 10 языков, включая русский
→ диалог между спикерами
→ лёгкая — влезает в 6 ГБ VRAM
🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹
🎙️ VibeVoice-7B от Майкрософт
→ тяжёлая, но 4-bit квантизация — запускается на 8 ГБ (проверено на 3070)
→ поддержка долгих спичей
→ подкаст-режим: 4 спикера одновременно
→ норм клонирование голоса
🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹
☁️ FL CosyVoice3
→ ультралёгкий 0.5 — запустится даже на тостере
→ 9 языков, включая русский
→ zero-shot клон от 3–10 сек референса
🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹
🌍 Chatterbox Multilingual (23 языка, включая русский)
→ zero-shot клонирование голоса
🎤 F5-tts
→ zero-shot клонирование голоса
→ официально русский не поддерживается, но есть файнтюн (см. ниже)
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
🚀 КАК ЭТИМ ПОЛЬЗОВАТЬСЯ (если что-то не понятно — спроси у ИИ лол) 🚀

🔥Вариант «всё в одном месте» — ComfyUI + TTS-Audio-Suite

1. Устанавливаем ComfyUI (Desktop для нормисов, Portable для здешних нейромантов)
2. Ставим https://github.com/diodiogod/TTS-Audio-Suite — постоянная обновляемая солярка почти всех моделей
3. Поставить FFmpeg (через winget в комадной строке: winget install FFmpeg или скачать)
4. Запускаем Комфи → перетаскиваем готовый json-воркфлоу из репозитория
5. Отсавляем включенными выбранные ноды, жмём Run
6. При первой генерации модели сами скачаются (~1–9 ГБ)

💥 Вариант «по отдельности» (кастом под каждую модель) 💥
Тоже через ComfyUI, только ставим отдельные кастомные ноды (на выбор):

FishAudioS2 → https://github.com/Saganaki22/ComfyUI-FishAudioS2
FL-CosyVoice3 → https://github.com/filliptm/ComfyUI_FL-CosyVoice3
F5-TTS → https://github.com/niknah/ComfyUI-F5-TTS
и другие → https://registry.comfy.org/

Русский файнтюн для F5-TTS:
Нода: https://github.com/niknah/ComfyUI-F5-TTS
Скачать русский файнтюн: https://huggingface.co/Misha24-10/F5-TTS_RUSSIAN/blob/main/F5TTS_v1_Base_v2/model_last_inference.safetensors и
https://huggingface.co/Misha24-10/F5-TTS_RUSSIAN/blob/main/F5TTS_v1_Base/vocab.txt
оба файла переименовать в ru.safetensors и ru.txt и положить в папку models/checkpoints/F5-TTS/

Референсное аудио для F5 должно быть коротким, 6-8 c. При 11 c - речь становится слишком быстрой.

в папку /comfyUI/input положить 2 файла: emma_ru_xtts_3.wav и emma_ru_xtts_3.txt: https://github.com/Mozer/comfy_stuff/tree/main/input
(в emma_ru_xtts_3.txt лежит текст сказанный в wav файле.)

в комфи в ноде F5 TTS audio advanced выбрать:
model model:///ru.safetensors
model_type: F5TTS_v1_Base
sample_audio: emma_ru_xtts_3
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
🎉 Если что-то не запускается — пиши, разберёмся!
Голосуем, клонируем, ебём нейросети вместе! 🔥🎙️

Прошлый тред: >>1055411 (OP)

Аноним 20/03/26 Птн 16:40:08 № 1557347 2

>>1557345 →
дабл в честь вайпа переката

Аноним 20/03/26 Птн 17:03:20 № 1557379 3

>>1557325 →
>Faster-whisper-xxl питоновский. Обычный даже время не выдает. Ты этим же делал?
не, я делал Whisper.cpp, может из за этого в 2 раза разница, хотя не верится особо...

Аноним 20/03/26 Птн 17:05:28 № 1557387 4

>>1557328 (OP)
отличная шапка, только почему Speech-to-Text потеряли? отдельного треда на это явно не будет

Аноним 20/03/26 Птн 17:07:31 № 1557388 5

>>1557379
Можешь Faster-whisper-xxl проверить?

Аноним 20/03/26 Птн 17:08:47 № 1557390 6

Есть распознавалки, которые разделяют по голосам? Можно сетевые и умеренно платные (без подписки).

Аноним 20/03/26 Птн 17:32:04 № 1557404 7

>>1557387
>Speech-to-Text
Так проблема уже давно решена, если нужно локально то QwenASR, а если не важно чтобы был лоКАЛ, то можно закинуть аудио в Грок и он сам тебе его транскрибирует.
А так, ASR тоже в TTS-Audio-Suite, но обсуждать их уже как-то мало смысла.

>>1557390
Не иронично Gemini.

Аноним 20/03/26 Птн 17:47:27 № 1557412 8

>>1557404
ну, по хорошему бы это в шапку добавить, и про Whisper возможно тоже, чтобы вопросы лишние у новоприбывших не возникали

Аноним 20/03/26 Птн 17:51:24 № 1557417 9

>>1557388
ну, по первому файлику примерно в 2 раза медленнее работает, 49 сек против 21, и видеокарту не так использует... (в графе 3д ничего не показывает, только по памяти)

Аноним 20/03/26 Птн 18:01:58 № 1557438 10

>>1557404
> Не иронично Gemini.
Как им пользоваться?

>>1557417
В графе 3д и не должно показывать, переключи на куду. А виспер цпп 3д нагружал?

Аноним 20/03/26 Птн 19:15:22 № 1557534 11

>>1557412
Ты сюда для начала напиши про виспер.

Аноним 20/03/26 Птн 20:13:44 № 1557594 12

>>1557404
>если нужно локально то QwenASR
Как он в сравнении с виспером?

faster-whisper-xxl нету в принципе в исходниках, как я понимаю. Как всё это заебало.

>>1557325 →
Посмотрел - да, в pip openai-whisper, а модуль называется whisper. Как удобно, блядь.

Аноним 21/03/26 Суб 01:12:57 № 1557836 13

>>1557417
Ну хуле ж так? Почему у тебя быстрее? Оно же в проц не должно упираться?

Аноним 21/03/26 Суб 01:59:37 № 1557855 14

>>1557438
>А виспер цпп 3д нагружал
в том числе
>>1557836
>Почему у тебя быстрее? Оно же в проц не должно упираться?
та кто его знает, по идее б у меня первого уперлось бы, у меня зион 13го года и ддр3... та и нагрузка явно на видяху там шла, бо в графе 3д конкретный такой забор был, % на 75...
пробуй CPP поднять, должен быть прирост

Аноним 21/03/26 Суб 02:00:23 № 1557857 15

>>1557534
Может быть и напишу...

Аноним 21/03/26 Суб 02:21:13 № 1557867 16

>>1557855
Как ты запускал?

faster-whisper-xxl.exe" --model large-v3-turbo --output_format all -- файл

Сейчас 0:01:22.563, 5.73x. Файл 0001_..p.mp3

>у меня зион 13го года и ддр3
У меня интел 10 года. Обновился, блядь. Ебаная оператива.

>>1557855
>бо в графе 3д конкретный такой забор был, % на 75...
Там не должно быть загрузки 3д. См скрин.

>>1557855
>пробуй CPP поднять, должен быть прирост
Как я его тебе подниму?

Аноним 21/03/26 Суб 03:07:05 № 1557880 17

>>1557867
у меня вместо Cuda стоит Copy, хз от чего зависит, может от винды или драйверов

Аноним 21/03/26 Суб 03:23:23 № 1557882 18

>>1557880
На стрелку вниз жмешь и выставляшь что хочешь :) Так у тебя реально в 3д загрузка?

Аноним 21/03/26 Суб 08:52:59 № 1557937 19

>>1557438
>Как им пользоваться?
Тупо закидываешь аудиофайл в чат

>>1557594
>Как он в сравнении с виспером?
можешь заценить тут, по идее должно быть тоже самое что и на локале https://chat.qwen.ai/
если понравится, можешь поставить локально через ттс суит или эту ноду https://github.com/DarioFT/ComfyUI-Qwen3-ASR

Аноним 21/03/26 Суб 14:37:05 № 1558097 20

>>1557937
> Тупо закидываешь аудиофайл в чат
С чатом гопотой у меня это так м не заработало. Алсо это не автоматизируемо? А что там за модель под капотом?

Аноним 21/03/26 Суб 15:18:44 № 1558127 21

>>1558097
>А что там за модель под капотом?
Может быть такое что там скрытая кастомная от Гугла или все та же Veo но настроенная на звук, но везде пишут что сама Gimini она мультимодальна, то есть натренена на тексте/картинках/аудио/видео одновременно.

Аноним 21/03/26 Суб 19:31:43 № 1558359 22

Когда уже запустится индустрия нейродубляжа фильмов голосами и интонациями оригинала? Почему ещё не? Что-то пукнули и заглохло.

Аноним 21/03/26 Суб 19:47:02 № 1558386 23

>>1558359
Актеры против. Identity theft, все дела.

Аноним 21/03/26 Суб 19:58:59 № 1558401 24

>>1558386
Ну это понятно, а где пиратские?

Аноним 21/03/26 Суб 20:02:04 № 1558406 25

>>1558401
Слишком дорого, и для вменяемого качества нужно много ручного труда. В читаемой нейронкой формат перевести, голоса натренировать, хорошие варианты выбрать...
Это прям сильно больше, чем несколько чуваков за пару штук нанять на озвучку.

Аноним 21/03/26 Суб 20:36:14 № 1558433 26

>>1557328 (OP)
>Qwen3-TTS
Бляя. Я это хуйню короче вчера поставил, угадайте блять чё случилось после команды реквирементс.
А то что и всегда нахуй, комфи просто перестала запускаться.
с стабильность.

Аноним 21/03/26 Суб 21:27:47 № 1558484 27

>>1557328 (OP)
Видя с главной не смог пройти мимо - вы что с шапкой сотворили, ироды? Так верстают только мудаки.

Аноним 21/03/26 Суб 23:59:49 № 1558635 28

>>1558484
Да, похоже на высер нейросети.

Как там обстоят дела с клонированием голоса? Насколько похоже/реалистично, как просто?

https://www.youtube.com/watch?v=-zVgWpVXb64

Аноним 22/03/26 Вск 02:30:28 № 1558723 29

>>1557882
ничеси, не знал шо так можно

Не, все-таки Cuda... Хм, почему мне тогда кажется что раньше я этот забор в графе 3д видел, ну то такое, может то на другой нейронке какой-то 3д юзалось...

Аноним 22/03/26 Вск 02:40:58 № 1558727 30

>>1557867
>У меня интел 10 года
тогда там и AVX2 походу нет? печальненько, это может ограничить спектр запускаемого софта... та и на скорость повлиять...
хотя по ощущениям основная работа на видеокарте (китайцы не смогли нормально мать развести, и при работе видеокарты в наушниках довольно хорошо слышно сигналы с PCIe шины)

Аноним 22/03/26 Вск 02:43:20 № 1558729 31

>>1558433
комфи просто перестала запускаться.
агонь) комфи это стабильность)
а без комфи никак это не запускается?

Аноним 22/03/26 Вск 04:14:37 № 1558749 32

>>1558729
>а без комфи
А без комфи там надо ставить кучу всякой хуиты, питоны, тритоны, анаконды, и пердолиться в сонсоль до скончания веков. Я не даун, что бы заниматься этой хуетой.

Аноним 22/03/26 Вск 07:13:38 № 1558781 33

>>1558727
Проц недогружен, в ядро вроде не упирается, но мало ли

>>1558723
Да, запрятали это. И настройки еще и не сохраняются.

Какие у тебя есть датчики в gpu-z? Потребляемая мощность есть?

Аноним 22/03/26 Вск 20:18:50 № 1559503 34

>>1558749
но при этом имеешь время чтоб ломать и чинить комфи)
я для себя принял тактику - новый инструмент- новый venv для пайтона... тритон на винде это боль насколько я помню вообще

Аноним 22/03/26 Вск 20:29:37 № 1559509 35

>>1558781
как то так, один скрин турбо, один просто лардж
оно пиками мощу повышает по меньшим значениям в 20 вт разница, 70-90... как то так, пиками на макс 150 плюет

Аноним 22/03/26 Вск 20:35:41 № 1559515 36

>>1559503
Я просто новую портативку скачал. Эту хуету чинить бесполезно.

Аноним 23/03/26 Пнд 11:38:11 № 1559952 37

Я тута к вам с идеей нейронкой сделать аудиокнигу. Так как у меня комп не очень, то буду сам делать на silero. Пока может для себя. В планах
Сделать фонетический разбор текста, расставить правильно ударения, паузы.
Разбить текст по ролям и дать каждой роли отдельный голос
Так как у silero мало голосов. То отдельно придется преобразователь голоса.
Добавление фоновых звуков
Сшивание обратно по главам

Аноним 23/03/26 Пнд 14:20:01 № 1560099 38

>>1559952
>сделать аудиокнигу
ок
>silero
а обязательно выбирать говно мамонта? или специально нужна именно наиболее старая модель из 2022-го?

Аноним 23/03/26 Пнд 16:31:46 № 1560262 39

>>1560099
Мой выбор пал на это из-за слабого железа

Аноним 23/03/26 Пнд 17:49:20 № 1560335 40

>>1560099
Есть в открытом доступе голоса из телеги silero/steosvoice?

Аноним 24/03/26 Втр 03:06:54 № 1560736 41

>>1557347
Чем озвучено?

Аноним 25/03/26 Срд 09:31:34 № 1561951 42

>>1560736
тем же, что и здесь.

Fish-Speech S2 Pro

Аноним 26/03/26 Чтв 03:36:59 № 1563121 43

>>1557328 (OP)
А каверы песен?
жопич виталя кал все еще не попадает

Аноним 26/03/26 Чтв 19:48:29 № 1563797 44

Кто-нибудь пробовал использовать llama-tts из репозитория llama.cpp? То ли help там не полный, то ли нейронных сетей нормальных в gguf для этого нет, но у меня постоянно вылетает ошибка аля "не могу открыть gguf" или "не передан файл gguf". Советовался у Claude, Deepseek и ChatGPT - пишут, что, возможно, разрабы не допилили программу.

Аноним 31/03/26 Втр 22:20:29 № 1568745 45

Анончи, помогите новичку связать llm с tts
Нарезал 20 кусков по 10 секунд англоязычной речи нужного мне персонажа
Пытаюсь сделать так чтобы читались ответы ллмки автоматически. Ллмка эта локальная.
Дипкок предложил silly tavern, накатить через дополнения. Но я ебанулся уже разбираться в этом говне без гуя с ошибками на каждом этапе и тонной мусора из зависимостей.
Может я изначально не тем путем иду и нужно как-то иначе осуществлять данную функцию?
Видеокарта у меня 4060 на 8 гигабайт, 32гб ОЗУ

Аноним 01/04/26 Срд 16:31:39 № 1569683 46

>>1568745
>связать llm с tts
>Ллмка эта локальная.
>как-то иначе осуществлять данную функцию?
тебе повезло, тут в кобольд только недавно завезли поддержку QwenTTS с клонированием голосоа
https://github.com/LostRuins/koboldcpp/releases

Аноним 01/04/26 Срд 17:32:53 № 1569780 47

Mima needs you!.webm 1140Кб, 202x360, 00:00:20

Подскажите прикольные бесплатные ИИшные говорилки для голоса с ретро вайбом для фумо видео типа как тут (японский AquesTalk, тексттуспич), но чётче и экспрессивнее, русский язык. Желательно чтобы их было не ультра сложно установить, что-то простое. Виндовс 11.

Аноним 01/04/26 Срд 17:40:03 № 1569791 48

>>1569683
Тебе вполне и говорилки хватит

Аноним 01/04/26 Срд 17:48:26 № 1569807 49

>>1569791
>>1569780
Промах

Аноним 01/04/26 Срд 17:51:24 № 1569814 50

>>1569683
Ничего не понятно в гайде с гитхаба этого проекта. Удалось запустить ллм, но ттс не понимаю как обучить

Аноним 01/04/26 Срд 20:34:32 № 1570077 51

>>1569814
>ттс не понимаю как обучить
обучать не нужно, сейчас все делается через voice-cloning, модель клонирует голос на лету.
сначала научись его делать наверное с любой моделью и потом лезь, хотя там и так понятно все должно быть.

Альтернативно, тут тоже поддежка голоса вроде появилась
https://github.com/jofizcd/Soul-of-Waifu

Аноним 01/04/26 Срд 20:44:35 № 1570089 52

>>1570077
Как это клонирование желается с минимальными затратами?

Аноним 01/04/26 Срд 20:59:13 № 1570116 53

>>1570077
Я разобрался базово в koboldcpp и получилось настроить там рекомендованную на гитхабе TTS.
Но проблема в том что она очень медленная. Даже на видеокарте приходится по 5 минут ждать генерацию фразы в несколько слов.
Причем LLM параллельно работает наоборот очень быстро.
Ещё мне не нравится, что можно только один отрывок короткий использовать, хотя у меня их 20. Каждый раз идёт обучение с нуля, как я понял по консольке и если выбирать отрывок дольше 10 секунд, то генерация звука занимает вообще по 20 минут.
Неужели нет способа на 4060 более-менее быстро генерить, чтобы озвучка занимала адекватное время?

Аноним 03/04/26 Птн 16:14:01 № 1572376 54

>>1570116
>Но проблема в том что она очень медленная. Даже на видеокарте приходится по 5 минут ждать генерацию фразы в несколько слов.
Возьми квант поменьше, не Q8_0, а Q4 к примеру.

ComfyUI-OmniVoice-TTS Аноним 05/04/26 Вск 11:46:08 № 1574904 55

573330518-b9c75[...].mp4 3270Кб, 720x408, 00:02:12

https://github.com/Saganaki22/ComfyUI-OmniVoice-TTS
600+ Languages — Broadest language coverage among zero-shot TTS models
Voice Cloning — Clone any voice from 3-15 seconds of reference audio
Voice Design — Create synthetic voices from text descriptions (gender, age, pitch, accent)
Multi-Speaker Dialogue — Generate conversations between multiple speakers using [Speaker_N]: tags
Fast Inference — RTF as low as 0.025 (40x faster than real-time)
Non-Verbal Expressions — Inline tags like [laughter], [sigh], [sniff]

Аноним 05/04/26 Вск 11:59:40 № 1574911 56

оригинал1.mp4 316Кб, 1522x1440, 00:00:09

>>1574904
в дополнение к тому, что он успешно клонирует голос между языками - вот пример клонирования в рамках одного языка.

Аноним 05/04/26 Вск 15:19:16 № 1575135 57

>>1557328 (OP)
Что по качеству, голосаны? Шапка актуальна? Вот эта >>1574911 нейрошляпа актуальна? Что скачать для клона и генерации с нуля, чтобы не качать все подряд и не тыкаться с этим неделю-другую, перебирая? 16 VRAM.

Аноним 05/04/26 Вск 15:45:18 № 1575156 58

>>1575135
А для 8 VRAM?

Аноним 05/04/26 Вск 16:24:07 № 1575198 59

>>1574904
Войс-дизайн в связке с клонингом есть?
Если нет - чем лучше КвенТТС?

Аноним 05/04/26 Вск 17:09:39 № 1575252 60

>>1575135
Шапка уже (за месяц) устарела.

Вот эта йоба >>1574904 входит в топ лучших.
Но походу не лучше чем Fish-Speech S2 Pro, но более доступная, так как ФишСпич требует как раз 12 ГБ VRAM, а ОмниВойс можно и на тостере запустить с 4ГБ VRAM.

>>1575156
И для 8 ГБ VRAM, да хоть для 4 ГБ VRAM подойдет OmniVoice.

>>1575198
Да, есть дизайн голоса с нуля.
Ну и плюс типа 600 ЯЗЫКОВ Карл блять, 600!

Аноним 05/04/26 Вск 17:15:23 № 1575268 61

>>1575252
> British accent
А для других языков? Семплы есть? Чем делают видосики где амеры говорят по русски?

Аноним 05/04/26 Вск 17:17:59 № 1575272 62

>>1575198
>>1575268
Тут прикол ОмниВойса в том, что он мультиязычный - то есть клонированные голоса с одного языка можно использовать на другой язык.
То есть клонируешь чей-то известный английский голос и говоришь им на русском и т.д.

Аноним 05/04/26 Вск 18:05:22 № 1575355 63

>>1575272
Да, я это и имел в виду.

Аноним 05/04/26 Вск 20:49:12 № 1575512 64

>>1574904
это оно? https://huggingface.co/k2-fsa/OmniVoice/tree/main

Аноним 05/04/26 Вск 21:11:15 № 1575538 65

>>1575252
Спасибо. Насколько вижу по шапке, там из серьезного только Рыба, Квен, Майкрософт. Остальное мелочь какая-то. Квен и Майков трогать стоит или уже стоит только Рыбу с >>1574904 смотреть?

Аноним 06/04/26 Пнд 02:55:23 № 1575827 66

>>1575252
>Да, есть дизайн голоса с нуля.
Дизайн с нуля и в Квене есть, говорю же.
Но в Квене нет такого, чтоб взять клон голоса, и уже его дизайнить. Эмоции прописать, интонации другие, прочее.
Потому и спросил.
Тут, походу, тоже нет.
>600 ЯЗЫКОВ
На-ку-я?
Не, какому-нибудь маори может и понравится, что для его языка на чем они там говорят вообще? наконец-то модель сделали. Но основные то, самые часто используемые языки, практически все модели знают.

Аноним 06/04/26 Пнд 02:56:47 № 1575828 67

>>1575272
Это Квен тоже умел.

Аноним 06/04/26 Пнд 16:13:19 № 1576418 68

https://github.com/Saganaki22/ComfyUI-FishAudioS2

/\/\/\ Вот эту поеботу можно как-то в google colab запустить на T4? /\/\/\

Я нищий и тупой, не бейте. Звучит охуенно, но при попытке запуска этих нод через комфи всё вылетает нахуй, я так понимаю памяти не хватает. А как использовать nf4 в душе не ебу. Ну скачал модель, закинул в папку, а дальше то что? Оно один хуй пытается свою модель автоматом качать и на этом происходит разрыв жопы. А как под это кастомный ворклфлоу собрать я в душе ебу.

А вообще имеет ли смысл? Ну типа будет ли оно хоть близко таким же качественным с моём случае, как и примеры с полноценной моделью? Или будет всё тот же робовойс?

Аноним 06/04/26 Пнд 16:15:17 № 1576422 69

>>1576418
Уточню что в самой ноде я также выбирал bnb nf4, но оно сначала качало оригинальную модель или её часть, пыталось что-то пережимать или хуй его и вылетало. То есть автоматический вариант видимо отпадает.

Аноним 06/04/26 Пнд 16:49:35 № 1576458 70

>>1576418
>>1576422
это кастомная нода к ComfyUI, поэтому должен ставиться вот так - можно ли запустить ComfyUI на коллабе? Так хз, со времен Автоматика это вроде блокируется на коллабах.

Но для тех, у кого как минимум 6 ГБ VRAM есть альтернативный вариант https://github.com/rodrigomatta/s2.cpp поддерживающий квантизированную версию модели, правда придется попариться с запуском и управлять процессом придется через командую строку. В общем самый barebones вариант, но по качеству не должен уступать.

Аноним 06/04/26 Пнд 18:08:50 № 1576569 71

>>1576458
Да он то сам по себе ставится на комфи в колабе, просто нужно именно обойти вот это ограничение с автоскачиванием модели, чтобы оно подтягивало не полную модель, а брало уже квантованную из файлов, а с этим непонятно. А так если вопрос стоит в том пропускает ли колаб генерацию, то да пропускает, никаких проблем с нейронками в колабе нет. Мой случай упирается именно в видеопамять.

Аноним 06/04/26 Пнд 18:25:37 № 1576594 72

>>1576458
А за ссылку спасибо, буду разбираться. А то как-то неполный ответ получился, не дошел до этого момента.

Аноним 07/04/26 Втр 04:55:34 № 1577278 73

>>1563121
Бамп. Хочу Мегадетх, но с голосом Роба Хелфорда.

Аноним 07/04/26 Втр 09:28:36 № 1577340 74

>>1563121
>>1577278
Онлайн/офлайн? Онлацн - suno, udio (лучше). Поищи на ютубе говновоз.

Аноним 08/04/26 Срд 09:34:30 № 1578614 75

А есть где-нибудь огромный банк сэмплов голоса по 15 секунд?

Аноним 08/04/26 Срд 15:18:36 № 1579012 76

>>1577340
Оффлайн, мне только сам войслайн поменять.

Аноним 08/04/26 Срд 15:31:38 № 1579032 77

>>1578614
>огромный
нет
>банк сэмплов голоса
да
https://aiartes.com/voiceai
https://rentry.org/Voice-Samples

Аноним 08/04/26 Срд 16:07:38 № 1579072 78

>>1579032
Это я видел. Мне бы на русском каких-нибудь ярких экспрессивных голосов. Так омнивойс затянул, звучит как магия, после старых ттс. А вот голоса русские негде брать, особенно женские... Повырезал немного блогерш и стримерш, они в основном очень вяло разговаривают.

Аноним 08/04/26 Срд 19:21:09 № 1579314 79

>>1579072
Как идея, посмотри у себя в телеграме или ватсаппе не сохранились ли голосовые сообщения.

Аноним 09/04/26 Чтв 01:16:30 № 1579728 80

>>1557328 (OP)
Почему в шапке постоянно упор на lowvram? Что можно боярину с 4090 погонять? Или всё то же самое по качеству будет?

Аноним 09/04/26 Чтв 08:23:48 № 1579938 81

>>1579728
Не знаю что там про бояр. Но при черипикинге омнивойса, я смог сгенерировать короткие голосовые, неотличимые от оригинала и потролить этим друзей которые ничего не заметили. Ещё пару поколений нейронок и нам конец.

Аноним 09/04/26 Чтв 11:55:11 № 1580202 82

>>1557328 (OP)
как сгенерить 10 минутное joi видео с голосом стримерши?

Аноним 09/04/26 Чтв 12:30:33 № 1580242 83

>>1579728
> 4090
Это все еще лоуврам.

Аноним 09/04/26 Чтв 12:57:12 № 1580267 84

>>1580242
Но это больше чем в шапке расписано только для 6-8-12 ГБ

Аноним 09/04/26 Чтв 14:05:19 № 1580354 85

>>1580267
В ИИ сфере это мало, просто сами по себе ТТС модели небольшие. 12ГБ в фп8, в бф16 будет 24. И это запуск, для тренировки еще больше нужно.

Аноним 09/04/26 Чтв 16:45:45 № 1580555 86

>>1579728
>Или всё то же самое по качеству будет?
Ну да, если VRAM выше потолка то качество магически не увеличится, только сокорость может, ну и еще на поток поставить - генерировать сразу 2-4 вариантов аудио с разными сидами.

>>1580202
Используй Fish-Speech S2 Pro со следующими тэгами. Но по моему опыту модель понимает гораздо больше тэгов чем эти. К примеру я добовлял [surprise] и еот реально удивленно говорила, еще [embarrassed] или [love] (не уверен работает или нет, но какой-то эффект есть).

Аноним 10/04/26 Птн 14:39:21 № 1581669 87

>>1579938
Почему у меня сколько бы я этих локальных нейронок не пробовал, всегда получается абсолютно обоссаная проклятая срань, в которой половину слов на китайском, половину с неправильными ударениями на русском.

Единственный приемлемый результат я получал только через RVC с обученной моделью. Которая переозвучивала то, что наговорила нейронка от гугла. Но гугл пидарасы заблочили доступ в свою студию. И теперь приходится долбиться в комфи, каждую неделю скачивая новое обоссаное проклятое поделие, и убеждаться, что оно такое же как предыдущее.

Аноним 10/04/26 Птн 15:05:42 № 1581692 88

>>1581669
>сколько бы я этих локальных нейронок не пробовал
>всегда получается абсолютно обоссаная проклятая срань

Аноним 13/04/26 Пнд 15:07:10 № 1584944 89

молот!

Аноним 17/04/26 Птн 22:54:11 № 1590253 90

260703.1FlashTT[...].mp4 8516Кб, 1858x1068, 00:00:33

TTS от гугла, пишут очень хорошо работает с эмоциональным тоном

Аноним 17/04/26 Птн 23:28:13 № 1590291 91

>>1590253
Closed sources

Аноним 18/04/26 Суб 06:01:25 № 1590477 92

Хачу переводить фильмы голосом Володарсково.
вот это "Убери свою пушку лигавый мать твою говнюк засранец!"

брать Омни Воис? на это сраное Комфи?
есть ли где готовая сборка?
чтоб Портабле.
скачал и запустил.

Аноним 18/04/26 Суб 14:05:27 № 1590698 93

https://youtu.be/UglgEr5A5S0
Это нейросеть?

Аноним 20/04/26 Пнд 11:33:03 № 1592195 94

Анон подскажи как не палиться на https://undetectable.ai/ai-voice-detector и похожих сайтах? 10 из 10 раз всегда палит сучка такая.

Аноним 21/04/26 Втр 13:58:54 № 1593218 95

>>1590477
Есть готовая сборка портативная комфи. Просто распаковываешь её, кидаешь туда файл с гитхаба омнивойс, из папки воркфлоу. И всё. Там воркфлоу сам модели скачивает.

Аноним 26/04/26 Вск 14:02:32 № 1598199 96

image.png 6Кб, 538x68

Так, вскатываюсь в ttv и не понимаю как установить. Скачал омнивойс, закинул в комфи и пикрил, ничего не работает. Если удалить папку nodes то комфи запускается но ругается что нод, очевидно, нет. Что делать?

Аноним 26/04/26 Вск 15:54:08 № 1598304 97

>>1598199
Омнивойс не надо качать. Качать нужно только менеджер нод, а потом в менеджере нод выбрать омнивойс и он сам скачается.

Аноним 26/04/26 Вск 16:33:34 № 1598336 98

>>1598304
И где его взять?

Аноним 26/04/26 Вск 16:48:41 № 1598352 99

>>1598336
Первое что надо сделать, это поставить в браузер закладку перплексити и подобной нейронки. И любой такой элементарный вопрос спрашивать у неё.
Она такую хуету понимает, можно так и писать "где взять менеджер нод комфи уи", прямо по русски с ошибками похуй. И дальше если что-то в процессе будет непонятно, тоже у неё спрашивать.

Аноним 27/04/26 Пнд 11:41:37 № 1598918 100

Так, нод манагер установил, он мне омнивойс скачал но теперь пишет пик. Че это как исправить?

Аноним 27/04/26 Пнд 11:54:47 № 1598926 101

image.png 6Кб, 578x139

>>1598918
Сделал батник как написано, пик появился, ошибка все та же.

Аноним 27/04/26 Пнд 14:21:32 № 1599033 102

>>1598926
А у тебя портативная комфи или обычная?

Аноним 27/04/26 Пнд 14:26:18 № 1599041 103

>>1599033
Портативная

Аноним 27/04/26 Пнд 14:47:53 № 1599066 104

>>1599041
Тоесть ты прямо так в сонсоль и пишешь "python -m pip install"?
Это чё то не то. В портативную надо именно указывать питон, который в папке python_embeded
Тоесть
\путь_до_портативной папки\python_embeded\python.exe -m pip install и т.д.

Аноним 27/04/26 Пнд 14:52:42 № 1599072 105

>>1599066
Я батник создал в папке с питоном, как видно на пике оно сработало вроде как, написано что установлено. Если запустить еще раз батник то пишет что все работает. Но в самом комфи ничего не изменилось.

Аноним 27/04/26 Пнд 15:06:48 № 1599085 106

>>1599072
Тогда хз. А ты вообще какую ноду качал? От Saganaki22? Надо оттуда именно.

Аноним 27/04/26 Пнд 15:09:29 № 1599087 107

>>1599085
Сначала скачал какой-то типа официальный, потому что тот манагер не хотел качать. Он не завелся, скрутил в манагере безопасность и скачал от саганаки, ничего не изменилось.

Аноним 27/04/26 Пнд 15:17:53 № 1599095 108

>>1599087
А воркфлоу от саганаки?

Аноним 27/04/26 Пнд 15:20:37 № 1599101 109

>>1599095
А воркфлоу от него не запускается, таких нод нет если брать пример из скачанного с гитхаба. У меня от омнивойса только одна нода кастомная.

Аноним 27/04/26 Пнд 15:27:45 № 1599111 110

>>1599101
Так у тебя получается ничего не установлено. Тебе нужны кастомные ноды от саганаки и воркфлоу от саганаки.

По поводу секурити вот так у меня в инишнике. И всё скачалось и сходу завелось.
security_level = weak
Если у тебя так же и всё равно не качает, попробуй тогда через git clone скачать репозиторий вручную.

Аноним 27/04/26 Пнд 15:48:09 № 1599123 111

>>1599111
Так там нет нод, написано что скачано а ноды-то хде. Нода есть у crt, но оно не работает.

Аноним 27/04/26 Пнд 15:57:15 № 1599132 112

>>1599123
При этом папку он создал в кастомных нодах и ноды там есть внутри, но комфи их просто не видит.

Аноним 27/04/26 Пнд 15:59:51 № 1599136 113

>>1599132
На гитхабе там написано, что если не встало через менеджер, то выполнить в этой папке
python install.py

Аноним 27/04/26 Пнд 16:34:17 № 1599175 114

Да ебаный рот этого казино, сколько можно. Надо было обновить трансформеров и ноды появились. НО ВСЕ РАВНО НИХУЯ НЕ РАБОТАЕТ. Какой пип инсталл, куда его пихать? Что за мудак все эти инструкции писал, если бы я понимал что это значит то мне эти подсказки всратые не нужны были бы. "You can install it with `pip install accelerate", ну охуеть теперь, и что мне с этим делать? Опять создал ебучий батник и засунул туда это дерьмо - нифига. Я уже десять батников создал чтобы это говно заработало а ему надо еще и еще, это вообще кончится когда-нибудь? Что значит "используй pip install accelerate"? Гугл выдает какую-то хуйню только непонятную или еще одну папку на гитхабе которую неизвестно куда пихать.

Аноним 27/04/26 Пнд 16:50:45 № 1599189 115

>>1599175
Или мне надо путь батнику указывать до файла пип в папке со скриптами питона? Тогда заведется? Пиздос, чувствую я систему скоро всю наебну этими установками говна через батники.

Аноним 27/04/26 Пнд 17:32:22 № 1599262 116

>>1599189
Да, я так недавно комфи угандошил вайб войсом. Радуйся что хотя бы запускается пока. У меня после зависимостей вайбвойса вообще перестал.

>Надо было обновить трансформеров
Так вроде скрипт установщик install.py проверяет какая там версия этих трансформеров нужна. Ты через скрипт ставил или просто вводишь рандомные команды на рандомные ошибки?

Аноним 27/04/26 Пнд 17:37:48 № 1599268 117

>>1599262
>Ты через скрипт ставил или просто вводишь рандомные команды на рандомные ошибки?
Они не рандомные, мне комфи говорит их вводить.

Аноним 27/04/26 Пнд 17:45:25 № 1599286 118

>>1599268
Так комфи тебе может так очень долго ошибки писать. Скажем если в requirements 20 зависимостей.
Оно тебе будет ошибку с одной зависимостью выдавать, а после того как ты её поставишь он тебе следующую ошибку выдаст и так 20 раз будет писать.

Потому кастомные ноды, если они не встали через менеджер, надо ставить по инструкции с гитхаба. Там будет что-то типа python -m pip install requirements.txt
Но в данном случае через install.py надо в папке кастом ноды

Аноним 27/04/26 Пнд 17:52:17 № 1599292 119

>>1599286
>install.py
Как его запустить-то?

Аноним 27/04/26 Пнд 18:11:04 № 1599314 120

>>1599292
python install.py

Но лучше указать полный путь до питона екзешника, и полный путь до скрипта.

Аноним 27/04/26 Пнд 18:18:23 № 1599318 121

>>1599314
Просто в батнике через пробел условно "Comfy\python_embedded\python.exe comfyUI\custom_nodes\omnivoice\python.py"? так? -pip install или просто - не надо?

Аноним 27/04/26 Пнд 18:18:56 № 1599319 122

>>1599318
Ой, install.py, ну ты понял.

Аноним 27/04/26 Пнд 18:29:05 № 1599328 123

>>1599318
Просто через пробел. И бат файл каждый раз не обязательно создавать, на любое действие. Проще всё это в сонсоль вбивать сразу.

Аноним 27/04/26 Пнд 18:32:51 № 1599334 124

>>1599328
Просто батник если кидать можно вроде как не полный путь указывать а от его положения, так проще.

Аноним 27/04/26 Пнд 18:38:47 № 1599343 125

>>1599334
Тот же эффект будет, если ты зайдешь через проводник в нужную папку и напишешь в адресной строке cmd.

Аноним 28/04/26 Втр 00:50:17 № 1599644 126

>>1599175
>Да ебаный рот этого казино, сколько можно. Надо было обновить трансформеров и ноды появились. НО ВСЕ РАВНО НИХУЯ НЕ РАБОТАЕТ.

ну вот поэтому я спрашивал "где взять готовое комфи с воисом, портабле".

потому што это ваше комфи это педерастия примерно как линукс

Аноним 03/05/26 Вск 00:46:46 № 1603722 127

>>1599644 лол, бояр закукарекал заместо авроры.
Хуептало, ты вобще-то на территорию погромистов заехал. Так что заткни свой грязный рот хуем и RTFM!!!
готового решения для дегенератов твоего уровня не будет ещё лет 5 пока идёт лютый прогресс и развитие. смирись и учись блядотва.

Аноним 03/05/26 Вск 02:51:30 № 1603749 128

>>1603722
Каких погромистов, хуепутало? Максимум пердоликов, да еще и тупорылых.

Аноним 03/05/26 Вск 20:18:23 № 1604168 129

15689ce0b0690ac[...].mp4 839Кб, 576x1024, 00:00:22

>>1557328 (OP)
как получить такой голо(манеру речи)?
тот, что первый, женский

Аноним 03/05/26 Вск 20:18:57 № 1604169 130

>>1604168
*голос

Аноним 03/05/26 Вск 20:19:31 № 1604171 131

>>1604168
*голос

Аноним 04/05/26 Пнд 00:01:08 № 1604328 132

с самово начала можно было качать готовые сборки Комфи,
"под картинки", "под видосы", "под вот эту модэль".
риально портабельные,

а теперь пидрилы сраные все скатили в "линукс-пердолинг".

Войс клоун Аноним 04/05/26 Пнд 12:46:34 № 1604649 133

Дорова ананасы¡
Есть у меня например не у меня а у друга 2 филипиночки.
1) может ли comfyui голос на ходу менять?
Чтобы звонить двм филипиночкам разным голосом?
2) если да, то можно ли находу переводить на филипиновский?
Находу это с небольшими задержками, но не такими чтобы они подумали что я умственно-отсталый дегенерат.
В обратку с филипиновского я через гугл транслейт могу

Аноним 05/05/26 Втр 15:38:38 № 1605329 134

>>1604649
ИИшный голос легко спалят.
Да и вообще, есть модели, которые этому языку обучены?

P.s. полноценного "риалтайм" ИИ-войсченжера до сих пор нет, насколько я знаю. Да, некоторые нейронки работают быстро (фразу в 15 секунд делают за 20, например).
Но! Тебе надо эту фразу сначала закончить, скормить нейронке, и потом получить результат. "Потоком" делать - совсем другая технология. А уж с синхронным переводом - вообще забей.

Аноним 07/05/26 Чтв 17:10:23 № 1606845 135

Revnost (online[...].mp4 3073Кб, 720x720, 00:02:51

попробовал клонирование голоса на kikivoice.ai/ai-voice-cloning/ru

Аноним 07/05/26 Чтв 20:17:10 № 1606963 136

>>1604649
Пускай Русский учат.

Аноним 10/05/26 Вск 04:04:40 № 1608748 137

Апупеть, загрузил Диаспору Игана в омни. 10 страниц, и голос Оробчука, чела, от которого слушал другие книги Игана.

И как будто просто продолжаешь слушать, в озвучке того же автора следующую книгу. Вообще никакой разницы.

Аноним 19/05/26 Втр 09:16:09 № 1615201 138

Появилось ли что-то за последнее время круче RVC?

Аноним 22/05/26 Птн 10:34:39 № 1617517 139

Как пофиксить то, что воркфлоу просто не запускается, и ничего не работает, при этом никаких ошибок нет?

Один раз при этом запустилось, лол, и на этом все. Даже отменить эту хуйню нельзя, приходится весь комфи перезапускать.

Аноним 22/05/26 Птн 10:38:39 № 1617519 140

Ну и сами модели, разумеется, нихуя не скачиваются "сами" все пришлось качать вручную. Может комфи не видит саму модель? Вставил её в папку "TTS" в комфи.

Аноним 22/05/26 Птн 10:58:31 № 1617524 141

>>1617517
в консоль смотри

Аноним 25/05/26 Пнд 20:59:09 № 1619675 142

Можно через 1111 сделать генерацию текста? У меня уже установлен 1111 я не хочу комфи еще ставить

Аноним 25/05/26 Пнд 21:09:49 № 1619683 143

>>1619675
Вот почему я не люблю комфи. Как же он заебал.

Аноним 26/05/26 Втр 02:57:14 № 1619766 144

>>1619675
Для текста угабуга была... Когда-то.
Хз даже, живая еще, или нет.

Аноним 26/05/26 Втр 11:17:20 № 1619868 145

>>1619683
еблан, портабл скачай

>>1619766
живая канеш, один из последних проектов который с некропроцами дружит

Аноним 03/06/26 Срд 17:59:44 № 1624884 146

>>1576418
так это ж фиш аудио S2 у неё модель даже среднего размера всю vram займет с ней даже бояре напрягаются, а например на 5070ti bnb nf4 только нормально будет пахать, а это самая урезанная версия. Такая вот нейронка, которая по ресурсам жирнее чем видеомодели. но звук хороший генерирует, факт

Аноним 07/06/26 Вск 07:16:22 № 1626918 147

>>1579072
Есть сайт купиголос точка ру. На нём доступны голосовые демо русских актёров и актрис озвучания - чистые голоса без фона.

Новинки Аноним # OP 07/06/26 Вск 08:31:17 № 1626933 148

1. dots.tts (классическое комбо text2audio + клонирование голоса)
https://github.com/Saganaki22/Dots-TTS-ComfyUI
кастомная нода для этой новинки https://rednote-hilab.github.io/dots.tts-demo/
как-то уместили SOTA уровня OmniVoice в 2b модель
русский поддерживается (спасибо китайцам)

2. higgs-audio-v3-tts (тоже самое что и Qwen3 только с возможностью контроля эмоции и экспрессий) - хуже чем dots.tts (но у него нету контроля эмоций, поэтому хз)
в общем аудио приблуда сделанная для их собственного видео-генератора, как видно тут https://www.youtube.com/watch?v=qpXbU5011Pw (самой их видео модели у нас нет)
https://github.com/Saganaki22/Higgs_v3-TTS-ComfyUI - кастомная нода для этой новинки

Аноним 16/06/26 Втр 17:24:20 № 1634070 149

Вам попадался настолько хороший нейрозвук, что он щекотал ухо как хороший асмр? Необязательно из ттс, может видеонейронки такое генерили? Живые дуры с правильным микрофоном редко умеют это делать, так что это прям кто-то лору должен обучить, наверное, чтобы получилось сносно.

Аноним 17/06/26 Срд 10:44:20 № 1634474 150

>>1634070
в Fish-Speech S2 Pro хорошо реализованы разные вдохы и выдохи, когда триггеришь эмоциальные теги типа [whisper] [surprise] [embarrassed] [excited] [breathy] [surprise] [groaning] [panting] [moaning] [crying loudly] - хотя половина из них не работает, но какую-то реакцию триггерит.

Аноним 17/06/26 Срд 14:33:11 № 1634632 151

Челы мб ультра тупой вопрос но я не могу его решить
есть ComfyUI Desktop
есть кастом нода Saganaki22/ComfyUI-VoxCPM2
с ней voxcpm работает без примера, можно по описанию ТТС
и все заебись все работало
но сучий comfyui desktop рещил обновится без спроса и все пошло по пизде. (появились эти стендэлон сбокрки)
моедль пытается перекачатся накой то хуй хотя она лежит в папке
ну думаю хуйня какая-то сделал отдельную сборку, нода без проблем встает без проблем докачивает зависимости.
я копирую саму модель voxCPM2 в нужную папку
её можно выбрать её видно в ноде, но сука при попытке генерации комфи пытается скачать её заного куда-то в кэш, но из за ебаного чебурнета он не может её докачать соединение рвется в какой-то момент и все идет по пизде
как сука это победить что бы не качал модель которая уже есть
(я её уже вообще везде положил и в общую папку моделей и в сам кмофи и конкретно в ту сборку комфи которую пытаюсь использовать, изначально в общей папке леажло и все работало)

Аноним 17/06/26 Срд 15:29:47 № 1634671 152

>>1634632
тупое говно тупого говна, чебурнет попустило, комфи куда-то скачал модель и все заработало, куда блять - неизвестно, в консоле нихуя не написано кроме того что скачано 9 файлов с хаггинфейса, дата изменения файлов скопированных мной не поменялась, на папках свежих дат нет, куда это говно скачалось остается загадкой...

Аноним 18/06/26 Чтв 11:37:03 № 1635258 153

Где брать модели для RVC в формате pth на русском языке?

Fish-Speech S2 Pro без ограничений в VRAM Аноним # OP 18/06/26 Чтв 15:15:15 № 1635367 154

>>1557328 (OP)
>🐟👑 Fish-Speech S2 Pro (FishAudio) — SOTA, ElevenLabs на локале!

В общем, вернулся я к этой кастомной ноде посмотреть и обнаружил что они сделали поддержку запуска на ЦПУ.
https://github.com/Saganaki22/ComfyUI-FishAudioS2

Теперь, если у Вас не хватало VRAM, то можно запускать на проце до тех пор пока у вас как минимум 32 ГБ оперативки.

Но, чтобы совсем не уйти в тормоз не забудьте поставить в кастомной ноде max_new_tokens на 192 к примеру (в дефолте он почему-то стоит на 0 - то есть без лимита, что приводит к перегрузке).

Аноним 18/06/26 Чтв 20:54:21 № 1635626 155

>>1634632
>есть ComfyUI Desktop
Инстаделит. Ставь портабл. Он тебе еще не раз мозги выебет и всем остальным. Помойка. Комфи и так помойка, а тут он еще и в самой системе стоит.

Аноним 19/06/26 Птн 07:37:23 № 1635851 156

>>1617517
Он файлы закчивает.