Главная Юзердоски Каталог Трекер NSFW Настройки

Искусственный интеллект

Ответить в тред Ответить в тред
Check this out!
<<
Назад | Вниз | Каталог | Обновить | Автообновление | 126 39 36
Голосовых нейронок тред (Text to speech, Voice Clone) #8 /speech/ Аноним 20/03/26 Птн 16:16:54 1557328 1
image.png 2351Кб, 3046x1742
3046x1742
1.mp4 2571Кб, 1200x630, 00:00:52
1200x630
2.mp4 4171Кб, 1280x692, 00:01:37
1280x692
3.mp4 3766Кб, 726x594, 00:02:54
726x594
🎤🔊 ОБСУЖДАЕМ ПРЕОБРАЗОВАНИЕ ТЕКСТА В ГОЛОС И КЛОНИРОВАНИЕ ГОЛОСОВ 🔊🎤
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

🌟 ТОП ЛОКАЛЬНЫХ МОДЕЛЕЙ ПО КАЧЕСТВУ РУССКОГО ГОЛОСА НА МАРТ 2026 🌟

🐟👑 Fish-Speech S2 Pro (FishAudio) — SOTA, ElevenLabs на локале!
→ zero-shot клон от 10–30 сек записи
→ 80+ языков (русский топ), теги эмоций [excited], [whisper], [angry], [laughing] и вообще дохуя
→ диалог между несколькими голосами
→ тяжёлая сучка (FP8 в 12 ГБ VRAM, full ~17 ГБ), но есть экспериментальный вариант для 6+ ГБ
https://github.com/rodrigomatta/s2.cpp
🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹
🧠 Qwen3-TTS
→ клон от 3–30 сек (ВАЖНО: без reference-транскрипта текста — хуйня, если хочешь поудобнее подключи сразу QwenASR)
→ VoiceDesign: пишешь «весёлая молодая девка с хрипотцой» — и получаешь голос
→ 10 языков, включая русский
→ диалог между спикерами
→ лёгкая — влезает в 6 ГБ VRAM
🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹
🎙️ VibeVoice-7B от Майкрософт
→ тяжёлая, но 4-bit квантизация — запускается на 8 ГБ (проверено на 3070)
→ поддержка долгих спичей
→ подкаст-режим: 4 спикера одновременно
→ норм клонирование голоса
🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹
☁️ FL CosyVoice3
→ ультралёгкий 0.5 — запустится даже на тостере
→ 9 языков, включая русский
→ zero-shot клон от 3–10 сек референса
🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹
🌍 Chatterbox Multilingual (23 языка, включая русский)
→ zero-shot клонирование голоса
🎤 F5-tts
→ zero-shot клонирование голоса
→ официально русский не поддерживается, но есть файнтюн (см. ниже)
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
🚀 КАК ЭТИМ ПОЛЬЗОВАТЬСЯ (если что-то не понятно — спроси у ИИ лол) 🚀

🔥Вариант «всё в одном месте» — ComfyUI + TTS-Audio-Suite

1. Устанавливаем ComfyUI (Desktop для нормисов, Portable для здешних нейромантов)
2. Ставим https://github.com/diodiogod/TTS-Audio-Suite — постоянная обновляемая солярка почти всех моделей
3. Поставить FFmpeg (через winget в комадной строке: winget install FFmpeg или скачать)
4. Запускаем Комфи → перетаскиваем готовый json-воркфлоу из репозитория
5. Отсавляем включенными выбранные ноды, жмём Run
6. При первой генерации модели сами скачаются (~1–9 ГБ)

💥 Вариант «по отдельности» (кастом под каждую модель) 💥
Тоже через ComfyUI, только ставим отдельные кастомные ноды (на выбор):

FishAudioS2 → https://github.com/Saganaki22/ComfyUI-FishAudioS2
FL-CosyVoice3 → https://github.com/filliptm/ComfyUI_FL-CosyVoice3
F5-TTS → https://github.com/niknah/ComfyUI-F5-TTS
и другие → https://registry.comfy.org/

Русский файнтюн для F5-TTS:
Нода: https://github.com/niknah/ComfyUI-F5-TTS
Скачать русский файнтюн: https://huggingface.co/Misha24-10/F5-TTS_RUSSIAN/blob/main/F5TTS_v1_Base_v2/model_last_inference.safetensors и
https://huggingface.co/Misha24-10/F5-TTS_RUSSIAN/blob/main/F5TTS_v1_Base/vocab.txt
оба файла переименовать в ru.safetensors и ru.txt и положить в папку models/checkpoints/F5-TTS/

Референсное аудио для F5 должно быть коротким, 6-8 c. При 11 c - речь становится слишком быстрой.

в папку /comfyUI/input положить 2 файла: emma_ru_xtts_3.wav и emma_ru_xtts_3.txt: https://github.com/Mozer/comfy_stuff/tree/main/input
(в emma_ru_xtts_3.txt лежит текст сказанный в wav файле.)

в комфи в ноде F5 TTS audio advanced выбрать:
model model:///ru.safetensors
model_type: F5TTS_v1_Base
sample_audio: emma_ru_xtts_3
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
🎉 Если что-то не запускается — пиши, разберёмся!
Голосуем, клонируем, ебём нейросети вместе! 🔥🎙️

Прошлый тред: >>1055411 (OP)
Аноним 20/03/26 Птн 16:40:08 1557347 2
П.mp4 4803Кб, 1280x764, 00:01:38
1280x764
>>1557345 →
дабл в честь вайпа переката
Аноним 20/03/26 Птн 17:03:20 1557379 3
>>1557325 →
>Faster-whisper-xxl питоновский. Обычный даже время не выдает. Ты этим же делал?
не, я делал Whisper.cpp, может из за этого в 2 раза разница, хотя не верится особо...
Аноним 20/03/26 Птн 17:05:28 1557387 4
>>1557328 (OP)
отличная шапка, только почему Speech-to-Text потеряли? отдельного треда на это явно не будет
Аноним 20/03/26 Птн 17:07:31 1557388 5
>>1557379
Можешь Faster-whisper-xxl проверить?
Аноним 20/03/26 Птн 17:08:47 1557390 6
Есть распознавалки, которые разделяют по голосам? Можно сетевые и умеренно платные (без подписки).
Аноним 20/03/26 Птн 17:32:04 1557404 7
>>1557387
>Speech-to-Text
Так проблема уже давно решена, если нужно локально то QwenASR, а если не важно чтобы был лоКАЛ, то можно закинуть аудио в Грок и он сам тебе его транскрибирует.
А так, ASR тоже в TTS-Audio-Suite, но обсуждать их уже как-то мало смысла.

>>1557390
Не иронично Gemini.
Аноним 20/03/26 Птн 17:47:27 1557412 8
>>1557404
ну, по хорошему бы это в шапку добавить, и про Whisper возможно тоже, чтобы вопросы лишние у новоприбывших не возникали
Аноним 20/03/26 Птн 17:51:24 1557417 9
image.png 18Кб, 523x211
523x211
>>1557388
ну, по первому файлику примерно в 2 раза медленнее работает, 49 сек против 21, и видеокарту не так использует... (в графе 3д ничего не показывает, только по памяти)
Аноним 20/03/26 Птн 18:01:58 1557438 10
>>1557404
> Не иронично Gemini.
Как им пользоваться?

>>1557417
В графе 3д и не должно показывать, переключи на куду. А виспер цпп 3д нагружал?
Аноним 20/03/26 Птн 19:15:22 1557534 11
>>1557412
Ты сюда для начала напиши про виспер.
Аноним 20/03/26 Птн 20:13:44 1557594 12
>>1557404
>если нужно локально то QwenASR
Как он в сравнении с виспером?

faster-whisper-xxl нету в принципе в исходниках, как я понимаю. Как всё это заебало.

>>1557325 →
Посмотрел - да, в pip openai-whisper, а модуль называется whisper. Как удобно, блядь.
Аноним 21/03/26 Суб 01:12:57 1557836 13
>>1557417
Ну хуле ж так? Почему у тебя быстрее? Оно же в проц не должно упираться?
Аноним 21/03/26 Суб 01:59:37 1557855 14
>>1557438
>А виспер цпп 3д нагружал
в том числе
>>1557836
>Почему у тебя быстрее? Оно же в проц не должно упираться?
та кто его знает, по идее б у меня первого уперлось бы, у меня зион 13го года и ддр3... та и нагрузка явно на видяху там шла, бо в графе 3д конкретный такой забор был, % на 75...
пробуй CPP поднять, должен быть прирост
Аноним 21/03/26 Суб 02:00:23 1557857 15
>>1557534
Может быть и напишу...
Аноним 21/03/26 Суб 02:21:13 1557867 16
Clipboard03-21-[...].webp 15Кб, 894x696
894x696
>>1557855
Как ты запускал?

faster-whisper-xxl.exe" --model large-v3-turbo --output_format all -- файл

Сейчас 0:01:22.563, 5.73x. Файл 0001_..p.mp3

>у меня зион 13го года и ддр3
У меня интел 10 года. Обновился, блядь. Ебаная оператива.

>>1557855
>бо в графе 3д конкретный такой забор был, % на 75...
Там не должно быть загрузки 3д. См скрин.

>>1557855
>пробуй CPP поднять, должен быть прирост
Как я его тебе подниму?
Аноним 21/03/26 Суб 03:07:05 1557880 17
>>1557867
у меня вместо Cuda стоит Copy, хз от чего зависит, может от винды или драйверов
Аноним 21/03/26 Суб 03:23:23 1557882 18
>>1557880
На стрелку вниз жмешь и выставляшь что хочешь :) Так у тебя реально в 3д загрузка?
Аноним 21/03/26 Суб 08:52:59 1557937 19
>>1557438
>Как им пользоваться?
Тупо закидываешь аудиофайл в чат

>>1557594
>Как он в сравнении с виспером?
можешь заценить тут, по идее должно быть тоже самое что и на локале https://chat.qwen.ai/
если понравится, можешь поставить локально через ттс суит или эту ноду https://github.com/DarioFT/ComfyUI-Qwen3-ASR
Аноним 21/03/26 Суб 14:37:05 1558097 20
>>1557937
> Тупо закидываешь аудиофайл в чат
С чатом гопотой у меня это так м не заработало. Алсо это не автоматизируемо? А что там за модель под капотом?
Аноним 21/03/26 Суб 15:18:44 1558127 21
>>1558097
>А что там за модель под капотом?
Может быть такое что там скрытая кастомная от Гугла или все та же Veo но настроенная на звук, но везде пишут что сама Gimini она мультимодальна, то есть натренена на тексте/картинках/аудио/видео одновременно.
Аноним 21/03/26 Суб 19:31:43 1558359 22
Когда уже запустится индустрия нейродубляжа фильмов голосами и интонациями оригинала? Почему ещё не? Что-то пукнули и заглохло.
Аноним 21/03/26 Суб 19:47:02 1558386 23
>>1558359
Актеры против. Identity theft, все дела.
Аноним 21/03/26 Суб 19:58:59 1558401 24
>>1558386
Ну это понятно, а где пиратские?
Аноним 21/03/26 Суб 20:02:04 1558406 25
>>1558401
Слишком дорого, и для вменяемого качества нужно много ручного труда. В читаемой нейронкой формат перевести, голоса натренировать, хорошие варианты выбрать...
Это прям сильно больше, чем несколько чуваков за пару штук нанять на озвучку.
Аноним 21/03/26 Суб 20:36:14 1558433 26
>>1557328 (OP)
>Qwen3-TTS
Бляя. Я это хуйню короче вчера поставил, угадайте блять чё случилось после команды реквирементс.
А то что и всегда нахуй, комфи просто перестала запускаться.
с стабильность.
Аноним 21/03/26 Суб 21:27:47 1558484 27
>>1557328 (OP)
Видя с главной не смог пройти мимо - вы что с шапкой сотворили, ироды? Так верстают только мудаки.
Аноним 21/03/26 Суб 23:59:49 1558635 28
>>1558484
Да, похоже на высер нейросети.

Как там обстоят дела с клонированием голоса? Насколько похоже/реалистично, как просто?

https://www.youtube.com/watch?v=-zVgWpVXb64
Аноним 22/03/26 Вск 02:30:28 1558723 29
image.png 131Кб, 1200x861
1200x861
>>1557882
ничеси, не знал шо так можно

Не, все-таки Cuda... Хм, почему мне тогда кажется что раньше я этот забор в графе 3д видел, ну то такое, может то на другой нейронке какой-то 3д юзалось...
Аноним 22/03/26 Вск 02:40:58 1558727 30
>>1557867
>У меня интел 10 года
тогда там и AVX2 походу нет? печальненько, это может ограничить спектр запускаемого софта... та и на скорость повлиять...
хотя по ощущениям основная работа на видеокарте (китайцы не смогли нормально мать развести, и при работе видеокарты в наушниках довольно хорошо слышно сигналы с PCIe шины)
Аноним 22/03/26 Вск 02:43:20 1558729 31
>>1558433
комфи просто перестала запускаться.
агонь) комфи это стабильность)
а без комфи никак это не запускается?
Аноним 22/03/26 Вск 04:14:37 1558749 32
>>1558729
>а без комфи
А без комфи там надо ставить кучу всякой хуиты, питоны, тритоны, анаконды, и пердолиться в сонсоль до скончания веков. Я не даун, что бы заниматься этой хуетой.
Аноним 22/03/26 Вск 07:13:38 1558781 33
>>1558727
Проц недогружен, в ядро вроде не упирается, но мало ли

>>1558723
Да, запрятали это. И настройки еще и не сохраняются.

Какие у тебя есть датчики в gpu-z? Потребляемая мощность есть?
Аноним 22/03/26 Вск 20:18:50 1559503 34
>>1558749
но при этом имеешь время чтоб ломать и чинить комфи)
я для себя принял тактику - новый инструмент- новый venv для пайтона... тритон на винде это боль насколько я помню вообще
Аноним 22/03/26 Вск 20:29:37 1559509 35
image.png 45Кб, 513x717
513x717
image.png 46Кб, 513x717
513x717
>>1558781
как то так, один скрин турбо, один просто лардж
оно пиками мощу повышает по меньшим значениям в 20 вт разница, 70-90... как то так, пиками на макс 150 плюет
Аноним 22/03/26 Вск 20:35:41 1559515 36
>>1559503
Я просто новую портативку скачал. Эту хуету чинить бесполезно.
Аноним 23/03/26 Пнд 11:38:11 1559952 37
Я тута к вам с идеей нейронкой сделать аудиокнигу. Так как у меня комп не очень, то буду сам делать на silero. Пока может для себя. В планах
Сделать фонетический разбор текста, расставить правильно ударения, паузы.
Разбить текст по ролям и дать каждой роли отдельный голос
Так как у silero мало голосов. То отдельно придется преобразователь голоса.
Добавление фоновых звуков
Сшивание обратно по главам
Аноним 23/03/26 Пнд 14:20:01 1560099 38
>>1559952
>сделать аудиокнигу
ок
>silero
а обязательно выбирать говно мамонта? или специально нужна именно наиболее старая модель из 2022-го?
Аноним 23/03/26 Пнд 16:31:46 1560262 39
>>1560099
Мой выбор пал на это из-за слабого железа
Аноним 23/03/26 Пнд 17:49:20 1560335 40
>>1560099
Есть в открытом доступе голоса из телеги silero/steosvoice?
Аноним 24/03/26 Втр 03:06:54 1560736 41
Аноним 25/03/26 Срд 09:31:34 1561951 42
1.mp4 2571Кб, 1200x630, 00:00:52
1200x630
>>1560736
тем же, что и здесь.

Fish-Speech S2 Pro
Аноним 26/03/26 Чтв 03:36:59 1563121 43
>>1557328 (OP)
А каверы песен?
жопич виталя кал все еще не попадает
Аноним 26/03/26 Чтв 19:48:29 1563797 44
Кто-нибудь пробовал использовать llama-tts из репозитория llama.cpp? То ли help там не полный, то ли нейронных сетей нормальных в gguf для этого нет, но у меня постоянно вылетает ошибка аля "не могу открыть gguf" или "не передан файл gguf". Советовался у Claude, Deepseek и ChatGPT - пишут, что, возможно, разрабы не допилили программу.
Аноним 31/03/26 Втр 22:20:29 1568745 45
Анончи, помогите новичку связать llm с tts
Нарезал 20 кусков по 10 секунд англоязычной речи нужного мне персонажа
Пытаюсь сделать так чтобы читались ответы ллмки автоматически. Ллмка эта локальная.
Дипкок предложил silly tavern, накатить через дополнения. Но я ебанулся уже разбираться в этом говне без гуя с ошибками на каждом этапе и тонной мусора из зависимостей.
Может я изначально не тем путем иду и нужно как-то иначе осуществлять данную функцию?
Видеокарта у меня 4060 на 8 гигабайт, 32гб ОЗУ
Аноним 01/04/26 Срд 16:31:39 1569683 46
>>1568745
>связать llm с tts
>Ллмка эта локальная.
>как-то иначе осуществлять данную функцию?
тебе повезло, тут в кобольд только недавно завезли поддержку QwenTTS с клонированием голосоа
https://github.com/LostRuins/koboldcpp/releases
Аноним 01/04/26 Срд 17:32:53 1569780 47
Mima needs you!.webm 1140Кб, 202x360, 00:00:20
202x360
Подскажите прикольные бесплатные ИИшные говорилки для голоса с ретро вайбом для фумо видео типа как тут (японский AquesTalk, тексттуспич), но чётче и экспрессивнее, русский язык. Желательно чтобы их было не ультра сложно установить, что-то простое. Виндовс 11.
Аноним 01/04/26 Срд 17:40:03 1569791 48
>>1569683
Тебе вполне и говорилки хватит
Аноним 01/04/26 Срд 17:48:26 1569807 49
Аноним 01/04/26 Срд 17:51:24 1569814 50
>>1569683
Ничего не понятно в гайде с гитхаба этого проекта. Удалось запустить ллм, но ттс не понимаю как обучить
Аноним 01/04/26 Срд 20:34:32 1570077 51
>>1569814
>ттс не понимаю как обучить
обучать не нужно, сейчас все делается через voice-cloning, модель клонирует голос на лету.
сначала научись его делать наверное с любой моделью и потом лезь, хотя там и так понятно все должно быть.

Альтернативно, тут тоже поддежка голоса вроде появилась
https://github.com/jofizcd/Soul-of-Waifu
Аноним 01/04/26 Срд 20:44:35 1570089 52
>>1570077
Как это клонирование желается с минимальными затратами?
Аноним 01/04/26 Срд 20:59:13 1570116 53
>>1570077
Я разобрался базово в koboldcpp и получилось настроить там рекомендованную на гитхабе TTS.
Но проблема в том что она очень медленная. Даже на видеокарте приходится по 5 минут ждать генерацию фразы в несколько слов.
Причем LLM параллельно работает наоборот очень быстро.
Ещё мне не нравится, что можно только один отрывок короткий использовать, хотя у меня их 20. Каждый раз идёт обучение с нуля, как я понял по консольке и если выбирать отрывок дольше 10 секунд, то генерация звука занимает вообще по 20 минут.
Неужели нет способа на 4060 более-менее быстро генерить, чтобы озвучка занимала адекватное время?
Аноним 03/04/26 Птн 16:14:01 1572376 54
>>1570116
>Но проблема в том что она очень медленная. Даже на видеокарте приходится по 5 минут ждать генерацию фразы в несколько слов.
Возьми квант поменьше, не Q8_0, а Q4 к примеру.
ComfyUI-OmniVoice-TTS Аноним 05/04/26 Вск 11:46:08 1574904 55
573330518-b9c75[...].mp4 3270Кб, 720x408, 00:02:12
720x408
image.png 11Кб, 360x225
360x225
https://github.com/Saganaki22/ComfyUI-OmniVoice-TTS
600+ Languages — Broadest language coverage among zero-shot TTS models
Voice Cloning — Clone any voice from 3-15 seconds of reference audio
Voice Design — Create synthetic voices from text descriptions (gender, age, pitch, accent)
Multi-Speaker Dialogue — Generate conversations between multiple speakers using [Speaker_N]: tags
Fast Inference — RTF as low as 0.025 (40x faster than real-time)
Non-Verbal Expressions — Inline tags like [laughter], [sigh], [sniff]
Аноним 05/04/26 Вск 11:59:40 1574911 56
оригинал1.mp4 316Кб, 1522x1440, 00:00:09
1522x1440
клон1.mp4 361Кб, 1522x1440, 00:00:09
1522x1440
оригинал2.mp4 278Кб, 1522x1440, 00:00:06
1522x1440
клон2.mp4 331Кб, 1522x1440, 00:00:08
1522x1440
>>1574904
в дополнение к тому, что он успешно клонирует голос между языками - вот пример клонирования в рамках одного языка.
Аноним 05/04/26 Вск 15:19:16 1575135 57
>>1557328 (OP)
Что по качеству, голосаны? Шапка актуальна? Вот эта >>1574911 нейрошляпа актуальна? Что скачать для клона и генерации с нуля, чтобы не качать все подряд и не тыкаться с этим неделю-другую, перебирая? 16 VRAM.
Аноним 05/04/26 Вск 15:45:18 1575156 58
Аноним 05/04/26 Вск 16:24:07 1575198 59
>>1574904
Войс-дизайн в связке с клонингом есть?
Если нет - чем лучше КвенТТС?
Аноним 05/04/26 Вск 17:09:39 1575252 60
image.png 36Кб, 366x454
366x454
>>1575135
Шапка уже (за месяц) устарела.

Вот эта йоба >>1574904 входит в топ лучших.
Но походу не лучше чем Fish-Speech S2 Pro, но более доступная, так как ФишСпич требует как раз 12 ГБ VRAM, а ОмниВойс можно и на тостере запустить с 4ГБ VRAM.

>>1575156
И для 8 ГБ VRAM, да хоть для 4 ГБ VRAM подойдет OmniVoice.

>>1575198
Да, есть дизайн голоса с нуля.
Ну и плюс типа 600 ЯЗЫКОВ Карл блять, 600!
Аноним 05/04/26 Вск 17:15:23 1575268 61
>>1575252
> British accent
А для других языков? Семплы есть? Чем делают видосики где амеры говорят по русски?
Аноним 05/04/26 Вск 17:17:59 1575272 62
оригинал1.mp4 423Кб, 1522x1440, 00:00:12
1522x1440
клон1.mp4 646Кб, 1522x1440, 00:00:25
1522x1440
оригинал2.mp4 261Кб, 1522x1440, 00:00:05
1522x1440
клон2.mp4 246Кб, 1522x1440, 00:00:03
1522x1440
>>1575198
>>1575268
Тут прикол ОмниВойса в том, что он мультиязычный - то есть клонированные голоса с одного языка можно использовать на другой язык.
То есть клонируешь чей-то известный английский голос и говоришь им на русском и т.д.
Аноним 05/04/26 Вск 18:05:22 1575355 63
>>1575272
Да, я это и имел в виду.
Аноним 05/04/26 Вск 20:49:12 1575512 64
Аноним 05/04/26 Вск 21:11:15 1575538 65
>>1575252
Спасибо. Насколько вижу по шапке, там из серьезного только Рыба, Квен, Майкрософт. Остальное мелочь какая-то. Квен и Майков трогать стоит или уже стоит только Рыбу с >>1574904 смотреть?
Аноним 06/04/26 Пнд 02:55:23 1575827 66
>>1575252
>Да, есть дизайн голоса с нуля.
Дизайн с нуля и в Квене есть, говорю же.
Но в Квене нет такого, чтоб взять клон голоса, и уже его дизайнить. Эмоции прописать, интонации другие, прочее.
Потому и спросил.
Тут, походу, тоже нет.
>600 ЯЗЫКОВ
На-ку-я?
Не, какому-нибудь маори может и понравится, что для его языка на чем они там говорят вообще? наконец-то модель сделали. Но основные то, самые часто используемые языки, практически все модели знают.
Аноним 06/04/26 Пнд 02:56:47 1575828 67
>>1575272
Это Квен тоже умел.
Аноним 06/04/26 Пнд 16:13:19 1576418 68
https://github.com/Saganaki22/ComfyUI-FishAudioS2

/\/\/\ Вот эту поеботу можно как-то в google colab запустить на T4? /\/\/\

Я нищий и тупой, не бейте. Звучит охуенно, но при попытке запуска этих нод через комфи всё вылетает нахуй, я так понимаю памяти не хватает. А как использовать nf4 в душе не ебу. Ну скачал модель, закинул в папку, а дальше то что? Оно один хуй пытается свою модель автоматом качать и на этом происходит разрыв жопы. А как под это кастомный ворклфлоу собрать я в душе ебу.

А вообще имеет ли смысл? Ну типа будет ли оно хоть близко таким же качественным с моём случае, как и примеры с полноценной моделью? Или будет всё тот же робовойс?
Аноним 06/04/26 Пнд 16:15:17 1576422 69
>>1576418
Уточню что в самой ноде я также выбирал bnb nf4, но оно сначала качало оригинальную модель или её часть, пыталось что-то пережимать или хуй его и вылетало. То есть автоматический вариант видимо отпадает.
Аноним 06/04/26 Пнд 16:49:35 1576458 70
>>1576418
>>1576422
это кастомная нода к ComfyUI, поэтому должен ставиться вот так - можно ли запустить ComfyUI на коллабе? Так хз, со времен Автоматика это вроде блокируется на коллабах.

Но для тех, у кого как минимум 6 ГБ VRAM есть альтернативный вариант https://github.com/rodrigomatta/s2.cpp поддерживающий квантизированную версию модели, правда придется попариться с запуском и управлять процессом придется через командую строку. В общем самый barebones вариант, но по качеству не должен уступать.
Аноним 06/04/26 Пнд 18:08:50 1576569 71
>>1576458
Да он то сам по себе ставится на комфи в колабе, просто нужно именно обойти вот это ограничение с автоскачиванием модели, чтобы оно подтягивало не полную модель, а брало уже квантованную из файлов, а с этим непонятно. А так если вопрос стоит в том пропускает ли колаб генерацию, то да пропускает, никаких проблем с нейронками в колабе нет. Мой случай упирается именно в видеопамять.
Аноним 06/04/26 Пнд 18:25:37 1576594 72
>>1576458
А за ссылку спасибо, буду разбираться. А то как-то неполный ответ получился, не дошел до этого момента.
Аноним 07/04/26 Втр 04:55:34 1577278 73
>>1563121
Бамп. Хочу Мегадетх, но с голосом Роба Хелфорда.
Аноним 07/04/26 Втр 09:28:36 1577340 74
>>1563121
>>1577278
Онлайн/офлайн? Онлацн - suno, udio (лучше). Поищи на ютубе говновоз.
Аноним 08/04/26 Срд 09:34:30 1578614 75
А есть где-нибудь огромный банк сэмплов голоса по 15 секунд?
Аноним 08/04/26 Срд 15:18:36 1579012 76
>>1577340
Оффлайн, мне только сам войслайн поменять.
Аноним 08/04/26 Срд 15:31:38 1579032 77
Аноним 08/04/26 Срд 16:07:38 1579072 78
>>1579032
Это я видел. Мне бы на русском каких-нибудь ярких экспрессивных голосов. Так омнивойс затянул, звучит как магия, после старых ттс. А вот голоса русские негде брать, особенно женские... Повырезал немного блогерш и стримерш, они в основном очень вяло разговаривают.
Аноним 08/04/26 Срд 19:21:09 1579314 79
>>1579072
Как идея, посмотри у себя в телеграме или ватсаппе не сохранились ли голосовые сообщения.
Аноним 09/04/26 Чтв 01:16:30 1579728 80
>>1557328 (OP)
Почему в шапке постоянно упор на lowvram? Что можно боярину с 4090 погонять? Или всё то же самое по качеству будет?
Аноним 09/04/26 Чтв 08:23:48 1579938 81
>>1579728
Не знаю что там про бояр. Но при черипикинге омнивойса, я смог сгенерировать короткие голосовые, неотличимые от оригинала и потролить этим друзей которые ничего не заметили. Ещё пару поколений нейронок и нам конец.
Аноним 09/04/26 Чтв 11:55:11 1580202 82
>>1557328 (OP)
как сгенерить 10 минутное joi видео с голосом стримерши?
Аноним 09/04/26 Чтв 12:30:33 1580242 83
>>1579728
> 4090
Это все еще лоуврам.
Аноним 09/04/26 Чтв 12:57:12 1580267 84
>>1580242
Но это больше чем в шапке расписано только для 6-8-12 ГБ
Аноним 09/04/26 Чтв 14:05:19 1580354 85
>>1580267
В ИИ сфере это мало, просто сами по себе ТТС модели небольшие. 12ГБ в фп8, в бф16 будет 24. И это запуск, для тренировки еще больше нужно.
Аноним 09/04/26 Чтв 16:45:45 1580555 86
image.png 40Кб, 504x317
504x317
>>1579728
>Или всё то же самое по качеству будет?
Ну да, если VRAM выше потолка то качество магически не увеличится, только сокорость может, ну и еще на поток поставить - генерировать сразу 2-4 вариантов аудио с разными сидами.

>>1580202
Используй Fish-Speech S2 Pro со следующими тэгами. Но по моему опыту модель понимает гораздо больше тэгов чем эти. К примеру я добовлял [surprise] и еот реально удивленно говорила, еще [embarrassed] или [love] (не уверен работает или нет, но какой-то эффект есть).
Аноним 10/04/26 Птн 14:39:21 1581669 87
>>1579938
Почему у меня сколько бы я этих локальных нейронок не пробовал, всегда получается абсолютно обоссаная проклятая срань, в которой половину слов на китайском, половину с неправильными ударениями на русском.

Единственный приемлемый результат я получал только через RVC с обученной моделью. Которая переозвучивала то, что наговорила нейронка от гугла. Но гугл пидарасы заблочили доступ в свою студию. И теперь приходится долбиться в комфи, каждую неделю скачивая новое обоссаное проклятое поделие, и убеждаться, что оно такое же как предыдущее.
Аноним 10/04/26 Птн 15:05:42 1581692 88
image.png 728Кб, 1000x643
1000x643
>>1581669
>сколько бы я этих локальных нейронок не пробовал
>всегда получается абсолютно обоссаная проклятая срань
Аноним 13/04/26 Пнд 15:07:10 1584944 89
молот!
Аноним 17/04/26 Птн 22:54:11 1590253 90
image.png 236Кб, 1353x996
1353x996
image.png 112Кб, 1920x1151
1920x1151
260703.1FlashTT[...].mp4 8516Кб, 1858x1068, 00:00:33
1858x1068
TTS от гугла, пишут очень хорошо работает с эмоциональным тоном
Аноним 17/04/26 Птн 23:28:13 1590291 91
1776457698035.jpg 89Кб, 1280x599
1280x599
Аноним 18/04/26 Суб 06:01:25 1590477 92
Хачу переводить фильмы голосом Володарсково.
вот это "Убери свою пушку лигавый мать твою говнюк засранец!"

брать Омни Воис? на это сраное Комфи?
есть ли где готовая сборка?
чтоб Портабле.
скачал и запустил.
Аноним 18/04/26 Суб 14:05:27 1590698 93
Аноним 20/04/26 Пнд 11:33:03 1592195 94
Аноним 21/04/26 Втр 13:58:54 1593218 95
>>1590477
Есть готовая сборка портативная комфи. Просто распаковываешь её, кидаешь туда файл с гитхаба омнивойс, из папки воркфлоу. И всё. Там воркфлоу сам модели скачивает.
Аноним 26/04/26 Вск 14:02:32 1598199 96
image.png 6Кб, 538x68
538x68
Так, вскатываюсь в ttv и не понимаю как установить. Скачал омнивойс, закинул в комфи и пикрил, ничего не работает. Если удалить папку nodes то комфи запускается но ругается что нод, очевидно, нет. Что делать?
Аноним 26/04/26 Вск 15:54:08 1598304 97
>>1598199
Омнивойс не надо качать. Качать нужно только менеджер нод, а потом в менеджере нод выбрать омнивойс и он сам скачается.
Аноним 26/04/26 Вск 16:33:34 1598336 98
Аноним 26/04/26 Вск 16:48:41 1598352 99
Снимок848.PNG 51Кб, 796x528
796x528
>>1598336
Первое что надо сделать, это поставить в браузер закладку перплексити и подобной нейронки. И любой такой элементарный вопрос спрашивать у неё.
Она такую хуету понимает, можно так и писать "где взять менеджер нод комфи уи", прямо по русски с ошибками похуй. И дальше если что-то в процессе будет непонятно, тоже у неё спрашивать.
Аноним 27/04/26 Пнд 11:41:37 1598918 100
image.png 17Кб, 361x166
361x166
Так, нод манагер установил, он мне омнивойс скачал но теперь пишет пик. Че это как исправить?
Аноним 27/04/26 Пнд 11:54:47 1598926 101
image.png 6Кб, 578x139
578x139
>>1598918
Сделал батник как написано, пик появился, ошибка все та же.
Аноним 27/04/26 Пнд 14:21:32 1599033 102
>>1598926
А у тебя портативная комфи или обычная?
Аноним 27/04/26 Пнд 14:26:18 1599041 103
Аноним 27/04/26 Пнд 14:47:53 1599066 104
>>1599041
Тоесть ты прямо так в сонсоль и пишешь "python -m pip install"?
Это чё то не то. В портативную надо именно указывать питон, который в папке python_embeded
Тоесть
\путь_до_портативной папки\python_embeded\python.exe -m pip install и т.д.
Аноним 27/04/26 Пнд 14:52:42 1599072 105
>>1599066
Я батник создал в папке с питоном, как видно на пике оно сработало вроде как, написано что установлено. Если запустить еще раз батник то пишет что все работает. Но в самом комфи ничего не изменилось.
Аноним 27/04/26 Пнд 15:06:48 1599085 106
>>1599072
Тогда хз. А ты вообще какую ноду качал? От Saganaki22? Надо оттуда именно.
Аноним 27/04/26 Пнд 15:09:29 1599087 107
>>1599085
Сначала скачал какой-то типа официальный, потому что тот манагер не хотел качать. Он не завелся, скрутил в манагере безопасность и скачал от саганаки, ничего не изменилось.
Аноним 27/04/26 Пнд 15:17:53 1599095 108
>>1599087
А воркфлоу от саганаки?
Аноним 27/04/26 Пнд 15:20:37 1599101 109
>>1599095
А воркфлоу от него не запускается, таких нод нет если брать пример из скачанного с гитхаба. У меня от омнивойса только одна нода кастомная.
Аноним 27/04/26 Пнд 15:27:45 1599111 110
>>1599101
Так у тебя получается ничего не установлено. Тебе нужны кастомные ноды от саганаки и воркфлоу от саганаки.

По поводу секурити вот так у меня в инишнике. И всё скачалось и сходу завелось.
security_level = weak
Если у тебя так же и всё равно не качает, попробуй тогда через git clone скачать репозиторий вручную.
Аноним 27/04/26 Пнд 15:48:09 1599123 111
image.png 85Кб, 1427x569
1427x569
>>1599111
Так там нет нод, написано что скачано а ноды-то хде. Нода есть у crt, но оно не работает.
Аноним 27/04/26 Пнд 15:57:15 1599132 112
2313414124213213.jpg 4Кб, 262x193
262x193
>>1599123
При этом папку он создал в кастомных нодах и ноды там есть внутри, но комфи их просто не видит.
Аноним 27/04/26 Пнд 15:59:51 1599136 113
>>1599132
На гитхабе там написано, что если не встало через менеджер, то выполнить в этой папке
python install.py
Аноним 27/04/26 Пнд 16:34:17 1599175 114
image.png 17Кб, 328x188
328x188
Да ебаный рот этого казино, сколько можно. Надо было обновить трансформеров и ноды появились. НО ВСЕ РАВНО НИХУЯ НЕ РАБОТАЕТ. Какой пип инсталл, куда его пихать? Что за мудак все эти инструкции писал, если бы я понимал что это значит то мне эти подсказки всратые не нужны были бы. "You can install it with `pip install accelerate", ну охуеть теперь, и что мне с этим делать? Опять создал ебучий батник и засунул туда это дерьмо - нифига. Я уже десять батников создал чтобы это говно заработало а ему надо еще и еще, это вообще кончится когда-нибудь? Что значит "используй pip install accelerate"? Гугл выдает какую-то хуйню только непонятную или еще одну папку на гитхабе которую неизвестно куда пихать.
Аноним 27/04/26 Пнд 16:50:45 1599189 115
>>1599175
Или мне надо путь батнику указывать до файла пип в папке со скриптами питона? Тогда заведется? Пиздос, чувствую я систему скоро всю наебну этими установками говна через батники.
Аноним 27/04/26 Пнд 17:32:22 1599262 116
>>1599189
Да, я так недавно комфи угандошил вайб войсом. Радуйся что хотя бы запускается пока. У меня после зависимостей вайбвойса вообще перестал.

>Надо было обновить трансформеров
Так вроде скрипт установщик install.py проверяет какая там версия этих трансформеров нужна. Ты через скрипт ставил или просто вводишь рандомные команды на рандомные ошибки?
Аноним 27/04/26 Пнд 17:37:48 1599268 117
17134614186430.jpg 105Кб, 646x595
646x595
>>1599262
>Ты через скрипт ставил или просто вводишь рандомные команды на рандомные ошибки?
Они не рандомные, мне комфи говорит их вводить.
Аноним 27/04/26 Пнд 17:45:25 1599286 118
>>1599268
Так комфи тебе может так очень долго ошибки писать. Скажем если в requirements 20 зависимостей.
Оно тебе будет ошибку с одной зависимостью выдавать, а после того как ты её поставишь он тебе следующую ошибку выдаст и так 20 раз будет писать.

Потому кастомные ноды, если они не встали через менеджер, надо ставить по инструкции с гитхаба. Там будет что-то типа python -m pip install requirements.txt
Но в данном случае через install.py надо в папке кастом ноды
Аноним 27/04/26 Пнд 17:52:17 1599292 119
16055699778770.jpg 32Кб, 460x416
460x416
>>1599286
>install.py
Как его запустить-то?
Аноним 27/04/26 Пнд 18:11:04 1599314 120
>>1599292
python install.py

Но лучше указать полный путь до питона екзешника, и полный путь до скрипта.
Аноним 27/04/26 Пнд 18:18:23 1599318 121
16656745032280.jpg 85Кб, 511x365
511x365
>>1599314
Просто в батнике через пробел условно "Comfy\python_embedded\python.exe comfyUI\custom_nodes\omnivoice\python.py"? так? -pip install или просто - не надо?
Аноним 27/04/26 Пнд 18:18:56 1599319 122
>>1599318
Ой, install.py, ну ты понял.
Аноним 27/04/26 Пнд 18:29:05 1599328 123
>>1599318
Просто через пробел. И бат файл каждый раз не обязательно создавать, на любое действие. Проще всё это в сонсоль вбивать сразу.
Аноним 27/04/26 Пнд 18:32:51 1599334 124
>>1599328
Просто батник если кидать можно вроде как не полный путь указывать а от его положения, так проще.
Аноним 27/04/26 Пнд 18:38:47 1599343 125
>>1599334
Тот же эффект будет, если ты зайдешь через проводник в нужную папку и напишешь в адресной строке cmd.
Аноним 28/04/26 Втр 00:50:17 1599644 126
>>1599175
>Да ебаный рот этого казино, сколько можно. Надо было обновить трансформеров и ноды появились. НО ВСЕ РАВНО НИХУЯ НЕ РАБОТАЕТ.

ну вот поэтому я спрашивал "где взять готовое комфи с воисом, портабле".

потому што это ваше комфи это педерастия примерно как линукс
Настройки X
Ответить в тред X
15000
Добавить файл/ctrl-v
Стикеры X
Избранное / Топ тредов