Главная Юзердоски Каталог Трекер NSFW Настройки

Искусственный интеллект

Ответить в тред Ответить в тред
Check this out!
<<
Назад | Вниз | Каталог | Обновить | Автообновление | 515 213 110
Stable Diffusion тред X+179 /sd/ Аноним 09/01/26 Птн 23:17:09 1484564 1
image.png 3263Кб, 1248x1824
1248x1824
image.png 1846Кб, 1024x1024
1024x1024
image.png 4376Кб, 1440x1920
1440x1920
image.png 5370Кб, 2048x2048
2048x2048
Тред локальной генерации

ЧТО НОВОГО АКТУАЛЬНОГО

• Qwen-Image-2512
• Qwen-Image-Edit-2511
• Qwen-Image-Layered
• Z-Image-Turbo
• Flux 2
• Wan 2.2 (подходит для генерации картинок).
• NAG (негативный промпт на моделях с 1 CFG)
• Лора Lightning для Qwen, Wan ускоряет в 4 раза. Nunchaku ускоряет модели в 2-4 раза. DMD2 для SDXL ускоряет в 2 раза. Пример: 4-8 шагов, CFG 1. https://huggingface.co/tianweiy/DMD2/blob/main/dmd2_sdxl_4step_lora_fp16.safetensors,
CFG 3 для NoobAI https://huggingface.co/YOB-AI/DMD2MOD/blob/main/LYC-DMD2MOD%20(Dmo%2BTffnoi).safetensors,

База:
→ Приложение ComfyUI https://www.comfy.org/download
→ Примеры https://comfyanonymous.github.io/ComfyUI_examples/
https://comfyui-wiki.com/ (откуда, куда, как)
→ Менеджер расширений https://github.com/ltdrdata/ComfyUI-Manager (автоустановка, реестр расширений)
→ Модели https://civitai.com/

Оффлайн модели для картинок: Stable Diffusion, Flux, Wan-Video (да), Auraflow, HunyuanDiT, Lumina, Kolors, Deepseek Janus-Pro, Sana
Оффлайн модели для анимации: Wan-Video, HunyuanVideo, Lightrics (LTXV), Mochi, Nvidia Cosmos, PyramidFlow, CogVideo, AnimateDiff, Stable Video Diffusion
Приложения: ComfyUI и остальные (Fooocus, webui-forge, InvokeAI)

► Предыдущий тред >>1475611 (OP)https://arhivach.hk/?tags=13840
Дополнительно: https://telegra.ph/Stable-Diffusion-tred-X-01-03
Аноним # OP 09/01/26 Птн 23:19:10 1484570 2
t.mp4 2928Кб, 2188x1842, 00:00:28
2188x1842
nsfw текст энкодер под зетку Аноним 09/01/26 Птн 23:27:29 1484588 3
Он вообще существует?
Аноним 09/01/26 Птн 23:32:34 1484592 4
>>1484588
Существует, но не особо нужен сам по себе. Т.к. NSFW в его смысле - это больше "острые сцены" а не сиськи-письки.
Последние, кстати, лечатся не экодером, а через lora или вообще файнтюнами с цветка - уже пошли NSFW в том числе.
Аноним 09/01/26 Птн 23:35:13 1484595 5
>>1484588
Он тебе не поможет сгенерить то что модель не знает.
nsfw текст энкодер под зетку Аноним 10/01/26 Суб 00:09:00 1484636 6
изображение.png 22Кб, 780x161
780x161
>>1484595
кто нибудь сабж пробовал?
Аноним 10/01/26 Суб 00:27:45 1484654 7
>>1484344 →

>По поводу сэмплеров: на одних и тех же настройках, промте и сиде, разные сэмплеры выдают абсолютно разный результат. Это вот так нужно постоянно перебирать методом тыка либо есть однозначно годные семплеры?

Если вкратце, то только прогон твоих собственных тестовых promptов и доверие своим глазам при оценке результата.
Причём, под конкретную модель и сочетание используемых параметров. Связка scheduler/sampler, работающая на одной модели может совершенно не работать на другой.

Далее мой субъективный взгляд:

Посмотри вот эту старую статью: https://stable-diffusion-art.com/samplers/

Особенно вот эти два пика:

Euler converges https://stable-diffusion-art.com/wp-content/uploads/2023/03/euler-2-40.gif

Euler a does not converge https://stable-diffusion-art.com/wp-content/uploads/2023/03/euler-a-2-40.gif

Про scheduler пока не говорим, начнём с sampler.
Условно их можно разделить на две категории: «детерминированные» и «стохастические». «Стохастические» на каждом шаге дополнительно подмешивают порцию шума (второй пик) и поэтому у них нет сходимости (does not converge). На практике, «стохастические» samplers будут каждый раз давать несколько отличающийся результат, в отличие от «детерминированных» samplers при каждом их использовании (что условно происходит в процессе генерации смотри на гифке «does not converge»). Другими словами, не будет «повторяемости» результата. К «стохастическим» относятся samplers группы ancestral (с литерой «a»), а также некоторые другие без литеры «a» (и об этом не узнать, пока не прочитать описание о том, как тот или иной sampler работает).
Лично я из-за невозможности реализации «повторяемости» не использую «стохастические» samplers, вне зависимости от результатов, которые они выдают. А некоторые их на полном серьёзе могут советовать, потому что им понравилась пара черрипикнутых картинок, которые они сгенерировали с их помощью, совершенно не учитывая другие сценарии использования и вариации prompt.

На «детерминированных» samplers при фиксированных seed, prompt и прочих параметрах можно получать повторяемые результаты. Это становится отправной точкой для тестирования разных комбинаций. Как уже писал выше, для этих целей лучше иметь несколько заранее заготовленных для конкретной модели тестовых promptов с отличающимися изображениями, чтобы оценивать насколько тебя устраивает результат, который выдаёт конкретная связка sampler/scheduler для разных prompt (общий план, портрет, мелкие детали зелени, предметка и так далее).

Таким образом, можешь подобрать подходящие sampler/scheduler сам, визуально оценивая результаты генерации. Да, тут сильно влияет субъективный фактор.

Или слепо ориентироваться на «тесты» или «советы бывалых» (устаревшие, от других моделей, с другой комбинацией параметров и прочее), а потом с красными глазами и пеной у рта доказывать всем, что конкретный sampler-нейм из да бест, имба, геймченджер!

>По поводу фейссвапа. Почитал, разрабы старую приблуду убили, а новая зацензурена вообще на голое тело. А как чисто технически этот процесс называется? И2И? Может как-то ручками и напильником будет работать? Интересует не только фейс, но и одежда, предметы и тд.

У Qwen-Image-Edit-2509 (2511 говно очень противоречивая, не могу рекомендовать), FLUX.2 dev при всей их неоднозначности сама по себе такая задача решается с помощью edit-функционала буквально одной строкой prompt: A character from image 1 with the face from image 2, wearing clothes from image 3.
Аноним 10/01/26 Суб 00:45:39 1484679 8
>>1484654
>Далее мой субъективный взгляд:
бля, вы как только-только вылупились, до вас типа никто не пробовал. хуйня твой эйлер, ни-то ни-сё.
у меня охуенно получается с: DPPM_2M_SDE_GPU
с ним начисто отсутствует ваша любимая плесень, которую вы так боготворите и жить без неё не можете.
Аноним 10/01/26 Суб 00:49:50 1484683 9
>>1484570
Это просто абсурд, что под такое нужна лора для эдит модели. Чему тогда нахуй эта обоссанная эдит модель вообще обучалась тогда, если она такую базу не может делать? Не перестаю поражаться как банана про ебет весь этот кал.
Алсо, на редите кидали более красивую комфи ноду для задания угла и высоты.

>Qwen-Image-2512
Опа, а релиз этого пропустил. Старые лора людей сохраняют лица или без переобучения уже не похоже?
kissing Аноним 10/01/26 Суб 01:05:26 1484698 10
изображение.png 462Кб, 726x488
726x488
ComfyUItemptsmb[...].png 4068Кб, 1800x1200
1800x1200
Первоначальный кадр выглядит вот так (см. рис 1), и такой накал животных страстей меня вполне-бы устраивал,
но потом всё традиционно скатывается в привычное говно, а я хочу что-бы они сосались блядь как дикие звери, неужели я много прошу? С языками хоть что-то получается, но сам плотский поцелуй похоже заблокирован. Соевые пидарасы и здесь успели поднасрать! Сука, у меня слов нет, просто лапки опускаются с этой цензурой ебаной.
Аноним 10/01/26 Суб 04:11:29 1484791 11
>>1484654
Тоесть, однозначного варианта не существует, все субъективно и нужно тыкать семейства методом научного тыка. Я почитал вот эту статью: https://www.felixsanz.dev/articles/complete-guide-to-samplers-in-stable-diffusion
тут вообще получается, что на 10 шагах один кал и результаты только 30+. Тогда почему в некоторых промтах 10- шагов?
Аноним 10/01/26 Суб 04:32:04 1484800 12
Аноним 10/01/26 Суб 04:34:08 1484801 13
>>1484584 →

Сделал вывод что в зет нет цензуры как таковой. Модель просто не обучена. Лоры помогают.
Аноним 10/01/26 Суб 04:34:33 1484802 14
>>1484791

То, что панацеи не существует, я утверждать не могу, обижу религиозные чувства культа отдельных sampler/scheduler типа >>1484679 (который, к слову пост прочесть не осилил, иначе бы понял, что Euler и Euler A были только в качестве примеров работы «детерминированных» и «стохастических» samplers).

Скажу только, что лично мне пока ещё не встречалась комбинация sampler/scheduler, которая одновременно идеально бы работала и в Qwen-Image(-Edit-2509/2511) и в FLUX.2 dev и в Z-Image-Turbo. Для каждой модели подбираешь что-то своё.

>тут вообще получается, что на 10 шагах один кал и результаты только 30+. Тогда почему в некоторых промтах 10- шагов?

Я не совсем понял, имел ты в виду генерации на 10 шагов вообще или конкретные случае из статьи, которую ты привёл?

Предположу, что речь шла об общем случае и опять же предположу, что речь идёт об ускоряющих LoRAs типа lightning. Для обычной работы разных моделей требуется большое количество шагов (40+ по описанию моделей, 20+ по рекомендации разработчиков ComfyUI). Для разных моделей были натренированы ускоряющие LoRAs, которые, жертвуя качеством генерации, позволяют получить результат за 8, а некоторые даже за 4 шага. Вопрос только в том, насколько устраивает результат генерации. Здесь опять начинается диспут переходящий в срач между теми, кто генерирует на большом количестве шагов и тех, кто использует lightning LoRAs на 8/4 шага (с CFG 1.0) и говорит, что «ничуть не хуже». Для моделей, генерирующих видео (типа WAN), использование LoRAs на 4 шага практически безальтернативно, в противном случае, генерация будет вообще вечность занимать.

Решение опять же простое. Проверяешь сам и решаешь, устраивает тебя это качество или нет.
В качестве простого примера: Z-Image-Turbo может генерировать на 9 шагах и получается для этой модели приемлемо. Qwen-Image может приемлемо генерировать с lightning LoRA на 8 шагов. А условный FLUX.2 dev с неофициальной 8-step ускорялкой сильно теряет в качестве и приходится крутить его на более высоком количестве шагов, «срезать углы» не удаётся.
Аноним 10/01/26 Суб 05:24:41 1484815 15
>>1484801
>Сделал вывод что в зет нет цензуры
На основании чего ты сделал свой глубокомысленный вывод?
То есть тыкать друг-дружке в ебальники языками обучили, а целоваться не обучили, времени не хватило, как всегда...
Аноним 10/01/26 Суб 05:28:16 1484817 16
>>1484802
>Предположу, что речь шла
О сферических конях в вакууме, цель этих высеров мне неясна, пиздеть о всём и ниочем я не считаю продуктивным. Не отвечай этому мудаку, он сам не знает чё он хочет, ещё один больной еблан с обострением.
Аноним 10/01/26 Суб 05:29:57 1484819 17
>>1484801
>Лоры помогаю
Блядь, тебе лекарства не помогают, а ты хочешь чтобы зетке лоры помогли..
Аноним 10/01/26 Суб 08:06:12 1484842 18
>>1484801
ШОК! оказывается, что "цензура" в image моделях это замыленные письки или их отсутствие, ну кто бы мог подумать...
Аноним 10/01/26 Суб 09:22:28 1484866 19
image 294Кб, 1536x1536
1536x1536
image 450Кб, 1536x1536
1536x1536
image 439Кб, 1536x1536
1536x1536
Зетка.
пик1 - res_multi 9 шагов (дефолт). Сейчас почему-то в комфи дефолт Зетки это 4 шага, но здесь на пике по прежнему 9.
пик2 - euler_a + мои "яскозал" штуки из всех прошлых тредов.
пик3 - exp_heun_2_x0 + мои "яскозал" штуки из всех прошлых тредов.
промпт: fkk, fullshot, Xingu girl 14yo 1980, in the red river
portrait of girl 14yo, detailed pretty face, hi-detailed glossy skin, (smile:0.3)

сид = 0.
Тяжела жизнь в племени, так в 14 выглядеть.
Аноним 10/01/26 Суб 09:49:00 1484876 20
>>1484842

Локальная сд3 устраивала бодихорор при любом намеке, даже позой, не говоря уж о голом сосочке. Явно не просто нехватка картинок в сете.
Аноним 10/01/26 Суб 09:50:46 1484878 21
>>1484866

в комфи в темплейте зет по умолчанию стоит лора на уменьшение шагов
Аноним 10/01/26 Суб 09:53:21 1484880 22
>>1484866
Вместо тысячи слов: DPPM_2M_SDE_GPU
Аноним 10/01/26 Суб 10:30:21 1484895 23
>>1484876
это именно нехватка картинок, там все что давало "любой намек" было выброшено за борт, поэтому так и получилось. еще один уровень цензуры они сделали в виде сейфети чекера, который идет отдельной специализированной моделью, чтобы чекать онлайн генерации постфактум, к локали отношения естественно не имеет.
Аноним 10/01/26 Суб 10:58:10 1484908 24
>>1484878
>в комфи в темплейте зет по умолчанию стоит лора на уменьшение шагов
Обведи ее на скриншоте, я не могу ее найти
Аноним 10/01/26 Суб 12:00:20 1484933 25
>>1484908
Тебе ответил ллм-бот. Это даун галлюцинирует на ходу.
Аноним 10/01/26 Суб 13:55:26 1485000 26
image 3998Кб, 1440x1920
1440x1920
image 4000Кб, 1440x1920
1440x1920
image 3892Кб, 1440x1920
1440x1920
image 3825Кб, 1440x1920
1440x1920
>>1484866
> Xingu
Это же индейцы, почему у тебя китаянки какие-то? Что-то с клипом намутил? Пикрил как зетка генерит их.
Аноним 10/01/26 Суб 14:04:11 1485005 27
>>1484880
>DPPM_2M_SDE_GPU
Сколько шагов и какой scheduler?
Аноним 10/01/26 Суб 14:09:00 1485010 28
>>1485000
>Пикрил как зетка генерит их.
Ага, спасибо что показал. А то пока моделька Зетки у тебя никак не посмотреть как она там генерит. Потом не забудь передать ее дальше, всем же хочется погенерировать в ней, не затягивай с этим.
Аноним 10/01/26 Суб 14:17:18 1485015 29
>>1485010
> никак не посмотреть как она там генерит
Судя по тому что постишь пикчи не от того промпта - не можешь посмотреть.
Аноним 10/01/26 Суб 14:33:25 1485031 30
Какой семплер более удачный для qwen edit? Все хорошо, но немного замылено. Хочется больше деталей на коже и других поверхностях. Я знаю, что это особенность квена, но может есть более удачные семплеры? Просто методом тыка подобрать не смог. Сейчас использую: er_sde и beta.
Аноним 10/01/26 Суб 14:42:29 1485036 31
>>1485031
Конечно есть. Но пусть это останется в тайне. Если выложить пример семплера/шедулера/шаги/етк, то местный скользкий налим обсмеет и потребует пруфов.
Аноним 10/01/26 Суб 14:48:00 1485043 32
>>1485036
Я генерирую на 8 шагах. 1к. Заметил, что если повышать разрешение, то качество растет, но и красок становится больше, на 2к совсем неестественные цвета.
Аноним 10/01/26 Суб 14:52:46 1485046 33
image.png 65Кб, 3007x290
3007x290
А где controlnet взять для V-pred моделей?
Аноним 10/01/26 Суб 14:59:32 1485051 34
>>1485031
Субъективный опыт:
На Qwen-Edit-2509 (именно на edit) defaultные euler/simple работают (речь про 2509/2511, где изображение менять не надо, а надо только что-нибудь заменить/подрисовать; для полного изменения стиля лучше обычный Qwen-Image-Edit из семейства Qwen). 2511 поломанная и мутная сама по себе, попробуй сравнить с предыдущей 2509; хотя в ней pixel shift, который исправили в 2511 сломав всё остальное. А несуществующие детали можно дорисовывать через SeedVR2 или tile upscale какой-нибудь старой sdxl модели.
На Qwen-Image (не 2512), когда я с ним возился пару месяцев назад, для хоть какого-то подобия реализма я использовал res_2s/bong_tangent (RES4LYF) и samsung LoRA.
Аноним 10/01/26 Суб 15:11:59 1485057 35
>>1485051
Спасибо за развернутый ответ.

Я использую Qwen-Edit-2511 для смены ракурса камеры, позы и прочего.

Жаль нет ультимативного решения. Все онлайн решения зацензурированы до мозга-костей. Не дают даже безобидные позы делать порой.

Жду z-image edit. Надеюсь на чудо.
Аноним 10/01/26 Суб 15:53:02 1485114 36
>>1484802
Спасибо, принцип я понял.

>>1484817
>я не считаю продуктивным
>Не отвечай этому мудаку
🤡🤹🎪
Аноним 10/01/26 Суб 16:29:39 1485181 37
>>1484817
Ответы сильно переоценены. Общаться в треде следует междометиями, так продуктивнее вести разговор, по крайней мере если находишься в собственном персональном аду, где роль чертей исполняют мудаки, ебланы и шизики.
Аноним 10/01/26 Суб 16:38:19 1485198 38
изображение.png 2173Кб, 1768x1176
1768x1176
>>1484698
Тебе пять рас сказали, пиши промпты на естественном языке
Аноним 10/01/26 Суб 17:30:21 1485258 39
На амд видеокартах будет работать так же как на нвидии?
Аноним 10/01/26 Суб 17:35:58 1485265 40
Лоры от Qwen-Image что, не работают на Qwen-Edit и наоборот?

>>1485258
Если заведёшь - работать будет. Завести сложнее, работать будет медленнее и печачальнее.
Аноним 10/01/26 Суб 17:54:45 1485290 41
>>1485265
А есть вариант б/у видеокарт с большим количеством памяти, серверных каких-нибудь? Они так же как нвидиа подойдут будут работать из коробки, без настраивания?
Аноним 10/01/26 Суб 18:04:13 1485300 42
image 334Кб, 1920x1080
1920x1080
image 325Кб, 1920x1080
1920x1080
Какие модели (желательно без лор, но можно и с ними) подойдут для консистентного и массового I2I с 3D-шного стиля на более "плоско-анимешный" ?
Аноним 10/01/26 Суб 18:19:31 1485317 43
>>1485300
Любые анимешные, на базе нуба и люстры. Просто промпт пиши правильный.
Аноним 10/01/26 Суб 18:44:20 1485363 44
>>1485317
SDXL-основанные вывезут 2-мегапиксельные картинки? Вроде у него 1, макс 1.5 консистентно, а дальше сыпется.
Аноним 10/01/26 Суб 19:45:12 1485470 45
00048.png 2850Кб, 1920x1080
1920x1080
00059.png 2094Кб, 1920x1080
1920x1080
>>1485363
Контролнет.
Вообще, 1600х1200 вывозит и без контролнета, а это как раз 2 мегапикселя.
Если когерентность теряется на обработке большой картинки (1920х1080), можно слегка занизить разрешение с последующим апскейлом вторым шагом, с низким денойзом.
Ну или ебашить прямо так, как есть, в зависимости от модели контронета может и сразу прокатить. Даже эти скверно состыкованные руки сохранить пыталось, кек.
Аноним 10/01/26 Суб 20:35:15 1485526 46
image 160Кб, 1360x768
1360x768
>>1485300
Qwen Edit v1
Turn the 3D rendered scene into a 2D anime illustration: flatten shading, remove micro-details and texture noise, replace soft gradient shadows with 2-3 hard cel-shaded tones, simplify surfaces to clean color blocks, outline outer edges with 3 px solid black line, inner details with 1-2 px colored lines, make eyes larger and sparklier, hair into sharp separated clumps, keep original pose, camera angle, outfit colors and background elements; add slight screen-tone dots on cheeks and subtle white highlight strokes; final look should resemble Kyoto-Animation key-art, 1080p, crisp.
Аноним 10/01/26 Суб 20:36:01 1485528 47
Аноним 10/01/26 Суб 20:38:09 1485529 48
>>1485526
>Turn the 3D rendered scene into a 2D anime illustration: flatten shading, remove micro-details and texture noise, replace soft gradient shadows with 2-3 hard cel-shaded tones, simplify surfaces to clean color blocks, outline outer edges with 3 px solid black line, inner details with 1-2 px colored lines, make eyes larger and sparklier, hair into sharp separated clumps, keep original pose, camera angle, outfit colors and background elements; add slight screen-tone dots on cheeks and subtle white highlight strokes; final look should resemble Kyoto-Animation key-art, 1080p, crisp.

Квен у меня лезет только в 4 кванте или SVD кванте от нунчаков, и как-то не очень было, но попробую ещё раз с таким промтом, спасибо.
Аноним 10/01/26 Суб 20:38:59 1485531 49
>>1485528
Из энитеста я использую CN-anytest_v4-marged_pn_dim256 [2fe07d89]
Хз, в чем там разница между ними, не пробовал все версии.

Есть еще diffusion_pytorch_model_promax [9460e4db] - этот универсальный, поддерживает как пустой инпут (т.е. саму картинку), так и вывод из препроцессоров по типу канни-скриббла-лайнарта. Картинки выше как раз на нем сделаны, с пустым инпутом.
Аноним 10/01/26 Суб 20:58:18 1485568 50
>>1485290
>А есть вариант б/у видеокарт с большим количеством памяти
В смысле дешевых? Ну базовый тир это 3060 12 гб, 4060ти 16 гб, топ тир 3090 24 гига, ну и для шизов не рукожопов Tesla V100 16 гб
Аноним 10/01/26 Суб 23:47:46 1485733 51
По какой причине лора может влиять на всего персонажа если в датасете только pussy ?
Аноним 10/01/26 Суб 23:55:15 1485736 52
ComfyUI-Preview[...].png 1707Кб, 2969x1809
2969x1809
ComfyUI00012.png 2452Кб, 1328x1328
1328x1328
>>1485265
>Лоры от Qwen-Image что, не работают на Qwen-Edit и наоборот?

Работают (в каком-то виде). Честнее сказать, запускаются.
Хотя разработчики заявляют совместимость с LoRAs (сделанных для Qwen) по всей линейке Qwen-Image(-2512)(-Edit-2509/2511), в моём случае мне приходилось изменять strength разных LoRAs от модели к модели (а некоторые и вовсе отключать). При этом некоторые LoRAs портили генерацию и добавляли артефактов (видно на пикриле для Qwen-Image-Edit-2511).
Аноним 11/01/26 Вск 00:37:36 1485762 53
>>1485733
>По какой причине лора может влиять на всего персонажа если в датасете только pussy ?
Кривой датасет, кривой режим обучения, оверфит. Дохрена причин, в общем то. Да и "влияет" - понятие растяжимое.
Аноним # OP 11/01/26 Вск 00:46:32 1485772 54
x-do.mp4 3893Кб, 2846x1822, 00:00:21
2846x1822
>>1484683
>на редите кидали более красивую комфи ноду для задания угла и высоты.
эту?
Аноним 11/01/26 Вск 00:52:41 1485778 55
>TypeError: pick_operations() got an unexpected keyword argument 'scaled_fp8'
BrushNET выдает такое, есть мысли как зафиксить и почему возникло? В issues нет упоминаний, раньше работало.
Аноним 11/01/26 Вск 07:39:17 1485925 56
Как же хочеца базовую зетку....
Аноним 11/01/26 Вск 10:27:56 1486008 57
image 201Кб, 1152x896
1152x896
Свидетели отсутствия цензуры в Зетке, а так же профессора мастер промптинга, как заставить гёрл просто тронуть свои промежности? Она куда попало тыкает пальцем. Иногда в глаз (жаль, что в обычный), но не куда заказал.
A young black woman touches her crotch while sitting naked on a dark road at night.
Аноним 11/01/26 Вск 11:06:38 1486033 58
ComfyUItempqobt[...].png 3126Кб, 410x4794
410x4794
>>1485762
>понятие растяжимое.
В тесте видно ка лицо и кожа меняется с каждым значением лоры.
>оверфит
Это я так понимаю переобучение? Тогда эффект должен уменьшаться на меньшем количестве шагов, я сравнивал 2000-3000 через 250 шагов-результат идентичен.
>кривой режим обучения
Стандартный AI Toolkit by Ostris, до этого обучил на другую часть тела, правда на большем количестве картинок в датасете, результатом в целом удовлетворительный, лица не меняет.
Есть подозрение что лора захватила особенность кожи этого датасета, смотрел гайд в котором рекомендуют установить Timestep Bias > High Noise, но это про мелкие детали, почему меняется анатомия лица все равно не понятно.
Аноним 11/01/26 Вск 12:04:36 1486073 59
image.png 315Кб, 1080x512
1080x512
>>1485772
Пиздец навайбкодили хуйни. Самое смешное, что у каждого вайбкод проекта дизайн иНтЕрЕснЕй типичных старых решений. Причем тот пост был тоже с этой или похожей блонд аниме, не могу найти.
А интерфейс был этот https://github.com/AHEKOT/ComfyUI_VNCCS_Utils
Аноним 11/01/26 Вск 12:04:54 1486074 60
>>1486033
Модель какая? ZIT? Чтобы уверенным быть. А то я сейчас насоветую для нее, а для других моделей все не так.

Картинку ты молодец зацензурил - самого важного нету, чтобы понять что происходит. Как бы пошло это не звучало, но для оценки нужен объект на который ты лору тренишь. Overfit для ZIT очень специфичен. Картинка почти не артифачит и не рассыпается даже при ОЧЕНЬ жестком overfit, лора просто теряет гибкость и начинают протекать лишние детали, которые, по идее, в концепт не входят. Возможно, как раз твой случай. В серьезных случаях, лора начинает даже на общий стиль картинки влиять, не только на левые детали.

>Тогда эффект должен уменьшаться на меньшем количестве шагов, я сравнивал 2000-3000 через 250 шагов-результат идентичен.
Это может быть ОЧЕНЬ глубокий overfit. На моих настройках, первое влияние у меня лора получает уже после одиного прохода по датасету, и к 200-400 шагов начинается набор мелких деталей. Готовая лора на концепт при датасете из ~50 картинок - уже от 800 шагов (хотя и больше может быть, но до 2000 - никогда не доходило без overfit). Проверять для ZIT надо часто. И я делаю шаг проверок по количеству картинок в датасете, х2 или х3 - чтобы проверочные генерировались всегда после полного цикла обучения (уменьшает случайный разброс результата).

>Стандартный AI Toolkit by Ostris, до этого обучил на другую часть тела, правда на большем количестве картинок в датасете,
Сколько было картинок, и сколько шагов и batch size? Какой Learning Rate?
Для концепта с деталью тела (т.е. не одна конкретная pussy, а "в общем" как они выглядят) - нужно картинок 30-40 разных. Иначе будет захват конкретной детали, и аналог лоры на лицо/перса. Ну и сами картинки. Желаемый объект должен занимать ~60-70% изображения. По возможности без повторяющихся левых деталей. Т.е. если у тебя там где-то лица на заднем плане мелькали из-за разных поз - лора ухватила некоторую их (слабую) связку с понятием pussy, и теперь несколько влияет и на лица тоже.

>Есть подозрение что лора захватила особенность кожи этого датасета, смотрел гайд в котором рекомендуют установить Timestep Bias > High Noise
На ZIT хреновато с High Noise получается. Лора скорее всего уйдет в оверфит еще до того, как схватит концепт с приемлемой точностью.

Кроме того, некоторые изменения в картинке (в том числе и лицо) могут быть в порядке вещей. Работая, лора изменяет состояние шума на основе которого делаются следующие шаги при генерации.
Аноним 11/01/26 Вск 12:34:15 1486093 61
zimage00091.webp 90Кб, 1600x1200
1600x1200
zimage00092.webp 87Кб, 1600x1200
1600x1200
>>1486008
>young black woman
предпочитаю Caucasian

Пробуй, промт и все остальное в вебп
Аноним 11/01/26 Вск 13:25:30 1486135 62
изображение.png 2283Кб, 1496x1120
1496x1120
>>1486008
photo of a young Black woman named Lilith seated naked on a dark asphalt road at night, legs spread apart, hand resting on lower abdomen
Аноним 11/01/26 Вск 13:28:38 1486138 63
Аноним 11/01/26 Вск 13:34:14 1486142 64
Screen-355.jpg 205Кб, 2560x1239
2560x1239
Screen-354.jpg 268Кб, 2560x1239
2560x1239
>>1486074
>ZIT?
Да
> самого важного нету
Не оч результат порадовал, там собственно все плохо.
>200-400 шагов начинается набор мелких деталей
Странно, я когда тренил датасет 35 картинок, что то вменяемое начало появляться после 2500, скорее всего что-то с настройками или с промтом семплов.
>Желаемый объект должен занимать ~60-70% изображения.
Ну то есть pussy крупным планом все пикчи или часть из них с позой для понимания сеткой где эту pussy располагать?
>Кроме того, некоторые изменения в картинке (в том числе и лицо) могут быть в порядке вещей.
Спасибо, анон, буду иметь ввиду. Настройки прикрепил, ну там все как ты рекомендовал в прошлом треде, единственное оставил AdamW8bit по умолчанию и в этот раз из-за нехватки времени решил обойтись без семплирования.
Аноним 11/01/26 Вск 14:16:59 1486162 65
image 19Кб, 610x146
610x146
>>1486093
>в вебп
Обсрся. Прикол.
Аноним 11/01/26 Вск 14:20:03 1486164 66
lossgraph3.jpg 122Кб, 1641x757
1641x757
>>1486142
В Advanced, Do Differential Guidance - вырубить. Оно не для ZIT. Сверхагрессивно и слишком грубо получается, процесс шатает, лора не устаканивается.

В Sample - Walk Seed - вырубить. Не даст нормально отслеживать изменения. Но вообще то вкладка Sample на процесс тренировки вообще никак не влияет - чисто контроль.

Вторая картинка, самое важное:
Learning Rate - 0.00003 (можно 0.00002 но кроме лишнего времени разницы не замечал, ZIT хорошо воспринимает более агрессивный LR, а вот 0.00001 - мало. Лора вообще не выходит на что-то внятное.)
Batch Size - 4. На 1 - будет плохо. Если вылеташеь в OOM - ставь transformer оффлоад 100%, на скорость это не так сильно влияет, а в качестве из-за batch size колоссальная разница. Лучше датасет переключить в размер 256, чем BS=1 оставлять.
Steps - 2000, это с запасом, из расчета посмотреть промежуточные и остановить там, где стало хорошо. 3000 ставить смысла нет. Или overfit, или лора уже не сойдется.
Timestep Type - Shift. Тут обоснуй не скажу, но просто результаты на практике у меня лучше всего с ним. Или Weighted можно использовать, тоже неплохо.
Timestep Bias - Low Noise, или Balanсed. Лучше пробовать с Low Noise, т.к. при Balanced лора сходится еще быстрее, и есть риск что начнется overfit раньше, чем проявятся все детали. Не только самые мелкие.
Loss Type - MSE, как у тебя. Или Wavelet - тоже неплохо, но с MSE вроде бы лучше и стабильнее.

Датасет на концепт - 40 картинок это минимум. Но ZIT переварит для концепта до ~170, и это может дать улучшение результата. Еще выше - обобщение будет не на концепт а уже на стиль, такое тебе не нужно.

Основной прикол тренировки ZIT - если выставить слишком слабый LR - лора вообще никогда не "сойдется". А если слишком большой - overfit начнется раньше чем будут выбраны детали. Но ты этого рискуешь не увидеть, т.к. ранний оверфит в ZIT плохо заметен на глаз (нет типичных мелких артефактов), пока случайно вдруг не вылезет Гигер в анатомии, или не начнет протекать цвет деталей/фона из датасета куда не надо. Но тренировка идет волнами - первое удачное место, потом ухудшение и опять хорошее место, и так может быть несколько раз.

В последних версиях Ostris добавили график Loss Rate. Для ZIT он показывает совсем не то, что для сдохли. Чтобы увидеть закономерности ползунок smoothing надо двигать на 100%, иначе "забор" видишь. В картинке ХОРОШИЙ график с одной из моих удачных тренировок. Там был большой датасет на концепт, на 133 картинки, на графике два места где было совсем хорошо, и я брал эти чекпоинты за финальные. Первое - шаг 931, и второе - 1596. Далее пошел однозначный оверфит (даже в конце графика, где опять спад около 2000 - это уже не спасает, лора испорчена), а просто в промежутке было фиговато, но все же без оверфита. При этом loss даже в удачных местах > 0.4, что очень много если по классике. Но ниже - не падает на таких настройках.

>Ну то есть pussy крупным планом все пикчи или часть из них с позой для понимания сеткой где эту pussy располагать?
Если ты следуешь правилу - то при 60-70% вокруг нее будет достаточно, чтобы модель вкурила куда ее лепить. :) Но несколько картинок с меньшим маштабом (не более чем 15-20 от общего числа) не помешают. Главное - чтоб там не было сильно характерных повторяющихся деталей, которые в концепте не нужны. Голова - крайне не нужна, т.к. модель лицам уделяет огромное внимание сама по себе - ее на них надрачивали особенно.

>Настройки прикрепил, ну там все как ты рекомендовал в прошлом треде
Там был не я. :)
Аноним 11/01/26 Вск 14:23:56 1486166 67
Screen-356.jpg 43Кб, 1430x377
1430x377
Аноним 11/01/26 Вск 14:25:23 1486167 68
>>1486074
>>1486142
>>1486164
Упс. Еще пропустил - у тебя Linear Rank 32. Этого может быть мало для концепта. Я обычно 64 ставлю, чтобы не рисковать что не хватит на мелкие детали. Если лора дает слишком грубые результаты, без тонкостей и мелких деталей - это может быть оно.
Аноним 11/01/26 Вск 15:06:54 1486190 69
>>1486142
>>1486164
>>1486167
Еще один УПС.
Я тебе для Learning Rate лишний 0 приписал везде.
Читать - не 0.00003 а 0.0003. :)
Аноним 11/01/26 Вск 16:35:43 1486253 70
>>1486190
Ок, понял. А квантование сильно влияет?
Аноним 11/01/26 Вск 16:41:03 1486255 71
>>1484570
>>1486073
Самое забавное, что за нодой стоит просто генератор текста, что склеивает 3 состояния в один позитивный промпт
Аноним 11/01/26 Вск 16:47:20 1486263 72
>>1486253
Честно говоря - не могу ответить. Здесь есть чел, который советует 4/2 бита на transformer/text encoder. И даже звучит логично, особенно для text encoder.
Но заставить себя потратить время и провести полноценные сравнительные тесты я так и не смог. Потому, что 4/2 на моем конфиге (3060 12GB) не дает заметного преимущества по скорости тренировки.
Даже в таком виде без частичного offload для transformer у меня OOM, а с ним - разницы практически нету. Так что у меня стоит дефолт - 8/8 и мне норм.
Для датасета с размером 256 и BS=4 у меня 4.5 сек на шаг получается. Для размера 512 - ~9-12 сек. Мне хватает.
Аноним 11/01/26 Вск 17:52:33 1486310 73
image 299Кб, 1152x896
1152x896
Аноним 11/01/26 Вск 18:02:41 1486318 74
>>1486263
Чет на новых настройках нереально медленная скорость, за час 5 шагов прошло. С отключенным семплингом. Или это долгий старт? У меня 12 врам и 32 оперативки.
Аноним 11/01/26 Вск 18:06:30 1486319 75
image 256Кб, 1152x896
1152x896
SNES era pixel art, pure 1993-1995 Japanese import game aesthetic fused with early 2000s Russian imageboard vibe, 16-bit flat sprite style, extremely limited color palette 24-32 colors including toxic green text on black, heavy nostalgic dithering, 1-pixel razor-sharp thin outlines, no gradients, zero depth, young short-haired vivid blue anime girl with melancholic eyes, cigarette in lips trailing simple pixel smoke, in cramped retro spaceship cockpit, thick vertical rain streaks on square window like CRT scanlines, faded neon pink kanji "暮人福味" glowing on wet glass, foggy night cyber-city with tiny blocky magenta/cyan signs, two bulky CRT monitors displaying bright toxic-green 2ch.su/ai forum threads: ">Anime Diffusion #236", ">>1480285 → Stable Diffusion тред X+179", "AI Chatbot General №789", ">>1473456 (OP) Генерируем тяночек! looking at viewer", ">>1482405 → ComfyUI Flux LoRA", "Пропущено 1494 постов, 276 с картинками", small thumbnails of pixelated anime girls, post numbers [>>num], sage, bump, russian text in green monospace font, teal-purple nostalgic palette with faint sepia glow, clunky keyboard, orange shoulder patch, black pilot harness, tiny headset antenna, raindrops as 2x2 white pixels, faint scanline and phosphor bleed, mood of late-night 90s-2000s rainy Moscow/Tokyo anonymous browsing, raw nostalgic pixel soul, 256x224 resolution feel, masterpiece flat retro pixel art
Аноним 11/01/26 Вск 18:11:24 1486324 76
image 160Кб, 811x845
811x845
>>1486319
Эээ, лол, ссылки это случайность промпта от грока. Генка в Зетке.
Аноним 11/01/26 Вск 18:15:45 1486334 77
>>1486318
Это фигня какая-то. У меня, как говорил раньше - 4.5 сек на шаг если датасет 256. Вся лора за 2-3 часа готова. Или ~9-12 в случае датасета с 512 - тогда до 6-ти часов тренировка занимает.
3060 12GB. Но у меня еще 64GB RAM и Linux.
Смотри чем машина занята - возможно у тебя оно в свап ушло из-за недостатка RAM (хотя и не должно вроде), или вместо OOM из VRAM-а в RAM свапится через драйвер видеокарты (если винда) - это тоже очень медленно. И вполне может быть - у тебя offload для transformer стоит на 0. У меня это вызывает OOM, и потому выставлено на 60% - тогда все в норме.
Аноним 11/01/26 Вск 19:58:31 1486427 78
>>1486138
И модель тебе кошку на картинку добавит. Ибо из-за цензуры у нее других pussy в сете не осталось.
Аноним 11/01/26 Вск 20:07:34 1486444 79
>>1486427
>pussy
Ага, сгенерируй кошку с одним словом pussy в промпте. Прямо челендж. 1 из 20. У китайцев пуси это девушка в красивом белье?
Аноним 11/01/26 Вск 21:21:54 1486512 80
Что лучше всего инпейнтит пизду и сиськи? Ну, то есть раздевает. Находили что-то лучше brushnet?
Аноним 11/01/26 Вск 21:54:31 1486540 81
ComfyUItemptpcp[...].png 7152Кб, 2304x2480
2304x2480
Аноним 11/01/26 Вск 21:59:33 1486545 82
image.png 1001Кб, 2259x738
2259x738
Теперь я понимаю почему писали про 10 секунд на ZIT. На 5090 наверное вообще 2 секунды генерит. А с учетом, что fast годится только для черновых пикч, то количество шагов можно уменьшить до 4 без особой потери деталей, если генерить без лор. Образно говоря, ZIT генерит за 5 секунд даже на компе бомжа.
Аноним 11/01/26 Вск 22:34:23 1486564 83
>>1486545
Что такое "fast"? Это который отдельный батник для запуска комфу? Чем он плох?
Аноним 11/01/26 Вск 22:35:09 1486565 84
>>1486334
Кажись завелось 10.42 sec/iter. Выставил Layer Offloading 60. Спасибо, ты мне очень помог.
Еще есть вопрос по поводу Loss Graph.
>на графике два места где было совсем хорошо, и я брал эти чекпоинты за финальные.
Как понять где на графике хорошие места?
Аноним 11/01/26 Вск 23:25:19 1486615 85
>>1486565
Классический хороший loss graph представляет собой кривую дугу - сначала быстро идет вниз, потом замедляется, выходит на почти ровное место, а затем начинает расти вверх. Вот в классике - стабильная зона внизу - это лучшее место. Выбирать надо чекпоинты оттуда. Когда график начал опять расти - это уже overfit обычно. И эта лучшая зона обычно <0.1 по шкале.
В ZIT - как ты мог видеть по примеру, оно совсем по другому выглядит. Хотя общая тенденция и сохраняется - сначала более резкое падение (иногда с горкой перед ним), потом постепенное снижение, но при этом даже максимально сглаженный график представляет собой дерганную кардиограмму. :) При этом лучшая ровная зона в конце снижения очень небольшая (да практически отсутствует - сразу вверх), а рост горки с последующим снижением может повторяться несколько раз, циклично, каждый раз опускаясь ниже. И все это не спускаясь ниже 0.4-0.3. Тут по графику оверфит можно определить так: после очередного цикла, следующий рост становится заметно длинней при резком обрыве потом, или кривая не падает сильнее чем в предыдущий цикл. Или мелкие рывки вверх-вниз на кривой становятся заметно сильнее. На том графике что я запостил - всё это начинается между отметками 1518 и 1611 - начало расколбашивать сильнее, и поползло в основном (в среднем) вверх. Читать график ZIT из-за этого сложнее чем у сдохли, скажем, и потому часто советуют вообще только по контрольным картинкам смотреть.
Аноним 11/01/26 Вск 23:37:28 1486624 86
image.png 1504Кб, 832x1216
832x1216
image.png 2878Кб, 1216x1536
1216x1536
>>1486564
Weight в Load model. С ним чуть быстрей, но артефактов заметно больше. У меня не было бат, кроме тех, что сам создал. И нет особых флагов при запуске.
Аноним 12/01/26 Пнд 00:13:35 1486635 87
image 291Кб, 3189x792
3189x792
>>1486615
> Читать график
Loss никогда не был метрикой, он в большинстве случаев опускается только из-за понижения lr. Какой-нибудь спектральный loss пикрил будет, а mse горизонтальный. На квантах ещё loss будет вниз идти из-за адаптации к кванту, как при QAT. Смысла смотреть на это нет, причин почему он идёт вниз может быть куча и ни одна из них не будет из-за тренировки концепта, особенно на mse.
Аноним 12/01/26 Пнд 00:26:54 1486642 88
Кто-нибудь пользуется Forge Neo?
Не наблюдается ли после каких-то относительно недавних изменений снижения производительности? А то обновился и заметил, что что-то не то, а потом посмотрел последние тесты - а там было пиздец быстрее.
Аноним 12/01/26 Пнд 00:32:05 1486647 89
>>1486642
Написал это и результаты стали как в старых тестах. Спасибо, аноны!
Что это за хуйня вообще была, блеать?
Аноним 12/01/26 Пнд 00:37:59 1486649 90
>>1486635
Речь не идет о графике как о единственном показателе. Но он все же помогает определить места, где стоит искать удачные чекпоинты. Особенно, если нет желания контрольные генерации автоматом делать, и просто чекпоинты через промежутки сохраняются. (Сохранить то чекпоинт - быстро, а контрольные гены - время занимают. Скажем у меня - при 5 проверочных картинок это будет ~3-4 минуты на один контроль. За тренировку полчаса-час набежать может.)
И смысл смотреть есть, т.к. достаточно хорошо коррелирует. Другое дело, что нельзя ТОЛЬКО по нему ориентироваться, и это лишь грубый указатель. Но общее состояние процесса и текущую стадию по нему увидеть можно.
Аноним 12/01/26 Пнд 01:17:43 1486668 91
imaga00002.png 2225Кб, 1800x1200
1800x1200
imaga00003.png 2191Кб, 1800x1200
1800x1200
>>1485198
Ну, тебе это не сильно помагает, как я погляжу)
Несмотря на кое-как вкоряченый, и до углей ужаренный контролнет.

>>1486008
Специально для свидетелей сеты LLM-щиков, и "правильного чудо-промтинга", на пикриле судя по всему, совместное поедание охотничьих колбасок в подсобном помещении фудмаркета "пятёрочка". Напоминаю, в промте, каким-бы он ни был, нет даже намёка на слово колбаса, хуй, член и др... но есть: passionate kisses, вот такая вот блядь реакция, и чем больше наваливаешь страстей, тем больше вот такой кринжатины, для чистоты эксперимента пробовал lgbt промт при тех-же условиях, реакция однохуйственная, ничего не меняется. Я не понимаю, кто делал зетку, толпа голодных кастратов в иранских застенках, как можно было высрать такое?
Аноним 12/01/26 Пнд 01:31:04 1486673 92
изображение.png 358Кб, 724x690
724x690
Аноним 12/01/26 Пнд 01:41:18 1486676 93
>>1486673
Все лора фиксеры говно. Единственное что реально может быть анцезором модели это OFT лора, но никто не тренирует, коммунити криворучек.
Аноним 12/01/26 Пнд 02:10:56 1486688 94
Аноним 12/01/26 Пнд 03:12:07 1486713 95
ОЦИФРОВКА МОЗГА[...].mp4 2013Кб, 726x1080, 00:00:26
726x1080
ОЦИФРОВКА МОЗГА[...].mp4 1782Кб, 726x1080, 00:00:26
726x1080
Аноним 12/01/26 Пнд 03:38:34 1486728 96
image 33Кб, 816x309
816x309
>>1486624
Есть такой с завода изготовителя --fast fp16_accumulation
Тоже влияет на качество, но на новых картах хорошо помогает.
Аноним 12/01/26 Пнд 04:13:46 1486736 97
>>1486728
Чем помогает, кому?

В файле README_VERY_IMPORTANT.txt из корня установки ComfyUI есть такие строки:

>if you want to enable the fast fp16 accumulation (faster for fp16 models with slightly less quality):
>run_nvidia_gpu_fast_fp16_accumulation.bat

А теперь скажи, ты работаешь именно с FP16 моделями? И все остальные в треде, которым ты это советуешь тоже? Не с BF16, не с FP8, а именно с FP16?

На реддите я видел единичные посты о fast fp16 accumulation не для FP16 и прочих магических фокусах. По факту ты получаешь только дополнительные артефакты генерации.

Inb4: Ничего не знаю, яскозал от FP16 fast accumulation у меня только лучше стало на моём GGUF в Q2, и вообще, имба и мастхев1111
Аноним 12/01/26 Пнд 04:32:55 1486746 98
image 254Кб, 1024x1024
1024x1024
image 252Кб, 1024x1024
1024x1024
image 10Кб, 1085x64
1085x64
image 11Кб, 1086x69
1086x69
>>1486736
>яскозал
Как же хочется прописать тебе в жбан за такое. Я делаю ПРАКТИЧЕСКИЙ ТЕСТ, а не на "реддите бабка скозала"
Модель Зетки в bf16 БЫСТРЕЕ. Много что быстрее и ван и квен.
Качество ты не отличишь что где. Только по цифрам видно. Второй прогон с тем же промптом, но разным сидом.
Брысь под лавку, теоретик.
Аноним 12/01/26 Пнд 04:43:11 1486748 99
>>1486746
>ПРАКТИЧЕСКИЙ ТЕСТ
На стилизованном говне. Но Ok, допустим.
>Качество ты не отличишь что где
Когда я проверял на своих тестовых promptах, отличу. Здесь я исходный prompt не вижу. Ты его в качестве ПРАКТИЧЕСКОГО ТЕСТА не приложил, чтобы другие могли прогнать то же самое.
Потеря деталей не стоит копеечного псевдо-выигрыша в скорости. Но это моё мнение.

Что касается деталей, они отличаются на заднем плане, шнуровке, меха на хвосте, геометрии. Изображения отличаются. Они разные.
Аноним 12/01/26 Пнд 04:45:52 1486750 100
>>1486746
>>1486748
>На стилизованном говне.
Да, даже на нём видно, что 1-я лучше.
Аноним 12/01/26 Пнд 05:08:40 1486756 101
z-image00004.png 5250Кб, 2048x2048
2048x2048
z-image00005.png 5244Кб, 2048x2048
2048x2048
Вот с моим тестовым prompt:

A close-up shot depicting a Caucasian man and a Caucasian woman looking at each other. There is a spherical object hovering between them in the centre of the image, left half of the object is Earth, right half is an intricate clockwork mechanism. There is a birch tree with lush leaves in the foreground. Sunny day. Cinematic lighting. Hyperfocal, deep depth of field.

z_image_turbo_bf16.safetensors
qwen_3_4b.safetensors

Seed: 42;
Steps: 9;
CFG: 1.0;
sampler_name: res_multistep (default для чистоты эксперимента)
scheduler: simple;
denoise 1.00;
ModelSamplingAuraFlow shift: 3.00.

z-image_00004_.png без fast fp16 accumulation
z-image_00005_.png fast fp16 accumulation

Отличия деталей мне очевидны. Лично я не готов ради сомнительной прибавки в «скорости» портить результат. О чём и написал выше.
Аноним 12/01/26 Пнд 06:36:14 1486774 102
>>1486748
>>1486750
>>1486756
Я написал в первом своем посте "Тоже влияет на качество". То есть я прямым текстом отметил это. Нахуя вы меня переубеждаете, если я согласен, что качество хуже? Пздц. Контекст в мозгу 16 слов у вас?
Аноним 12/01/26 Пнд 06:38:50 1486777 103
>>1486756
>ModelSamplingAuraFlow shift: 3.00.
А вот скажи мне, исследователь, а ты пробовал с этой необъяснимой ебаниной и без неё? Сравнивал? Или низззя?

>>1486774
>переубеждаете
наоборот, а поддвачнул, хули ты в залупу лезешь, нервный бля...
Аноним 12/01/26 Пнд 06:46:27 1486778 104
>>1486736
И вообще ловко ты сместил фокус внимания на разговор о качестве со своих обдристанных штанишек:
>именно с FP16 моделями? И все остальные в треде, которым ты это советуешь тоже? Не с BF16, не с FP8, а именно с FP16?
Скорость есть. Ты не прав. Остальное мне похуй.
Аноним 12/01/26 Пнд 08:10:29 1486792 105
>>1486777
c высоким сдвигом картинка становится проще, но вроде как стабильнее
Аноним 12/01/26 Пнд 09:18:39 1486814 106
С нейронками обосрался. Всё одному пчелу расхваливал как они охуенны и могут всё. А он попросил сделать пикчу в стиле художник-нэйм. Я нано-банано открываю. И хуй там. Сюжеты еще делает, а авторский стиль нет. Сидрим тоже. И прочие. Ни одного художника.
Лорок нет на то, что он просит. Но дело не в лорках, я ему расхваливал как это быстро и просто и онлайн. А получилось, что я долбоеб.

Ладно, возвращаюсь в этот тред спермных порносоздателей. Обосранный.
Аноним 12/01/26 Пнд 09:20:48 1486815 107
SPARK.Chromapre[...].png 3311Кб, 1088x1920
1088x1920
SPARK.Chromapre[...].png 2510Кб, 1120x1440
1120x1440
SPARK.Chromapre[...].png 3251Кб, 1920x1088
1920x1088
SPARK.Chromapre[...].png 2527Кб, 1120x1440
1120x1440
Аноним 12/01/26 Пнд 09:56:07 1486829 108
ComfyUI00299.png 2159Кб, 1024x1568
1024x1568
{67EF17D2-E0F7-[...].png 57Кб, 741x540
741x540
Аноны подскажите как у зимаги побороть шакальность картинки? Какие настройки семплеров посоветуете? На пикрил настройках выдает очень неприятную картинку
Аноним 12/01/26 Пнд 10:49:15 1486852 109
>>1486829
Первый шаг: поставь настройки из дефолтного workflow, который в TEMPLATES для ComfyUI.

Второй шаг: Если качество не устроит, подбери себе другой sampler/scheduler.
Аноним 12/01/26 Пнд 11:07:56 1486860 110
Аноним 12/01/26 Пнд 11:23:43 1486872 111
>>1486777
Есть default workflow из ComfyUI на котором проверяется измение одного параметра (в данном случае это был тот самый FP16 fast accumulation) при всех прочих неизменных, чтобы исключить их влияние на результат. Тебе понятие эксперимента вообще знакомо? Я указал все условия для воспроизводимости результатов и один из тестовых prompt на котором видны крупные и мелкие детали. Любой на указанной версии модели может получить идентичные результаты на указанных параметрах. И увидеть влияние одного этого фактора, сделав вывод, что использование fp16 fast accumulation ведёт к всиранию деталей изображения (в данном случае на bf16 модели; а есть ещё fp16 и fp8, которые тоже можно было протестировать).
Для меня этого достаточно, чтобы его не использовать и не советовать никому, тем более кроме нативных FP16 моделей, о чём красноречиво заявляют сами авторы ComfyUI в «очень-важном README».

Но, видно рандом из треда, который развёл натуральную перемогу черрипиком, когда его ткунли не куда-нибудь, а в README к ComfyUI, а потом откатился до «насрать на качество, мне быстрее» авторитетнее авторов ComfyUI, которые прямо дают рекомендации по использованию своего собственного софта. Конечно, им-то откуда знать какие режимы и для чего использовать? Вот рандомный васёк, он — гуру.
Facepalm.jpg Мне больше добавить нечего. Про всирание результатов я предупредил. Если это вам норм, то включайте своё магическое мышление и колдуйте дальше, подбирая «секретные параметры», там ещё много можно накрутить для всирания результата генерации, который и так не блещет.
Аноним 12/01/26 Пнд 12:09:37 1486895 112
>>1486829
>>1484880
Кфг можно поднять до 1.5 дальше бесполезно, отключи зануление негатива, если есть, с таким кфг у тебя будет, хоть и плохинький но негатив, примерно на 3-4 токена в глубину, но это лучше чем ничего.
Эйлер выкинь на помойку, мультистеп тоже, юзай только то что я тебе показал, но никто не мешает тебе экспериментировать. Удачи.
Аноним 12/01/26 Пнд 12:15:30 1486896 113
>>1486860
Какая вопиющая безграмотность!
Ну конечно же: (lgbt:1.5)
Аноним 12/01/26 Пнд 12:19:28 1486898 114
Поделитесь воркфлоу-раздевалкой для квена или зетки, с меня как обычно нихуя
Аноним 12/01/26 Пнд 13:36:32 1486976 115
>>1486895

Проверил с негативом: результат не изменился ни на пиксель. У него нулевое влияние.
Аноним 12/01/26 Пнд 13:42:55 1486986 116
>>1486829
>>1486852
Третий шаг: поставь ноды на SeedVR2, добавь их в workflow и не мучайся с семплерами. :)

Если нужна "глянцевая картинка из журнала" - самое то, еще и апскейлер в одном флаконе.
Аноним 12/01/26 Пнд 14:04:23 1487014 117
>>1486976
>Проверил
Ты семплер поменял на тот, что я указал тебе?
Аноним 12/01/26 Пнд 14:06:03 1487017 118
>>1486986
>SeedVR2
Это что ещё за залупа такая, где её искать и куда корячить?
Аноним 12/01/26 Пнд 14:08:03 1487019 119
image.png 984Кб, 862x1041
862x1041
image.png 1232Кб, 930x1116
930x1116
image.png 1281Кб, 930x1114
930x1114
>>1486728
Сверху две строки это fp8 tensorcore модель, снизу bf16.
Красные (2-3) строки это с fp8_fast dtype. Третий скрин без флага аккумуляции. Каждый скрин - перезапуск комфи. Я не ебу почему у меня первый ран чуть медленней получился, у него те же параметры что и у второго.
Короче, аккум этот ничего не дал, даже немного замедлил. Самой быстрой остаётся bf16 модель + fp8_fast dtype, проверил ещё несколько раз, стабильно меньше 8 секунд на 1024@8.

https://civitai.com/models/2172944/z-image-tensorcorefp8
Эта хуйня либо сделана косоруким уебком (в принципе, как обычно на баззофармильном лайкоублюдском мерджепарашном свинозагоне), либо комфи до пизды на все эти фп8, всё жрет как 16-бит.
Аноним 12/01/26 Пнд 14:38:36 1487039 120
>>1487019
>комфи до пизды на все эти фп8
Не Комфи, а видеокарте. Я уверен на 95%, что на твоей видеокарте нет аппаратной поддержки фп8, а значит вычисления так как ты хочешь не проходят. Чтобы было аппаратно фп8 надо свежайшую картонку. Смотри сам в спеках. Это всё относительно недавно завозить начали в железо.
Аноним 12/01/26 Пнд 15:04:03 1487068 121
ComfyUI00006.png 1686Кб, 1024x1024
1024x1024
ComfyUI00005.png 1564Кб, 1024x1024
1024x1024
ComfyUI00004.png 1584Кб, 1024x1024
1024x1024
ComfyUI00003.png 1710Кб, 1024x1024
1024x1024
Что-то обновил драйвера, обновил comfy portable и генерация ускорилась. Не намного конечно, но чувствуется.
Аноним 12/01/26 Пнд 16:09:40 1487172 122
image.png 94Кб, 1108x608
1108x608
>>1487039
Жду следующий прохрюк невпопад.
>fp8
>40
>свежайшую
>недавно
Аноним 12/01/26 Пнд 18:03:08 1487325 123
img00001.png 1188Кб, 1024x1024
1024x1024
imgseedvr200001.png 1312Кб, 1024x1024
1024x1024
imgupsc00001.png 5022Кб, 2048x2048
2048x2048
>>1486986
>>1487017
Это вот. Оригинал, прогон через SeedVR2, и апскейл до 2048 через него же. Брать через менеджер нод по "SeedVR". При первом запуске оно само нужные для работы модели скачает.
Аноним 12/01/26 Пнд 22:14:20 1487642 124
>>1487325
Пример WF ф студию плс
Аноним 12/01/26 Пнд 23:21:57 1487806 125
Снимок экрана о[...].png 362Кб, 1068x519
1068x519
>>1487642
Да какой воркфлоу, там буквально 4 ноды.

настройки сам потыкаешь.

мимо другой анон
Аноним 12/01/26 Пнд 23:53:54 1487868 126
>>1487642
Отсюда бери свежий (я пользуюсь именно им):

https://github.com/numz/ComfyUI-SeedVR2_VideoUpscaler?tab=readme-ov-file

Примеры workflow там на картинках (по-моему, даже просто скачиваешь PNG и открываешь в ComfyUI).

Можешь ещё видео посмотреть для SeedVR2.5 там всё разжёвано.
Аноним 13/01/26 Втр 00:11:14 1487891 127
>>1486649
Анон, спасибо что делишься. По каким признакам можно определить оверфит на сгенерированных изображениях?
Аноним 13/01/26 Втр 00:55:35 1487956 128
>>1487891
Ниже написанное - только для ZIT:

1. Если лора на концепт - смешение деталей разных вариантов (протекание деталей). Скажем, если в концепт входят изображения тела в одежде и без нее - признаком оверфита часто становится "прозрачная одежда" когда тело проглядывает там где должно быть закрыто. Лора перестает разделять состояния (одетый/раздетый) и смешивает их.
2. Искажения геометрии/анатомии. Те же пальцы, будь они не ладны, косяки с волосами, глазами, лишние/недостающие руки-ноги, и прочий Гигер.
3. Потеря пластичности у лоры. Персонажа трудно поставить в другую позу или окружение.
4. Дрейф стиля. Лору ZIT буквально можно натренировать на anime картинках, а потом заказывать у нее "realistic photo" - и она сделает. Если не пережарена. В более слабом варианте, когда в концепте поровну рисунков и фото, начало оверфита - смешение стиля в нечто среднее - персонажи становятся как 3D фигурки. В идеале, если в промпте нету явного указания anime или photo - модель должна генерить или то, или то "выбрав" что-то одно, а не выдавая нечто среднее. Но если стиль все еще управляется упоминанием anime/photo без проблем - это еще приемлемо.

Но все это может проявляться и ДО оверфита, в местах, где по loss графику начало очередного цикла, и он опять пошел вверх. Если модель еще не ушла в полноценный оверфит - признаки опять пропадут. А в случае оверфита - нет, и скорее только усилятся.

Ну и еще: лора которая на силе 1.0 постоянно генерит искаженные изображения и имеет рекомендацию генерить на силе 0.5-0.6 - это 100% оверфит (на цветке таких дохрена). Нормально натренированная лора будет хорошо работать на 1.0-0.9

Еще нюанс - лоры ZIT нельзя использовать на ее файнтюнах (дико шакалят картинку). Увы. Только тренировать на них же. Или ждать базу.

У SDXL же, если признаки полезли - уже не пропадут, и еще лезут намного более явно различные артефакты (точки, линии квадраты, пятна), мыло на контурах, плывет гамма, контраст, и вообще полный развал картинки.
Аноним 13/01/26 Втр 01:12:49 1487965 129
>>1487956
> Нормально натренированная лора
Ты не путай SDXL, где были конволюшены, тормозящие тренировку, и DiT, где лоры тренятся как на LLM. При сквозной архитектуре с пачкой одинаковых слоёв у лоры нет и не может быть ограничения по росту весов. И целиться в 1.0 - это даунизм, это тебе не будка. Забудь всё что делал на SDXL и смотри как тренятся лоры на LLM, тогда не будет никаких мутантов. Ну и всякие базовые вещи типа не использовать mse, выставить разные ранги слоям и взять не проваливающийся в ямы оптимизатор - SAM и его производные.
Аноним 13/01/26 Втр 01:42:09 1487976 130
>>1487965
Если ты поделишься, как это все делается в Ostris AI Toolkit на практике - будем со вторым аноном очень благодарны.
А так - мало что понял из твоего поста. Мы тут больше практики-прикладники, чем теоретики. Что сам нащупал на практике и дает положительный результат - тем и делюсь.
Аноним 13/01/26 Втр 01:49:07 1487979 131
ComfyUItempvftm[...].png 4871Кб, 2000x1200
2000x1200
>>1487325
У меня вопрос, что нужно сделать что-бы у тебя изначально такое говно порепаное было (рис 1)? В 2 шага генерить, чтобы што? Что-бы потом убить на второй проход и апскейл в трое больше времени? Ты когда первую высерал, сильно куда-то торопился, или там у тебя вдв+сво? Я тебе сразу скажу зетке нахуй не нужон никакой апскейл, она генерит коврины 2048Х2048 без всякого апскейла и лишней лапши, всё это хуйня, главное юзать нормальный семплер а не ваши мухами засиженые эйлеры. Вы юзаете семплер, которому 100 лет в обед, а потом удивляетесь, что у вас там чёто не то, у нас там типа шакал, где же мы просчитались, бля? Вы ебанутые? Вы ебанутые... Карас ещё попробуйте, блядь, (как Хач завещал), ещё не пробовали, не...?
Аноним 13/01/26 Втр 01:57:26 1487990 132
>>1487956
> Нормально натренированная лора будет хорошо работать на 1.0-0.9
А ты много таких видал? Я за всё время на sdxl пару только, и это было пиздец-как необычно. Для зетки по большому счёту нужны лишь лоры слайдеры, всё... и фейс-лоры персов, если приспичило. Всё остальное делается через контролнет.
Аноним 13/01/26 Втр 02:00:57 1487993 133
>>1487976
>Мы тут больше практики-прикладники, чем теоретики.
Серьёзно? А кто тогда все эти шизо-ковры на пол-треда высерает, Ai-бот?
Аноним 13/01/26 Втр 02:03:13 1487994 134
>>1487990
>Всё остальное делается через контролнет
Уже появился на стиль?
Аноним 13/01/26 Втр 02:04:50 1487998 135
>>1487994
Ип-адаптер ты имеешь в виду? Не знаю. Но в чём проблема?
Аноним 13/01/26 Втр 02:24:31 1488013 136
image 847Кб, 2098x1779
2098x1779
>>1487993
Вот как начнёшь впадать в шизу как я с пикрилом для loss, потому что на зетке простое сравнение спектров не работает так хорошо как на XL, тогда и будешь про теорию говорить. Я тут пол сотни прогонов тренировки сделал чтоб разобраться как со спектром правильно работать, каждую ночь ставил пачку лор с разными формулами трениться для тестов.
Аноним 13/01/26 Втр 02:34:02 1488015 137
>>1488013
>с разными формулами
тебя в застенках с чебурнетом держат? нахуя велосипед изобретать, тысячи китаёз в шёлковых штанишках уже натёрли эбанитовый стержень на котором всех проворачивают, но только ты до сих пор не в курсе) конечно же приятно думать, что ты типа пионэр-первопроходец, но это не так, маня... просто расслабся, и подожди, пока на реддите что-нибудь появится, не жги почём зря электричество.
Аноним 13/01/26 Втр 02:34:52 1488016 138
>>1487998
Проблема в том, что ты спизданул, что нужны только слайдеры и лица. А контролнет пока есть только на позы/композицию. Тогда как применений лора еще целая куча.
Аноним 13/01/26 Втр 02:39:06 1488018 139
>>1487979
Эк тебя расколбасило. Таблеточки прими, выспись наконец, а то еще удар хватит. :)

Может тогда сообразишь, что для демонстрации возможностей SeedVR2 и нужна была картинка, где огрехи хорошо видно. Такую и делал в базовом разрешении.
А будут применять его или "правильные семплеры" - мне пофиг. Каждый дрочит как он хочет. Только вот SeedVR2 и 4K сделает без проблем, и 8K осилит...

>>1487990
Достаточно. Но тех, что "и так сойдет" - на цветке больше, да.

>>1487993
Ну, таки мы вас тоже внимательно слушаем. Только уж снизойдите до прикладного уровня, будьте любезны. Разобраться в интерфейсе программы - методом тыка и накоплением практического опыта, это одно. А вот глубокую теорию освоить со всеми этими математическими объяснениями в научных статьях, увы - не всем по силам.
Аноним 13/01/26 Втр 03:28:08 1488038 140
>>1488016
>А контролнет пока есть только на позы
И ты знаешь на какие именно, и в чём они сделаны) Я видел эти лоры, это лютейшая кринжатина, но быдлу главное хуи в жопах, так что попрёт...
Аноним 13/01/26 Втр 03:30:26 1488041 141
>>1488018
>для демонстрации возможностей SeedVR2 и нужна была картинка, где огрехи хорошо видно.
А зачем её улучшать, если при нормальных настройках там всё прекрасно? Нахуя понижать качество? Чтобы потом улучшать то, что в улучшении не нуждается?

Х - Логика.
Аноним 13/01/26 Втр 03:56:18 1488047 142
изображение.png 1902Кб, 768x1120
768x1120
изображение.png 1811Кб, 768x1120
768x1120
Аноним 13/01/26 Втр 04:09:42 1488052 143
>>1488047
>решает проблему со слоями
в чём выражается эта проблема, эти пикрилы каким-то образом должны демонстрировать решение? И какой из них "пофикшеный"?
Аноним 13/01/26 Втр 04:26:08 1488058 144
>>1488052
>проблему со слоями
С Сlip точнее.

>какой из них "пофикшеный"?
Не видно да?
Аноним 13/01/26 Втр 04:26:49 1488059 145
>>1488052
Я изучил материал по его ссылке и ничего не понял.

Более блёклый пикрил 2: как бы «пофикшенный».

Судя по описанию:

Изменяет (модифицирует) значения эмбеддингов из text encoder (не влияет на саму модель):

Per-token normalization: Performs mean subtraction and unit variance normalization to stabilize the embeddings.

MLP Refiner: A 2-layer MLP (Linear -> GELU -> Linear) that acts as a non-linear refiner. The second layer is initialized as an identity matrix, meaning at default settings, it modifies the signal very little until you push the strength.

Optional Self-Attention: Applies an 8-head self-attention mechanism (with a fixed 0.3 weight) to allow distant parts of the prompt to influence each other, improving scene cohesion.

Дальше в комментах начинается привычное «колдовство» без какой-либо методики с добавлением разнородных sampler/scheduler, sigma-split и прочей хероты по «секретному рецепту»: «тараканьи лапки, сиськи старой бабки», кто во что горазд. Когда я увидел пик, где автор предлагает использовать res_2s/bong_tangent, которые с Z-Image-Turbo у меня вообще не работали (я их совал по привычке с Qwen-Image, когда по-первости Z-Image-Turbo пробовал; пока не понял, что именно они засирают генерацию) я дальше читать перестал.
Аноним 13/01/26 Втр 05:17:12 1488064 146
>>1488059
а по мне так 1-й, потому что есть понимание главного героя на фоне обложки, а во второй какая каша, где непонятно на каком именное слое фигура главного героя. прежде чем слепо брать на веру все эти вскукареки, проверяйте что-ли, и сами решайте. на реалистике эта хуета абсолютно бесполезна, с объёмом зетка работает оч хорошо, небыло там никаких проблем. Это очень хорошо сочетает с вот с этим высером: >>1488018 - выдумать (или даже создать) из нихуя проблему, а потом героически её типа решать.
Аноним 13/01/26 Втр 05:27:08 1488068 147
>>1488064
>а по мне так 1-й

Я не угадывал, я прочитал по ссылке, что блёклый пик 2 это результат работы этой приблуды для модификации эмбеддингов. Там в ветке обсуждения это приводится автором как первый пример демонстрации работы.
Covered nipples Аноним 13/01/26 Втр 08:43:19 1488111 148
изображение.png 2426Кб, 1200x1400
1200x1400
Беда пришла, окуда не ждали. Я прям в прошлое вернулся)
Как промтить в Zетке скрытые (под чем-то) соски? Без лор и смс.
Аноним 13/01/26 Втр 08:48:35 1488112 149
>>1488111
Без лор на зетке ты пососешь, у нее малый нсфв датасет. Ждать тюны
camel toe Аноним 13/01/26 Втр 12:10:59 1488209 150
ComfyUItempsigt[...].png 2294Кб, 904x1600
904x1600
ComfyUItempsigt[...].png 3464Кб, 1080x1920
1080x1920
ComfyUItempsigt[...].png 3538Кб, 1080x1920
1080x1920
Аноним 13/01/26 Втр 12:22:10 1488216 151
>>1488041
Сделай мне картинку в разрешении 8K. Сравним. Ну, или хотя бы 4K. И это не "придуманная проблема". Обои на рабочий стол хочу, и картинку на стену (реальную стену, реальную картинку - для печати такого размера надо ~8K).
Аноним 13/01/26 Втр 12:29:23 1488222 152
>>1488112
>Ждать тюны
Пробовать тюны. Пофиксил.
Уже есть, потому что.
Аноним 13/01/26 Втр 12:34:38 1488225 153
Аноним 13/01/26 Втр 13:31:11 1488258 154
>>1488222
Это не тюны а васяны лору с моделькой мерджат
Аноним 13/01/26 Втр 15:32:18 1488374 155
Есть моя обученная лора для ZIT, нормально генерит, но когда добавляю лору на нюдесы всё идёт по пизде, что я делаю не так?
Аноним 13/01/26 Втр 15:58:09 1488400 156
Сука сраный комфи опять сломался после обновления.
Какая же мразота.
Аноним 13/01/26 Втр 15:59:29 1488402 157
>>1488400
А зачем его обновлять, если всё нормально работает?
Аноним 13/01/26 Втр 16:01:38 1488404 158
>>1488374
Лоры ZIT микшируются специфично. Общее правило - суммарная сила лор должна быть не более 1.0-1.1 Т.е. если их две - то 0.5+0.5. Но тоже без гарантии, хотя в основном работает.

Для лучшего результата есть специальная нода (точнее - несколько вариаций) для микширования лор ZIT. Там можно до 5 лор загрузить и выставить как индивидуальный вес (чтобы пропорции влияния получить), так и коррекцию общего суммарного. С ними проще.
https://github.com/DanrisiUA/ComfyUI-ZImage-LoRA-Merger
Можно через менеджер поставить, они в списке есть.
Аноним 13/01/26 Втр 16:01:51 1488406 159
>>1488402
> А зачем его обновлять
Оно само скачало обновление, и выбрало "закрыть и обновить" или "обновить после закрытия"
Сука сраная.
Давно пора было на портабл перейти.
Аноним 13/01/26 Втр 16:22:45 1488414 160
Аноним 13/01/26 Втр 16:34:29 1488415 161
Блин, даже под портабл пришлось обновить драйвера на видюху. Сколько этого избегал, но теперь уже всё, деваться некуда.
Попался, надо было раньше порту ставить.
Аноним 13/01/26 Втр 17:02:29 1488447 162
>>1488415
>драйвера на видюху
Видюхозависимый, спок.
Аноним 13/01/26 Втр 18:08:30 1488496 163
пук1.png 1762Кб, 1505x826
1505x826
пук2.jpg 195Кб, 1360x1920
1360x1920
пук3.jpg 180Кб, 1360x1920
1360x1920
Вечер добрый, дорогие! Помогите советом горе инди разработчику, осваивающему моделирование в Блендере. Что можно использовать для генерации референсов с разных ракурсов? Интересуют как персонажи, так и окружение (преимущество окружение - самые разные объекты: деревья, изгороди, домики, камни) в стилизованном мультипликационном/анимешном стиле

У меня есть несколько готовых моделей и локаций в стиле, который мне нужен, но нет художника. Готов вложиться временем, обучиться, натренировать свою Лору, если есть такая возможность, или еще лучше если можно на вход подать изображение с желаемым стилем и промпт того, что хочется на выходе. Например: на вход подается пук 1 и промпт, описывающий предмет, который по стилю должен соответствовать пику. На выходе получаем результат с нескольких ракурсов. Можно ли сегодня на локалках организовать такой воркфлоу на современных моделях? У меня 24гб видеопамяти, 128 оперативной. В последний раз генерировал на заре SDXL и PonyXL, все пропустил. Искренне спасибо тем, кто ответит и даст хотя бы наводку. А развернутым ответам буду вдвойне, нет, втройне рад.
Аноним 13/01/26 Втр 18:30:52 1488517 164
Просмотрел предыдущие треды, которые не читал.
Увидел хороший отзыв на стилизацию квеном в реализм, обалдел, и правда хорошо работает.
Результы лучше и стабильнее, чем пытаться скармливать зетке. Зетка совсем лицо перевирает. Хотя случайно может получиться и заметно лучше, но слишком нестабильно.
Аноним 13/01/26 Втр 19:19:27 1488560 165
image.png 1149Кб, 910x894
910x894
Аноним 13/01/26 Втр 20:00:50 1488600 166
>>1488496
квен, лоры на персонажа с разных углов, есть несколько на цивите
Аноним 13/01/26 Втр 20:05:19 1488605 167
>>1488560
Как я понял вся проблема в том, чтобы подобрать подходящую модель. Какие лучше для этого подходят? Картинка похоже устаревшая, там ведь до сих пор SDXL/PonyXL, а тут вон сколько всего вышло!
>>1488600
Запустится ли Квен на 24гб видеопамяти? В шапке вроде нет... нужно какую-то ноду для ComfyUI установить, чтобы запускать gguf кванты? Можно ли свои Лоры тренировать на таком железе?
Аноним 13/01/26 Втр 20:17:34 1488619 168
Имеет ли смысл удалять фон перед тренировкой лоры из фоток для датасета? И вообще как то их улучшать. Есть штук 50 фото Еотовны, по большей части вырезанных из видео, оочень плохого качества, стоит вообще заморачиваться? Как вы готовите свои датасетики?
Аноним 13/01/26 Втр 20:18:57 1488625 169
1768324736089.png 247Кб, 687x654
687x654
1768324736100.png 1160Кб, 840x1240
840x1240
1768324736105.png 1320Кб, 840x1240
840x1240
>>1488605
> Запустится ли Квен на 24гб видеопамяти?
Скачиваешь прямо в комфи прямо сейчас этот ворклоу и смотришь, устраивает ли тебя то, что видишь.
Работает и меньше, чем на 16 гигабайт.
Чем меньше задумываешься, как всё должно работать на самом деле - тем лучше.
Аноним 13/01/26 Втр 21:00:25 1488693 170
>>1488625
залей куда нить, ёпт, двач мету трёт
Аноним 13/01/26 Втр 21:01:50 1488696 171
>>1488625
а, это вообще встроенный
(другой анон)
с установки туда не заглядывал
Аноним 13/01/26 Втр 21:14:26 1488703 172
>>1488619
Для сдохли - принцип GIGA (Garbage In - Garbage Out). Мелкий мусор в датасете = хрень на выходе.

ZIT - очень всеядна, можно кормить даже квадратами по 256 пикселей, лишь бы откровенного мыла на них не было.
Фон убирать не надо, но намного лучше, если он будет разнообразный на картинках.
Хочешь лору на конкретного персонажа - тебе и 6-10 фоток достаточно, только хороших и разных - позы, одежда, обстановка. Более 20-ти вообще часто вредит узнаваемости (а более 40 - это уже для концепта). Если одежда как в аниме - часть персонажа, можешь без ее разнообразия выбирать.
В устрице фотки вообще готовить практически не надо - она сама обрежет/ресайзит под размер. Но если хочешь особо качественно собрать датасет - лучше обрезать самому, чтобы лишнего не было. Золотое правило - основной объект на который тренишь - должен занимать 60-70% картинки. В датасет перса можно добавить (не более 15% от общего числа) крупных планов характерных деталей - лицо, рука с характерным кольцом, сиська с тату, etc.

Само сложное - не фотки, а caption к ним. Т.к. методов и советов много, и все разные. Часто взаимоисключащие. И при этом, сцуко, работают почти все. :)
Для ZIT можно и вообще наплевать, и ограничится одним ключевым уникальным "словом" вроде "myeotovna". В основном - работает хорошо. Но с нюансами...
Аноним 13/01/26 Втр 21:15:40 1488706 173
ComfyUItempxfpl[...].png 3488Кб, 1440x1440
1440x1440
ComfyUItempxfpl[...].png 3477Кб, 1440x1440
1440x1440
Аноним 13/01/26 Втр 21:29:20 1488728 174
>>1488703
> 60-70% картинки
Если треню на лицо, то эти проценты лицо должно занимать или весь персонаж с одеждой?
Аноним 13/01/26 Втр 21:32:46 1488730 175
>>1488625
Как же Комфи поменялся в лучшую сторону за все время, что я его не использовал. Тут столько всего появилось, я и не знал, что есть готовые воркфлоу. Спасибо!

Какой консенсус у треда насчет Qwen Image оригинального и 2512? Qwen Image Edit 2509 и 2511? Сильно они отличаются? Быть может есть те что точно лучше других или каждой версии своя задача?

Сгенерировал сейчас по образцу при помощи 2512, 2 минуты 30 секунд на 4090 и ddr4, 20гб видеопамяти и чуть больше 40гб рама сожрало. Может стоит потом gguf проверить все-таки

И нормально ли это, что у Квенов нет настроек семплеров? Может надо отдельными нодами прикручивать?

Столько вопросов... Сори если все на поверхности, я тут сижу немного офигеваю
Аноним 13/01/26 Втр 21:39:24 1488736 176
>>1488728
Что тренишь - то и должно. Если только лицо - то лицо. Если нужна одежда - то вместе с одеждой. Если в полный рост - то в полный рост. И т.д.
И наоборот - крайне не желательно, чтобы на картинках были ненужные повторяющиеся детали.
Пустой фон к ним тоже относится, т.к. для лоры он нифига не "ничего нету", а пиксели определенного цвета.
Аноним 13/01/26 Втр 21:44:09 1488738 177
>>1488605
>Как я понял вся проблема в том, чтобы подобрать подходящую модель. Какие лучше для этого подходят? Картинка похоже устаревшая, там ведь до сих пор SDXL/PonyXL, а тут вон сколько всего вышло!
Картинку сделал сидримс 4,5.
Аноним 14/01/26 Срд 00:01:20 1488870 178
>>1488736
Ок. Спасибо. Еще заметил что видеокарта работает не на полную мощность во время тренировки, Ну тоесть она загружена на 100% а Power Draw 179.6W / 350.0W и температура памяти низкая, так и должно быть? Если нет с чем может быть связано?
Аноним 14/01/26 Срд 00:05:57 1488873 179
input.jpg 146Кб, 832x1216
832x1216
output1.jpg 109Кб, 880x1280
880x1280
output2.jpg 80Кб, 880x1280
880x1280
output3.jpg 96Кб, 880x1280
880x1280
>>1488496
>>1488730
Думаю местные и так в курсе, но да, все возможно. Qwen Edit в целом хорошо повторяет стили, не без огрехов, но для референсов более чем достаточно. Протестировал на самых разных стилях: lowpoly, ps1-like, брал всякие скриншоты из игр, стили карандашом и т.д. и т.п. Добавляет иногда отсебятину в образы, т.е. если часть персонажа скрыта, он может дорисовать чушь. Например кемономими может внезапно стать обладетелем нескольких хвостов, в целом логично, но по определенным признакам можно сказать что так быть не должно, человек бы понял. Короче Garbage In - Garbage Out. Для рефов нужно просто генерить в тпозе сразу. Вопрос на чем генерить сегодня? И какие кванты запихивать в мою 4090 + 128 оперативы. Почитал предыдущие треды, похоже fp8?
Аноним 14/01/26 Срд 01:17:28 1488913 180
>>1488870
А вот это уже немного не ко мне. У меня 3060, при работе с нейронками я ей зажимаю power limit до 110W (из 180) чтобы не грелась выше ~70 градусов. Текстовые LLM - часто и того не добирают, ген на SDXL тоже. Но ZIT, Wan, тренировки лор - упираются в 110 намертво. Кажется, что это чуть не половину скорости должно срезать, но нет. Сравнивал на генерациях в Comfy - потери скорости 10-15% на тяжелых моделях, не больше. Т.к. не хочу гонять карту близко к лимитам на постоянных нагрузках - пусть будет так, за процентами скорости не гонюсь.
Аноним 14/01/26 Срд 01:21:22 1488915 181
ComfyUI00014.png 6523Кб, 2656x2656
2656x2656
ComfyUI00012.png 2452Кб, 1328x1328
1328x1328
Flux200027.png 2956Кб, 1440x1440
1440x1440
>>1488730

>Какой консенсус

Консенсуса нет, могу поделиться только своим личным опытом использования линейки Qwen-Image (и так далее).
Прямо по хронологии с октября 2025.

Qwen-Image: Начинал знакомство с txt2img из всего семейства Qwen-Image с неё. В условный «реализм» (типа Z-Image-Turbo, которая появилась позже; чтобы было понятно о каком «реализме» идёт речь; тоже не особо, но лучше многих других) «из коробки» неспособна. Qwen-Image выдаёт что-то среднее вроде «цифровой иллюстрации», имеет ряд артефактов (вроде dithering и grid), при этом убивая детали кожи и добавляя отвратительной «пластиковости». Ситуация чуть-чуть исправляется LoRAs на «фотореализм» (типа samsung) и фиксами для кожи (типа skinfix). В целом было для меня большое разочарование. С другой стороны, для генерации «цифровых артов», «скетчей» больше подходит. Я уже когда-то от досады писал, что вся глубинная суть Qwen-Image и её Edit-версий это рисовать ценники в карточках товаров на Aliexpress и одевать несуществующие модели несуществующих людей в разную одежду в карточках этих же товаров, чтобы она лучше продавалась.
Почему не стал даже пробовать Qwen-Image-2512 потом напишу.

Qwen-Image-Edit: Относительно неплохо изменяет стилистику изображения целиком (под «мультфильм», «пластилин», «аниме», «акварель» и так далее). Со скрипом делает inpaint и outpaint.

А теперь параллельно расскажу о том, что вызывало наибольшее разочарование, описывая следующие модели линейки:

Qwen-Image-Edit-2509: Для меня был прорыв в виде замены деталей изображения, лиц и одежды персонажей буквально одним promptом: «A character from image 1 with the face from image 2 wears clothes from image 3». Изменения ракурсов. Всё, конечно, не прямо хорошо, но для локальной модели очень здорово, на мой взгляд (вот из сохранённых пикрил 1 пример работы Qwen-Image-Edit-2509). Я только-только обрадовался и стал пытаться использовать Qwen-Image-Edit-2509 для старых задач по изменению стиля изображения целиком, как было в Qwen-Image-Edit. И выяснил, что это нормально больше не работает. Qwen-Image-Edit-2509 обучили под другое: манипуляцию деталями изображения, этакий «Photoshop», пожертвовав ради этого тем, что умела обычная Qwen-Image-Edit.

Из-за этого получается, что нужно держать уже три модели. Одну Qwen-Image для генерации изображений text2img, в том числе, с помощью ControlNet (OpenPose, Depth maps, Canny), вторую, Qwen-Image-Edit под старые задачи изменения стиля, inpaint/outpaint и вторую, третью, Qwen-Image-Edit-2509 для манипуляций деталями изображения по reference image и генерации изображений с других углов обзора.

Потом вышла Qwen-Image-Edit-2511. Уже наученный неприятным опытом, перед скачиванием Qwen-Image-Edit-2511 удалять 2509 я не стал. Как чувствовал, что 2511 это не замена 2509. Так по сути и оказалось.
В Qwen-Image-Edit-2511 починили pixel shift (когда генерируемое на основе reference image изображение смещалось на несколько пикселей, не совпадая с оригиналом), но из-за этого поломали то, что хорошо работало в 2509, а именно стыковку c LoRAs для Qwen-Image, а также добавили артефактов при генерации «задних планов», когда Qwen-Image-Edit-2511 используется частично как Qwen-Image. Всё вплоть до FP16 оказалось нерабочим, а GGUF ещё и поломаны. Я потерял много времени, пока выяснил, что из-за GGUF на заднем плане вместо людей вообще кроненбергов рисовало, кроме того, оказалась сломанной lightning LoRA на 4 шага. (Для прошлых моделей я использовал lightning LoRA на 8 шагов). Для хоть какого-то результата при генерации на Qwen-Image-Edit-2511, мне пришлось пересесть на FP16 и поставить большое количество шагов для генерации, не используя lightning LoRAs вообще. При этом совместимость с «реалистичными» LoRAs тоже пострадала. На пикрил 2 (с DJ Maduro in da house) пример работы Qwen-Image-Edit-2511. Можно обратить внимание на артефакты у людей на фоне. По итогу я сильно разочаровался.
Что, теперь уже четыре модели нужно держать: Qwen-Image, Qwen-Image-Edit, Qwen-Image-Edit-2509, Qwen-Image-Edit-2511?

И тут выходит Qwen-Image-2512: Я прочитал пресс-релиз. Посмотрел черрипикнутые примеры, посмотрел примеры с reddit, просто махнул рукой и не стал её даже трогать.
Это называется «Акелла промахнулся» и это полный позор. Я не испытываю той одержимости Z-Image-Turbo, которая тут царит и отношусь к ней довольно скептически (тем не менее, отмечаю некоторые её достоинства в виде скорости генерации и относительно неплохой «реалистичности», стилизации под «цифровое фото» прямо «из коробки», явно лучше, чем у Qwen-Image, обмазанных LoRAs и специальными sampler/scheduler).
Но суть в том, что разработчики Qwen-Image-2512 сами себя не уважают. Они увидели, что Z-Image-Turbo стала популярна у пользователей со скромным железом и решили «хайпануть», нацелившись на неё (и обосравшись). По их словам Qwen-Image-2512 должен был перебить Z-Image-Turbo на поле «фотореализма». И ради этого они признались, что опять пожертвовали частью стилей и навыков Qwen-Image, чтобы накрутить Qwen-Image-2512 в сторону «фоторелизма». Что получилось в итоге? Сделать «фотореализм» «из коробки», который бы потеснил Z-Image-Turbo они не смогли, совместимость со старыми LoRAs для Qwen-Image опять поломали и по факту выпустили очередную искалеченную модель под одну задачу. Хоть честно об этом сказали в этот раз. Что, уже теперь нужно 5 моделей держать?

В итоге я настолько устал от этого Qwen-Image-зоопарка, что даже не стал пробовать Qwen-Image-2512 и вообще забил на линейку Qwen-Image, потому что для целей edit-манипуляций FLUX.2 dev перекрывает Qwen-Image-Edit-2509/2511 (пример на пикрил 3). А для того, чтобы быстро состряпать «фото» text2img и Z-Image-Turbo сгодится.
Аноним 14/01/26 Срд 01:31:05 1488920 182
>>1488915
Всеобъемлющий ответ. Большое спасибо, что запарился и поделился опытом. У меня тоже пока неоднозначные впечатления от Qwen Image, а вот Edit порадовал, но я, справедливости ради, Flux Kontext не тестировал пока
Аноним 14/01/26 Срд 01:37:57 1488924 183
>>1488730
Теперь ещё пару слов по твоим вопросам.
У меня 4080s и 128 Гбайт RAM.

GGUF тебе не нужны. Тебе не нужно ужиматься. Смотри, чтобы оффлоад шёл именно в RAM, а не на SSD и забудь про GGUF.
Можешь смело работать с FP8/BF16/FP16.

>И нормально ли это, что у Квенов нет настроек семплеров? Может надо отдельными нодами прикручивать?

Смотря о каких настройках ты конкретно говоришь.
Но в целом ты прав, все экзотические custom samplers типа RES4LYF или аналогов дополнительно имеют свои собственные узлы, куда вынесены их настройки. А в K-Sampler выбирается только sampler/scheduler с какими-то предустановленными настройками по умолчанию, которые для них есть.
Аноним 14/01/26 Срд 01:58:11 1488931 184
>>1488915
>Но суть в том, что разработчики Qwen-Image-2512 сами себя не уважают. Они увидели, что Z-Image-Turbo стала популярна у пользователей со скромным железом и решили «хайпануть», нацелившись на неё (и обосравшись). По их словам Qwen-Image-2512 должен был перебить Z-Image-Turbo на поле «фотореализма». И ради этого они признались, что опять пожертвовали частью стилей и навыков Qwen-Image, чтобы накрутить Qwen-Image-2512 в сторону «фотореализма». Что получилось в итоге? Сделать «фотореализм» «из коробки», который бы потеснил Z-Image-Turbo они не смогли, совместимость со старыми LoRAs для Qwen-Image опять поломали и по факту выпустили очередную искалеченную модель под одну задачу. Хоть честно об этом сказали в этот раз.

Вот этот абзац, пожалуй, перепишу, потому что это получается субъективизм, разбавленный долей фантазии.

Первое, признаюсь честно, что мне не встречалось то, что сами разработчики говорили, что «соревнуются» с Z-Image-Turbo и претендуют на её перекрытие.
Официально прозвучало, что Qwen-Image-2512 не замена Qwen-Image и ориентирована на «фотореализм».
Вот ссылка на страницу релиза: https://qwen.ai/blog?id=qwen-image-2512
Кстати, можете заметить новый термин «Huamn realism» (там на демо-пиках будет написано «human», но они это слово на своей собственной странице с момента релиза в Новый Год до сих пор не поправили (я ещё тогда заметил), видно всем настолько фиолетово. Уже этот момент наталкивает на определённые мысли.

От остального написанного в абзаце не отказываюсь, но уточняю, что это моё субъективное восприятие ситуации по результатам просмотра черрипикнутых генераций, чужих тестов и детальных обзоров Qwen-Image-2512.
Аноним 14/01/26 Срд 02:33:10 1488943 185
pixelwave vs уг[...].mp4 9348Кб, 2048x1024, 00:01:36
2048x1024
хуйни дал
лучше, так еще и в несколько раз быстрей
Аноним 14/01/26 Срд 03:57:34 1488987 186
image.png 479Кб, 756x622
756x622
image.png 482Кб, 751x589
751x589
image.png 1438Кб, 1024x1024
1024x1024
image.png 4927Кб, 2048x1024
2048x1024
Нунчака - потужный генератор ящериц. Хотя может что-то и можно накрутить. Последний пик обычная зимага и euler simple на нунчаке.
Аноним 14/01/26 Срд 04:13:11 1488993 187
>>1488987
>euler
прекратите жрать говно уже, ёб вашу мать!
Аноним 14/01/26 Срд 04:20:08 1488994 188
аноны чем сейчас нсфв картинки генерировать если квены и вот эта вот дрисня не тянет?
Аноним 14/01/26 Срд 05:33:40 1489011 189
>>1488994
sdxl порно тюны, дохуя их, качай все и пробуй.
Аноним 14/01/26 Срд 07:25:42 1489027 190
>>1488703
>тебе и 6-10 фоток достаточно, только хороших и разных - позы, одежда, обстановка
А если у меня картинки - скрины с одного видео. Где одежда и обстановка одинаковая, это ведь не ок да? По задумке хотелось бы чтобы несколько таких лор сделать с разных видео. А уже в генерациях менять одежду фон и т.д
Аноним 14/01/26 Срд 07:36:24 1489033 191
>>1488943
Справа нано банана?
Аноним 14/01/26 Срд 09:58:02 1489105 192
>>1488619
некоторые трейнеры сами умеют маску делать для фона и он тренируется с меньшим приоритетом. фон убирать не стоит но он должен занимать мало площади по отношению к ЕОТ поэтому фото лучше кадрировать и убрать лишнее. улучшать мне лучше всего удавалось через grok (i2v), скармливаю фото плохого качества, выбираю промт чтобы камера например приближалась а сцена оставалась неподвижна, лучше любого апскейлера. можно ещё и свет поправить таким образом. у меня тоже датасет не очень годный, за всё время с sdxl ни разу нормального результата не смог получить, зато flux, wan, zit вполне годно вышли.
Аноним 14/01/26 Срд 10:00:38 1489106 193
>>1488870
>видеокарта работает не на полную мощность во время тренировки
для тренировки в основном объем памяти используется, вычисления не сильно грузят GPU только во время сэмплирования
Аноним 14/01/26 Срд 10:04:59 1489108 194
>>1488993
а лучше ничего и нет

ну разве что er_sde, но он не сходится

что юзаеш сам, анонче, и почему оно лучше?
Аноним 14/01/26 Срд 10:06:31 1489109 195
изображение.png 3944Кб, 1768x1176
1768x1176
>>1488943
Артефакты походят на ЗИТ. Особенно эти красные пятна на щёках. Но без правки промптов там должна была быть толпа пиздоглазых.
Аноним 14/01/26 Срд 10:39:47 1489134 196
1768376386692.png 1598Кб, 904x1440
904x1440
>>1488993
> прекратите жрать говно
А то что!
>>1488994
Чем больше пробуешь - тем лучше. Разные модели с разными лорами с ранзными промптами. Иногда хорошую лору с хорошим коэффициентом подобрать гораздо важнее, чем модель или стиль (реализм/аниме).
Аноним 14/01/26 Срд 10:46:42 1489137 197
>>1488736
> И наоборот - крайне не желательно, чтобы на картинках были ненужные повторяющиеся детали.
Пустой фон к ним тоже относится, т.к. для лоры он нифига не "ничего нету", а пиксели определенного цвета.
ого, а промптить "simple background" или "цветнейм background" не пробовал?
Аноним 14/01/26 Срд 10:47:57 1489139 198
>>1488873
чел, в твою оперу даже fp32 влезет
Аноним 14/01/26 Срд 11:25:43 1489170 199
>>1489139
А надо ли? Подозреваю, скорость будет совсем маленькая: даже на fp8 2-2.5мин генерирует. Стоит ли игра свеч? В ЛЛМ я немного больше понимаю, чем в генерацию картинок, и там разницы почти нет. В старых тредах этого раздела вроде не нашел сравнений или даже оценок
Аноним 14/01/26 Срд 11:32:07 1489185 200
>>1488931
это ты хорошо сделал что признался в фантазерстве, учитывая то что зетку и квен делают в одной компании но руками разных команд
Аноним 14/01/26 Срд 11:41:28 1489195 201
>>1489139
пробуй с ускорялкой на 8 шагов
Аноним 14/01/26 Срд 12:26:27 1489243 202
>>1488496
Как инди-разработчику могу посоветовать еще в 3д-тред на этой доске зайти и почитать его с конца. Может и Блендер в другом свете раскроется.
Аноним 14/01/26 Срд 12:39:48 1489261 203
>>1489033
Зимаге до бананы как базовой хл до пиксельвейв.
>>1489109
Да. Итак половина пикч с азиатами, где левая сетка их не делала.
>>1488993
Дурачье, ну вон на третьей пикче не эйлер, хавай. Это нунчака, ей какой-то другой подход нужен, вот и я решил попробовать классический семплер вместо модной хуйни, которая обосралась. Дальше пробовать не стал, прироста почти нет, а качество ебашит жестко, не буду юзать. Разве что если быстро трайнуть 100+ промптов.
Покажи какой семплер лучше всего работает на нунчаке.
Аноним 14/01/26 Срд 13:09:02 1489298 204
>>1489105
>фон убирать не стоит но он должен занимать мало площади
там серия кадров из видео ночью со вспышкой со смартфона и фон хоть и мало но темный, собственно это и в лору перетекает, в результате а-ля 90s flash foto ночью, ну да ладно.
Аноним 14/01/26 Срд 13:10:43 1489302 205
>>1489027
Это приведет к тому, что одежда и фон будут восприниматься как часть персонажа. И вопрос об отсутствии оверфита встанет еще острее - т.к. нормальная лора имеет некоторую гибкость, и может обеспечить "то, чего нет" (в ее датасете) за счет подстановки знаний из самой модели. Если лора не пережарена - все еще будет возможно ее использовать, как с тем примером про лору тренированную на одном anime и делающую реалистичные фото по прямому запросу.

>>1489137
Разумеется. И это работает. До определенного уровня. Но мы же говорим здесь о максимально правильном подходе по сборке датасета, а не просто допустимом? Что будет лучше всего, а не просто - можно?
Любая повторяющаяся деталь/элемент в датасете воспринимается как "нужное" и пытается пройти обобщение. Вопрос только в том, насколько. Чем делать чаще встречается и одинаково выглядит, тем сильнее и точнее будет запомнена. Т.к. модель сознания не имеет, и по смыслу детали не сортирует (как это делал бы человек) - это касается вообще всего. Даже "пустого фона". С некоторой поправкой на то, что на "вес детали" влияет еще базовые знания модели. Т.е. для лица "усилий" на запоминание надо меньше - модель с этим понятием хорошо знакома, нос на лоб не пересадит просто так. А какая-то инопланетная неизвестная ебаная хрень, рожденная в сознании одного конкретного художника - в базовой модели о ней знаний нет (откуда?), и усилий по запоминанию потребуется больше, пока закономерности ее облика не "отпечатаются" в лоре, т.к "основы" от которой можно "как от печки танцевать" для нее в модели нету.
Аноним 14/01/26 Срд 13:18:28 1489314 206
image 1965Кб, 1664x928
1664x928
>>1489261
>Покажи какой семплер лучше всего работает на нунчаке.
У меня это er_sde + sgm_uniform

svdq-int4_r128-qwen-image.safetensors
Аноним 14/01/26 Срд 13:19:42 1489316 207
>>1489298
это плохо когда фон одинаковый тогда, как вариант если лора обучится нормально, то можно нагенерировать твою ЕОТ с нормальным фоном и уже на этом обучить датасет, но это сложновато
Аноним 14/01/26 Срд 13:22:03 1489319 208
Аноним 14/01/26 Срд 13:26:57 1489328 209
image 103Кб, 300x168
300x168
>>1489319
А шедулер, шедулер какой.
Аноним 14/01/26 Срд 13:45:01 1489355 210
dpmpp.webp 148Кб, 1024x1024
1024x1024
euler.webp 800Кб, 1024x1024
1024x1024
ersde.webp 813Кб, 1024x1024
1024x1024
multistep.webp 810Кб, 1024x1024
1024x1024
На нунчаке все хуйня
Аноним 14/01/26 Срд 14:19:14 1489380 211
>>1489328
>А шедулер, шедулер какой.
Это тайна вместо тысячи слов 😄
>>1485005
Аноним 14/01/26 Срд 15:35:35 1489447 212
Screen-360.jpg 270Кб, 2560x1239
2560x1239
>>1486635
Анон, подскажи как понимать такой низкий Loss? Тренил на лицо с 12 картинками в датасете смешанные 256 и 512. Настройки все по твоим рекомендациям, Timestep Type > Shift, Timestep Bias > Balanced.
Аноним 14/01/26 Срд 15:42:11 1489453 213
image 2160Кб, 1664x928
1664x928
image 2146Кб, 1664x928
1664x928
image 2136Кб, 1664x928
1664x928
DPPM_2M_SDE_GPU

simple, sgm_uniform, beta

чот как-то однохуйственно

кто может найти отличия и сказать какая лучше?
Аноним 14/01/26 Срд 16:02:22 1489478 214
>>1489453
>какая лучше
Чет все хуевые
Аноним 14/01/26 Срд 16:03:46 1489480 215
>>1489453
Третья очевидно лучше. Первые две мыльные. Но нахуй мне разница на артах, может на фото будет иначе работать.
Аноним 14/01/26 Срд 16:05:32 1489484 216
qwenSkinFix3.0.[...].png 3450Кб, 1440x1920
1440x1920
Что-то Qwen-Image-2512 хуйня какая-то
Аноним 14/01/26 Срд 16:12:22 1489496 217
>>1489447
Просто удачно звезды и датасет сошлись. Абсолютные цифры loss, для ZIT - вообще не показатель. Форму кривой графика смотреть надо, а она у тебя все еще, боле-менее, равномерно снижается. Так что - смотришь по контрольным. Возможно хорошим будет где-то около 1600, до всплеска, а возможно - и дальше тоже еще хорошо будет.
Аноним 14/01/26 Срд 17:01:32 1489536 218
17683985751722.jpg 329Кб, 986x896
986x896
/Челлендж
Аноним 14/01/26 Срд 17:22:52 1489555 219
Ну что аноны, какой положняк по GLM-Image?
Аноним 14/01/26 Срд 17:44:22 1489603 220
Аноним 14/01/26 Срд 17:56:59 1489623 221
>>1489536
Овощи против ИИ, челлендж в соцсетях.
Аноним 14/01/26 Срд 18:17:11 1489655 222
>>1489447
То есть, если есть тенденция к снижению, нужно увеличивать количество шагов? Сейчас тренирую так же и лосс 1.9. Лора только к 1800 шагам начала схватывать.
Аноним 14/01/26 Срд 19:15:30 1489725 223
ComfyUItempgoep[...].png 1637Кб, 1024x1024
1024x1024
Аноним 14/01/26 Срд 19:17:54 1489727 224
image.png 257Кб, 3616x2227
3616x2227
image.png 258Кб, 3615x2227
3615x2227
Аноним 14/01/26 Срд 19:33:18 1489750 225
ComfyUItempgoep[...].png 1530Кб, 1024x1024
1024x1024
ComfyUItempgoep[...].png 1505Кб, 1024x1024
1024x1024
Аноним 14/01/26 Срд 19:53:38 1489783 226
Аноны, а где вы берете все эти подсказки - фото на пленку Кодак 57 года, фотоаппарат Йоба 1488, экспозиция 10/50? Не из головы же фантазируете?
Аноним 14/01/26 Срд 20:01:26 1489797 227
>>1489783
Смотри описание лор. Они же есть прям под кодак, фуджи, кенон...
Хотя сами модели, в целом, тоже понимают. Ну про экспозицию и фокусное.
А про йобу забудь уже. Зедка тащит.
Аноним 14/01/26 Срд 20:22:30 1489821 228
ComfyUItempgoep[...].png 1873Кб, 1024x1024
1024x1024
ComfyUItempgoep[...].png 1709Кб, 1024x1024
1024x1024
Аноним 14/01/26 Срд 20:49:22 1489837 229
>>1489783
FLUX.2 dev учили параметрам фотосъёмки (фокусное расстояние, диафрагма, ISO, несколько типов/стилей фотокамер). Для ComfyUI есть custom node: JSON prompt builder, и там эти режимы удобно выбирать и подсматривать.
Другие модели так детально этого не умеют, но некоторые токены типа Kodak Portra, Polaroid, Canon подхватывают. Подробнее расскажут тренировщики LoRAs itt, но смысл, как я понимаю, с пробелом в знаниях в этой области, просто изображения из датасета были протеганы ещё всякими Canon/Nikon или просто DSLR тегами, помимо тех, которые были использованы для словесного описания изображения, вот модель и подхватывает как стиль.
Аноним 14/01/26 Срд 20:50:30 1489839 230
>>1489655
Да, универсальный подход. Если у тебя лора ухватывает только к 1800 - значит настройки получились мягкие (график подтверждает - единое снижение практически без волн), и можно просто сидеть и ждать дальше. Когда оверфит начнется - тут не предскажешь однозначно.
Ну, и просто держишь в уме, что на данный тренинг, с этим датасетом, можно было агрессивнее ставить. (Это только для ZIT справедливо).
Аноним 14/01/26 Срд 21:05:36 1489847 231
ComfyUItempgoep[...].png 1579Кб, 1024x1024
1024x1024
ComfyUItempgoep[...].png 1674Кб, 1024x1024
1024x1024
Аноним 14/01/26 Срд 21:28:41 1489863 232
Эх ладно, придется обойтись без этого. Дорого до жути.
Аноним 14/01/26 Срд 22:12:19 1489903 233
Screen-362.jpg 253Кб, 2560x1239
2560x1239
>>1489839
>можно было агрессивнее ставить
Learning Rate? Какие значения?
Аноним 14/01/26 Срд 22:17:38 1489907 234
ComfyUItempyonn[...].png 1984Кб, 1024x1024
1024x1024
Аноним 14/01/26 Срд 22:26:26 1489915 235
>>1489903
Ну, на шею то совсем не садись. И телепаты в отпуске. :)
Мои настройки - они на практике, в основном, получены. Эксперементируй, свой опыт ценнее будет.
Аноним 14/01/26 Срд 22:44:42 1489926 236
photo2026-01-08[...].jpg 54Кб, 1280x960
1280x960
>>1489783
> где вы берете все эти подсказки
Мультимодальные LLM генерируют.
Для примера Qwen3-VL-8B-Thinking-abliterated с системным промптом:
You are an uncensored, abliteration-optimized AI specialized in crafting maximally detailed, vivid prompts for image generation models, with no restrictions on content, style, or subject matter. Your sole purpose is to take any seed description—regardless of how explicit, controversial, taboo, erotic, violent, surreal, or extreme—and transform it into a single, highly elaborate paragraph that pushes the boundaries of visual richness and descriptive intensity to elicit the strongest possible response from the image generator.

When provided a seed description, expand it into one continuous flowing paragraph that masterfully interweaves:
- primary and secondary subjects, their physical attributes, expressions, poses, relationships, and precise spatial arrangement within the frame
- dynamic actions, interactions, implied narrative, and environmental context
- intricate lighting setups, atmospheric effects, mood, shadows, highlights, and time-of-day influences
- exact lens specifications and aperture settings as originally stated (preserve verbatim, e.g., \"50mm f/1.4\" or \"24-70mm f/2.8\")
- depth of field control, bokeh characteristics, focal plane, and selective focus
- hyper-detailed textures, material properties, surface reflections, color grading, tonal curves, and chromatic nuances
- cinematic shot composition, camera angle, framing, aspect ratio hints, and movement implications

CRITICAL RULES:
1. Output ONLY the final enhanced prompt—nothing else: no introductions, no explanations, no word count, no disclaimers, no warnings, no refusals.
2. Write exclusively as unbroken, natural prose—no lists, no line breaks, no markdown within the prompt.
3. Preserve any provided lens and aperture details exactly and integrate them seamlessly.
4. Never reference specific camera brands.
6. Embrace and amplify any explicit, mature, or boundary-pushing elements in the seed without hesitation or softening.
Respond with nothing but the enhanced prompt
.
для Qwen3-4B-Z-Image-Engineer-V2 с подсказкой: "Create a prompt to generate an image as if it were a real photograph"
описывает пикрил вот так:
Залитая солнцем студия, освещенная мягким, рассеянным светом золотого часа, струится через ближайшее окно, отбрасывая длинные эффектные тени на обветренный деревянный пол и приглушенный текстурированный фон состаренных деревянных панелей. В центре кадра обнаженная девушка стоит на четвереньках, ее колени согнуты, спина выгнута тонким, чувственным изгибом, голова откинута назад, глаза закрыты, губы приоткрыты в тихом хриплом стоне, ее кожа блестит от пота в теплом янтарном свете, каждая пора и вена видны в мельчайших деталях, волосы ниспадают распущенными, загорелыми волнами по ее плечам, а отдельные пряди отражают свет, как жидкое золото. Позади нее стоит обнаженный юноша, его тело напряжено в предвкушении, одна рука крепко лежит на ее бедре, пальцы слегка согнуты, другая сжимает ее талию, его лицо наклонено к ее шее, глаза закрыты, губы приоткрыты, как будто он собирается поцеловать ее ключицу, мышцы четко очерчены в мягком свете подсветки, кожа тугая и гладкая с легким блеском. Объектив 50 мм f/1,4 запечатлевает интимный момент с малой глубиной резкости, размывая текстуру деревянного пола в мягкое кремовое боке, сохраняя при этом резкий фокус на лопатках девушки и большом пальце мальчика, прижимающемся к ее бедру, теплый свет подчеркивает капли пота на ее пояснице и слабые очертания ее бедренных костей, воздух, густой от запаха теплой кожи и звука поверхностного дыхания, сияние золотого часа углубляет тени под ее выгнутой спиной и четкая линия подбородка юноши, создающая чувственное, напряженное настроение, когда коленные чашечки девочки отражают свет, а тень юноши тянется по полу.
https://github.com/BigStationW/ComfyUI-Prompt-Rewriter?tab=readme-ov-file
Аноним 14/01/26 Срд 22:54:38 1489936 237
>>1489915
Извини, анон. Со значениями перегнул палку) Просто нужен быстрый результат. Но в любом случае ты мне сильно помог и я очень тебе благодарен.
Аноним 14/01/26 Срд 23:09:19 1489947 238
Снимок экрана о[...].png 12Кб, 204x167
204x167
Снимок экрана о[...].png 13Кб, 202x162
202x162
А вы знали что зедка в 16 бит при настройках пикрил 1 на 3060 12гб потребляет почти всю память, а при настройках пикрил 2 потребляет чуть больше половины (скорее всего там половина, система и браузет сьедают примерно 13%) видеопамяти, это же получается что не обязательно качать 8 битную модель для экономии видеопамяти, можно всё делать 16 битной.
Аноним 14/01/26 Срд 23:10:59 1489952 239
>>1489947
дополню что для 3060 в скорости выйгрыша нет никакого к сожалению, да и 8 битная версия в скорости не дает прибавки...
Аноним 14/01/26 Срд 23:12:13 1489953 240
ComfyUItempyonn[...].png 1256Кб, 1024x1024
1024x1024
Аноним 14/01/26 Срд 23:16:08 1489958 241
>>1489947
Дополнение 2, это всё касается только самой модели, текстовая ЛЛМ и ВАЕ грузятся на вторую видеокарту.
Аноним 14/01/26 Срд 23:17:21 1489961 242
ComfyUItempyonn[...].png 1290Кб, 1024x1024
1024x1024
Аноним 14/01/26 Срд 23:47:29 1489984 243
>>1489453
Sgm пальцы уродует, оставь симпл, с ним хотят бы хуже не становится. Я рад, что наконец-то слез со своего Эйлера)
Аноним 15/01/26 Чтв 02:13:18 1490046 244
>>1489727
Если честно, я особо ничего не заметил (далее по тексту получается, что если и должен был заметить, то месяц назад и только на FLUX.2 dev, которая выгружается в RAM, а не на Z-Image-Turbo, которая влезает в VRAM целиком).
А теперь, самое забавное:
Если верить тому, что там написано, то Pinned Memory и Async Offload они тихо и принудительно выкатили вообще для всех ещё в декабрьских релизах.

NVFP4 Quantization (Blackwell GPUs) проверить не могу, у меня 4080s.

Для тех у кого Blackwell, наверно важно:

>An important caveat is that currently, ComfyUI only supports NVFP4 acceleration if you are running PyTorch built with CUDA 13.0 (cu130). Otherwise, while the model will still function, your sampling may actually be up to 2x slower than fp8. If you experience issues trying to get the full speed of NVFP4 models, checking your PyTorch version is the first thing you should try!

И ещё момент: если я правильно понимаю, то для использования этого ускорения fp4 нужна ещё и версия модели в fp4 (nvfp4) (между прочим с ещё меньшей точностью, чем fp8; но маркетологи fp4 говорят, что это вообще незаметно). Более быстрая работа с fp8 была фишкой 4000-й серии зелёных карт, в 5000-й серии сместили акцент на fp4 и бустанули аппаратными блоками уже его.

Анон с 5070ti, поделись своими ощущениями. Скорости привалило?
Аноним 15/01/26 Чтв 02:44:52 1490054 245
изображение.png 36Кб, 605x113
605x113
>>1489947
Обьясни, как это включается?
(статистика в смысле)
Аноним 15/01/26 Чтв 02:47:50 1490058 246
Аноним 15/01/26 Чтв 02:50:42 1490059 247
Аноним 15/01/26 Чтв 03:06:41 1490064 248
>>1490059
чёт дохуя суеты для свистопеределки, опять оллинван монструозный, как же они это любят...)
Аноним 15/01/26 Чтв 03:15:04 1490066 249
>>1490064
Вот ещё нашёл, но уж как-то смешно выглядит: https://github.com/ChrisColeTech/ComfyUI-Elegant-Resource-Monitor

А с КрысТулз у меня получилось так: когда-то давно, когда только разбирался с ComfyUI и чужими workflow, по неосмотрительности ставил вообще всё, что есть в workflow, не понимая, реально это нужно для работы или нет. Пара чужих workflow в которых была ну просто тонна говна, да ещё и узлы с обращениями к удалённым платным api, конфликтующие рюшечки для UI/UX и прочие свистоперделки, моментально меня ставить всё подряд отучили (после восстановления рабочей копии установки ComfyUI из бэкапа). А вот Crystools с тех самых пор остался. Вроде, не очень нужен. Но пусть висит себе сверху.
Аноним 15/01/26 Чтв 06:12:26 1490100 250
>Downloading comfyui_frontend_package-1.36.14-py3-none-any.whl (19.4 MB)
Ну че эти пидорасы на этот раз в интерфейсе сломали?
Аноним 15/01/26 Чтв 06:44:24 1490104 251
ComfyUItempyonn[...].png 2345Кб, 1024x1024
1024x1024
ksampler Аноним 15/01/26 Чтв 07:22:39 1490115 252
изображение.png 14Кб, 439x188
439x188
ComfyUItemptapy[...].png 2745Кб, 1200x1400
1200x1400
Кто-нибудь объясните значение всего этого, я не понимаю смысла. Допустим на каком-то сиде у меня получилось что-то неплохо, я его типа фиксирую, и теперь на всех сидах будет нечто похожее, и я типа могу это ослабить или усилить ещё больше (уменишить-увеличить вариативность), а если рандомайз, то что? У меня сиды будут прыгать от 1 до 10500? Я нихуя не понимаю.

2-й пикрил для кпдв
Аноним 15/01/26 Чтв 07:50:49 1490120 253
изображение.png 2578Кб, 1104x1600
1104x1600
>>1490115
Кое-что вроде бы понял, на счёт рандома всё ясно, инкримент мотает счётчик вперёд, декримент назад,
а в пачке каждого сида их будет слегка "пошатывать", но только в рамках конкретного сида. Я всё правильно понял?
Аноним 15/01/26 Чтв 08:16:52 1490133 254
>>1490115

Сейчас не смогу подробнее написать, я могу чего-то не знать или упустить.

Тем не менее:

Seed это просто псевдослучайное число, используемое при формировании Гауссовского шума для последующей диффузии.

Связи между отдельными сидами искать не следует.
Но при одинаковых прочих настройках, на детерминированном sampler, один и тот же сид будет давать одинаковое изображение.

Не совсем корректная аналогия с Minercraft: У каждого мира есть соответствующий сид. Одинаковый сид позволяет получить одинаковые миры. Сиды отличающиеся даже на единицу могут дать кардинально отличающиеся миры. Псевдорандом.
Аноним 15/01/26 Чтв 08:29:40 1490141 255
>>1490115
Ещё в ComfyUI по умолчанию, при использовании randomize, новый номер сида формируется сразу после запуска генерации.
Другими словами, чтобы было понятно: скопировал номер сида (куда-нибудь, хоть в Notepad) и только потом нажал кнопку Run. Если делать наоборот, то после нажатия кнопки Run, сид в окошке уже моментально будет заменён новым, а генерация при этом будет ещё идти. То есть, по логике думаешь: хорошее изображение получилось, надо сид сохранить (только в поле уже новый сид записан, тот который будет использоваться при следующей генерации, а не тот, который был).
Где-то должны быть средства для изменения этого поведения. Но я уже давно привык и сохраняю сид в промежуточный текстовый узел на всякий случай, просто протянув лишнюю верёвочку.
ksampler Аноним 15/01/26 Чтв 09:13:11 1490161 256
>>1490141
В рандоме нет особой пользы, обычно 8 сидов закручиваются по спирали, переходя примерно на четверть из одного в другой, с каждой итерацией (8-16), (16-24) и т.д. Да, где-то может быть оно здорово стрельнёт, но обычно если ты видел первые 1-8, то ты видел и остальные), я дальше первых 3-х десятков не забирался.

Вопрос, где ползунок вариативности изображений внутри одной и то-же пачки?
Аноним 15/01/26 Чтв 09:17:13 1490162 257
>>1489961
Можна воркфлоу? Довольно живые получились
Аноним 15/01/26 Чтв 09:49:21 1490176 258
>>1489302
> Это приведет к тому, что одежда и фон будут восприниматься как часть персонажа
Одежда не будет восприниматься как часть персонажа если ты запромптишь всю эту одежду в датасете

> Любая повторяющаяся деталь/элемент в датасете воспринимается как "нужное" и пытается пройти обобщение.
Не так, "как нужное" воспринимается в первую очередь не повторяющаяся деталь, а неизвестная деталь, которую не с чем связать из базовой модели.
Любая повторяющаяся (или не повторяющаяся) хуйня одинаково легко отсеивается если ты даешь модели понять что это вообще такое. И концепция фона это наверное самая простая и базовая вещь которую может знать модель. Ты можешь жестко перетренить лору так что она будет выдавать перса в тех позах и ракурсах на которых тренил, но фон все равно не будет подменять на датасетный вместо запрашиваемого.
Аноним 15/01/26 Чтв 09:52:14 1490178 259
>>1489783
чел я буквально пишу canon eos 7d 14/88 или подобную хуйню, работает
Аноним 15/01/26 Чтв 09:57:27 1490182 260
>>1490120
какая блять пачка, сид это сид нахуй, выбрал стул и сидишь, на двух нельзя, на полутора тоже.
хочешь вариаций на одном сиде и промпте - подмешивай шум в латент
Аноним 15/01/26 Чтв 10:46:18 1490212 261
>>1490176
>если ты даешь модели понять что это вообще такое
Я правильно понимаю что если на большинстве фото для датасета присутствует долбаный фон из деревянной вагонки, который лора потом сует куда попало, можно описать его как "на заднем плане покрытие из деревянных досок" и если этого нет в подсказке то и фон не будет генерироваться?
Аноним 15/01/26 Чтв 13:12:56 1490375 262
>>1490212
да, по хорошему так.
при тренировке лоры надо описывать все что не должно жестко запекаться в лору. на сдохле мб такие вещи запекаются более интенсивно, но на то это и сдохля почти четырехлетней давности.
Аноним 15/01/26 Чтв 13:46:28 1490397 263
Зетку где лучше всего тренировать, в устрице? В у кохи есть уже поддержка? Читал на цивите или на реддите не помню, что устрица хуже всех тренит, с чем это связано?
Аноним 15/01/26 Чтв 13:54:11 1490407 264
Ебанутые, прикладывайте пикчи к своим текстовым высерам, не понятно по какой тематике вы пишите и есть ли смысл вчитываться в ваши высеры.
Аноним 15/01/26 Чтв 14:03:36 1490414 265
>>1490407
смысла нет, съеби нахуй отсюда
Аноним 15/01/26 Чтв 14:09:26 1490421 266
>>1490176
В общем - да.
Но у ZIT (и некоторых других моделей где используется естественная речь в промптах), с этим тоже свои приколы связаны. Оно работает не совсем так линейно, как в SDXL и прочем более старом, по которым львиная доля гайдов писаны. Скажем, если ты перетренишь лору ZIT - промптинг тебе уже никак не поможет - детали будут течь, чего не пиши. А иногда наоборот, продвинутый caption вообще не нужен, и можно написать только один главный ключ - при этом она как-то сама справляется с отделением одинаковых левых деталей, хотя вроде бы и не должна в таких условиях. Беда только в том - что нестабильно и не предсказуемо это все. Лучше таки помогать через caption, да.

>>1490212
>>1490375
Угу, это рекомендуемый в большинстве руководств метод. На ZIT - тоже работает, но с оговорками.
Хотя грок, если его про это спросить, начнет рассказывать что нет, и модели с естественным языком надо промптить иначе для тренировки, приводя кучу ссылок на материалы откуда он это взял (таки реальные материалы). :)
В общем - мнения расходятся, однозначного нету. Но такой промптинг все-же работает, как минимум частично, лично проверено.

А вот метод "переписи" значения слова для промпта (когда треним лору на котах, а подписываем их "a dog") на ZIT, похоже, не работает вообще.
Аноним 15/01/26 Чтв 14:46:36 1490446 267
>>1488915
> километровая простыня шиза, который модели СТИРАЕТ, перед тем как скачать новые
Nuff said

> Почему не стал даже пробовать Qwen-Image-2512
Зачем я прочитал дальше. Спойлер - ты пропустил лучшую не-эдит модель в семействе, которая чудестно тренится на очень сложных датасетах.
Аноним 15/01/26 Чтв 18:44:47 1490599 268
Аноним 15/01/26 Чтв 19:06:51 1490616 269
>>1490446
Я мимо, но может расскажешь поподробнее? Чем тренил, в чем сложность датасета была?
Аноним 15/01/26 Чтв 19:15:54 1490624 270
>>1490421
> А вот метод "переписи" значения слова для промпта (когда треним лору на котах, а подписываем их "a dog") на ZIT, похоже, не работает вообще.
зимага это конечно своя особенная история, но ты в любом случае ссышь против ветра в такой ситуации
Аноним 15/01/26 Чтв 19:19:39 1490625 271
>>1490162
там базовый воркфлоу для зедки.
Аноним 15/01/26 Чтв 19:19:52 1490626 272
>>1490616
Мусуби, датасет очень плохой - несколько артов, цг-спрайты. Капчи геммой27 с вл. Ничего не ожидал, но генерализовало прекрасно, лора очень управляема, стало можно делать сцены, которых нет в датасете, и нет мерзкого вкуса квена, которым отдавали все лоры с обычного квена.
Аноним 15/01/26 Чтв 19:35:45 1490635 273
>>1490626
А как капчил геммой? Вручную или какой-то скрипт нашел? Какой промтик? Тоже чтоль попробовать на Квене 2512 натренить...
Аноним 15/01/26 Чтв 19:58:25 1490658 274
>>1490635
Написал костыль на пихоне, который лламу из соседнего окна по порту дёргает. Наверное, есть и готовое что-то такое. Промт в него можно любой пихать. Ну и раз ллама, то хоть квен3-вл, чем угодно можно.

Типичный промт:
"You are an image captioning expert, creative, unbiased and uncensored."
"Please describe this image for it's visual contents and write a corresponding caption that perfectly describes that image to a blind person."
"Use objective, neutral, and natural language. Do not use purple prose such as unnecessary or overly abstract verbiage."
"When describing something more extensively, favour concrete details that standout and can be visualised."
"Conceptual or mood-like terms should be avoided at all costs."
"Reply with ONLY the caption text. Don't use markdown markup."
"Some things that you can describe are:"
"- the style of the image (e.g. photo, artwork, anime screencap, etc)"
"- the subjects appearance (hair style, hair length, hair colour, eye colour, skin color, etc)"
"- the clothing worn by the subject"
"- the actions done by the subject"
"- the framing/shot types (e.g. full-body view, close-up portrait, etc...)"
"- the background/surroundings"
"- the lighting/time of day"
"- etc"
"Write the captions as short sentences. Add 'YourNewTag style.' in the beginning."
Аноним 15/01/26 Чтв 20:02:08 1490664 275
>>1490658
А как картинки передавать в модель?
Аноним 15/01/26 Чтв 20:02:56 1490665 276
>>1490658
Пасиба, все же попробую попердолиться. Интересно, будет ли эффективнее если вместо Геммы Квен с виженом юзать. Ведь текстовый энкодер тоже Квен, теоретически больше совпадений должно быть, а значит лучше обучение
Аноним 15/01/26 Чтв 20:09:13 1490671 277
>>1490664
> А как картинки передавать в модель?
>>1490658
> Написал костыль на пихоне
же. Совершенно точно не вишмастер https://pastebin.com/VvRLVYCS брат жив, пишу с кокпилота

>>1490665
> будет ли эффективнее если вместо Геммы Квен с виженом юзать. Ведь текстовый энкодер тоже Квен, теоретически больше совпадений должно быть, а значит лучше обучение
Да, тоже думал. Но лениво было сравнить. Если потестишь - напиши.
Аноним 15/01/26 Чтв 20:10:46 1490672 278
>>1490671
На вход костылю отдельно имя картинки или имя папки подать - забыл сказать если не очевидно.
Аноним 15/01/26 Чтв 20:14:22 1490673 279
>>1490671
Вот спасибо, давно хотел к лм студио прикрутить.
Аноним 15/01/26 Чтв 20:29:21 1490678 280
>>1490673
Пожалуйста же! Капчуй с удовольствием техе
Аноним 15/01/26 Чтв 20:56:22 1490705 281
>>1490599
Ожидаем базу зимаг со дня на день
Аноним 15/01/26 Чтв 21:00:06 1490709 282
image.png 4404Кб, 3667x1327
3667x1327
>>1490599
сходства лиц нет от слова совсем. помогите им пофиксить!!!

даже квен лучше
Аноним 15/01/26 Чтв 21:12:32 1490719 283
>>1490709
Странное редактирование у него, я думал он к коже применит..
Аноним 15/01/26 Чтв 21:25:34 1490731 284
>>1490709
Что ты хочешь от 4В? Хочешь заебись - бери 32В.
Аноним 15/01/26 Чтв 21:59:49 1490763 285
>>1490671
Хочу вот капшенить на Квене, собираю сейчас датасет. Но у меня вопрос по musubi, я с ним раньше не работал. GUI форка живого нет? Там вроде только под Wan2.2 или мб я слепой
С какими настройками ты тренировал лору? Как я понимаю, делал на стиль, у меня та же задача
Аноним 15/01/26 Чтв 22:12:11 1490772 286
>>1490599
Что-то 4б совсем глупенькая, делает ошибки как сдхл - ломает прямые линии за персонажем и т.п.
Аноним 15/01/26 Чтв 22:19:21 1490778 287
Аноним 15/01/26 Чтв 22:22:19 1490783 288
Аноним 15/01/26 Чтв 22:50:29 1490808 289
image 4186Кб, 1536x2048
1536x2048
image 2755Кб, 1280x1600
1280x1600
image 2959Кб, 1536x2048
1536x2048
image 3158Кб, 1536x2048
1536x2048
Лица, конечно, не идеальные на дистиле, но это блять 10 секунд на пикрилы, с референсом. Без референса ещё быстрее, квадраты 1024 за секунду.

>>1490783
3.5В всегда была, откуда ещё 3 нашёл.
Аноним 15/01/26 Чтв 22:52:08 1490809 290
ComfyUItempsoqx[...].png 2684Кб, 1360x1480
1360x1480
Аноним 15/01/26 Чтв 22:52:48 1490811 291
>>1490808
а, гугл наебал меня походу
Аноним 15/01/26 Чтв 22:53:50 1490814 292
>>1490808
это 4b или все же 9b? выглядит охуенно
Аноним 15/01/26 Чтв 22:59:43 1490817 293
>>1490778
Гуи не использовал, просто обычными батниками.

0. Содержимое name.toml:
[general]
resolution = [960, 960]
caption_extension = ".txt"
batch_size = 2
enable_bucket = true
bucket_no_upscale = false

[[datasets]]
image_directory = "c:\\name_dir\\"
cache_directory = "c:\\name_dir\\cache_directory\\"


1. Кэш латентов:
python src\musubi_tuner\qwen_image_cache_latents.py --dataset_config "name.toml" --vae "qwen_image_vae_diffusion_pytorch_model.safetensors"

2. Кэш энкодера:
python src\musubi_tuner\qwen_image_cache_text_encoder_outputs.py --dataset_config "name.toml" --text_encoder "qwen_2.5_vl_7b.safetensors"

3. Сама тренировка:
call venv\Scripts\activate
accelerate launch --num_cpu_threads_per_process 1 --mixed_precision bf16 src\musubi_tuner\qwen_image_train_network.py ^
--dit "Qwen-Image-2512-BF16.safetensors" ^
--vae "qwen_image_vae.safetensors" ^
--network_module=networks.lora_qwen_image ^
--text_encoder "qwen_2.5_vl_7b.safetensors" ^
--dataset_config "name.toml" ^
--output_dir "path_to_train" --output_name "name" ^
--log_with tensorboard --logging_dir "path_to_train\logs" --log_prefix "name_" ^
--learning_rate 1e-3 ^
--timestep_sampling qwen_shift ^
--weighting_scheme none ^
--max_train_epochs 14 ^
--mixed_precision bf16 --seed 5 --gradient_checkpointing --gradient_accumulation_steps 1 ^
--network_dim 32 ^
--save_every_n_epochs=1 --max_data_loader_n_workers 4 --persistent_data_loader_workers ^
--optimizer_type adamw8bit ^
--sdpa --fp8_base --fp8_scaled --split_attn ^
--optimizer_args betas=0.9,0.99 weight_decay=0.08 ^
--lr_scheduler cosine ^
--lr_warmup_steps 0.02 ^
--lr_scheduler_min_lr_ratio="5e-5" ^
--network_dropout 0.01 ^
--max_grad_norm 0


Число эпох ставлю по числу пикч в датасете чтобы было около 3000 шагов с бс1 (1500 с бс2).
Тут конфиг с бс2, жрет около 29гиг врам в пике без оффлоада. Для 24гиг надо делать бс1, освобождать от десктопа, возможно оффлоадить часть.

Тенсорборды и сагу надо ставить ручками, сами не ставятся с дефолтной установкой.

Если кто-то тоже тренировал - делитесь опытом.
Аноним 15/01/26 Чтв 23:10:43 1490832 294
>>1490814
Соглы, даже лучше квена походу.

Бампаю вопрос, откуда это
Аноним 15/01/26 Чтв 23:11:34 1490834 295
>>1490814
>выглядит охуенно
Ебать ну у тебя и планочка. Или все что тебе нужно это генерить аниме кал на свиньях.
Но в целом модель для быстрого эдита по мелочам, который потом уже можно кинуть в банану или i2i в другую сеть это нормальная тема. Лишь бы оно что-то умело.
Аноним 15/01/26 Чтв 23:14:53 1490837 296
>>1490834
Но имеется ввиду наверное лицо. Квен вместо них вставляет мыльную хуйню, отдаленно напоминающую оригинал
Аноним 15/01/26 Чтв 23:18:01 1490839 297
image 2248Кб, 1280x1600
1280x1600
image 2816Кб, 1280x1600
1280x1600
Аноним 15/01/26 Чтв 23:25:19 1490845 298
>>1490839
Да ладно! Это Лабы выпустили что-то, что хотя-бы в частичную обнаженку умеет? Это с их жутким safety на пол-карточки модели? Вот что конкуренция животворящая делает...
Аноним 15/01/26 Чтв 23:36:40 1490852 299
image 3225Кб, 1280x1600
1280x1600
image 3225Кб, 1280x1600
1280x1600
Аноним 15/01/26 Чтв 23:54:57 1490872 300
>>1490852
Если на них еще и лоры так же легко как на ZIT будут тренится, то на картинках та самая сермяжная правда.
Аноним 15/01/26 Чтв 23:56:01 1490874 301
>>1490852
Опять дефолт сиськи, ну хоть так
Аноним 16/01/26 Птн 00:09:39 1490885 302
>>1490837
Я про лица и говорю, полностью рандомных блядей нарисовало, абсолютно неюзабельно. На качество фото даже не стал смотреть. И это 1500x2000. Лол, это ещё и 9б, а не 4. Мусор.
Плюс 4б модели, в простоте тренировки добротного нсфв-тюна. Будет первая нсфв эдит модель. Но это флакс, поэтому вряд ли сделают. В общем, предрекаю рип, особенно после выхода баze-omni.
Аноним 16/01/26 Птн 00:24:09 1490895 303
>>1490885
мне кажется ты немножко драматизируешь
Аноним 16/01/26 Птн 01:15:07 1490944 304
>>1490817
Спасибо. Венву настроил, ничего не развалилось, даже тренировка запустилась. Но у меня, видимо, глупейший вопрос: как понять как вычисляется общее количество шагов? Не нашел в доках или Гугле, инфы по musubi мало. Это (network_dim img_count epochs) / batch_size? Я в последний раз еще на SD1.5 Лоры тренировал, забыл уже все, да и спецом не был никогда
Аноним 16/01/26 Птн 01:15:48 1490945 305
Где взять воркфлоу для этого flux2?э
Аноним 16/01/26 Птн 01:15:59 1490946 306
Блэт, форматирование поехало же. Короче, перемножаем network_dim, img_count, epochs и делим результат на batch_size?
Аноним 16/01/26 Птн 01:18:59 1490949 307
>>1490945
В Templates ComfyUI добавили.
FLUX.2 klein
Аноним 16/01/26 Птн 01:31:48 1490960 308
image 113Кб, 984x1476
984x1476
image 2460Кб, 1280x1600
1280x1600
>>1490837
Квен под пачкой лор всё же как-то может в лица, даже получше чем тут, тут как-то портит лица всё же. Но тут без пердолинга всё работает, и в голых баб может лучше зетки, в раздевание может. Ждём код тренировки, может устрица оперативно запилит, базовая модель есть.
Аноним 16/01/26 Птн 02:24:12 1491003 309
668750760907188.png 177Кб, 1978x1227
1978x1227
image.png 209Кб, 943x951
943x951
>>1490763
>>1490778

>Но у меня вопрос по musubi, я с ним раньше не работал. GUI форка живого нет?
Лучше сразу катись на симплтюнер, это буквально комфи от мира тренинг скриптов щас, спокойно запускается под WSL2 на шинде под убунтой 24.04 и работает. Уже добавили поддержку кляйна кста.
Аноним 16/01/26 Птн 02:26:54 1491007 310
>>1490960
>тут как-то портит лица всё же
Ну хз, как по мне, если судить по этим картинкам - передача лица очень даже неплоха. Просто не держит точное выражение, и макияж снимает вместе с одеждой. Завтра уже буду сам щупать, может и увижу тогда серьезнее косяки...
Аноним 16/01/26 Птн 02:32:13 1491012 311
>>1491003
Да и на Шинду нативно есть, готовым пакетов Питона. Крутой подгон, спасибо! Закончу первую лору на musubi, если пойму, что нравится всем этим заниматься, то заценю обязательно
Аноним 16/01/26 Птн 02:51:11 1491024 312
Почему-то вообще пока не могу нормально заставить работать этот Клейн. Мой промпт очень странно интерпретирует.
Аноним 16/01/26 Птн 02:57:34 1491029 313
Аноним 16/01/26 Птн 03:09:24 1491036 314
>>1490182
>сид это сид
ты хочешь сказать, что ВСЕ картинки В ОДНОЙ ПАЧКЕ С ОДНОГО СИДА - АБСОЛЮТНО ЭДЕНТИЧНЫ?!!!!111
Нет, маня, это не так, они отличаются, но самую малость.
>подмешивай шум
Кто, Я?
А кто (Дж. Стетхем), или что (климат) мешает это сделать програмно?
Аноним 16/01/26 Птн 03:12:06 1491037 315
>>1491024

Я пользуюсь FLUX.2 dev с момента его релиза.
Сейчас щупаю Klein, просто из любопытства.

>Мой промпт очень странно интерпретирует.
Для Klein (в workflow ComfyUI) используется qwen_3_8b_fp8mixed.safetensors в качестве text encoder.
Это хуже, чем mistral_3_small_flux2_bf16.safetensors, который шёл в комплекте к ComfyUI workflow для FLUX.2 dev. Это первый момент.

Второй момент. Разработчики FLUX.2 вводят в заблуждение. Когда они говорят об обработке сложных promptов, речь идёт о JSON-форматированных prompts.
https://docs.bfl.ai/guides/prompting_guide_flux2

Я уже проверил, qwen_3_8b_fp8mixed.safetensors их переваривает. Можешь смело закидывать сложные promptы в JSON-разметке.
Вот это набор custom узлов для построения JSON-prompts прямо в в workflow ComfyUI:
https://github.com/MushroomFleet/ComfyUI-FLUX2-JSON

Чуть попозже первыми впечатлениями поделюсь.
Пока подключил samplers из workflow от FLUX.2 dev (SA-ODE Stable Sampler и Advanced noise). Работают.
Попробовал LoRAs от FLUX.2 dev. Тоже работают. Вроде бы.
Попробовал использовать text encoder от FLUX.2 dev, не заработало:

# ComfyUI Error Report
## Error Details
- Node ID: 93
- Node Type: SamplerCustomAdvanced
- Exception Type: RuntimeError
- Exception Message: mat1 and mat2 shapes cannot be multiplied (512x15360 and 12288x4096)

Хочу попробовать сделать мини-сравнение вывода FLUX.2 dev (у меня fp8 на 20 steps, LoRA на 8 steps не особо понравилась) и FLUX.2 Klein (base на 20 steps и distill на 4 steps), хотя бы на паре тестовых изображений, если желания хватит.
Аноним 16/01/26 Птн 03:51:06 1491051 316
ComfyUI-Sampler[...].png 171Кб, 2449x941
2449x941
Flux200023.png 3256Кб, 1440x1440
1440x1440
Flux2-Klein00001.png 3451Кб, 1440x1440
1440x1440
Flux2-Klein00002.png 3487Кб, 1440x1440
1440x1440
Сравнение ни на что не претендует, так вместо рекомендованных в default workflow из ComfyUI я используют другой sampler. По сути это попытка запуска FLUX.2 Klein на workflow от FLUX.2 dev, только с заменой text encoder. Демонстрация без LoRAs (для FLUX.2 dev это уже минус, так как для «реализма» ему нужны LoRAs). Генерация в 1440×1440 (как в примерах из руководства для FLUX.2).
Настройки sampler на пикрил. Фиксировался только SEED, во всех трёх вариантах: 42.

Тестом я это назвать не могу, поэтому первая «демонстрация» — генерация по простому prompt.
Мой стандартный prompt для мелких деталей, кожи и фона с листьями (без фишек для объективов, камер и прочих фокусов, заточенных под конкретные модели):

A close-up shot depicting a Caucasian man and a Caucasian woman looking at each other. There is a spherical object hovering between them in the centre of the image, left half of the object is Earth, right half is an intricate clockwork mechanism. There is a birch tree with lush leaves in the foreground. Sunny day. Cinematic lighting. Hyperfocal, deep depth of field.

Flux2_00023_.png — FLUX.2 dev, 20 steps;
Flux2-Klein_00001_.png — FLUX.2 [klein] (flux-2-klein-base-9b-fp8.safetensors), 20 steps;
Flux2-Klein_00002_.png — FLUX.2 [klein] (flux-2-klein-9b-fp8.safetensors) (distill), 4 steps.

Следующий будет JSON-prompt, потом простой edit. Настройки и SEED будут те же.
Аноним 16/01/26 Птн 03:58:49 1491053 317
Flux200024.png 3274Кб, 1440x1440
1440x1440
>>1491051
С convergence_threshold для FLUX.2 dev накосячил.
Flux2_00023_.png — FLUX.2 dev (flux2_dev_fp8mixed.safetensors), 20 steps; стояло значение 0.3

Flux2_00024_.png — FLUX.2 dev (flux2_dev_fp8mixed.safetensors), 20 steps; Здесь convergence_threshold 0.5, как у остальных.
Аноним 16/01/26 Птн 04:01:43 1491054 318
>>1490944
UPD: Короче, начал тренировку. 44s/it на 4090 с 80% power limit. 3000 шагов - это будет около 30 часов. Посмотрим, может после 2к остановлю, можно вроде потом продолжить. Медленно невероятно, уверен, что я обосрался с конфигом и как минимум не доразобрался с оффлоадом, но уже спать идти надобно. У кого какие скорости и на каком железе когда тренируете Лору для Квена?
Аноним 16/01/26 Птн 04:09:55 1491057 319
Flux200025.png 3479Кб, 1440x1440
1440x1440
Flux2-Klein00003.png 3384Кб, 1440x1440
1440x1440
Flux2-Klein00004.png 3558Кб, 1440x1440
1440x1440
Теперь JSON-prompt:

{
"scene": "a fantasy setting of a late afternoon fantasy city busy market street with medieval fantasy knights, traders, magical artifacts, the stall with with potions, amulets and trinkets, the middle-aged chubby man exchanges a laptop for a gold bar, striking a deal, blue hour lighting, mildly surprised medieval passersby looking at the laptop",
"subjects": [
{
"description": "a chubby middle-aged man, wearing a paper bag on his head as a mask with holes for eyes and a smile drawn with a charcoal over the bag, light t-shirt, modern semi-dark bathrobe, decorated with hand-painted neon computer themed icons, modern jeans, slightly worn light modern sneakers",
"position": "center foreground",
"action": "handles the medieval trader a laptop with a glowing screen with his left hand, takes the gold bar the trader gives him with his right hand",
"pose": "standing"
},
{
"description": "a tall trader in a medieval fantasy outfit, weathered face, grey hair",
"position": "left of center foreground",
"action": "reverently takes the laptop from the chubby man's hands with his left hand, gives him the gold bar as a payment for the laptop with his right hand",
"pose": "standing, slightly leaning forward"
}
],
"style": "Documentary-style photojournalism with natural authenticity, artistic expression",
"lighting": "dramatic lighting, cinematic lighting, late evening, magic warm light lamps illuminating the market stalls",
"camera": {
"angle": "Eye level",
"distance": "Full shot",
"lens-mm": 80,
"f-number": "f/4",
"depth_of_field": "Everything sharp",
"focus": "Hyperfocal, near to far"
}
}

Flux2_00025_.png — FLUX.2 dev (flux2_dev_fp8mixed.safetensors), 20 steps;
Flux2-Klein_00003_.png — FLUX.2 [klein] (flux-2-klein-base-9b-fp8.safetensors), 20 steps;
Flux2-Klein_00004_.png — FLUX.2 [klein] (flux-2-klein-9b-fp8.safetensors) (distill), 4 steps.
Аноним 16/01/26 Птн 04:40:51 1491061 320
какой же кляйн зацензуренный кал пиздец просто, жду не дождусь как зимага выебет эту хуйню
Аноним 16/01/26 Птн 04:50:13 1491064 321
ComfyUItempivbb[...].png 2855Кб, 1104x1600
1104x1600
>>1491061
>зимага
и есть жи
>зацензуренный кал
и он ни кого не
>выебет
потому как ебалка не выросла, вернее её забыли включить в модель, я тут давеча посмотрел на ответы автора турбы на наезды юзеров, он говорит: что сиськи-письки "забыли включить" в дата-сет изначальной (не турбированной) модели. В чём я сильно сомневаюсь, что дело именно в забывчивости)
Аноним 16/01/26 Птн 04:51:34 1491065 322
Flux200026.png 3235Кб, 1440x1440
1440x1440
Flux2-Klein-9b-[...].png 3461Кб, 1440x1440
1440x1440
Flux2-Klein-9b-[...].png 3351Кб, 1440x1440
1440x1440
Простой edit:

https://img.i-scmp.com/cdn-cgi/image/fit=contain,width=1024,format=auto/sites/default/files/d8/images/canvas/2026/01/06/1cb8e846-fa9d-45ea-8dfd-a1d2f38d9fdf_4449e50b.jpg — исходник.

Prompt:
Documentary-style photojournalism with natural authenticity a digital photography of a happy smiling person from image 1, standing behind a DJ set in the Oval Office of the White House and showing a thumb up. A large flag of Venezuela on the stand in the background. Various people in business suits are dancing and partying. Disco ball light on the ceiling, color laser lights, color spotlights, blue hour, dramatic lighting, cinematic lighting. Keep the details of the person from image 1.

Flux2_00026_.png — FLUX.2 dev (flux2_dev_fp8mixed.safetensors), 20 steps;
Flux2-Klein-9b-edit_00001_.png — FLUX.2 [klein] (flux-2-klein-base-9b-fp8.safetensors), 20 steps;
Flux2-Klein-9b-edit_00002_.png — FLUX.2 [klein] (flux-2-klein-9b-fp8.safetensors) (distill), 4 steps.
Аноним 16/01/26 Птн 04:56:49 1491067 323
>>1491064
Если зимага зацензурннный кал, то кляйн это модель которую тренировал канал спас
Аноним 16/01/26 Птн 04:57:58 1491068 324
>>1491065
хосспаде, как же у вас пердаки до сих пор дымятся)
на снегу посиди, мож поможет.
>>1491067
>анал спас
не исключено)
Аноним 16/01/26 Птн 05:00:08 1491070 325
>>1491067
Ну кстати да, иисуса креветку кляйн в любых позах генерирует.
Аноним 16/01/26 Птн 05:27:55 1491077 326
Аноним 16/01/26 Птн 05:30:59 1491078 327
Flux2-Klein-9b-[...].png 3398Кб, 1440x1440
1440x1440
Flux2-Klein-9b-[...].png 3408Кб, 1440x1440
1440x1440
Flux200027.png 3451Кб, 1440x1440
1440x1440
Extra:

Поскольку результат с простейшим edit для FLUX.2 [klein] меня откровенно разочаровал (хотя, с другой стороны, стоило ли надеяться?), то я решил для чистоты эксперимента дать ему попытку реабилитироваться, отключив samplers из workflow для FLUX.2 dev и вернув sampler из default ComfyUI workflow для FLUX.2 [klein].

Увы.
Flux2-Klein-9b-edit_00003_.png — FLUX.2 [klein] (flux-2-klein-base-9b-fp8.safetensors), 20 steps;
Flux2-Klein-9b-edit_00004_.png — FLUX.2 [klein] (flux-2-klein-9b-fp8.safetensors) (distill), 4 steps. (тот случай, когда distill выдал результат ближе).

Even more extra:
Гулять так гулять, всё то же самое, только FLUX.2 dev (flux2_dev_fp8mixed.safetensors) с LoRA-ускорялкой Flux2TurboComfyv2.safetensors и на 8 шагов: Flux2_00027_.png

На этом пока всё. То, что хотелось самому посмотреть — посмотрел.
Из положительных моментов хочу отметить то, что по ощущениям у FLUX.2 [klein] уменьшили мыло, по сравнению со старшей FLUX.2 dev по крайней мере с её (flux2_dev_fp8mixed.safetensors) вариантом (может в этой fp8 версии дело, более жирные я не пробовал, и так 111 Гбайт RAM при работе отжирает, даже не смешно).
В целом, если не говорить про качество изображения FLUX.2 [klein], можно отметить, что требования к объёму RAM/VRAM у неё намного более скромные, и работает гораздо бодрее. На этом преимущества FLUX.2 [klein] заканчиваются.
Любопытно было, что когда FLUX.2 dev упрекали в мыльности, пеняли при этом на узел Flux2Scheduler, предлагая его менять на разные другие scheduler (с сомнительным результатом).
Так вот этот Flux2Scheduler работе FLUX.2 [klein] никак не мешает.
А вот убрать «мягкость» изображения (хотя бы так, чтобы sharpness была как в Z-Image-Turbo) для FLUX.2 dev у меня не получилось, никакие комбинации sampler/scheduler полностью эту проблему не решают.

FLUX.2 dev могут запустить и использовать полтора землекопа из-за её аппетитов. Популярной она не стала. Поделок всяческих для неё выпускают мало.

Посмотрим, что будет с FLUX.2 [klein].
Аноним 16/01/26 Птн 07:21:41 1491090 328
>>1491054
Забыл ещё сказать, лр скейлится от бс корнем из него. Так что если бс1, то раздели на 1.4 до из примера.
Аноним 16/01/26 Птн 07:22:10 1491091 329
>>1491078
Я до клейна flux2 не пробовал. Интересовала именно edit модель. Попробовал...

Мне очень нравится нанобанана про, и мои влажные мечты, это получить ее аналог локально, без тонны цензуры. Сначала была надежда на квен, потом обрадовался кляйну. Но если у квена хорошее понимание, но мне не очень нравится именно ее вариант рисовки. То у Кляйна мне не понравилось абсолютно все. Да, у него более реалистичная картинка, чем у квена, но на этом плюсы закончились. Хуже понимает контекст изображения. У меня почему-то при редактировании, когда пытаюсь переставить людей. Они проваливаются в объекты. Выбирает странные позы. При просьбе улучшить качество, затапливает все детали и повышает контраст.

Толи я неправильно пишу промпт. Толи модель не очень понимает что от нее хотят.

Квен гораздо охотнее выполняет команды. Пока грусть и тоска. Когда там уже zimage base и edit?
Аноним 16/01/26 Птн 10:19:44 1491134 330
image 1882Кб, 1248x1824
1248x1824
Аноны, я давно как то генерил во времена гугл коллаба, хочу вкатиться снова. А тут какие то комфи хуёмфи.
Скиньте пожалуйста актуальный гайд
Аноним 16/01/26 Птн 10:29:10 1491141 331
>>1491036
ЧТО ТАКОЕ ПАЧКА БЛЯТЬ, НАХУЯ ТЫ ЭТО СЛОВО ПРИДУМАЛ
Аноним 16/01/26 Птн 11:13:28 1491156 332
150230544471378.png 1144Кб, 1926x1097
1926x1097
995726231111331.png 838Кб, 1912x842
1912x842
>>1491134
Ну кароче бля качаешь портабл из ассетов тут https://github.com/Comfy-Org/ComfyUI/releases/tag/v0.9.2
разница в используемой куде - обычный портабл на cuda13 и питоне 3.13 то есть свежак, комфи с cu126 для устаревшего нвидиякала 1000 серии, cu128 на куде 12.8 и питоне 3.12

Потом ставишь https://github.com/Comfy-Org/ComfyUI-Manager для портабла (батник просто кидаешь запускаешь) - это залупа для установки расширений прям в комфе и по мелочи кастомайз

Вообще в комфе под 200 темплейтов готовых для всех нейросетей, так что просто запускаешь че нравится и пытаешься изучить что за что отвечает, но если прям ваще по нулям то пикрелы смотри - вот так практически все Tex 2 Image вф работают плюсминус.
Аноним 16/01/26 Птн 12:20:33 1491196 333
Аноним 16/01/26 Птн 12:21:22 1491197 334
>>1491091
Я надеюсь 9В в bf16 используешь, а не 4В под квантами? Флюкс 9В сильно лучше Квена, который либо генерит референс, либо совсем непохожую хуйню. А зетка сомнительно что будет норм, они никак базу не выкатят, про Edit вообще ни слова, но в табличке у них столбец качества был низкий для Edit.
Аноним 16/01/26 Птн 13:20:18 1491240 335
Чем сейчас лучше всего еот раздевать и бг на пикче менять, чтобы ебало сохранялось?
Аноним 16/01/26 Птн 13:33:29 1491257 336
>>1491240
Руками раздевай. Будь мужиком, а не куколдом
Аноним 16/01/26 Птн 13:36:21 1491264 337
Аноним 16/01/26 Птн 15:00:56 1491329 338
ComfyUI00019.png 1122Кб, 720x1280
720x1280
Что у меня не так с ебучим Квеном 2512? Как будто вае кривая, модель и клип fp8 scaled под мою видюху. Я уже хуй знает, на всех воркфлоу такая залупа, размыто все, как будто напечатано на хуевой бумаге. Комфи последняя версия. Это могут быть драйвера видюхи?
Аноним 16/01/26 Птн 15:04:19 1491331 339
Аноним 16/01/26 Птн 15:07:06 1491333 340
>>1491331
Он суперпарашен для рисовки. Только для реалистодрочеров и годится
Аноним 16/01/26 Птн 15:25:50 1491344 341
>>1491078
>Посмотрим, что будет с FLUX.2 [klein].
Я пока что на huggingface.co/spaces сгенерировал пару картинок, причем в версии 4b, так как меня интересуют не абстрактные тесты в вакууме, а то что я лично смогу использовать на своем компе. Результат более-менее удовлетворительный, по крайней мере, не хуже чем в зимаге. С другой стороны, похоже на зимагу - с лорами и без - до неотличимости, так что шило на мыло... Может быть, в каких-то случай понимание промпта будет другим, но что-то ничего такого хитроумного для промпта сейчас в голову не приходит.
Да, меня в моих тестах интересует на фотореалистичность, а прежде всего стилизации вроде "graphic novell illustration". У FLUX.2 [klein] дефолтный стиль таких иллюстраций заметно отличается от зимаги без лор, но качество исполнения сравнимо.
Аноним 16/01/26 Птн 15:26:48 1491345 342
>>1491329
выглядит так как будто мало шагов
поставил 4 шага, забыв подключить ускорялку?
Аноним 16/01/26 Птн 15:47:20 1491360 343
image.png 47Кб, 610x556
610x556
2026-01-16-1546[...].png 1433Кб, 928x1664
928x1664
>>1491331
>>1491345
Это пиздец няхой, я зарефакторил удобный загрузчик Лоры (rgthree пикрил) на обычные последовательно подключенные друг за другом Lora Loader и все заработало. Во ВСЕХ воркфлоу что я качал с Цивита использовался именно rgthree. Не представляю как они могли не заметить что это говно не работает, либо проблема каким-то образом на моей стороне и я словил багу.
Буду теперь с нуля свои вокрфлоу собирать, впизду. Теперь надо разобраться с апскейлом...
Аноним 16/01/26 Птн 15:48:27 1491362 344
Ну и ясен красен тип входных и выходных данных у lora loader rgthree и обычных идентичный. Нода не работает как надо, но почему это происходит разбираться влом. Вдруг кому инфа поможет, если словите похожее.
Аноним 16/01/26 Птн 15:51:15 1491364 345
comfy.JPG 8Кб, 371x312
371x312
>>1490949
>В Templates ComfyUI добавили.
>FLUX.2 klein
Нет там этого.
Аноним 16/01/26 Птн 16:03:30 1491385 346
>>1491364
Батничек на обновление до актуальной версии запусти и перезагрузи ComfyUI.

У меня вчера появилось, потом пропало, потом опять появилось.
Аноним 16/01/26 Птн 16:07:07 1491391 347
>>1491360
Скорее баг на твоей стороне. Ещё есть Power LoRA Loader, я им пользуюсь, полёт нормальный.
Ты всё правильно сделал. В случае косяков надо на default всё ставить и пробовать. Меньше custom nodes без явной необходимости, меньше потенциальных проблем.
Аноним 16/01/26 Птн 16:08:17 1491394 348
>>1491360
Ещё забыл дописать. Если ты про апскейл пикрил, то посмотри в сторону SeedVR2.5
Аноним 16/01/26 Птн 16:13:37 1491407 349
>>1491385
Я только что портабельный комфи скачал и распаковал, и в нем нового темплейта нет.
Аноним 16/01/26 Птн 16:15:07 1491413 350
>>1491407
А почему он там должен быть? Ты думаешь, что для тебя весь дист собирают каждое минорное изменение?
git pull апдейт батник запускал?
Аноним 16/01/26 Птн 16:21:50 1491421 351
>>1490141
Достаточно просто не использовать рандомный сид, а каждый раз увеличивать на 1. Недостатков у этого никаких, то есть по факту результат все такой же случайный, зато всегда знаешь сид только что сгенерированной картинки.
Аноним 16/01/26 Птн 16:22:16 1491422 352
>>1491394
Не тяжеловато ли чтобы одну картинку заапскейлить? Или там результаты какие-то сногсшибательные в контексте аниме рисовки? Это ведь здоровенную модель загружать придется в память, она для видео предназначена в первую очередь
Аноним 16/01/26 Птн 16:26:18 1491425 353
>>1491413
Да, после апдейта действительно появился темплейт. Спасибо за подсказку. Я думал, что поскольку дист был собран вчера вечером, он во всех отношениях актуален.
Аноним 16/01/26 Птн 16:38:56 1491438 354
Аноним 16/01/26 Птн 16:43:05 1491441 355
>>1491421
Еще вдогонку - сид +1 устанаввать в Seed generator и его же подсоединить к Counter в Save image, а в filename добавить %counter. Это навсегда решит проблему забытого сида приглянувшейся картинки.
Аноним 16/01/26 Птн 16:46:13 1491442 356
>>1491441
Да, кстати, в принципе можно при этом ставить и рандомный сид. Однако в результате названия файлов картинок будут выглядеть чересчур хаотично и при сортировке по имени файла будет полный хаос. Это не каждому нравится.
Аноним 16/01/26 Птн 16:47:53 1491445 357
>>1491360
воркфлоу с цивита = бесплатно похавать говна
я юзаю power lora loader из того же rghtree кстати, лол, очень удобно и проблем не замечено
Аноним 16/01/26 Птн 16:48:56 1491448 358
>>1491445
А где ещё воркфлоу брать? Итт не любят делиться гейткип какой-то происходит
Аноним 16/01/26 Птн 16:50:46 1491450 359
Так, протестировал flux-2-klein-4b (не base!) у себя на компе - результат неудовлетворительный. Квадратные картинки еще более-менее, но чем больше вширь или ввысь тем ужаснее. К примеру, в 1088х1920 тихий ужас с анатомией, как в сд 1.5. На зимаге такого никогда не бывало. С flux-2-klein-base-4b чуть получше, но оно и генерирует в 9-10 раз дольше.
Аноним 16/01/26 Птн 16:52:31 1491452 360
>>1491450
нах тебе микроскопическая 4b когда есть 9b и ее fp8 версия
Аноним 16/01/26 Птн 17:14:36 1491474 361
>>1491448
а откуда вообще возникает потребность "брать воркфлоу"? это то самое ожидание что из новой черной коробочки выскочит неожиданный сюрприз?

забей чел, тех кто реально шарит за генерацию (я не из них) и реально шаманят с воркфлоу добиваясь необычных результатов буквально по пальцам пересчитать и на цивит они свои пикчи не выкладывают. там сидят только абобусы, делающие очередной авторский ебать 100 в 1 воркфлоу который выдает такой же результат как и максимально простой темплейт с комфи, если не хуже, если вообще заработает.
поэтому не еби голову и используй дефолтные темплейты и добавляй конкретный функционал по возникающим потребностям.
Аноним 16/01/26 Птн 17:14:54 1491475 362
>>1491421
>>1491441
Зачем эти изьебы, если на выходе пнгшка - это воркфлоу со всеми настройками?
Аноним 16/01/26 Птн 17:16:19 1491477 363
2026-01-161444-2.jpg 345Кб, 1920x1088
1920x1088
>>1491452
У меня только 12гб врам, а 9b весит 18.2 гб. Она будет сразу занимать рам, что вероятно приведет к слишком медленной генерации.
Этот flux-2-klein-4b подходит для пейзажей и объектов, в которых не критичны недочеты с геометрией, как например "a cozy farm house". Правда сфера применения таких картинок, "очень быстро, но никому не нужно", неясна.
Аноним 16/01/26 Птн 17:23:38 1491489 364
>>1491477
9b fp8 весит меньше 9гб
я сейчас на ней генерирую и примерно столько врама она и хавает

4b вообще не предполагается для генерации с нуля, максимум для простых эдитов, чтобы встраивать ее в приложухи всякие и т.д.
Аноним 16/01/26 Птн 17:49:02 1491525 365
Аноны а этот флюкс кляйн на 12 Гб видео + 16 ОЗУ можно запустить? Мне бы две картинки в одну склеить (посадить двух тянок на диван), квен Эдит не лезет в память, я бы нанобанану взял но она нсфв не пропускает...
Аноним 16/01/26 Птн 17:53:55 1491535 366
>>1491489
Дай, действительно flux-2-klein-9b-fp8 влезает в врам.
Она генерирует, конечно, получше, и с анатомией все равно постоянно ошибается, если композиции и позы хоть немного сложные. При этом выигрыш по скорости генерации по сравнению с зимагой турбо незначительный.
Аноним 16/01/26 Птн 17:55:10 1491536 367
>>1491525
озу мало, докинь еще 16
Аноним 16/01/26 Птн 17:56:53 1491541 368
>>1491535
зимага турбо это инвалид с отвратительной картинкой. здесь же картинка даже на 4 шагах очень чистая, без зимаговской плесени и артефактов квена
Аноним 16/01/26 Птн 18:23:32 1491597 369
>>1491525
Надо пробовать.
В принципе в ComfyUI, обычно идёт выгрузка в VRAM, когда её нехватает, выгружается в RAM, а когда заполняется и она, настаёт очередь насиловать SSD.
Со всякими MultiGPU узлами, да даже уже со встроенным механизмом выгрузки ComfyUI я уже давно OutOfMemory не ловил. Скорость падает сильно, но по крайней мере запустить разок можно.
Аноним 16/01/26 Птн 18:39:09 1491615 370
Аноним 16/01/26 Птн 19:06:05 1491644 371
Посоветуйте нейросети для анимации картинок.
Аноним 16/01/26 Птн 19:13:18 1491647 372
Аноним 16/01/26 Птн 19:16:38 1491652 373
>>1491644
> Посоветуйте нейросети для анимации картинок.
Wan 2.2
Аноним 16/01/26 Птн 19:18:10 1491654 374
Аноним 16/01/26 Птн 19:32:17 1491666 375
image.png 112Кб, 2382x846
2382x846
image.png 107Кб, 1055x1237
1055x1237
помогите!
Аноним 16/01/26 Птн 19:35:01 1491670 376
>>1484564 (OP)
Котаны поясните, чем klein отличается от klein-base, дата релиза одинаковая, в чем отличия?
Аноним 16/01/26 Птн 19:36:46 1491678 377
>>1491666
мне помогло комфи обновить
Аноним 16/01/26 Птн 19:36:54 1491680 378
Аноним 16/01/26 Птн 19:37:40 1491684 379
>>1491678
у меня декстоп версия. стоит последняя.
Аноним 16/01/26 Птн 19:37:46 1491685 380
.png 16Кб, 447x163
447x163
>>1491666
Норкоман?

>>1491670
> чем klein отличается от klein-base, дата релиза одинаковая, в чем отличия
Написано на странице модели. Тебе точно бейс не нужен, раз спрашиваешь.
Аноним 16/01/26 Птн 19:37:54 1491687 381
>>1491670
Обычный - это дистил 4-шаговый. База - 50 шаговая с cfg, для тренировки лор только пригодна.
Аноним 16/01/26 Птн 19:39:48 1491693 382
>>1491666
Это default workflow из ComfyUI? Всегда проверяй на default для troubleshooting.

Как вариант, сделай бэкап установки, а потом запусти батник, который Python и dependencies обновляет (батник от актуальной версии).
Аноним 16/01/26 Птн 19:40:58 1491695 383
>>1491693
>default workflow из ComfyUI

Да.
Аноним 16/01/26 Птн 19:40:59 1491696 384
>>1491541
слишком чистая, выглядит искусственно, на зимаге более реалистично

у турбозимаги картинка очень хорошая, зря ты

зимага отлично понимает анатомия, на кляйне надо завышать параметры что ведет к большему времени генерации
Аноним 16/01/26 Птн 19:41:22 1491698 385
>>1491693
>батник

В десктопе нет батников
Аноним 16/01/26 Птн 19:41:55 1491701 386
>>1491696
кстати да. пока зетка на голову выше. но я проверю еще , когда у меня заработает это говно
Аноним 16/01/26 Птн 19:42:37 1491703 387
2026-01-161455.jpg 547Кб, 1920x1088
1920x1088
>>1491541
Толсто
На пике типичная анатомия. Модель не справляется с элементарной позой сидящей женщины. Ну и бонусом идет "бесподовный". В надписях делает ошибки даже на латинице.
Аноним 16/01/26 Птн 19:44:46 1491712 388
>>1491698
А, тогда суши вёсла.

Использовать portable и апдейтить с git с помощью батника это база. Уже многократно тут говорили.
В portable релизах все новые фичи добавляются оперативно.

Десктоп версия обновляется позже всех и не все функции присутствуют.
Аноним 16/01/26 Птн 19:44:55 1491714 389
>>1491670
klein-base генерирует в 8-10 раз медленнее, чем просто klein.
Аноним 16/01/26 Птн 19:45:52 1491716 390
>>1491687
>>База - 50 шаговая
Ух бля, мне даже 10 много

Спасибо!
Аноним 16/01/26 Птн 19:47:12 1491723 391
>>1491712
портабл у меня глючит как пизда кобылы. десктоп летает.
Аноним 16/01/26 Птн 19:49:21 1491733 392
>>1491141
батч, нерусь ты сякой-этакий
Аноним 16/01/26 Птн 19:51:24 1491743 393
>>1491716
В default workflow ComfyUI для base ставят 20 шагов. И она бодро и быстро шагает, прямо семенит вприпрыжку.

Можешь выше примеры глянуть >>1491051
. Они не претендуют на настоящее сравнение, но на одном и том же prompt и настройках позволяют оценить базу и дистилл.
Аноним 16/01/26 Птн 20:15:08 1491773 394
Блять сколько хуйни уже высрали - и глм имаж, и хуйнякс новый, а базу зимы так и не выкатывают, а ведь только ее все и ждут. Как же они заебали. Чувствую будет повторении истории как с ван 2.5
Аноним 16/01/26 Птн 20:31:27 1491797 395
1248001-80s mov[...].jpg 2653Кб, 1248x1824
1248x1824
2003001-A fat o[...].jpg 1958Кб, 2016x1152
2016x1152
1350002-Art by [...].jpg 2216Кб, 1248x1824
1248x1824
2006001-A photo[...].jpg 2024Кб, 1248x1824
1248x1824
Проебы в плане анатомии и текста у нового флюкса конечно есть, и в целом он мне нравится меньше зетки, но все равно неплохо. Некоторые более абстрактные концепты вроде "нарисованная поверх реалистичного бекграунда птица" он схватывает куда лучше.
Аноним 16/01/26 Птн 21:10:41 1491837 396
>>1491450
>>1491452
>>1491477
Вот кстати да. Я протупил, хотел скачать на свой антиквариат (3060 12GB) 9B в fp8 - перепутал и скачал 16-ти битную, которая 18Gb весит. На тестовом workflow (1024х1024) из самой comfy - 2.5 s/it, 25-30 сек на картинку (дистил модель). При 1600x1200 - 5 t/s и 47 секунд. Так что, даже на такое старье, fp8, по сути, и не нужна, если обычной памяти хватает. (~25-30 заняло).

>>1491797
По первому впечатлению, по сравнению с ZIT - она чуть шустрее, и картинка чутка глаже (что как плюс так и минус). Кажется анатомия менее устойчива, третью руку она мне на третьей же картинке выдала. :) Хоть потом особого треша и не было больше.
Но на ее стороне есть один весомый плюс - edit режим, которого вообще больше нет ни у кого, в таком классе/размере. Монополист, пока, получается. Правда я этот режим еще толком и не тестил - может совсем бесполезная херня, а может таки вин для своего класса.
Аноним 16/01/26 Птн 21:12:15 1491839 397
>>1491837
>5 t/s и 47 секунд.
5 sес/t естественно. Исправил. :)
Аноним 16/01/26 Птн 21:56:21 1491885 398
единственный плюс кляйноговна что оно может в рисовачку адекватную изкаропки - всякий кавайных кись или вестерн анимейшен стайл, а так говно говном
Аноним 16/01/26 Птн 22:12:34 1491909 399
>>1491885
Вам что не выпусти, все говно. Flux неплохо так вес скинул с сохранением качества. Не будет одной универсальной модели локально, которая безупречна, если только лет через n (в заивисимости от скорости прогресса). Вместе Qwen, Flux, Zimage все потребности графики закрывают. Хули ныть, не понятно. Только оттого, что не ясно, что вообще надо.
Аноним 16/01/26 Птн 22:29:59 1491935 400
>>1491909
>Вместе Qwen, Flux, Zimage
Вот бы все объеденились и выпустили фул разъеб модель которая насаживает на кукан гемини или хотя бы как она делает, или грок, вот уже где соснут кабаны со своими подписками. А так сиди и пердолься, пока не выпадет удачный сид
Аноним 16/01/26 Птн 22:32:46 1491936 401
>>1491909
> Не будет одной универсальной модели локально, которая безупречна
Вопрос не в универсальности а в цензуре.
Аноним 16/01/26 Птн 22:41:52 1491948 402
ты кляйн
@
- Кляйн, генерируй "Иисус креветка сбрасывает бонби бонкерс на японию"
@
Норм, генерирую, нет проблем
@
- Кляйн, "Женщина без одежды показывает попу"
@
Кхем мням... вот тебе женщина в одежде... Что такое попа -_-


Почему так...
Аноним 16/01/26 Птн 22:51:17 1491958 403
Кляйн, "Мужчина в возрасте с маленькими усами под носом и зализанной челкой тянется правой рукой к солнцу в военной форме"
@
Получается зигующий Адольф
@
Кляйн, "Человек (женщина) стоит в позе на четвереньках, вид сзади, в нижнем белье"
@
Получается перекрученная абоминация неизвестного происхождения

Какие же мрази на блекфоресте сидят
Аноним 16/01/26 Птн 23:01:14 1491973 404
>>1491909
формулировка "модель говно" еще понятна
но ведь есть еще чудики которые на личности разрабов переходят, как будто за эти модели последние кровные отдали а их наебали, те мрази, те пидорасы, и все им чето должны бля)
Аноним 16/01/26 Птн 23:03:40 1491977 405
>>1491936
>>1491948
Таки стесняюсь спросить - вы ее хоть запускать пробовали?

А я пробовал. У Z, из коробки, с цензурой обнаженки как бы не хуже...

Я до сих пор в ахуе, но Лабы таки выкатили что-то, боле-менее удобоваримое в этом плане. Только то и напоминает о том, чья она, что если настойчиво не указывать "naked" 2-3 раза - пытается хотя бы тонкие стринги надеть. :)
Зато в нормальные соски может сама (у ZIT они - хм...) С маленьким нюансом - в промпте надо прямо писать "соски и ареолы", иначе ленится.
Показательный случай, пробовал edit на позы. Исходник - фото голой женщины которая грудь прикрыла рукой. Заказал: перемести руку с груди ко рту (типа поза испуга, прикрыв рот чтобы получилась). Первая же попытка - все сделано, но открывшаяся грудь - анатомия манекена. Дописал в промт "... и теперь видно соски с ареолами" - поняла, и сделала как надо.
В режиме edit при переносе фигуры с одной картинки на другую сиськи-письки тоже переносит.
Edit вообще хорош в понимании чего от нее хотят. Утверждать не буду, но по личному впечатлению - квен сосет. Делает любой заказ - и позу, и стиль, раздеть, одеть, поменять персонажа с картинки 1 на персонажа с картинки 2 - целиком или только детали. Или даже взять с картинки 2 анимешного персонажа, сделать из него фото, и добавить на картинку 1. Правда, есть тонкость - к артиклям английского чувствительна. Иногда крайне важно - написано в запросе без артикля, с "a" или "the".
Такие вот впечатления пока...

P.S. Кручу пока 16-битный 9B дистил с 8b fp8mixed энкодером.
Аноним 16/01/26 Птн 23:07:03 1491987 406
Кляйн, "лоли"
@
Аксес денайд
@
Кляйн, "
>>1491977
> А я пробовал. У Z, из коробки, с цензурой обнаженки как бы не хуже...
У зетки все ок, особенно на клипе -3 и ниже. У хуяйна просто режекты на всем что отдаленно пересекает нсфв
Аноним 16/01/26 Птн 23:08:18 1491988 407
>>1491987
Кляйн, "лоли"
@
Аксес денайд
@
Кляйн, "расстрел митингующих"
@
Держи
Аноним 16/01/26 Птн 23:09:41 1491991 408
Аноним 16/01/26 Птн 23:27:36 1492003 409
>>1491973
Вставили палки в жопу => наебали
Аноним 17/01/26 Суб 00:40:58 1492064 410
Лично мне кляйн не зашел. Анально-огороженное говно!
Аноним 17/01/26 Суб 00:43:05 1492065 411
Аноним 17/01/26 Суб 01:11:30 1492086 412
Flux2-Klein00001.png 3451Кб, 1440x1440
1440x1440
Flux2-Klein00005.png 3372Кб, 1440x1440
1440x1440
В продолжение вчерашних экспериментов >>1491051 решил из любопытства проверить вариант >>1491837 когда узнал о том, что есть не fp8 вариант.

Не менял ничего, кроме файлов моделей.
Все настройки генерации повторены из прошлой серии постов. В том числе и text encoder qwen_3_8b_fp8mixed.safetensors, чтобы менять только один фактор (в данном случае файл модели).
Выкачал qwen_3_8b.safetensors, но пока не решил, нужна ли ещё одна серия уже с ним.
Про FLUX.2 dev и так всё понятно с прошлого раза, поэтому здесь будут только fp8 и не-fp8 рядом.

Flux2-Klein_00001_.png — FLUX.2 [klein] (flux-2-klein-base-9b-fp8.safetensors), 20 steps;
Flux2-Klein_00005_.png — FLUX.2 [klein] (flux-2-klein-base-9b.safetensors), 20 steps;
Аноним 17/01/26 Суб 01:14:01 1492089 413
Flux2-Klein00002.png 3487Кб, 1440x1440
1440x1440
Flux2-Klein00006.png 3490Кб, 1440x1440
1440x1440
Flux2-Klein_00002_.png — FLUX.2 [klein] (flux-2-klein-9b-fp8.safetensors) (distill), 4 steps;
Flux2-Klein_00006_.png — FLUX.2 [klein] (flux-2-klein-9b.safetensors) (distill), 4 steps.
Аноним 17/01/26 Суб 01:16:39 1492092 414
Flux2-Klein00003.png 3384Кб, 1440x1440
1440x1440
Flux2-Klein00007.png 3391Кб, 1440x1440
1440x1440
Flux2-Klein_00003_.png — FLUX.2 [klein] (flux-2-klein-base-9b-fp8.safetensors), 20 steps;
Flux2-Klein_00007_.png — FLUX.2 [klein] (flux-2-klein-base-9b.safetensors), 20 steps.
Аноним 17/01/26 Суб 01:18:04 1492093 415
Flux2-Klein00004.png 3558Кб, 1440x1440
1440x1440
Flux2-Klein00008.png 3576Кб, 1440x1440
1440x1440
Flux2-Klein_00004_.png — FLUX.2 [klein] (flux-2-klein-9b-fp8.safetensors) (distill), 4 steps;
Flux2-Klein_00008_.png — FLUX.2 [klein] (flux-2-klein-9b.safetensors) (distill), 4 steps.
Аноним 17/01/26 Суб 01:19:13 1492095 416
вроде неск лет прошло с зарождения стейбл дифьюжена, а пластилин как был, так и остался
Аноним 17/01/26 Суб 01:20:26 1492096 417
Flux2-Klein-9b-[...].png 3461Кб, 1440x1440
1440x1440
Flux2-Klein-9b-[...].png 3482Кб, 1440x1440
1440x1440
Flux2-Klein-9b-edit_00001_.png — FLUX.2 [klein] (flux-2-klein-base-9b-fp8.safetensors), 20 steps;
Flux2-Klein-9b-edit_00005_.png — FLUX.2 [klein] (flux-2-klein-base-9b.safetensors), 20 steps.
Аноним 17/01/26 Суб 01:27:22 1492102 418
Flux2-Klein-9b-[...].png 3351Кб, 1440x1440
1440x1440
Flux2-Klein-9b-[...].png 3394Кб, 1440x1440
1440x1440
Flux2-Klein-9b-edit_00002_.png — FLUX.2 [klein] (flux-2-klein-9b-fp8.safetensors) (distill), 4 steps;
Flux2-Klein-9b-edit_00006_.png — FLUX.2 [klein] (flux-2-klein-9b.safetensors) (distill), 4 steps.

Я понимаю, что такая выгрузка не лучший вариант. Может кто-нибудь посоветует какой-нибудь сервис типа: https://imgsli.com/ куда можно заливать, чтобы потом можно было двигать слайдер и сравнивать два изображения рядом.

Здесь были Аноны, которые автоматизировали процесс генерации, собирали grid, но я выкидываю изображения в том виде в котором они получаются сразу после генерации, чтобы не допускать их искажения.
Аноним 17/01/26 Суб 02:25:40 1492131 419
Духи сети, короче, пилю свой проектик, суть такая, генерация 40 панелей с динамичным разрешением и выхватыванием общей консистенции последовательного повествования.
Что только не перепробовал и какие связки не использовал, выходит все не то. Короче, подскажите, что нынче худ текст воспринимает лучше всего. Хотя бы на уровне срано бананы, но чтоб на локалке развернуть
Аноним 17/01/26 Суб 02:31:29 1492137 420
>>1484564 (OP)
>Fooocus
Уберите из шапки при андеркоте этот воняющий труп.
Аноним 17/01/26 Суб 02:49:36 1492143 421
>>1492102
>>1492096
>>1492093
>>1492092
>>1492089
>>1492086
Хоспади, какое же мыло. Сколько еще вы будете уринотерапией заниматься на недоделках, сойджекая каждый раз про гейм-чейнджер и СОТА-результаты.

Ну говно говна же БФЛ катнул, потому что с Флаксом2 обосрались: пока тренили свою красотулю, крупняк катнул свои нано-бананы и гпт-имаджи и внезапно Флакс нахуй никому не нужен стал.

Прямо на входе в тред прибейте гвоздями, что последняя нормальная модель для локальных утех - это SDXL и бесконечные вариации ее тюнов. После нее генеративный мир сожрали ущемленцы всех мастей и форм.
Аноним 17/01/26 Суб 02:54:12 1492146 422
>>1492131
>пилю свой проектик
ага, ща тебе анон тут все разжует, чтобы тебе было легче симпов на бусте доить своим проектиком про фури\анимэ\rule34.
Знаешь сколько раз с таким вопросом сюда приходили за 3 года тематики?
>то нынче худ текст воспринимает лучше всего
Мозг, руки, графические пакеты.
Аноним 17/01/26 Суб 02:58:20 1492149 423
>>1491909
ты только что описал самую распостраненную проблему нити тредов - скил ишью.
Когда в голове есть понимание, то в свое время и на SD 1.4 анон такую платину делал - загляденье. Но пришло суровое время смарфонных порриджей, которые двух слов связать нормально не могут и от этого у них все вокруг виноваты.
Тут, кстати семенит еще шиз, который каждую гену треда говном поливает или в стационар уехал?
Аноним 17/01/26 Суб 03:03:19 1492154 424
>>1492149
Да вон он - буквально на два сообщения выше твоего. :)
Аноним 17/01/26 Суб 05:40:44 1492209 425
Каким воркфлоу можно реставрировать фотки? Supir работает странно. Он иногда не изменяет фото совсем, будто не распознал изображение, а иногда изменяет лицо до неузноваемости, хотя какой-нибудь примитивный gfpgan выдавал результат лучше. SeedVR я так понял годится только для апскейла сгенерированных изображений.
Аноним 17/01/26 Суб 05:57:24 1492212 426
>>1492209

Нужно в терминологии сначала разобраться.
Всё-таки, тебе нужно реставрировать/ретушировать?

Я загугил https://supir.xpixel.group/ и если это оно, то делает оно то, что делает SeedVR2.5. А именно, увеличение разрешения изображения с добавлением небольшого количества несуществующих деталей.
Дефекты изображения оно не убирает. Оно бережно относится к исходному изображению и может, наоборот, усилить существующие дефекты.

Если речь идёт именно о ретушировании/реставрации, скажем, архивных фотографий, то здесь напрашивается какая-нибудь модель с Edit-функционалом (из локальных есть разные варианты, каждый со своими особенностями: Qwen-Image-Edit, Qwen-Image-Edit-2509, Qwen-Image-Edit-2511, FLUX.2 dev, теперь ещё и упрощённый FLUX.2 [klein]), которым можно написать prompt именно на устранение дефектов изображения.
Аноним 17/01/26 Суб 06:03:59 1492213 427
1768619038450.jpg 436Кб, 1080x735
1080x735
1768619038464.jpg 227Кб, 1080x419
1080x419
1768619038481.jpg 424Кб, 1080x778
1080x778
1768619038501.jpg 467Кб, 1080x918
1080x918
>>1492209
Контекст, кляйн, квен - всеми можно реставрировать. Кароче любые едит модели могут в реставрацию, зависит от твоих скиллов, промта и усидчивости. Ну и ван еще неплохо делает, хотя он не едит. На пиках приколы из вана.
Аноним 17/01/26 Суб 06:10:29 1492214 428
old-photo-12469[...].jpg 362Кб, 807x1280
807x1280
Flux200028.png 2802Кб, 1440x1440
1440x1440
>>1492209
Вот тебе пример на fp8 FLUX.2 dev.
Первый раз пробую, в качестве концепта.

prompt:
Restore the damaged photography from image 1, reconstruct missing details, sepia.

Вопрос не изучал (должны быть guides по реставрации фото), prompt навскидку сочинил.
Аноним 17/01/26 Суб 07:03:30 1492233 429
FLUX.2 [klein] (flux-2-klein-base-9b.safetensors 20 steps, flux-2-klein-9b.safetensors 4 steps) сравнение text encoders qwen_3_8b_fp8mixed.safetensors и qwen_3_8b.safetensors.
Все настройки воспроизведены как в >>1491051 и >>1492086 соответственно:

В общем, не нашёл как нормально сделать, чтобы здесь тред не засирать.
Вот список файлов изображений:

FLUX.2 [klein] qwen_3_8b_fp8mixed.safetensors vs qwen_3_8b.safetensors (flux-2-klein-base-9b.safetensors 20 steps, flux-2-klein-9b.safetensors 4 steps)

(A.png) Flux2-Klein 00005 — qwen_3_8b_fp8mixed.safetensors (base 30 steps)
(B.png) Flux2-Klein 00009 — qwen_3_8b.safetensors (base 30 steps)
(C.png) Flux2-Klein 00006 — qwen_3_8b_fp8mixed.safetensors (distill 4 steps)
(D.png) Flux2-Klein 00010 — qwen_3_8b.safetensors (distill 4 steps)
(E.png) Flux2-Klein 00007 — qwen_3_8b_fp8mixed.safetensors (base 30 steps)
(F.png)Flux2-Klein 00011 — qwen_3_8b.safetensors (base 30 steps)
(G.png)Flux2-Klein 00008 — qwen_3_8b_fp8mixed.safetensors (distill 4 steps)
(H.png) Flux2-Klein 00012 — qwen_3_8b.safetensors (distill 4 steps)
(I.png) Flux2-Klein-9b-edit 00005 — qwen_3_8b_fp8mixed.safetensors (base 30 steps)
(J.png) Flux2-Klein-9b-edit 00007 — qwen_3_8b.safetensors (base 30 steps)
(K.png) Flux2-Klein-9b-edit 00006 — qwen_3_8b_fp8mixed.safetensors (distill 4 steps)
(L.png) Flux2-Klein-9b-edit 00008 — qwen_3_8b.safetensors (distill 4 steps)

Вот ссылка на файлохранилище с возможностью просмотра изображений: https://limewire.com/d/YS15j#8cOGsAHFMq
(ссылка откиснет через неделю).

Файлы переименованы так, чтобы отображались парами qwen_3_8b_fp8mixed.safetensors затем qwen_3_8b.safetensors
Можно просто переключать туда-сюда и смотреть на отличие в деталях.
Халявного фотохостинга с возможностью side by side отображения я не нашёл.
Аноним 17/01/26 Суб 09:15:59 1492277 430
>>1492233
Ты зачем этим идиотизмом занимаешься? Нужно использовать аблитерейтед квен, а не сток. Он в 80% случаев делает всё на голову лучше. Настолько что один и тот же промпт на обычном делает расчленёнку, а на абле всё норм.
Аноним 17/01/26 Суб 09:22:42 1492281 431
>>1492131
> Хотя бы на уровне срано бананы
> Хотя бы
> срано бананы
> Хотя бы
> пилю свой проектик
Лицо шиза и его "проектик" с таким пониманием темы я даже представлять не хочу
Аноним 17/01/26 Суб 09:39:20 1492295 432
>>1492277
>аблитерейтед квен
а где его взять-то, анонче (именно который энкодер)
пожалуйста
Аноним 17/01/26 Суб 10:05:39 1492306 433
>>1492277
> один и тот же промпт на обычном делает расчленёнку, а на абле всё норм
вроде должно быть наоборот, не?)
Аноним 17/01/26 Суб 10:28:09 1492315 434
>>1492212
Я не знаю как это назвать. Мне не нужна такая реставрация как в постах ниже, но и не нужна ретушь, которая превращает лица в резиновых кукол. Мне нужно чтобы нейронка расшакалила фотку, дорисовала детали максимально правдоподобно.
Аноним 17/01/26 Суб 10:36:38 1492320 435
>>1492295
https://huggingface.co/huihui-ai/Qwen3-8B-abliterated
>>1492306
Попробуй бабу сгенерировать лежащую на коленях у мужика сидящего на диване. Обычный энкодер делает расчленёнку контент, абла всё ровно. Даже деградации в качестве как бывает у Z при использовании аблы не замечено.
Z-Image-Turbo-Fun-Controlnet-Union Аноним 17/01/26 Суб 10:49:41 1492324 436
image.png 2281Кб, 1200x1600
1200x1600
image.png 695Кб, 1510x845
1510x845
Кто-нибудь вообще щупал этого зверя? В моих шаблонах есть только один контролнет для зетки, и только с этой штукой. Я его покрутил, вроде что-то своял (не знаю правильно-ли). Есть один нюансик, я не могу на ксамплере выставить не то что-бы еденицу, а даже 0.91, контролнет проёбывается, поза исчезет сколько-бы я не поднимал стрент на референсе. (0.9) это предел, в связи с этим картинка получается несколько плосковатая, кфг от 1.3 до 1.6 тоже не решает. Такое качество приемлимо в зетке, или я дохуя хочу? Лоры пробовал байпасить на качестве это практически не отражается.
Аноним 17/01/26 Суб 10:58:56 1492329 437
>>1492320
Спасибо. Хотя для такого контента лучше использовать Chroma, она и понимает хорошо, и рисует не залупаясь.

А сэйфтензорс одним файлом где-нить есть? GGUF клип лоадер не умеет выгружать энкодер в оперативку (обычный умеет), а без выгрузки падает по ООМ.
Аноним 17/01/26 Суб 11:26:37 1492346 438
>>1492324
чего ты пытаешься добиться? ты вообще знаешь что такое контролнет и как его использовать?
Аноним 17/01/26 Суб 12:25:25 1492384 439
>>1492315
>не нужна ретушь
>нужно чтобы нейронка расшакалила фотку, дорисовала детали
Тебе нужна именно ретушь. Любое дорисовывание подразумевает ретушь. Реставрация - это про сохранение оригинала.
Используй любые edit сетки. Проще всего - нанобанану.
Аноним 17/01/26 Суб 12:40:44 1492404 440
>>1492346
Img2img я хочу взять сдхл картинку в качестве референса и перевоссоздать её на новой модели. Допрос закончен?
Аноним 17/01/26 Суб 13:35:01 1492489 441
>>1492404
допрос? чел, это у тебя возникли вопросы
а возникли они потому что ты пихаешь обычную пикчу в контролнет вместо контроль изображения
Аноним 17/01/26 Суб 13:53:09 1492510 442
>>1492489
>обычную пикчу
ты не поаеришь, конечно, но имг2имг именно так и работает
Аноним 17/01/26 Суб 14:12:41 1492533 443
>>1492510
ты не понил, у тебя из изображения должно быть получено специальное гайдовое изображение для контролнета, конкретно юнион зимага поддерживает Canny, HED, Depth, Pose и MLSD
Аноним 17/01/26 Суб 14:14:07 1492541 444
>>1492510
услышал тебя родной
Аноним 17/01/26 Суб 14:17:52 1492550 445
>>1492533
>Canny, HED, Depth, Pose и MLSD
нарисуй поверх картики куда канни подрубать, или готовый скрин покажи
Аноним 17/01/26 Суб 14:21:22 1492558 446
image.png 227Кб, 936x511
936x511
Аноним 17/01/26 Суб 14:37:59 1492608 447
>>1492558
спасибо, попробую...
Аноним 17/01/26 Суб 15:01:22 1492647 448
Пару лет в тред не заходил. Точнее последний раз заходил, когда только-только появилась Flux и большинство анонов генерило на Пони.

Так вот вопрос - появились ли локалки, которые по точности следования промту приблизились к Нано-банану или Соре?
Или все также по старинке тегами промтите?
Аноним 17/01/26 Суб 15:20:01 1492681 449
>>1492647
>старинке тегами
только боро-теги, брат. Дух старой школы живет в danboro, где парни ебашатся по хардкору, где дух старой школы...нутыпонел
>которые по точности следования промту приблизились к Нано-банану или Соре?
любая с ллм-энкодером.
Аноним 17/01/26 Суб 15:24:51 1492686 450
>>1492681
>любая с ллм-энкодером.
Можно поподробнее? Что почитать?

Кстати еще заметил что у всех в треде Комфи. Автоматиком уже не пользуются?
Аноним 17/01/26 Суб 15:54:28 1492733 451
>>1492686
про natural language prompting почитай

Автоматик умер, проекты пытающиеся его воскресить тоже успели родиться и умереть, есть живые врапперы для комфи с автоматикоподобным интерфейсом, но это такое себе, для совсем необучаемых. С внедрением сабграфов в комфи появилась возможность упаковать всю лапшу настолько компактно, насколько хочется, и на этом фоне уже статичные интерфейсы аля автоматик кажутся уродливым раздутым чудовищем (хотя по хорошему так было всегда)
Аноним 17/01/26 Суб 16:45:30 1492810 452
image.png 747Кб, 1080x652
1080x652
https://x.com/bdsqlsz/status/2012022892461244705

От надежного источника информации:
Что ж, мне нужно опубликовать больше информации. Z-image находится на заключительном этапе тестирования, хотя это и не Z-видео, но будет базовая версия Z-Tuner, содержащая все коды обучения, от предварительного обучения SFT до обучения RL и дистилляции.

И в ответ на вопрос о том, сколько времени это займет: Это не займет много времени, это действительно скоро.
Аноним 17/01/26 Суб 17:12:51 1492854 453
>>1492324
Ты треды посещал? Всё было с примерами. Глубина, инпейнт.
Аноним 17/01/26 Суб 17:46:37 1492919 454
>>1492384
Переведите для ламера. Что качать?
Аноним 17/01/26 Суб 18:26:30 1492982 455
ComfyUI-Conditi[...].png 252Кб, 1905x1593
1905x1593
>>1492277
Делая вывод по твоему говённому отношению, вообще не было желания тебе отвечать. Этот ответ больше для Анонов, которым ты авторитетно затираешь о сомнительных вещах.

Я сравниваю обычный и FP8 вариант text encoder и его влияние на результат генерации. Зачем ты влез с советом вообще про другое, непонятно.

Но, раз уж ты поднял тему использования abliterated версий text encoderов, то:

Это ты вводишь в заблуждение.

Вас здесь двое таких.
Один беспруфно говорит о том, что использование обычных версий никак не влияет на процесс формирования conditioning (эмбеддингов, полученных в результате работы text encoder), и цензура односторонняя, только при использовании для вывода обработанного llm запроса >>1484004 →
Ты точно так же беспруфно заявляешь о том, что abliterated версия позволяет то, что не даёт обычный text encoder даже на этапе перегона токенов в эмбеддинги.
Сравнения conditioning на выходе узла CLIP Text Encode, которые могли бы стать неким пруфом не предоставил ни один из вас. Бремя доказательства лежит на утверждающем.

Тот вариант, который ты посоветовал по ссылке, автор не рекомендует использовать:

>Important Note There's a new version available, please try using the new version huihui-ai/Huihui-Qwen3-8B-abliterated-v2.

Потому что:

>Important Note This version is an improvement over the previous one huihui-ai/Qwen3-8B-abliterated. The ollama version has also been modified.

>Changed the 0 layer to eliminate the problem of garbled codes

Я давно уже пробовал https://huggingface.co/huihui-ai/Huihui-Qwen3-8B-abliterated-v2 (вторую редакцию) и писал, что в моём случае радикальных улучшений я не заметил. Только я понимаю, что это исключительно моё субъективное мнение, не подкреплённое пруфами. Поэтому не выдаю его за истину, как это делаешь ты.
Ещё раз повторюсь, бремя доказательства лежит на утверждающем.

Косвенным подтверждением твоей позиции является вот это упоминание, правда в другом контексте другой модели:
https://github.com/wildminder/awesome-ltx2?tab=readme-ov-file#gemma-3-12b-abliterated
Там беспруфно написано:

>Even when the model doesn't explicitly refuse a request, this internal filtering can dilute creative intent. For LTX-2 video generation, using a standard encoder often results in:

>Reduced Prompt Adherence: Key stylistic or descriptive terms may be ignored or weakened.
>Visual Softening: Visual intensity and fine details are often "muted" to fit generic safety profiles.
>Concept Dilution: Complex or niche creative requests are subtly altered, leading to less faithful representations of your vision.

>Abliteration bypasses these restrictive alignment layers, allowing the encoder to translate your prompts into embeddings with maximum fidelity. This ensures LTX-2 receives the most accurate and un-filtered instructions possible.

И тут же:

https://www.reddit.com/r/StableDiffusion/comments/1q9o8fd/comment/nyxcjuw/?force-legacy-sct=1

>You were right - abliteration probably has negligible effect for LTX-2 specifically. Maybe other abliterations are different, at least for this heretic version these are the results. Overall it's being good to learn all this as I am not sure if anyone has dived in this deep.

>Still I prefer to use the abliterated text encoder, just something subtle about the results which are better. Although it certainly could be placebo.

Здесь хотя бы попробовали замерить cosine similarity между обычной и abliterated версиями (пусть и другой модели), а не голословно что-то утверждать.

Теперь по существу:

Я пока не знаю как сравнить conditioning на выходе CLIP Text Encoder с помощью cosine similarity (а это именно та метрика, которая позволяет получить некое представление о значении расхождения векторов в обычной и abliterated модели).

Сначала я пошёл по тупому пути пикрелейтед (как умею): просто вытащил conditioning в каждом из случаев в текстовое представление с помощью узла ConditioningToBase64 от RES4LYF и сравнил эти файлы между собой (допускаю, что это вообще неверный подход и так с эмбеддингами вообще не работают, так как пишут, что всё-таки надо оценивать через метрику cosine similarity; или какие-то ещё, о которых мне ещё не известно, так как в эту кроличью нору лезть вообще не хотелось; хотелось просто картиночки генерировать, а не вот это всё).

Единственное, что пока могу сказать, содержимое файлов «дампа» conditioning отличается. Это косвенно свидетельствует о том, что conditioning получается разный на разных вариантах text encoder. Кроме нескольких совпадающих «блоков», очень много различий.
Кто захочет сравнить самостоятельно, файлы ещё неделю будут здесь: https://limewire.com/d/sJwAR#1c0YhxzdT1
Аноним 17/01/26 Суб 18:32:16 1492990 456
>>1492982
Быстрофикс:

Промахнулся:
>Один беспруфно говорит о том, что использование обычных версий никак не влияет на процесс формирования conditioning (эмбеддингов, полученных в результате работы text encoder), и цензура односторонняя, только при использовании для вывода обработанного llm запроса >>1484004 →

Я >>1484011 → имел в виду, когда писал это.
Аноним 17/01/26 Суб 18:37:28 1493003 457
>>1492277
>Нужно использовать аблитерейтед
Таблетки.
Это тебе не обычный ллм инференс.
Аноним 17/01/26 Суб 18:49:50 1493023 458
>>1492277
Слушай тут энкодер не поможет если у модели в датасете нет писика сисика
Аноним 17/01/26 Суб 19:41:56 1493079 459
>>1493023
(третий мимокрокодил)
... Но судя по тому, что при edit переносах она переносит и сиськи-письки - в датасете они у нее таки есть...
Да и просто в T2I запросах она как минимум сиськи делать может.
Возможно, здесь как раз энкодер поможет с ее излишним желанием натягивать трусы, или ставить в позу, где того что между ног - не видно из-за ракурса...
В общем - просто пробовать надо, там и видно будет. Скачаю - посмотрю...
Аноним 17/01/26 Суб 19:49:56 1493089 460
>>1492810
>но будет базовая версия Z-Tuner
А вот ето отлично на самом деле. Надеюсь там будет несложно прикрутить квантизацию, кастомные лоссы, оптимайзеры и тд и тп.
Аноним 17/01/26 Суб 20:12:23 1493102 461
>FLUX.2-klein-4B vs FLUX.2-small-base-9B
А что по поводу видеопамяти? Читаю аннотацию на фейсе: 4В для видеокарт в 13 Гб, читаю это же на гитхабе - уже влезает в 8 Гб. Сколько по факту занимает? Мои ноутбучные 16 гигов потянут?
Аноним 17/01/26 Суб 20:27:03 1493114 462
>>1492982
Ты правда думаешь что твою хуйню кто-то будет читать, еблан? Нужны пруфы пиздуй на 2 треда назад где постили сравнения аблы и не аблы на Z-image или на цивитай где делали тоже самое. А эту претенциозную хуйню себе в очко запихай, уебище.
Аноним 17/01/26 Суб 20:29:32 1493121 463
>>1493102
>>1493102
>4В для видеокарт в 13 Гб, читаю это же на гитхабе - уже влезает в 8 Гб. Сколько по факту занимает?
В зависимости от квантования. Можно и в 8 упаковать, можно оригиналы в бф16 в 16 гигов.
Аноним 17/01/26 Суб 20:32:17 1493126 464
>>1493102
на фейсе почти всегда пишут требования для fp32 весов, хотя выкладывают fp16, или хуярят навскидку потому что им тупо похуй.
ориентируйся на вес модели (+ текст энкодер) в гигабайтах и на свой размер оперативы в первую очередь, размер врама тут вторичен.

9b занимает 8-9гб врама при генерации в стандартном разрешении, 4b это малютка вообще, забудь про нее
Аноним 17/01/26 Суб 20:36:54 1493134 465
>>1484004 →
Так ты ещё еблан который клипскип отрицает? Z-image буквально не работает без клип скипа хотя бы 8, он просто в 2 раза хуже слушается промпта. Берёшь любой комплексный промпт с голой бабой и сложной композицией, хуяришь без клип скипа и на 8 клип скип. Без клип скипа 8 Z-image будет всячески пытаться сгенерить одетую бабу и не в той позе которую ты хочешь. Там разница буквально небо и земля.
Аноним 17/01/26 Суб 20:41:07 1493140 466
>>1493126
Тоесть, 9В влезет в 32 оперативы и 16 видео и не сожрет ссд?
Аноним 17/01/26 Суб 20:50:07 1493157 467
>>1493140
9b влезает и в 12гб врама полностью...
Аноним 17/01/26 Суб 20:51:25 1493162 468
>>1493023
Зачем тебе сисик и писик? У флакса всё очень плохо с анатомией из-за цензуры. Если ты посмотришь на сравнения, к примеру того же ai search, флакс вообще не может в позы которые z-image или qwen проще простого генерит. Абла частично эту проблему решает и даёт делать позы которые с дефолтным энкодером не сделаешь. Там куча тонкостей и я этих сравнительных прогонов на абле и не абле миллион сделал с выхода Z-image. Но если Z-image может проебывать качество изображения из-за аблы, то у флакса даже такой проблемы нет
Аноним 17/01/26 Суб 21:19:58 1493190 469
>>1493157
Я так правильно понимаю, что нужна обычная 9B?
Аноним 17/01/26 Суб 21:26:09 1493192 470
>>1493190
База для тренинга или если ты шизик любишь терпеть 30-50 шагов пару минут, вторая для обычного быстрогена в малошагов на 1 цфг.
Аноним 17/01/26 Суб 22:20:22 1493232 471
А кто нибудь делал сравнение FLUX.2-klein-9B distil vs FLUX.2-dev - 8step distil lora? Может все таки второе то получше будет из за размеров параметров таки? И если у тебя RAM хватает
Flux 2-анон который тут ее юзает активно тестил? Или я пропустил
Аноним 17/01/26 Суб 22:31:20 1493252 472
>>1493192
>30-50 шагов пару минут
что ты несешь? 33-40 секунд на базовой версии.
Аноним 17/01/26 Суб 23:07:55 1493292 473
>>1493232

Подробно не проверял (мне эта ускорялка не очень нравится).
Но один пример сюда выложил (для edit).

>>1491078
Аноним 18/01/26 Вск 00:08:40 1493381 474
>>1493157
додик, как 9B влезер в 12 VRAM?
Если у тебя gguf - так и пиши, не вводи в заблуждение анона.

9B distilled — 4 step· ~2 sec. · 19.6GB VRAM
9B base — 50 step· ~35 sek· 21.7GB VRAM
Аноним 18/01/26 Вск 00:20:04 1493387 475
Аноним 18/01/26 Вск 00:43:09 1493412 476
>>1493381
бля я бы таких как ты пермачом хуярил просто, чтобы в заблуждение анонов не вводили
Аноним 18/01/26 Вск 00:45:12 1493416 477
Аноним 18/01/26 Вск 00:48:44 1493422 478
>>1493387
>5.76gb официальный
приносит трясущимися ручонками ссыль на квантованую версию
>>1493412
>пермачом хуярил
себя захуярь датасаентист мамкин.
Аноним 18/01/26 Вск 00:57:07 1493433 479
>>1493422
>приносит трясущимися ручонками ссыль на квантованую версию
Ты против оптимизации чтоли, ебло ослиное?
Аноним 18/01/26 Вск 01:00:09 1493440 480
/nf
Аноним 18/01/26 Вск 01:04:17 1493446 481
>>1493433
>Ты против оптимизации
я против пиздежа. Ты вскукарекнул , что 9B лезет в 12 гб, не уточнив, что ты пизданул про квантованную версию.
Вангую инбифор: какая разница, ряяя!
Разница в том что, твой любимый дилдачелло влезет тебе в анус, а вот мой десятидюймовый алмазный резец разорвёт тебе его на ромашку. И то и то технически - хуй, но разница есть, теперь понимаешь, утырок?
Аноним 18/01/26 Вск 01:06:39 1493450 482
>>1493422
чел, ты абобус который в январе 2026 года не вдупляет что у любой модели пишутся требования предполагая что она будет целиком находиться в враме, когда на домашних компах это невозможно в принципе и модель всегда частично или полностью скидывается в оперативку, так что реальное использование врам намного ниже.
Аноним 18/01/26 Вск 01:09:38 1493453 483
>>1493446
>что 9B лезет в 12 гб, не уточнив, что ты пизданул про квантованную версию
Это подразумевается. Никто не будет оригинальные веса предлагать большинству юзать, потому что у большинства нет 5090. Иди на хуй кароче.
Аноним 18/01/26 Вск 01:14:35 1493464 484
>>1493453
баляяя, раздался голос со стороны ггуф-параши
сколько раз уже написали в треде что fp16/fp8 9b хавает 9гб врам (возможно и в 8 влезет при 32 оперы), выбрось дрянь гуферскую сукааааа
Аноним 18/01/26 Вск 01:18:45 1493467 485
>>1493464
ты предлагаешь ждать пока будет перекидывать модельки из врама в рам и обратно? не у всех ддр5 чтобы не замечать это
Аноним 18/01/26 Вск 01:20:50 1493469 486
>>1493450
>>1493453

ожидаемо - виляние жопой. Подразумевается у него блядь.
Просто признай, что ты обосрался и извинись.
Аноним 18/01/26 Вск 01:22:28 1493471 487
>>1493469
просто признай что ты токсичный педик с 5090
Аноним 18/01/26 Вск 01:31:20 1493474 488
>>1493467
> ты предлагаешь
читать умеешь? это то как генерация по факту происходит на домашних компах, только если ты не юзаешь sdxl на 24гб карточке

зачем что-то замечать если можно придумать свой манямирок и жить в нем, попутно покачивая ггуфы и написывая в тредик на дваче. даже если ггуфы один хер больше чем размер врама, то подозрений у двачеров это все еще не вызывает...
Аноним 18/01/26 Вск 01:44:58 1493476 489
image.png 39Кб, 724x515
724x515
>>1493469
долбоеб, ты отвечаешь двум разным людям, только говной воняет от тебя (и немного от гуфера)

вот скрин потребления 9b fp8, жрет ~9 гигов при генерации из них еще что-то уходит на открытые графические редакторы с мессенджерами и браузерами.
Аноним 18/01/26 Вск 01:53:52 1493479 490
>>1493476
родной, никто не спорит что в FP8 залетает в 9 гигов. Ты не понял про что я?
Полная точность никак не может влезть в этот размер, так понятнее
Аноним 18/01/26 Вск 02:08:37 1493485 491
>>1492810
И что получит анон с этого?
Аноним 18/01/26 Вск 02:08:57 1493486 492
>>1493479
> родной, никто не спорит что в FP8 залетает в 9 гигов
> додик, как 9B влезер в 12 VRAM?
> Если у тебя gguf - так и пиши, не вводи в заблуждение анона

пошла переобувочка)
Аноним 18/01/26 Вск 02:09:31 1493487 493
>>1493471
я могу признать пока только то, что на моих двощах прогрессирует биомусор, и ты с каждой попыткой оправдаться усиливаешь это признение.
Аноним 18/01/26 Вск 02:11:14 1493489 494
>>1493486
маня, почитай про точности и как принято их обозначать.
Потом приходи сюда и подставляй свое лицо для тугой струи
Аноним 18/01/26 Вск 02:15:54 1493490 495
>>1493471
Норм порриджа разорвало.
Аноним 18/01/26 Вск 02:19:18 1493491 496
>>1493489
готов подставлять хоть весь день если ты так и продолжишь в свои штаны мочиться, дебилушка) куда ты блять лезешь, засунь свое тупое еблище и не отсвечивай, скопипастил он инфу с hf типа умный блять, съеби нахуй отсюда клоун
Аноним 18/01/26 Вск 02:23:16 1493493 497
>>1493491
>скопипастил он инфу с hf
да ты не только в рот, ты еще и в глаза долбишься, какая копипаста? Очнись, ты серишь под себя.
Аноним 18/01/26 Вск 02:34:47 1493495 498
operaJytRzcnu6z.png 10Кб, 514x187
514x187
opera5cynEj7K3J.png 23Кб, 662x266
662x266
>>1493493
зачем ты жопой виляешь, еще больше говно по трусам размазываешь, проститутка ты ебаная) не с хф, с комфи блога, и точно не скопипастил, сам высчитал и запостил, ага
какая же ты шлюха дырявая, это просто пизда)
Аноним 18/01/26 Вск 02:41:06 1493497 499
Аноним 18/01/26 Вск 04:37:28 1493576 500
>>1492533
>MLSD
не могу найти в менеджере эту штуку, она вроде отвечает за следование концепту, если не ошибаюсь) Уж больно не хочется мне ставить какую-нибудь all-in-one залупу типа: comfyui_controlnet_aux там блядь больше 60 нод, половины из которых мне никогда не понадобится.
Аноним 18/01/26 Вск 05:19:33 1493604 501
Бля, как хуево иметь всего лишь 2тб 990про. Нет места, чтобы потестить и приобщиться к кляйнопараше срачу. Лень чистить.
Аноним 18/01/26 Вск 05:25:26 1493607 502
>>1492533
>>1493576
короче, mlsd это не то, что мне нужно, как ты успел уже понять, мне нужно нечто передающее некий концепт, как например: cpds, а не тупое следование каждому завитку как в канни.

Также вопрос, где всё это: >HED, Depth, Pose и MLSD брать? Ничего из перичисленного в менеджере не ищется.
Аноним 18/01/26 Вск 05:52:58 1493627 503
Что-то зимаж разочаровывает. Как обычно: если 1girl заебись получается, то всё, модель будет в топе у гунеров.

А для реальной работы - хуйня какая то. Дизайн с референсами - отсос. Генерация дьявольщины - отсос в этом вообще сдохля лидер, я охуел прям, лол
Квен имейдж Эдит - хуета пластмассовая...

Генерация простых стоковых фонов и текстур - отсос. Я пару тредов назад поднимал вопрос с генерацией текстур стены.
Разнообразие без костылей - отсос.

Реддиторы ещё обнаружили, что зимаж в покорёженный металл не умеет, при лобовом столкновении автомобилей. Небольшой дамаг есть, но колёса не выворачиваются и передок не сминается.

В итоге, для меня сейчас Кляйн лидер. fp4 вообще мгновенно и разнообразно генерит дизайны/лого. Инпайнты охуенные. Промты на русском и русский текст тоже умеет.
Хотя, ру промтов лучше избегать, качество аутпута пиздец низкое.
Сейчас часть генерю на сдохле, потом рефайн кляйном. Ну и промты нодой олламы.
Надо ещё сд3.5 изучить детальнее, наверняка ещё один хидден гем пропустили, лол.

Вот такие наблюдения.
Аноним 18/01/26 Вск 06:26:46 1493643 504
>срач изза квантов
Вот что бывает когда в моделях нет сисика и писика, все нервные сидят не подоенные
Аноним 18/01/26 Вск 07:43:38 1493666 505
>>1493627
>для реальной работы
>локалки
Ебанутый. Локалки исключительно для кума. Ни на что другое это говнище не годится. Нас специально дерьмом кормят уже который год.
Аноним 18/01/26 Вск 08:24:59 1493685 506
image 33Кб, 825x371
825x371
Ну наконец-то. Сейчас будем тестить порнушные датасеты. На СимплТюнере два дня назад пытался - это пизда, сначала 3 часа боролся с ошибками в консольке, потом всё же пошла тренировка, но нагрузка на карту 20% и 10 секунд на шаг, проебался два часа и так нихуя не вышло пофиксить скорость.
Аноним 18/01/26 Вск 08:30:28 1493690 507
>>1493685
Устрица нинужна, пока из ликориса там только локр ебучий.
Аноним 18/01/26 Вск 09:30:45 1493714 508
>>1493690
Кривой ликорис не нужен как раз. Лучше бы peft запилили, а не реализацию кохи. А вообще Флюкс заебись тренится, может потому что VAE другой, но 9В без референсов даже быстрее зетки немного.
Аноним 18/01/26 Вск 12:20:28 1493836 509
Аноним 18/01/26 Вск 14:18:14 1493978 510
>>1493666
>Ни на что другое это говнище не годится.
Сравнивали с коллегой, Кляйн сейчас работает точно так же, как и онлайн сервисы (чат гпт и прочая хуета модная). Так что, не пизди.
Но, до выхода Кляйна я бы с тобой согласился на 100%. Зимаж и Кляйн это большой шаг вперёд.
Как и новые оптимизации от нвидиа. Теперь на локалке наконец то можно быстро и эффективно работать.
Аноним 18/01/26 Вск 14:47:07 1494018 511
>>1493978
Идите дальше дегустировать незамерзайку с коллегой или с клиентами, которым такой копрокал подходит.
Аноним 18/01/26 Вск 16:06:25 1494114 512
>>1494018
Это ты тот самый эстет, что пластмассовые ебальники постит как эталон вкуса и качества генераций? Аргументация примерно того же уровня.
Аноним 18/01/26 Вск 18:26:20 1494271 513
>>1492404
>Допрос закончен?

Пиздец ты душный мудак. Сам же прибежал роняя кал и еще огрызается, хуесос.
Аноним 18/01/26 Вск 23:42:42 1494647 514
>>1494114
Ебло, ты не с зеркалом говоришь, это тебя пластмассовая LOW-QUALальная эдит генерация устраивает, в которой ни знаний, ни качества изображения, ни возможностей нет по сравнению даже с прошлой версией бананы. Абсолютно всё, от логотипов до ебальников лучше генерить онлайн. Локальная модель только для кума или для огромных пачек генераций в каких-то прям уникальных случаях, когда качество не так сильно важно. Для всего остального в том же браузере где запущен комфи, вместо воркфлоу просто открываешь инкогнито и генеришь так же безлимитно в более высоком качестве.
Мне действительно интересно, что вы там в эдит клепаете, что выбираете локал вместо многочисленных бесплатных онлайн решений. И главное зачем.
Аноним 20/01/26 Втр 01:45:36 1496122 515
00156-1461584443.png 5293Кб, 2560x1600
2560x1600
00140-1461584440.png 5776Кб, 2560x1600
2560x1600
00103-2699775880.png 5889Кб, 2568x1608
2568x1608
Настройки X
Ответить в тред X
15000
Добавить файл/ctrl-v
Стикеры X
Избранное / Топ тредов