Главная Юзердоски Каталог Трекер NSFW Настройки

Искусственный интеллект

Ответить в тред Ответить в тред
Check this out!
<<
Назад | Вниз | Каталог | Обновить | Автообновление | 455 238 110
Stable Diffusion тред X+176 /sd/ Аноним 09/12/25 Втр 18:54:22 1448719 1
image.png 2000Кб, 1920x1088
1920x1088
image.png 1726Кб, 1344x768
1344x768
image.png 4458Кб, 1536x2048
1536x2048
image.png 4279Кб, 2048x1536
2048x1536
Тред локальной генерации

ЧТО НОВОГО АКТУАЛЬНОГО

• Z-Image-Turbo
• Flux 2
• Qwen Image и Qwen Image Edit
• Wan 2.2 (подходит для генерации картинок).
• NAG (негативный промпт на моделях с 1 CFG)
• Лора Lightning для Qwen, Wan ускоряет в 4 раза. Nunchaku ускоряет модели в 2-4 раза. DMD2 для SDXL ускоряет в 2 раза. Пример: 4-8 шагов, CFG 1. https://huggingface.co/tianweiy/DMD2/blob/main/dmd2_sdxl_4step_lora_fp16.safetensors,
CFG 3 для NoobAI https://huggingface.co/YOB-AI/DMD2MOD/blob/main/LYC-DMD2MOD%20(Dmo%2BTffnoi).safetensors,

База:
→ Приложение ComfyUI https://www.comfy.org/download
→ Примеры https://comfyanonymous.github.io/ComfyUI_examples/
https://comfyui-wiki.com/ (откуда, куда, как)
→ Менеджер расширений https://github.com/ltdrdata/ComfyUI-Manager (автоустановка, реестр расширений)
→ Модели https://civitai.com/

Оффлайн модели для картинок: Stable Diffusion, Flux, Wan-Video (да), Auraflow, HunyuanDiT, Lumina, Kolors, Deepseek Janus-Pro, Sana
Оффлайн модели для анимации: Wan-Video, HunyuanVideo, Lightrics (LTXV), Mochi, Nvidia Cosmos, PyramidFlow, CogVideo, AnimateDiff, Stable Video Diffusion
Приложения: ComfyUI и остальные (Fooocus, webui-forge, InvokeAI)

► Предыдущий тред >>1438893 (OP)https://arhivach.hk/?tags=13840
Дополнительно: https://telegra.ph/Stable-Diffusion-tred-X-01-03
Аноним 09/12/25 Втр 18:56:02 1448724 2
>>1448719 (OP)
Поделитесь последними годными воркфлоу, лорами и промтами для Z-image плиз. Ну или просто добавте их в шапку
Аноним 09/12/25 Втр 19:01:34 1448737 3
>>1448724
>промтами
1girl, naked, big booba
Аноним 09/12/25 Втр 19:04:58 1448740 4
воркфлоу.webp 111Кб, 2048x2048
2048x2048
>>1448724
на, перетащи в комфи, сам юзаю, все мои наработки, не жалко для анона
Аноним 09/12/25 Втр 19:07:08 1448744 5
>>1448740
Неужели наконец картинка с метаданными, вот что значит 2025 год!

Хоть промт заберу, спасибо
Аноним 09/12/25 Втр 19:08:15 1448746 6
изображение.png 1617Кб, 1584x1264
1584x1264
изображение.png 1897Кб, 1280x1280
1280x1280
изображение.png 2043Кб, 1696x1128
1696x1128
изображение.png 2040Кб, 896x1792
896x1792
>>1448724
Я хз чё вы там зетку пердолить пытаетесь. Она изкоробки просто работает. Что пишешь - то и риусет.
Аноним 09/12/25 Втр 19:09:45 1448749 7
>>1448746
не все это поняли ещё, травма от сдохлей и ванофлюскалов осталась у многих
Аноним 09/12/25 Втр 19:11:33 1448753 8
TA-2025-11-28-1[...].png 1397Кб, 1024x1024
1024x1024
TA-2025-11-28-1[...].png 1662Кб, 1024x1024
1024x1024
TA-2025-11-28-1[...].png 1204Кб, 1024x1024
1024x1024
TA-2025-11-28-1[...].png 1432Кб, 1024x1024
1024x1024
>>1448723 →
И пиксельвэйв еще на зетке хотелось бы.
Аноним 09/12/25 Втр 19:14:36 1448758 9
>>1448746
Потому что я хз, может я что-то делаю неправильно или неправильно для нее пишу промт.
Пока у меня претензии только к тому, что нет лор и приходится прописывать стиль через жопу и их мало. Но это базовая модель.
Аноним 09/12/25 Втр 19:15:11 1448760 10
KS1.seed00002.jpg 339Кб, 1920x1440
1920x1440
>>1448740
какой у тебя маленький
Аноним 09/12/25 Втр 19:15:22 1448761 11
>>1448746
и это еще только турба. надеюсь дичайше охуеть от Z-Image-Base
Аноним 09/12/25 Втр 19:17:26 1448764 12
image.png 21Кб, 604x172
604x172
я до сих пор трахаюсь стренингом енкодера зимага
увидел, что transformer_only: в положении true, поменял на false
теперь лорка выходная получается на 20 метров жирнее, но при тренинге не инциализирует енкодер все равно, но результат получается лучше чем тренить без "включенного" текстэнкодера

еще есть вопрос как подрузить ликорис модуль чтобы юзнуть BOFT алгоритм в конфиг остриса...
Аноним 09/12/25 Втр 19:17:28 1448765 13
>>1448761
А база будет столько же весить?
Если больше, то я буду разочарован, это ведь будет одна категория с Квин, но хуже
Аноним 09/12/25 Втр 19:17:53 1448766 14
>>1448758
>нет лор
далбаеб штоли? дохуя уже на циве и каждый день еще дохуя накидывают
Аноним 09/12/25 Втр 19:18:51 1448769 15
>>1448766
>дохуя уже
Окей, значит не проверял давно. Пороюсь, может есть годнота
Аноним 09/12/25 Втр 19:19:21 1448771 16
изображение.png 2485Кб, 1512x1208
1512x1208
изображение.png 1778Кб, 1144x1144
1144x1144
изображение.png 1487Кб, 1384x1104
1384x1104
изображение.png 3392Кб, 1600x1200
1600x1200
>>1448758
Это да, рабочих стилей не так много. Анимца, мультики, некоторая олдовая иллюстрация, чб графика, ну и фотография аналоговая нормально рисуется. Остальное - дефолтный лоп.
Аноним 09/12/25 Втр 19:21:15 1448776 17
Аноним 09/12/25 Втр 19:23:06 1448777 18
вф.webp 59Кб, 1080x1920
1080x1920
>>1448758
ты бери промпты от флюскала и вана или натвиса как я щас спиздил, неча ленгвич, попроси нейронку ллмку, а лора на цивите дохера щас к зетке, на всё есть уже, но смотри чтоб датасет был 2мегапикселя, остальное днищенский мусор
Аноним 09/12/25 Втр 19:28:40 1448782 19
воркфлоу.webp 67Кб, 1080x1920
1080x1920
охлолблять, зимаж без лора, что вам ещё надо-то епта
Аноним 09/12/25 Втр 19:29:15 1448783 20
>>1448777
Окей, попробую
>2мегапикселя
А там указано?

>>1448776
Имхо у Квин лучше архитектура. При сравнимых размерах Квин будет лучше. Z-image берет тем что лучше SDXL, но при этом меньше Квин и Флюкса (особенно второго флюкса)
Аноним 09/12/25 Втр 19:39:54 1448795 21
вркфлоу.webp 193Кб, 1080x1920
1080x1920
>>1448783
>А там указано?
там где это есть обычно указано
Аноним 09/12/25 Втр 19:43:07 1448804 22
>>1448795
Тогда норм.
А то я помню как некоторые гении SDXL на 768 тренировали и это было странно
Аноним 09/12/25 Втр 19:47:30 1448810 23
zimage00002.webp 89Кб, 1080x1920
1080x1920
воркфл.webp 48Кб, 1080x1920
1080x1920
>>1448804
это днищуки, которые зачем-то берутся не за то что потянут, дело в том ,что зимаж как и флюс 2040х2048 имеет датасет и многие нормальные челики уже делают лора в этих рамках, видел несколько так и писали разрешение датасета, есть пару на вульвы даже в этом
>>1448760
зато свои на самом деле это тупо дефолт от кофи, которого для всего достаточно
Аноним 09/12/25 Втр 19:48:17 1448812 24
Аноним 09/12/25 Втр 19:49:49 1448816 25
>>1448810
так это же база делать лоры в разрешении модели, нет? Единственная проблема - иногда не найти картинки для датасата, особенно в 2048
Аноним 09/12/25 Втр 19:58:07 1448831 26
>>1448777
>но смотри чтоб датасет был 2мегапикселя, остальное днищенский мусор
але дядь, зимаге это флоу с поддержкой начиная от 256px, размер картинок буквально не важен, результат будет что на 256px что на 100500px одинаково хорош
Аноним 09/12/25 Втр 20:04:10 1448843 27
31c9a743242d1c4[...].jpg 451Кб, 1536x2048
1536x2048
4d81f58255af168[...].jpg 255Кб, 1536x2048
1536x2048
Может ли нейронка делать картинки с анимегао масками типо пикрил?
Аноним 09/12/25 Втр 20:14:29 1448865 28
Я ныл, что кожа хуевая, а оказывается надо было юзать не euler, а er_sde smg_uniform хотя бы. Не говоря уже про другие способы улучшить картинку.
Хотя эта комба явно не лучшая, на мокрой коже уже видны артефакты.
Аноним 09/12/25 Втр 20:16:15 1448867 29
image.png 783Кб, 832x1216
832x1216
Аноним 09/12/25 Втр 20:23:17 1448881 30
image.png 730Кб, 832x1216
832x1216
Аноним 09/12/25 Втр 20:53:31 1448959 31
Zимаг модет в img2img? Даю на вход картинку он просто не видит ниче. Или edit ждать?
Аноним 09/12/25 Втр 20:56:49 1448965 32
>>1448959
Может.
Анончик в прошлом треде кидал пару воркфлоу
Аноним 09/12/25 Втр 20:58:13 1448970 33
>>1448959
Обычный и2и сетап как для сдохли. Всё работает, хз что там у тебя нахуеверчено.
Аноним 09/12/25 Втр 21:03:30 1448981 34
image.png 547Кб, 512x768
512x768
image.png 503Кб, 512x768
512x768
image.png 507Кб, 512x768
512x768
>>1448764
1 лора с якобы вкл текст енкодером, 2 без, 3 дефолт, остальные настройки одинаковые. Слоев текст енкодера в модели нет. Очевидно что связи в лин-конв слоях выдрачиваются относительно тренируемого текст енкодера, но не сохраняются сами модули текст енкодера. Можно наверно юзать как трейнхак для более агрессивного схождения в принципе.
В скриптах остриса видел кстати конфиги где он коменты ставил для т5 флюхкала и люмины в стиле "ну тренинг текст енкодера не работает вероятно".
Аноним 09/12/25 Втр 21:18:34 1449020 35
image 3629Кб, 1440x1920
1440x1920
image 4109Кб, 1440x1920
1440x1920
Аноним 09/12/25 Втр 21:20:25 1449025 36
Как нибудь чинится отвал в ООМ в зимаге при разрешении выше 1300? В квене я в 2к генерил, а тут не хочет и делает пукнум
Аноним 09/12/25 Втр 21:27:30 1449039 37
z-image по уровню реализма, понимания, деталей, уже близко к Imagen и Seedream. Да еще и быстрее флуксокала в десятки раз
Аноним 09/12/25 Втр 21:28:46 1449042 38
>>1448981
Имхо 3 лучшая. Нет мыла как на 2, а 1 какая-то тусклая и тонна складок на платье
Аноним 09/12/25 Втр 21:28:58 1449043 39
>>1449039
Слишком много додумывает в какую-то свою сторону.
Аноним 09/12/25 Втр 21:29:37 1449048 40
>>1448518 →
>>1448792 →
Получается дипсик пиздит о том, что noobai не может в естественный язык в отличии от люстры, а может только в теги? Ведь если это развитие, то по идее нубка должна мочь все что люстра и даже больше.
Аноним 09/12/25 Втр 21:36:39 1449053 41
Чёт не могу спайкам любого вида в зетке
Аноним 09/12/25 Втр 21:39:05 1449056 42
>>1449025
Купить карту не с 8 гигами?
>>1449039
Промптится очень плохо только. После больших моделей знает очень мало.
Аноним 09/12/25 Втр 21:40:48 1449060 43
>>1449025
"Ты перестала пить коньяк по утрам, отвечай - да или нет?"(с)
Аноним 09/12/25 Втр 21:43:15 1449063 44
>>1449056
>После больших моделей знает очень мало.
Да. Кентавров и минотавров как концепты не знает. Страшная трагедия и недостаток.
Аноним 09/12/25 Втр 21:47:13 1449076 45
>>1449042
Это не реквест оценки, еблан.
Аноним 09/12/25 Втр 21:54:31 1449099 46
>>1449076
А нахуя ты постишь тогда?
Аноним 09/12/25 Втр 21:56:22 1449108 47
Аноним 09/12/25 Втр 22:02:44 1449134 48
Чет типы походу поняли, что З годнота и выложить базу просто так это нелегально хорошо, либо база на самом деле без трубы слабая и очень медленная. Ваши мысли? Чет qwen edit тоже притих.
Аноним 09/12/25 Втр 22:03:28 1449136 49
image 4167Кб, 1440x1920
1440x1920
image 4227Кб, 1440x1920
1440x1920
image 3384Кб, 1440x1920
1440x1920
image 4646Кб, 1440x1920
1440x1920
>>1449063
Да, это пиздец, без фурей нет жизни.
Аноним 10/12/25 Срд 00:26:42 1449272 50
Как увидеть процесс генерации по шагам? Как это было на автоматике. Есть настройки такие в комфи?
Аноним 10/12/25 Срд 00:33:39 1449281 51
>>1449272
Есть. Но не для всех моделей и sampler-узлов работает нормально.
В ComfyUI-Manager включаешь «Preview method: Latent2RGB (fast)».
В настройках ComfyUI включаешь «Display animated previews when sampling» (ищи поиском по слову animated).
Перезагружаешь сервак и ComfyUI. Приобретаешь тормоза (небольшие) и предпросмотр в узлах KSampler, SamplerCustom (чуть ниже настроек узла будет отображаться миниатюра генерируемого изображения).

На Flux.2 не передаёт яркость. На Z-Image примерно совпадает. На Qwen-Image тоже. Остальные не пробовал.
Аноним 10/12/25 Срд 00:53:10 1449295 52
z-image00004Eul[...].png 5600Кб, 2048x2048
2048x2048
z-image00005Eul[...].png 5577Кб, 2048x2048
2048x2048
z-image00006Eul[...].png 5519Кб, 2048x2048
2048x2048
Неразрешимая тема выбора Sampler/Scheduler.
TLDR: Какой-то выбор без выбора.

Тесты в сети, выполненные на одних моделях, нерелевантны для других.
Samplerов и Schedulerов огромное количество.
Отбросил неконвергентные ancestral.

Комбинаций море, проверять всё не осилю.
На дефолтном workflow Z-Image прогнал комбинации Euler с разными schedulerами. Несколько других рабочих связок.

Prompt:
A close-up shot depicting a Caucasian man and a Caucasian woman looking at each other. There is a spherical object hovering between them in the centre of the image, left half of the object is Earth, right half is an intricate clockwork mechanism. There is a birch tree with lush leaves in the foreground. Cinematic lighting. Hyperfocal, deep depth of field.

(hyperfocal и deep depth of field были проигнорированы всеми и не позволили оценить «зелень» на втором плане, которую Qwen-Image, например на Euler/Simple просто шакалил дизерингом, а на res_2s/bong_tangent рисовал нормально; повторюсь, для Z-Image, например, последняя связка вообще вредная, это к слову о неприменимости комбинаций Scheduler/Sampler от одной модели к другой, просто так)

Model: z_image_turbo_bf16.safetensors;
ModelSamplingAuraFlow Shift: 3.0 (default);
Seed:42 (фиксированное);
Steps: 9;
CFG: 1.0;
Denoise: 1.0.

Никаких LoRAs и дополнительных обработок. Только стоковая генерация.
Названия SamplerScheduler указаны прямо в именах файлов.
Начинаем с Euler с разными scheduler.
Euler/Simple;
Euler/Beta;
Euler/Beta57.
Аноним 10/12/25 Срд 00:55:30 1449299 53
z-image00008Eul[...].png 5277Кб, 2048x2048
2048x2048
z-image00010Eul[...].png 5520Кб, 2048x2048
2048x2048
>>1449295
Далее:
Euler/linear_quadratic;
Euler/bong_tangent.
Аноним 10/12/25 Срд 00:59:33 1449304 54
z-image00007Eul[...].png 5725Кб, 2048x2048
2048x2048
z-image00009Eul[...].png 6182Кб, 2048x2048
2048x2048
>>1449299
С заданием не справились:
Euler/karras (очевидно, к нему нужен был и Karras sampler в пару, но я не проверял);
Euler/kl_optimal (возможно, к нему тоже нужен был другой sampler).
Аноним 10/12/25 Срд 01:02:37 1449308 55
image 3855Кб, 1440x1920
1440x1920
image 3693Кб, 1440x1920
1440x1920
>>1449295
Все выглядят как сорта жипег-шума. И чего так бледно всё?
Аноним 10/12/25 Срд 01:04:48 1449311 56
z-image00011Heu[...].png 5398Кб, 2048x2048
2048x2048
z-image00012Heu[...].png 5542Кб, 2048x2048
2048x2048
z-image00005Eul[...].png 5577Кб, 2048x2048
2048x2048
>>1449304
Далее Heun, как более толстый и медленный, но более точный Euler (опять же по словам из сети).
Heun/Simple;
Heun/Beta;

Для сравнения третьим изображением опять даю Euler/Beta, чтобы можно было попереключать, сравнивая.
Аноним 10/12/25 Срд 01:07:25 1449315 57
>>1449308
Стоковый workflow, фиксированный seed, указанные настройки.
В заключение выгружу webp workflow для повторяемости результатов.
Аноним 10/12/25 Срд 01:09:16 1449318 58
z-image00013Res[...].png 5079Кб, 2048x2048
2048x2048
z-image00014Res[...].png 5051Кб, 2048x2048
2048x2048
>>1449311
Наконец res_2s;
Варианты:
res_2s/simple;
res_2s/beta.
Аноним 10/12/25 Срд 01:16:59 1449331 59
image.png 42Кб, 644x602
644x602
image.png 49Кб, 667x559
667x559
Пацаны, как фиксить, кроме переустановки с нуля?
Аноним 10/12/25 Срд 01:20:22 1449333 60
ComfyUI00003.webp 257Кб, 2048x2048
2048x2048
>>1449318
Тестовый workflow для воспроизводимости результатов.
Аноним 10/12/25 Срд 01:28:39 1449338 61
z-image00016Res[...].png 5397Кб, 2048x2048
2048x2048
z-image00017Res[...].png 5122Кб, 2048x2048
2048x2048
>>1449333
Финалочка, которую я пропустил (первая связка вроде рекомендована была);
res_multistep/simple;
res_multistep/beta.

Больше пока у меня идей нет. Если кто-то использует какие-то другие годные связки (не ancestral), будет любопытно посмотреть.

>>1449333 этот workflow прогнать с вашими sampler/scheduler, ничего больше не меняя.

Композиция для проверки деталей лиц, мелких деталей (часовой механизм), текстуры поверхности Земли, листьев и зелени на втором плане.
Аноним 10/12/25 Срд 01:30:45 1449342 62
>>1449331
Попробуй обновить WAN VHS до актуальной nightly версии.
Они там что-то намудрили и ComfyUI тоже, и всё пошло через одно место.
Аноним 10/12/25 Срд 01:46:26 1449362 63
>>1449308
Скинь, пожалуйста, свой насыщенный цветами workflow.
Будет любопытно посмотреть, есть ли там второй проход в качестве рефайнера или ещё что-нибудь подобное в качестве face detailer.
Аноним 10/12/25 Срд 02:04:05 1449394 64
>>1449281
Спасибо, анон. Заработало.
Аноним 10/12/25 Срд 02:42:26 1449434 65
>>1449308
Сейчас пригляделся. Ещё может быть тут LoRA какая-нибудь или модель не Z-Image (или Z-Image, но LATENT оправлен в ClownSharkSampler на unsample, а потом второй проход KSampler). Детализация лиц мне нравится, а шестерни часового механизма слизало и зашакалило.
Аноним 10/12/25 Срд 03:27:00 1449478 66
>>1449134
>либо база на самом деле без трубы слабая и очень медленная
Это так. Я очень много генерировал с натвиз дмд2. Получалось для него очень хорошо. Но головый натвиз так и не смог. Сам попробуй. Ну и медленный будет. Сейчас 9 шагов цфг1, а если будет 36 шагов и цфг больше 1 то скорость будет в 8 раз медленнее!
Аноним 10/12/25 Срд 07:25:00 1449548 67
чо я понял: если обучаете лору то если ее пихнуть на fp8 зимагу будет хуйня полная. ток на fp16 пихать
Аноним 10/12/25 Срд 07:25:47 1449549 68
>>1449548
обученную лору всм
Аноним 10/12/25 Срд 07:58:15 1449554 69
image.png 3372Кб, 1200x1600
1200x1600
Аноним 10/12/25 Срд 08:03:24 1449555 70
>>1449548
Никаких различий нет пихать куда. Хуйня может быть только если комфинода дефолтная не смогла корректно прочесть ключи лоры и их применить, что имеется сейчас в наличии и лоры для зита надо грузить через другую шпициальную ноду Lora Loader (Z-image) (CRT) из пака crt-nodes.
Аноним 10/12/25 Срд 08:59:13 1449561 71
>>1449362
Простая генерация с одной лорой там.
Аноним 10/12/25 Срд 10:22:38 1449625 72
1765351359058.png 9Кб, 425x241
425x241
Я правильно понимаю, что лучше не обновляться вообще никогда?
Аноним 10/12/25 Срд 10:35:59 1449635 73
Аноним 10/12/25 Срд 10:51:44 1449651 74
>>1449635
Не дрочил на сисик писик сегодня? Че нервничаешь

>>1449625
Лучше не использовать комфигуи.
Аноним 10/12/25 Срд 11:03:40 1449660 75
>>1449134
Выпустят вместе с тюном на NoobAI, чтобы показать какие можно делать модели. Инфа 100% с погрешностью -100%.
Аноним 10/12/25 Срд 11:05:52 1449664 76
>>1449635
>Свои тесты держи у себя. Не твой личный бложик
Ебанутый что ли? Всегда хорошо, когда доп тесты видишь. Удобней было бы в одном большом xyz. Но это забытые технологии форджа, недоступные комфидаунам.
Аноним 10/12/25 Срд 11:07:03 1449666 77
>>1449664
>Удобней было бы в одном большом xyz. Но это забытые технологии форджа, недоступные комфидаунам.
Форджемрась, xyz делается за пять сек в комфе.
Аноним 10/12/25 Срд 11:10:28 1449668 78
>>1448744
>Неужели наконец картинка с метаданными, вот что значит 2025 год!
Это из-за того что webp харкач не может мету чистить
Аноним 10/12/25 Срд 11:13:25 1449671 79
>>1449664
Ебанутый даун, в комфи есть такая фича, как запуск гена при изменении. Ставишь отдельно ноду семплера/шедулера и врубаешь увеличение значения и тупо 1 кнопу нажимаешь запуска и оно за пару сек тебе сохранит все с именем файла семплера/шедулера или сделает zxy на автомате, тупой ты форжедаун
Аноним 10/12/25 Срд 11:14:45 1449673 80
>>1449666
>xyz делается за пять сек в комфе
Как?
Аноним 10/12/25 Срд 11:20:22 1449676 81
>>1449666
>>1449671
>всё есть, честное слово
>даже нормальный фейсдетейлер
>ну просто нет желания включить
>правда-правда
Аноним 10/12/25 Срд 11:22:18 1449677 82
Аноним 10/12/25 Срд 11:22:41 1449678 83
>>1449676
>фейсдетейлер
Как там в 2022? Виза мастеркард работают?
Аноним 10/12/25 Срд 11:22:54 1449680 84
image.png 3148Кб, 1200x1600
1200x1600
>>1449676
Ни дня без форджешизика-неосилятора
Аноним 10/12/25 Срд 11:26:46 1449681 85
>>1449678
>>1449680
Уже 3 года не могут запилить базовый функционал из автоматика? Сожалею.
Аноним 10/12/25 Срд 11:30:34 1449683 86
>живая форджешиза в почти 2026
А что там с факасом
Аноним 10/12/25 Срд 11:39:53 1449688 87
image.png 2075Кб, 1448x1152
1448x1152
Аноним 10/12/25 Срд 15:43:59 1449951 88
1765370634184.png 2207Кб, 1080x1920
1080x1920
1765370634191.png 975Кб, 768x1360
768x1360
1765370634196.png 980Кб, 768x1360
768x1360
1765370634200.png 1147Кб, 768x1360
768x1360
1765370634204.png 1135Кб, 768x1360
768x1360
Пытаюсь обчеловечить зеткой полученные с другой модели картинки, так чтобы один и тот же скрипт схема с одними и теми же коэффициентами использовались в тупую без дроча циферок, и уже оттуда выбирать удачные результаты.
Использую ваши же i2i блоксхемы.
Дрочил на одну из схем (быструю) с одним набором коэффициентов, который иногда получал замечательные результаты, но был шумным. Думаю, ну, раз быстрая справляется, должна и медленная справляться, зато без шума. А оно что-то не подбиралось так хорошо. Не выдавало те же результаты.
Дёргал ползунки туда-сюда. В итоге решил проверить, погенерил с одними и теми же "удачными" коэффициентами обе схемы на нескольких сидах подряд - всё-таки мне попадался удачный сид, а не отличный набор коэффициентов+схема.
1 - оригинал (нётенгу лол, надо было другую лору брать)
23 быстрая с разным сидом
45 долгая с разным сидом
Всё-таки сид даёт слишком дохера.

Следующим постом ещё один маняпример.
зачем пишу - чтобы не забывали дрочить сиды, а не только цифры и промпт
Аноним 10/12/25 Срд 15:45:14 1449953 89
1765370707607.png 2479Кб, 1080x1920
1080x1920
1765370707615.png 1125Кб, 768x1360
768x1360
1765370707619.png 1134Кб, 768x1360
768x1360
1765370707623.png 1298Кб, 768x1360
768x1360
1765370707627.png 1289Кб, 768x1360
768x1360
>>1449951
Иногда даже достаточно близко к человечности подбирается, но это именно везение сида.
Аноним 10/12/25 Срд 16:34:43 1449989 90
AQODM7T9UXeq0S6[...].mp4 20008Кб, 1280x716, 00:01:21
1280x716
Отрывок из работы итальянского художника. Получил известность как 3d видеоартист. Потом увлекся нейронками. Один из первых стал с ними делать арты. Использует json.

Оказывается, кроме баб можно еще что-то гененрить!!! Только не говорите никому. Это наш с тобой секрет, анон.


кривой конвертер, файл может не открыться
Аноним 10/12/25 Срд 16:38:43 1449992 91
>>1449989
Откровенно после пары первых дней я тоже немного поехал в любом нейрослопе начал пытаться найти смысл.
Но скоро отбросил это. Вспомнил, что можно кроме нейродерьма ещё ручками задавать направление, и рулит здесь пользователь, а не нейронка, которая обычно высирает чепуху.
А "художник" потерялся. Небось из-за постоянного употребления наркотических веществ, потеряться ему было проще.
Аноним 10/12/25 Срд 19:24:35 1450163 92
00035.jpg 256Кб, 1440x1920
1440x1920
Аноним 10/12/25 Срд 20:41:35 1450283 93
Анон, есть ли нода, чтобы описать загруженную картинку с помощью Квин от Z-image идругой Квин? Потому что wd14 tagger не справляется со сложными не аниме картинками
Аноним 10/12/25 Срд 20:41:42 1450284 94
>>1449989
>Оказывается, кроме баб можно еще что-то гененрить!!! Только не говорите никому. Это наш с тобой секрет, анон.
Ха-ха очень смищно. Вот только вангёлстендинг генерят не из-за того что только это могут, а потому что это нравится. Нахера мне эти вдумчивые генерации, что за бред блять?!
Аноним 10/12/25 Срд 21:00:27 1450307 95
1765389624901.png 2287Кб, 1058x1583
1058x1583
>>1450295
Это называется, искусство тронуло что-то глубоко внутри человека.
Аноним 10/12/25 Срд 21:00:44 1450308 96
>>1449989
Это вопрос не генерации, а постинга. Обычным людям не особо надо сюда постить, а вот кумерам совать другим под нос свои фап-материалы - это почти так же необходимо как на них дрочить. Универсальный психологический симптом кумерства, до нейронок так же было.
Аноним 10/12/25 Срд 21:02:14 1450310 97
1765389730526.png 1209Кб, 792x1320
792x1320
1765389730533.png 1223Кб, 792x1320
792x1320
1765389730537.png 1289Кб, 792x1320
792x1320
1765389730541.png 1279Кб, 792x1320
792x1320
>>1450308
Могу гмена запостить, если очень надо разбавить тредик.
Аноним 10/12/25 Срд 21:46:27 1450351 98
изображение.png 1777Кб, 1192x952
1192x952
>>1450286
Это и с точки зрения искусства - низкосортное говно. Эксплуатационный жанр.
Аноним 10/12/25 Срд 21:53:25 1450354 99
>>1450351

Ясн. Босх для тебя говно. Ну неудивительно.
Аноним 10/12/25 Срд 21:59:44 1450363 100
>>1450354
В картинах Босха больше эсхатологии. В них каждый элемент несёт религиозный смысл.
Аноним 10/12/25 Срд 22:01:01 1450364 101
>>1450363
Так Босх дурачком был с промытыми мозгами.
Аноним 10/12/25 Срд 22:02:23 1450365 102
изображение.png 1584Кб, 1424x1144
1424x1144
Аноним 10/12/25 Срд 22:10:09 1450370 103
image.jpg 1126Кб, 2496x1920
2496x1920
Аноним 10/12/25 Срд 22:27:07 1450379 104
Аноним 10/12/25 Срд 23:50:48 1450448 105
image.png 1210Кб, 1024x1024
1024x1024
Аноним 11/12/25 Чтв 00:00:34 1450452 106
1765400433208.png 536Кб, 720x720
720x720
Аноним 11/12/25 Чтв 00:30:10 1450483 107
Какой лучший вф для апскейла?
Аноним 11/12/25 Чтв 01:48:47 1450564 108
OviWan-00009-au[...].mp4 350Кб, 480x640, 00:00:05
480x640
OviWan-00013-au[...].mp4 401Кб, 480x640, 00:00:05
480x640
OviWan-00015-au[...].mp4 428Кб, 480x640, 00:00:05
480x640
Аноним 11/12/25 Чтв 01:50:06 1450570 109
OviWan-00022-au[...].mp4 733Кб, 640x480, 00:00:05
640x480
Аноним 11/12/25 Чтв 02:19:15 1450605 110
dump
Аноним 11/12/25 Чтв 02:43:22 1450644 111
>>1450483
Недостаточно конкретно поставлен вопрос. От этого много зависит.
Если просто апскейл, то меня устраивает SeedVR2.
Аноним 11/12/25 Чтв 03:02:06 1450669 112
image.png 879Кб, 1024x1024
1024x1024
Дефолт зетка...
Аноним 11/12/25 Чтв 03:16:12 1450674 113
image.png 719Кб, 1024x1024
1024x1024
Аноним 11/12/25 Чтв 05:39:34 1450785 114
1765420773246.png 562Кб, 512x768
512x768
1765420773252.png 403Кб, 512x768
512x768
1765420773254.png 386Кб, 512x768
512x768
1765420773256.png 379Кб, 512x768
512x768
Кому интересно:


Earlier I mentioned that enabling TE training improves convergence a lot - but there are no TE layers stored in the LoRA at all.

Here are the setups:

1. Base Z-image

2. transformer_only: true + train_text_encoder: false
(default training, no TE)

3. transformer_only: false + train_text_encoder: false
(larger LoRA, +20 MB)

4. transformer_only: false + train_text_encoder: true
(larger LoRA + TE training)

Test prompt: jewish girl in office suit, fortnite

The dataset contains only real-life photos, and setup #3 converges to the target the fastest, but loses the “fortnite” knowledge.

> whats transformer_only? first time i hear of this option. do i put this into the .yaml config like train_text_encoder?

It is an argument from AIT’s config_modules.py, and it is enabled by default.
Yes, you need to add this argument in the [network] block and set it to false.

I checked what the LoRA contains when trained with false in trans_only + true in TE, and it includes additional layers such as:

context_refiner

all_final_layer

all_x_embedder

cap_embedder

noise_refiner

t_embedder.mlp

The default LoRA training config only uses ffnet and attention layers.

The difference between LORA with TE and without just in parameters numbers lol. Considering that the TE layers are not physically preserved in LORA because apparently this is not provided for during training, it is clear where the changes come from.

For example in difference:

TE false:
diffusion_model.layers.0.feed_forward.w1.lora_A.weight,(32-3840),0.009208115749061108,9.266659617424011e-08
TE true:
diffusion_model.layers.0.feed_forward.w1.lora_A.weight,(32-3840),0.009162179194390774,3.4691765904426575e-08

Even if the text encoder (T5) has no LoRA layers and its weights are not saved, the flag
train_text_encoder = true still changes the gradients that flow into the UNet.

So:
TE does not save LoRA
TE does not initialize LoRA
But TE still affects UNet-LoRA training indirectly because the backward pass goes through the text encoder.

Numbers means:
smaller std - more stable gradients
mean closer to zero - less drift
small but consistent improvement

Exactly what happens when TE participates in backprop.

As a result, given the rather limited LoRA implementation in AIT, you can still use the extended training without any issues in two ways:

1. Training all LoRA-supported layers + enabling gradient passthrough for the Text Encoder - this produces a more consistent LoRA that relies on the base model more effectively.

2. Training only all LoRA-supported layers - this gives a massive boost to adaptation on the dataset.
Аноним 11/12/25 Чтв 06:57:40 1450798 115
вся еотова в зе имаге хранится на 20-25 блоках, 15-19 накидывают стабильности. остальное мусор, можно удалять.
Аноним 11/12/25 Чтв 08:55:48 1450833 116
>>1450644
А какие нужны? Мне фотки шакальные улучшать. В сд какая-то улучшалка вроде гфпган была. Она только лица восстанавливала. Мне надо целиком и желательно еще чтобы убирала двоение от тряски камеры.
Аноним 11/12/25 Чтв 10:28:14 1450857 117
Только собираюсь вкатываться, подскажите актуальную приложуху для нуба. ComfyUI - очень страшно, я не знаю что это такое. Скачал Fooocus, но говорят, что это прям вообще основы. automatic1111 - типа давно не поддерживается. Может что-то еще есть нуб-френдли? Меня больше интересует обработка изображений: апскейл, дорисовка фона, наложение эффектов на фото, замена лиц, зачистка/замена объектов, совмещение - вот это вот все. С меня как обычно нихуя
Аноним 11/12/25 Чтв 10:41:04 1450862 118
image 471Кб, 1414x372
1414x372
>>1450785
Но ведь 4 пик самый хуёвый. Третий сильнее изменился потому что transformer_only: false дополнительно пикрил слои тренит, а не только линейные в блоках.
> For example in difference
В тулките не детерминированная тренировка, веса всегда отличаться будут даже на одинаковых прогонах, это ничего не значит.
> TE still affects UNet-LoRA training indirectly because the backward pass goes through the text encoder
Это пиздёж, ТЕ в графе до лоры трансформера находится, он не может участвовать в обратном проходе для вычисления градиентов трансформера. Да и время шага не увеличивается от его включения. То что у чела происходит - это скорее всего градиенты скейлятся тулкитом зачем-то при включении ТЕ, поэтому выглядит как недотрен.
> smaller std
> mean closer to zero
Собственно просто градиенты меньше.
Аноним 11/12/25 Чтв 11:24:48 1450877 119
изображение.png 825Кб, 960x640
960x640
изображение.png 4240Кб, 1944x1288
1944x1288
>>1450833
>фотки шакальные улучшать
Зависит от степени шакальности. Мелкие уберёт и SeedVR2. Серьёзные надо через edit модель прогонять и просить дорисовать потерянную информацию.
Общая схема такая: чистишь от мусора в qwen edit. Апаешь в SeedVR2. Потом можно опционально маленьким денойзом в wan 2.2 артефакты подчистить.
Может быть flux2 в один проход сможет, но я нищброд, у меня не лезет.
Аноним 11/12/25 Чтв 12:51:31 1450902 120
В итоге для Зет ничего лучше euler/simle нет? Я сам перепробовал несколько вариантов. Некоторые иногда лучше дофолта. То есть ролить приходится и все равно посматривать что там на дефолте. Некоторые комбинаци семплера/шедулера могут генерит только в 1к разрешении. При большем мутная каша.
Про шаги, возможно мне просто показалось, но какая-то проблема с шагами 10 и в меньшей степени на 11, а с 12 норм начинается. Не замечали?
Про разрешение. Опять по моему опыту, лучше это 1536х1536. Или около него.
Кто-то поделиться своими наблюдениями?
Аноним 11/12/25 Чтв 12:53:58 1450904 121
>>1450877
>Может быть flux2 в один проход сможет

Не сможет, к сожалению. Возможности FLUX.2 dev (которую в свободное плавание выпустили, в отличие от коммерческой версии) слишком преувеличены.
С ней можно добиться результатов на Edit, но нужен свой подход. На слабом железе точно.

IMHO Wan в цепочке не на своём месте. Мне кажется SeedVR2 это конечная точка. После неё трогать изображение, только портить. Лучше сразу для SeedVR2 давать уже финальную версию изображения, которой кроме простого апскейла больше ничего не нужно.
Аноним 11/12/25 Чтв 12:54:20 1450905 122
А в б пропали треды ваши
Аноним 11/12/25 Чтв 12:56:54 1450906 123
>>1450877
Обосрался с этого RTX ON
Аноним 11/12/25 Чтв 12:58:57 1450909 124
>>1450902
>В итоге для Зет ничего лучше euler/simle нет?
В чьём итоге? Почитай тред глазами, а не жопой. Куча комбинаций лучше. Они дефолтно поставили Euler, видимо, потому что это надежный минимум для всех случаев.
Аноним 11/12/25 Чтв 13:07:52 1450922 125
>>1450902

9 шагов достаточно. Выше — плацебо в лучшем случае или шакалит/зашумляет. Это турбо-модель Z-Image для вывода за малое количество шагов (по смыслу типа lightning LoRA для Qwen-Image).

Здесь >>1449295 я пробовал разные Sampler/Scheduler. IMHO, как стоят дефолтные res_multistep/simple, так можно и оставлять. Про всякие ClownSharkSampler узлы с ворохом вариантов не говорю. Не проверял экзотику. Те, кто туда лезут либо точно знают как работают семплеры, либо тыкают наобум «о, custom RES4LYF крутяк, его прошаренные юзают, я тоже должен, а то не труъ».

Разрешение 2048×2048 можно сразу получать.
Аноним 11/12/25 Чтв 13:24:06 1450934 126
>>1450862
>Но ведь 4 пик самый хуёвый.
Вообщето самый лучший - сохранена баба, сохранен фортните.
>Третий сильнее изменился потому что transformer_only: false дополнительно пикрил слои тренит, а не только линейные в блоках.
Ты бля пост жопой читаешь?
>В тулките не детерминированная тренировка, веса всегда отличаться будут даже на одинаковых прогонах, это ничего не значит.
1. Сид выставь еблан
2. Изменения сидов практически не влияет на аутпут, сто раз уже проверено на всех сетках

>Это пиздёж, ТЕ в графе до лоры трансформера находится, он не может участвовать в обратном проходе для вычисления градиентов трансформера
Спокойно может, ты же не оффлоадишь т5.

>Да и время шага не увеличивается от его включения.
Ты шо еблан, оно увеличивается! Вот прямо щас включил - увеличилось с трех сек до 4.5.

>Собственно просто градиенты меньше.
Ты даже не понял че написано.
Аноним 11/12/25 Чтв 15:09:52 1451020 127
>>1450934
> Спокойно может, ты же не оффлоадишь т5.
Градиенты распространяются только в одну сторону. Градиенты ТЕ зависят от трансформера, не наоборот. Автоград при любой операции добавляет к результирующему тензору grad_fn - функцию обратного прохода. И выполняются они строго в обратном порядке. ТЕ у тебя при форварде ПЕРЕД трансформером, соответственно при обратном проходе градиенты ТЕ считаются ПОСЛЕ трансформера, а не наоборот. Градиенты не могут в обе стороны распространяться, а расчёт градиента - это просто дифференциация каждой операции форварда. Учи матчасть, чтоб не быть батхертом.
Что там на самом деле происходит в кривущем тулките только устрице известно, но никак не влияние ТЕ на градиенты трансформера.
Аноним 11/12/25 Чтв 15:15:52 1451024 128
image 7Кб, 725x55
725x55
image 6Кб, 728x40
728x40
>>1450934
> оно увеличивается
Алсо, нагло пиздишь, попробуй догадаться на каком из скринов было с включенным ТЕ. И с включенным ТЕ концепт очень плохо натренился, как будто на 500 шагах, а не 3500.
Аноним 11/12/25 Чтв 15:31:54 1451056 129
>>1451020
>>1451024
> Что там на самом деле происходит в кривущем тулките только устрице известно
Вангую ТЕ действительно тренится, просто не сохраняется, поэтому часть натренированного выкидывается. Или там совсем наговнокожено тогда.
Аноним 11/12/25 Чтв 15:43:52 1451091 130
>>1450904
>IMHO Wan в цепочке не на своём месте.
Да, иногда WAN стоит включить до апскейла. Иногда он вообще лишний.
Главная идея, что ретушь сильных шакалов - это ручной процесс. Надо двигаться по шагам, подбирать промпты, сиды и числа. Особенно ели речь идёт о личных фотках, где надо сохранить узнаваемость.
Универсальных расшакаливателей в локалках сегодня нет
Аноним 11/12/25 Чтв 16:35:01 1451210 131
>>1451020
> но никак не влияние ТЕ на градиенты трансформера.
Блять да иди ты нахуй, они не в вакууме тренируются а связанно. Возьми сдхл, натренируй 100 шагов с те, и без те, потом отключи те на том что натренировано с те и сравни с тем что без те - результы будут разные критически. Я этой фишкой еще с сд 1.5 периодически пользовался.
Аноним 11/12/25 Чтв 16:36:46 1451215 132
>>1451056
> Вангую ТЕ действительно тренится, просто не сохраняется, поэтому часть натренированного выкидывается
Так о том и речь, нет наговнокоженного лора адаптера под т5 вообще чтоб сохранять, а так оно тренируется само по себе естественно.
Аноним 11/12/25 Чтв 16:39:26 1451222 133
>>1451210
Чел, у тебя есть изменения потому что обновляются веса ТЕ и меняются эмбединги. Если ты включишь градиенты, но не будешь обновлять веса ТЕ, то они никак не будут влиять. В рамках одного прохода ТЕ никак не влияет. То что ты натренил ТЕ и выкинул его - это вообще пиздец. В том посте была шиза про "backward pass goes through the text encoder", что невозможно в принципе.
Аноним 11/12/25 Чтв 16:39:37 1451223 134
>>1451024
> Алсо, нагло пиздишь,
Смысл мне пиздеть, ты дурачок что-ли?

> И с включенным ТЕ концепт очень плохо натренился, как будто на 500 шагах, а не 3500.
Я ебу че ты там наконфигурировал, криворучка, не ко мне вопросы, у меня все работает как надо.
Аноним 11/12/25 Чтв 16:43:01 1451231 135
>>1451222
Ты мудак ебаный даже сид не смог зафиксировать и начал пиздоту разводить про недетерминированность, зачилься наху
Аноним 11/12/25 Чтв 16:49:35 1451248 136
>>1451231
> сид не смог зафиксировать
Ты сид генерации с тренировкой не путай, чухан. В тулките сиды только для генерации, тренировка недетерменированная там.
Аноним 11/12/25 Чтв 16:51:42 1451255 137
>>1451248
Иди скрипты тулкита открой, дура шизоидная, а потом в окно прыгни от недетерминированности бамболейла твоей жопы
Аноним 11/12/25 Чтв 17:00:49 1451271 138
image 32Кб, 1103x259
1103x259
image 42Кб, 864x337
864x337
>>1451255
Я в отличии от тебя умею пользоваться поиском. В конфиге сид только для генерации. При тренировке шум без сида и в датасете порядок рандомный.
Аноним 11/12/25 Чтв 19:45:09 1451522 139
Сколько у вас занимает генерации zimage и на каких картах?
Аноним 11/12/25 Чтв 19:46:52 1451524 140
>>1451522
недавно было 30 секунд для 800х1200 на 4070 шагов там вроде было всего 10 или типа того
Аноним 11/12/25 Чтв 19:56:34 1451533 141
>>1451522
Prompt executed in 27.38 seconds
4070 super
Аноним 11/12/25 Чтв 20:11:41 1451550 142
1765473100691.png 286Кб, 688x1098
688x1098
>>1451522
Во, 10 шагов, 4070.
Нижние две при включённом твиче.
Может если браузер закрыть будет быстрее, хз
Аноним 11/12/25 Чтв 20:34:53 1451578 143
856971066021510[...].jpg 340Кб, 1440x1920
1440x1920
Аноним 11/12/25 Чтв 20:42:47 1451582 144
image 196Кб, 880x1184
880x1184
Аноним 11/12/25 Чтв 20:43:57 1451584 145
>>1451522
От 15 до 30 секунд на дефолтных 1024, 9 шагов
4060 16
Аноним 11/12/25 Чтв 20:45:06 1451585 146
изображение.png 2476Кб, 760x1520
760x1520
>>1451522
3060 12GB
simple+euler, 9 шагов
2.0mp - 60 сек
1.6mp - 45 сек
1.2mp - 35 сек
Аноним 11/12/25 Чтв 20:49:58 1451588 147
image 975Кб, 651x1535
651x1535
Аноним 11/12/25 Чтв 20:52:10 1451590 148
>>1451588
Терпимо. Вот видео - просто жопа.
Аноним 11/12/25 Чтв 20:53:05 1451591 149
image.png 679Кб, 1001x562
1001x562
Аноним 11/12/25 Чтв 20:53:49 1451593 150
>>1451590
Видео же 2 минуты генерится. Быстрей чем большая пикча на хроме.
мимо
Аноним 11/12/25 Чтв 20:56:50 1451596 151
>>1451593
> Видео же 2 минуты генерится.
Подскажи, на какой сетке генерится две минуты, в каком разрешении и какой длительности.
Если есть пример - было бы славно, но можно и без примера видео. А то ждать подолгу видео вообще неудачно, когда их надо по несколько раз перегенерировать. Если, конечно, у тебя что-то около 4070, а не 5090.
Аноним 11/12/25 Чтв 21:03:25 1451602 152
>>1451522
3060, 8 шагов в 1024 ну секунд 20-25, но я обычно генерю в меньшем разрешении.
Аноним 11/12/25 Чтв 21:29:54 1451639 153
>>1451596
Ван 2.1 с ускорялками, 480p, 81 кадр
На 4090, говорят, минуту генерилось.
Хз что там по 2.2, изменений почти нет, впадлу чекать, жду сразу 3.0, остальное можно скипать
Аноним 11/12/25 Чтв 21:37:23 1451656 154
image.png 1367Кб, 1024x1024
1024x1024
Хоспаде как же хочица базовую модель зит, нормальные скрипты тренировки, файнтюнчики нсфвшные...
Аноним 11/12/25 Чтв 21:38:36 1451659 155
1765478315115.webm 211Кб, 512x320
512x320
1765478315120.webm 1894Кб, 1248x704, 00:00:02
1248x704
>>1451639
Хм, ну если тебе норм, то можно попробовать.
А то у меня на какой-то сетке при малом разрешении был пикрил, и надо было выше разрешение поднять, чтобы было хоть что-то терпимое.
Ну или какая-то хтонь с девушкой.
>>1451656
Не, пусть валяется как улучшатель результатов других моделей. Слишком мало знает, слишком "безопасная"
Аноним 11/12/25 Чтв 21:42:16 1451662 156
>>1451659
>Слишком мало знает
are you охуел там
>слишком "безопасная"
безопасная это флюх2, а зит ебать какая опасная
Аноним 11/12/25 Чтв 21:53:56 1451683 157
>>1451656
>хочица базовую модель зит
Тоже отложил тренировки, чтобы не нагружать лишний раз видеокарту, пока не выйдет официальная версия. На нормальные файнтюны не надеюсь, если только они не выпустят NoobAI на Z, тогда уже мердже-тюнеры что-то выдадут.
Аноним 11/12/25 Чтв 21:56:06 1451688 158
>>1451683
>>1451656
Не вижу особого смысла тренировать ее, если она сыпется при подключении нескольких лор.
Так бы можно было подключить стиль, перса и сложные концепты хотя бы
Аноним 11/12/25 Чтв 21:56:44 1451690 159
image.png 22Кб, 956x256
956x256
>>1451522
4070ti, 12gb (fp16 вся не влазит), 1m. Енкодер на цпу.
Аноним 11/12/25 Чтв 22:02:49 1451698 160
>>1451688
Так ты веса отбаланси, это тебе не сдхл которая ниже 0.75 уже катастрофически не применяется
Аноним 11/12/25 Чтв 22:11:56 1451718 161
1765480315995.png 2Кб, 203x68
203x68
1765480316000.png 9Кб, 359x113
359x113
1765480316000.mp4 304Кб, 640x480, 00:00:05
640x480
>>1451639
> Ван 2.1 с ускорялками, 480p 81 кадр
Годнота, хорошо что спросил.
Аноним 11/12/25 Чтв 22:26:26 1451736 162
>>1451656
Надо хорошую едит модель, в которую можно пихать референсы из сдохли. Новые модели без встроенной обработки референсов - нинужны.
Аноним 11/12/25 Чтв 23:33:28 1451862 163
>>1451690
С хуя ли так быстро?
Аноним 12/12/25 Птн 00:10:23 1451903 164
image.png 51Кб, 722x689
722x689
какого хуя эти пидоры там нахуевертили?
Аноним 12/12/25 Птн 00:12:42 1451907 165
image.png 8Кб, 395x228
395x228
i.webp 37Кб, 1500x500
1500x500
Аноним 12/12/25 Птн 00:25:52 1451929 166
ComfyUI00084.png 1212Кб, 1024x1024
1024x1024
image.png 247Кб, 1101x337
1101x337
image.png 4Кб, 335x102
335x102
Аноним 12/12/25 Птн 00:40:05 1451954 167
>>1451683
Ну и зря, IMHO. Я тут как раз попробовал - лора на предмет/персонажа 30 минут - 2 часа на 3060 с зажатым на 110W уровнем мощности (65 градусов MAX).
Разброс по времени - это в зависимости от качества.

И попутно - год назад пробовал тренить лоры на сдохлю, страдал - почему такая херня выходит. А тут, мне наконец gemini мозги вправил - это Batch Size, блядь. Он, оказывается, не только на скорость влияет (типа - больше исходников за раз), но и на качество результата (потому, что что-то вычисляет на основе всех картинок - среднее выводит избавляясь от случайного эффективнее). Проверил - точно. На BS=1 - хрень с зерном и артефактами на выходе еще до того как перс на себя стал похож. А на BS=2 уже хорошо. Благо, что на 12GB можно даже с BS=4 для Zит тренить. (На устрице.)
Аноним 12/12/25 Птн 00:52:20 1451974 168
1765489940275.png 1052Кб, 1152x896
1152x896
Аноним 12/12/25 Птн 00:56:44 1451982 169
1765490203772.mp4 303Кб, 480x640, 00:00:05
480x640
Аноним 12/12/25 Птн 00:58:55 1451988 170
>>1451639
Спасибо анон, я не ожидал, что она настолько мощная.
Аноним 12/12/25 Птн 01:03:55 1452001 171
>>1451982
Это новый супермэн?
Аноним 12/12/25 Птн 03:13:25 1452161 172
>>1451862
Енкодер на цпу. Тут челы видимо офлоадят модель и лоадят вместо нее енкодер (на пиках стоит дефолт у челов) и обратно каждый промпт.
Аноним 12/12/25 Птн 03:58:32 1452203 173
>>1452161
>Енкодер на цпу.
Это оффлоад в озу, это не может быть быстрей врама. Причина не в этом. Вон выше на 4060 быстрей чем у некоторых на 4070. Зависит от многих факторов
Аноним 12/12/25 Птн 04:26:17 1452216 174
>>1452203
>Зависит от многих факторов

Вангую, что там разрешение 1024x1024 поставили и Euler/simple поставили вместо sampler/scheduler.
А затем запостили скриншот окошка с удобными циферками.
К сожалению, ко всему тому что здесь размещают ещё приходится относиться с изрядной долей скепсиса.
Аноним 12/12/25 Птн 06:52:05 1452289 175
>>1452216
>Вангую, что там разрешение 1024x1024 поставили и Euler/simple поставили вместо sampler/scheduler.
Какие же вы еьынутуе стали. Тесты всегда делают на дефолте. Всегда на известном всем разрешении, на семплере/шедулере по умолчанию. На шаблоне который есть у всех. Это же тест скорости, а не качества.
А теперь посмотри на идиотов которые выше разрешение хуй пойми почему не дофолтное поставили. А ещё пишут " ну 15-30 секунд". Это ппц. Так 15 или 30? Дебилы, мояьь, школота.
Аноним 12/12/25 Птн 08:23:31 1452321 176
>>1451688
Ощущение будто с лора лоадерами что-то не то. Данриси юзает какой-то кастомный и сочетает свои две лоры, получается совсем не так хуево как когда делаешь то же сам на дефолтных.
Плюс надежда, что на base такого обучения не будет.
>>1451954
Странно, обычно батч повышают (если есть возможность) немного жертвуя качеством ради скорости.
>Благо, что на 12GB можно даже с BS=4 для Zит тренить.
Что за магия? Я выше одного не пробовал, но все разы потребляло чуть больше 12гб (вместе с системой) из 16гб врам.
Аноним 12/12/25 Птн 08:33:01 1452329 177
>>1451718
>>1451988
Если просто поиграться, то можно вообще пробовать 1.3B (2.1) или 5B (2.2), они ещё быстрей будут генерить 720p, но лор на них сильно меньше. Ну и ван, да и старый hunyuan даже на лоурезе выдают что-то, если проблемы с врам. Помню hy даже на 32x256 что-то связное выдавал.
>>1452203
15 секунд на закешированном промпте, на загрузке модели в fp8_fast. Получается немного хуже. В среднем 25 секунд.
Аноним 12/12/25 Птн 08:46:37 1452337 178
>>1452289
> А теперь посмотри на идиотов которые выше разрешение хуй пойми почему не дофолтное поставили.
Потому что квадраты не рендерим. В квадрат ничего не вписывается. Я понимаю, тесты для тестов, но тогда и другие условия надо соблюдать. Вроде перезагруженный комп, отсутствие браузера с ютубом на фоне, 11 винда последнего обновления. Да всем плевать. Рендерится картинка примерно такого формата в разбросе от 15 до 30 секунд в засисимости от кучи переменных сред внутри винды. Такие дела.
Аноним 12/12/25 Птн 09:00:42 1452344 179
>>1452216
Для теста берётся дефолт рекомендуемых настроек ясное дело и очевидно в 1МП.
Аноним 12/12/25 Птн 09:09:41 1452347 180
>>1452337
>Да всем плевать
Я примерно про это и написал. Современное поколение, которому на всё плевать. На культуру использования софта, на культуру его разработки.
Аноним 12/12/25 Птн 09:12:23 1452349 181
>>1452347
> На культуру использования софта
Ок ответь, какой тест будет верным.
Сразу после загрузки, потому что комфи ещё не загружал ничего в систему, и не насрал в память-кеши.
Или после первых десяти-двадцати, когда уже предзагрузил себя и данные нейросетки с ссд в оперативную память, потому что это его настоящая работа на практике.
Аноним 12/12/25 Птн 09:34:05 1452367 182
>>1452349
Ровно второй прогон со сменой Сида и не изменным промптом. Блять, со времён сд1.4 такое было.
Аноним 12/12/25 Птн 12:34:16 1452510 183
>>1449625
лучше ставить портабельную версию
Аноним 12/12/25 Птн 12:48:51 1452515 184
image 146Кб, 1324x830
1324x830
Можно ли заменить ноду Mask Bounding Box Aspect Ratio какой-то схемой их только встроенных нод? Нужно определять координаты и размер области имнпаинта X, Y, wid,hig стандартными, встреонными нодами. Можно такое сделать?
Аноним 12/12/25 Птн 12:49:24 1452516 185
>>1449625
Я недавно обновил что бы затестить парашу флакс 2,
И у меня перестало работать вообще всё. Все дефолтные воркфлоу отвалились. Потому пришлось качать портативку с нуля.
Флакс 2 как и ожидалось оказалась парашей и пошла под снос.
Потраченного времени жаль, пятикратно переваренный кал.
Аноним 12/12/25 Птн 12:59:18 1452524 186
image.png 1302Кб, 1024x1024
1024x1024
Аноним 12/12/25 Птн 13:09:09 1452530 187
>>1452321
>Ощущение будто с лора лоадерами что-то не то.
А у меня создалось ощущение, что модель просто более чувствительна к косякам использования лор. Если их "зоны ответственности" перекрываются - нужно силу применения уменьшать, иначе косячит изображение. Так и на SD/SDXL было, но этот эффект там заметно слабее. А здесь, прямо подбирать надо, чтобы итог не корежило.

>Странно, обычно батч повышают (если есть возможность) немного жертвуя качеством ради скорости.
Как я выяснил на практике - строго наоборот. По крайней мере в моем сетапе - BS=1 самый быстрый, но самый шакальный вариант. В прочем, возможно занижение Learning Rate при сильном увеличении количества шагов и дадут лучший результат.
Но тут даже на везде рекомендуемых везде параметрах - получается первые изменения к 350-ому шагу, и даже на 600 персонаж очень отдаленно на себя похож, при уже начинающихся артефактах. С BS=4 - лора готова на 250-350 шагов, качество - зашибись. LR при этом завышен в 2-3 раза от стартовых рекомендаций. (Поднят до 0.0002)

>Что за магия? Я выше одного не пробовал, но все разы потребляло чуть больше 12гб (вместе с системой) из 16гб врам.
Опция на Offload Unet в настройках устрицы - 100% в память (из VRAM). Правда тут еще от размера картинок в датасете зависит - BS=4 у меня получился с 768 квадратами.
При этом без offload вообще - даже с BS=1 не получается. Мало 12GB.
Аноним 12/12/25 Птн 13:41:58 1452562 188
Аноним 12/12/25 Птн 13:44:05 1452565 189
>>1452562
Лучше бы тайл или апскейл сделали. Кому вообще HED нужен.
Аноним 12/12/25 Птн 14:23:07 1452631 190
Кто-то заводил это на Z:
https://github.com/shootthesound/comfyUI-Realtime-Lora
Via Musubi Tuner:
Z-Image - faster training, smaller LoRA files, no diffusers dependency. Requires the de-distilled model for training, but trained LoRAs work with the regular distilled Z-Image Turbo model.
Via AI-Toolkit:
Z-Image Turbo
Аноним 12/12/25 Птн 14:44:27 1452666 191
Аноним 12/12/25 Птн 14:45:04 1452667 192
>>1452530
>офлоад
> Опция на Offload Unet в настройках устрицы - 100% в память (из VRAM). Правда тут еще от размера картинок в датасете зависит - BS=4 у меня получился с 768 квадратами.
> При этом без offload вообще - даже с BS=1 не получается. Мало 12GB.
Вы дегенераты блять, вам дали зетку которая может в 256 трениться отлично, плюс устрица ебанули квантизацию на лету, бы буквально можете все запихать на карту и не терпеть говно с выгрузками.
Аноним 12/12/25 Птн 14:48:09 1452674 193
>>1452562
Не работает после апдейта. Прошлый работал.
>>1452667
Ты точно не фанат сделать омном-ном за щеку? Выглядит как чистой воды коупинг. Уверен, уровень узнаваемости лица упадет, но захотелось попробовать.
Аноним 12/12/25 Птн 14:49:09 1452676 194
>>1452667
чел они скорее на гугуфе будут пробовать тренить
Аноним 12/12/25 Птн 14:50:08 1452678 195
>>1452674
> Ты точно не фанат сделать омном-ном за щеку? Выглядит как чистой воды коупинг. Уверен, уровень узнаваемости лица упадет, но захотелось попробовать.
Я бля только в 256 с выхода зетки делаю, там все прекрасно. Астралайт вон тест пони на 256 делает тоже. Реально вы как дауны тыкаетесь в то во что не надо когда есть топ решения для нищеты.
Аноним 12/12/25 Птн 14:51:55 1452684 196
>>1452678
>только в 256 с выхода зетки делаю
Понятно, гигакоупинг. Ну так ты оторвись от бочки с говном и попробуй нормальную еду, потом влезай в разговоры.
>Астралайт вон тест пони на 256 делает тоже.
АХхахахаха
Аноним 12/12/25 Птн 14:53:39 1452690 197
>>1452684
Ебать ты дебил сука нахуя ты живешь ебень
Аноним 12/12/25 Птн 14:54:51 1452692 198
>>1452676
Я вижу нахуй. Ебланидзе выше думает что флоу зетка это сдхл которая жество привязана к 1024 датасету. Тред ебанатов хули.
Аноним 12/12/25 Птн 14:58:00 1452704 199
256 4бит крута, я могу в карту реальный батч ебовый запихать 💪💪💪
Аноним 12/12/25 Птн 15:02:47 1452714 200
а я кушаю какашки и потом тренирирую пиксельарт у меня зрение -5 мне похуй я все равно даун и лица не различаю
Аноним 12/12/25 Птн 15:12:22 1452723 201
>>1452714
Тяжело вам на SDXL. Нам партия выдала Z-image, которая тренируется в 256 пукселей и генерирует 4к.
Объясните довену что латент спейсу зета пихуй на разрешение.
Аноним 12/12/25 Птн 15:31:36 1452746 202
>>1452667
>Вы дегенераты блять, вам дали зетку которая может в 256 трениться отлично
Ты там чего куришь, или вообще уже ширяешся прямо? Вообще всё одинаковым видишь? Ладно еще 512 - можно еще в такую картинку уложить что-то, боле-менее узнаваемое. Но, сцуко, 256 - это наутральный VGA, пиксельарт эпохи кинескопов до первых пентиумов. Там мелкие детали, в принципе будут одним пикселем на общем плане - это угадайка а не изображение. Спасибо, не надо.
Хотя конечно, если мне нужна лора с уровнем "зеленый шар на синем фоне" по детализации - это вариант, конечно. Но что еще можно натренить на том, что на картинке просто вообще отсутствует, из-за сверхнизкого разрешения? Смысл заморачиваться с качеством - если тату, кулон, элемент вышивки, или просто прилипший лист - один хрен - 1-2 пикселя и выглядят одинаково на фигуре в полный рост?
Аноним 12/12/25 Птн 15:34:39 1452750 203
>>1452723
>Объясните довену что латент спейсу зета пихуй на разрешение.
До латент спейса - надо еще через токенизатор пройти. И чтобы тот понял, вот этот пиксель - это что: тату, родинка, складка одежды, тень, и ли вообще муха на фото насрала.
А потом уже латент, да...
Аноним 12/12/25 Птн 15:38:52 1452755 204
>>1452746
>>1452750
>два дауна не понимают что значит 256 для зетки и упорно хуячат дичь про низкое разрешение картиночек из которых в манямире получаетс мыло и нет деталей

Реально дебилов тред. Хотя мне какая разница, это ваше проблемы что вы аут оф зе бокс не способны мыслить и хуйней занимаетесь со 150 секунд на шаг.
Аноним 12/12/25 Птн 15:44:40 1452763 205
>>1452746
Мощный коуп братан👍👍👍
Аноним 12/12/25 Птн 15:49:17 1452768 206
>>1452763
Это стадия отрицания. Потом со временем дойдут до мощи 256 пикселей, как с дмд было. Зетурба кстати сделана полностью на принципах дмд, вот у хейтеров очко подгорает наверно.
Аноним 12/12/25 Птн 15:54:44 1452773 207
>>1452723
>>1452755
>Орёт весь тред без конкретных объяснений своих слов
Это точно челик из локалочек ллм. Там такие довены оруны. Прям магистры хуйпойми каких знаний(они ими не делятся, но ссылаются на то ими обладают)
Аноним 12/12/25 Птн 15:56:47 1452774 208
>>1452773
Устаешь просто ебланам по триста раз базовые прописные истины пояснять. Проще на хуй послать.
Аноним 12/12/25 Птн 16:02:46 1452783 209
>>1452774
Для всех кроме тебя это не истина, а мусорные сведения. Чушь, потому что без доказательств. Доказательств ты не приводишь, несмотря на то что уже полтреда запакастил. А значит и к тебе относятся как к голословному *, пыль. Ссылку на статью какую-нибудь лень привести? А, ну да, обладать знаниями можешь лишь ты.
Аноним 12/12/25 Птн 16:10:32 1452796 210
z00015.png 8470Кб, 2048x2632
2048x2632
z00015.png 7622Кб, 2632x2048
2632x2048
Какая же Zеточка все таки вкусная, и легкая на обучение лор <3
Аноним 12/12/25 Птн 16:11:34 1452799 211
z00020.png 7719Кб, 2704x2048
2704x2048
z00044.png 12435Кб, 3584x2048
3584x2048
Сосочка просто
Аноним 12/12/25 Птн 16:12:04 1452800 212
>>1452783
Иди потренируй на 256 свою еот обоссаную и пиздак заткнешь сразу.
Для тебя наверно вообще в диковинку будет что вае сжимает картиночку в латенте, ага? Прикинь, на каскаде еще в 40 раз сжимало с полным восстановлением. Или ты думол, что ваешка картиночку в латенте разворачивает на основе конфига резолюшена твоей говнолоры? А еще наверно ты не в курсе что флоу чисто похуй и поебать на резолюшн тренировки? Потому что флоу учит СКОРОСТЬ, с которой шум превращается в изображение, а не хуйню предсказательную. Учи мемы чтобы не быть батхертом, время сдхл с привязкой к размеру датасета ушло.
Аноним 12/12/25 Птн 16:13:10 1452804 213
z00002.png 7439Кб, 2048x2632
2048x2632
z00013.png 7937Кб, 2048x2632
2048x2632
Аноним 12/12/25 Птн 16:27:23 1452819 214
>>1452800
Слушай, ты реально считаешь, что можно что-то натренировать на датасете из несуществующих деталей? Я допускаю что Zине пофиг на размер. Но она, блядь, у тебя получается телепатией владеет, или подключением к великому атсралу. Если на исходной картинке, из-за сверхнизкого разрешения, даже человек уже не понимает - что это за херня изображена - откуда сетка то поймет?
Речь именно об этом. Если ты тренишь что-то, что 256 пикселей еще разборчиво - базару нет. Но если там просто непонятно - что это такое конкретно, в таком малом разрешении? Ну вот, например затолкай в 256 пикселей какую-нить эмблему организации, где всего 10% ее поля занимает мелкий текст - из библии, строчек 8. Ага? Чтобы лора ее всегда без искажений текста потом воспроизводила. Ну, или что-то вроде вот этого: https://e7.pngegg.com/pngimages/206/618/png-clipart-nerv-neon-genesis-evangelion-2-logo-rebuild-of-evangelion-angel-game-text.png
И чтоб лора текст не путала.
Аноним 12/12/25 Птн 16:31:07 1452821 215
>>1452819
Сука доебешь меня фома неверующий. Ок, давай натренирую эту залупень твою в 256, ток дай СЛОВО ПАЦАН что как только я тебе хуев натолкаю, то ты не исчезнешь нахуй а напишешь что извиняешься, был не прав и больше не будешь доебывать людей.
Аноним 12/12/25 Птн 16:37:31 1452824 216
>>1452819
>что можно что-то натренировать на датасете из несуществующих деталей?
>она, блядь, у тебя получается телепатией владеет, или подключением к великому атсралу
Погоди, ты отразил вообще что ты даешь ваешке картиночку, ваешка СЖИМАЕТ ОЧКО твоей картиночки в милипиздрическую латентную залупку, обучает на ней и ей все равно на эти 256 пикселей потому что из латента вае будет восстанавливать обратно в исходный размер минуя выставленный конфиг резолюшена? То есть мы выставляя 256 в конфиге буквально экономим врам на пустом месте просто, понимаешь?
Аноним 12/12/25 Птн 16:38:57 1452825 217
>>1452667
> 256 трениться отлично, плюс устрица ебанули квантизацию на лету
Я треню в 1280 без квантов и что ты мне сделаешь? Рассмешишь микроквадратами и отсутствием новых текстур у лор?
Аноним 12/12/25 Птн 16:39:57 1452826 218
>>1452825
>Я треню в 1280 без квантов и что ты мне сделаешь?
Пока ты тренируешь одну лору, я тренирую десятую. Мы на разных уровнях.
Аноним 12/12/25 Птн 16:47:52 1452838 219
>>1452826
Хочешь сказать за 3 минуты лору тренишь? Потому что на 1280 за 30 минут тренится. Уже то что тебе стыдно показывать в треде натрененное о многом говорит.
Аноним 12/12/25 Птн 16:55:34 1452854 220
>>1452838
>Хочешь сказать за 3 минуты лору тренишь?
Достаточно для тренировки твоей матери.
>Уже то что тебе стыдно показывать в треде натрененное о многом говорит.
Ого, битва с соломой.
Аноним 12/12/25 Птн 16:56:20 1452855 221
>>1452821
Да я как бы сам тесты проводил, хоть и не дошел еще до 256. В 512 у меня перс "в общем" - не хуже получился чем в 768, на грани субъективной погрешности. А вот форма шрама (на груди у него) уже явно плывет даже на 512, тогда как на 768 - стабильно рисует как надо.
Так что не надо орать - я и в 256 попробую. И извинится за мной не заржавеет, если оно реально не повлияет совсем.
Пока же - как я вижу по результату, что если тренишь что-то общее как концепт - низкое разрешение может быть даже бонусом, там обобщение только в плюс. А вот если конкретного перса/объект, да с мелкими важными деталями - они могут и проебаться на датасете низкого разрешения.
Аноним 12/12/25 Птн 17:26:51 1452884 222
image.png 718Кб, 1910x1121
1910x1121
image.png 60Кб, 1185x627
1185x627
>>1452819
>Ну вот, например затолкай в 256 пикселей какую-нить эмблему организации, где всего 10% ее поля занимает мелкий текст - из библии, строчек 8. Ага? Чтобы лора ее всегда без искажений текста потом воспроизводила. Ну, или что-то вроде вот этого: https://e7.pngegg.com/pngimages/206/618/png-clipart-nerv-neon-genesis-evangelion-2-logo-rebuild-of-evangelion-angel-game-text.png
>И чтоб лора текст не путала.
Кароче лень ждать пока полностью скопирует, на тебе 80 шагов.
Аноним 12/12/25 Птн 17:41:16 1452898 223
>>1452884
Зина конечно умница, но ты же промптом детали картинки сделал, а не лорой. Если ты из промпта генерации детали и текст уберешь - она сама справится с его начертанием - только на базе информации из лоры? Т.е. - получится результат только с промптом "on the white background a red logotype" (где "red logotype" - токен на который лора тренилась)? Чтобы форма, содержимое и текст были взяты из лоры, а не из промпта?

Если да - мои извинения, был неправ.
А если нет - мы каждый при своем, т.к. как минимум о разном говорили.
Аноним 12/12/25 Птн 17:41:33 1452899 224
>>1452884
Пзц, у тебя в голове так же наверное. Простейшая схема, а выглядит жутко. Это же надо так суметь запутать
Аноним 12/12/25 Птн 17:48:36 1452909 225
>>1452884
И что это за говно? Покажи как лого генерится, а не текст. То что ты делаешь - просто промптом текст написал. Как по промпту "NERV logo" сможешь это сгенерить, так и приходи рассказывать что ты там натренил.
Аноним 12/12/25 Птн 19:53:59 1453011 226
>>1448719 (OP)
Кто-нибудь шарит, как использовать zimage или flux 2.0 на автоматике? Может есть какой-то костыль для этого? Комфи вообще кал ебаный неудобный. Или может есть какой-то аналогичный сервис, главное чтобы там был инпейнт по области с заданным разрешением как в автоматике.
Аноним 12/12/25 Птн 20:13:03 1453039 227
Аноним 12/12/25 Птн 20:18:36 1453047 228
>>1453039
Только надо вариант Neo ставить, а не собственно Classic.
Аноним 12/12/25 Птн 20:36:30 1453075 229
>>1453047
А где там ссылка, чтобы нео скачать?
Аноним 12/12/25 Птн 20:38:24 1453078 230
>>1453039
Тут вопрос а он с картами 50хх серии норм работает? Потому что там 50хх серия по умолчанию тоже не поддерживалась, пришлось качать какуюто ветку.
Аноним 12/12/25 Птн 20:42:56 1453083 231
>>1452898
>Зина конечно умница, но ты же промптом детали картинки сделал, а не лорой.
Бля, а ты как хотел? Чтобы по токену или на холостую логотип генерило? Это буквально надо несколько тыщ шагов ждать переобучения.
>Если ты из промпта генерации детали и текст уберешь - она сама справится с его начертанием - только на базе информации из лоры?
Конечно, но это ждать долго. Мало того тебе скажу, что даже если бы я просто на класс токен начал дрочить лору без описания, то все равно бы работало ток ждать долго пока оверфитнется. Я так на легаловских баб лору в 256 тренил вообще без описания, зетка сама всю нужную инфу с картинок спиздила.
>Т.е. - получится результат только с промптом "on the white background a red logotype" (где "red logotype" - токен на который лора тренилась)? Чтобы форма, содержимое и текст были взяты из лоры, а не из промпта?
Я не буду оверфитить лору 6 часов, я не ебанутый чтобы на дваче доказывать что-то с очевидным результатом. Могу легаловских баб показать, они хотя бы готовые.
>А если нет - мы каждый при своем, т.к. как минимум о разном говорили.
Я хз маневр это или нет у тебя, но по итогу получается тебе нужна не гибкая лора, а оверфит на объект, что не является стандартным использованием, но зетка и такое сделает.

>>1452899
Нашел до чего доебаться.

>>1452909
Щас, уже бегу 5к шагов оверфитить на картиночку, губу закатай опущенец малолетний на мамкиной шее нолайфер задрот омежка лох.
Аноним 12/12/25 Птн 20:51:27 1453087 232
>>1453083
>я не ебанутый чтобы на дваче доказывать что-то
Да.
Аноним 12/12/25 Птн 20:54:27 1453091 233
Аноним 12/12/25 Птн 20:54:52 1453093 234
image.png 279Кб, 476x508
476x508
>>1452796
Лол, это те самые "256 отлично обучают не отличишь от 1024"?
Аноним 12/12/25 Птн 20:57:03 1453095 235
>>1453093
анус зашивай, тебе его порвали в треде
Аноним 12/12/25 Птн 21:09:56 1453103 236
Аноним 12/12/25 Птн 21:13:04 1453104 237
z00026.png 10478Кб, 2048x3584
2048x3584
z00018.png 6776Кб, 2048x2048
2048x2048
z00004.png 1679Кб, 896x1152
896x1152
>>1453093
Я другой анон, я с вами тут не срался))
Все что скинул это лоры обучались на 768, 1000 шагов, примерно 50 минут тренировка идет на 5070ti.
Потренил на 512 некоторые лоры, тренится за 30 минут всего.
Правда сильного отличая от 768 не заметил, все равно потом flashVSR + adetailer прохожусь по пикам которые понравились, а они уже детали дорисуют и ебальничек под лору подгонит


Вы так долго тут срались, что быстрее взяли бы 6-10 фоток селябы, потренили бы на 256 и сюда выложили)
Аноним 12/12/25 Птн 21:15:36 1453106 238
Теоретически, если узнать во сколько раз фактически сжимает вае от флюха, то можно и ниже 256 пробовать, не думаю что там меньше 10 раз ваеха жмет.
Аноним 12/12/25 Птн 21:24:31 1453116 239
>>1453104
>что быстрее взяли бы 6-10 фоток селябы, потренили бы на 256 и сюда выложили
Я еотову на 256 натренил, никаких отличий от 1024. Выкладывать надо с еотовыми фотками, а ето диванен.
Аноним 12/12/25 Птн 21:31:09 1453120 240
>>1453083
>Я не буду оверфитить лору 6 часов
Я тебя доказывать не заставлял, ты сам полез. Но теперь уж или приводи нормальное доказательство, или подожди, пока я сам до тренировки с размером 256 доберусь (уж прости - сегодня рабочий день, не раньше завтра получится).

>Я хз маневр это или нет у тебя, но по итогу получается тебе нужна
Мне не нужна сама лора - я хочу понять, насколько реально теряются или нет мелкие детали при датасете из маленьких изображений. Везде об этом говорится, и это, сцуко, логично - ведь если на картинке деталь даже глазом не разобрать - откуда в лоре возьмется правильная информация об этой детали, ведь ее буквально вообще НЕТ в исходнике. А на квадрате 256 - там что-то мелкое но важное может реально как 2-3 пикселя выглядеть. Еще ДО того, как вообще в процесс обработки попадет. Я именно про это.
Остальное - просто проверка. Если лора на единственный объект не может генерировать правильное изображение в деталях, даже в оверфите, просто по токену без детального промпта - значит что детали в такой лоре проебываются, и малый размер картинок датасета таки не годен там, где эти мелкие детали важны. вот и все.
Мне сейчас не свое доказать важно, а реально разобраться. То что лора созданная на мелких картинках в принципе возможна - я под сомнение не ставлю. Скажем, крупный план чего-то без мелких деталей.

(И т.к. я уже остыл) И если бы ты с оскорбления не зашел здесь: >>1452667 я бы тоже в другом тоне ответил с самого начала.
Аноним 12/12/25 Птн 21:39:19 1453124 241
>>1451954
> Batch Size, блядь. Он, оказывается, не только на скорость влияет (типа - больше исходников за раз), но и на качество результата (потому, что что-то вычисляет на основе всех картинок - среднее выводит избавляясь от случайного эффективнее). Проверил - точно.
>>1452321
>>1452530
> меняют BS
> не меняют LR и steps
> удивляются

Буквально магическое мышление каргоультистов. Почитать не пробовали как и на что BS влияет? Хинт: может быть на что-то надо умножить число шагов?

https://github.com/spacepxl/demystifying-sd-finetuning
Аноним 12/12/25 Птн 21:40:22 1453125 242
>>1453104
>Вы так долго тут срались, что быстрее взяли бы 6-10 фоток селябы, потренили бы на 256 и сюда выложили)
Так оно этот спор не решит. Узнаваемость лица - достаточно крупными деталями достигается. Тут для проверки надо что-то более специфическое - машину с отбитой фарой или точным номерным знаком, или еще что-то такое - где важна мелкая но уникальная деталь.
Аноним 12/12/25 Птн 21:52:06 1453138 243
image 338Кб, 832x1216
832x1216
image 357Кб, 832x1216
832x1216
Аноним 12/12/25 Птн 21:53:35 1453139 244
>>1453125
В топе лор на civitai всегда позы, стили, персонажи, детали тела (писик/сисик).
Если эту хуйню можно обучить на 256 без потери каких ну прям пиздец важных деталей, то в рот оно ебись ваш спор если честно, дрочь ради дроч
Не знаю даже, конкретно под определенную задачу, когда нужна овердохуя детализация в каком то определенном концепте, то у меня не возникнет вопросов каких размеров тренить, я естесно вьябу 1024 (ибо мои 16гб пук-среньк делают на большем разрешении).
Но если на 256 мне даст спокойно сделать персонажа, позу или сисик писик, то это заебись и смысла я не вижу генерить выше
Аноним 12/12/25 Птн 21:54:44 1453140 245
>>1453138
Концептуальное дерьмо
Аноним 12/12/25 Птн 21:57:43 1453141 246
image 211Кб, 832x1216
832x1216
image 125Кб, 832x1216
832x1216
image 203Кб, 832x1216
832x1216
Аноним 12/12/25 Птн 22:00:46 1453143 247
>>1453124
>Буквально магическое мышление каргоультистов. Почитать не пробовали как и на что BS влияет?
Я потому на себя и ругался, что как раз читал, и не одно руководство. Общую взаимосвязь между BS и LR - они описывают. И число шагов я для BS считал под свой датасет, и выставлял согласно всем этим руководствам, а потом еще и с гемини консультировался для проверки. По всем прогнозам лора должна была быть готова примерно на 800 шагов. Но она начала шакалить картинку признаками оверфита уже на 500-600, при том что персонаж и близко не дошел до кондиции.
Т.е. либо все руководства все равно лгут, и LR надо ставить еще меньше, а шагов еще больше для BS=1. И намного. Или установка BS>1 реально влияет критически, как гемини про это выдала, и подтвердилось на практике. Вот что было ей сказано по данному вопросу, дословно:

Batch Size (BS) — это один из самых важных гиперпараметров, который влияет не только на скорость, но и на качество и стабильность LORA.
BS=1 Низкая точность. Градиент (направление, куда нужно двигать веса) вычисляется по одному изображению. Это делает обучение "шумным" и менее стабильным.
BS=2 Высокая точность. Градиент вычисляется по двум изображениям. Это более точно отражает "среднее" направление, куда должна двигаться LORA, что дает более стабильное и лучшее качество.

Может напиздела, разумеется. Но похоже, если по результату судить. Я ее пробовал в другой сессии чата потом расспрашивать чтоб контекст не влиял - повторяет. Либо глобальная ошибка в ее знаниях, либо оно таки действительно так.
Аноним 12/12/25 Птн 22:11:04 1453161 248
>>1453143
Батчсайз от оптимизатора зависит. У каждого свой оптимальный. Какой-нибудь Lion имеет оптимальный батчсайз 128-256. У адама 16-32. Шакалы на Z имеем не из-за оверфита, а из-за Турбы - тренить на дистиле всегда хуёво было на любых моделях, на базе такого не должно быть. Тут у нас выходов не много - не дотренивать лору до конца или сидеть на батчсайзе 8+ с оптимизатором под низкий батчсайз.
Аноним 12/12/25 Птн 22:14:31 1453173 249
>>1453139
Если - то да.
Но я хочу точно понимать на что подписываюсь, уменьшая размер картинок в датасете. Так что все равно проверять буду.
Аноним 12/12/25 Птн 22:17:48 1453180 250
>>1453124
Учту.
Попробовал въебать максимум говна, сделал 256/bs=4/uint4. На 1500 получилась хуйня. Ладно, не прям хуйня, да и может ненастроенный lr виноват, но начало ухудшаться качество, а лицу нужно было ещё хотя бы тысяча шагов. На 1024 и 768 с bs=1 такого не было.
Делаю сейчас ещё один тест, на 200 пикч на 256х занимают смешные 7.8гб во врам. Потом попробую это же с bs=8.

Ну, для каких-то грубых концептов или стилей 256 - топ выбор. Если оно не хуярит по качеству.
Аноним 12/12/25 Птн 23:38:22 1453272 251
image.png 1344Кб, 832x1216
832x1216
image.png 1421Кб, 832x1216
832x1216
image.png 1598Кб, 832x1216
832x1216
image.png 1586Кб, 832x1216
832x1216
Ну, вот лицо на 256, в 4 бит, кеширование включено, чтобы не хранить энкодер, 2к шагов.
Последние две - euler-simple vs er_sde-sgm_uniform.
Хз. Обучалось вдвое или даже втрое быстрей дефолтных настроек на 768/1024.
Аноним 12/12/25 Птн 23:43:30 1453276 252
>>1453272
>Обучалось вдвое или даже втрое быстрей дефолтных настроек на 768/1024.
Удивительно, да?
Аноним 12/12/25 Птн 23:45:22 1453278 253
>>1453272
Что-то выглядит на уровне референсов Квена, явно хуже референсов Флюкса 2.
Аноним 13/12/25 Суб 00:05:05 1453302 254
>>1453272
Енкодер тоже можешь в карту впиздячить в 2 бита, от него толку ноль.
Аноним 13/12/25 Суб 00:07:10 1453303 255
>>1453302
Нахуя это делать? Он отрабатывает отдельно перед тренировкой. Его лучше вообще не квантовать.
Аноним 13/12/25 Суб 00:09:46 1453304 256
>>1453303
> Нахуя это делать?
Инициализации моментальные, в отличие от фулового говнеца да еще в рамке
Аноним 13/12/25 Суб 00:10:45 1453306 257
>>1453304
А да еще кеш не надо хранить.
Аноним 13/12/25 Суб 00:21:51 1453315 258
>>1453272
На пик 3 - "не верю". Схожесть приблизительная, разрез глаз и нижнее веко не то. На пик 4 - "и так сойдет". И везде - подбородок неправильный. Он у нее хоть и острый выступающий, но все же не настолько, и не вперед, а скорее вниз - губы выделяются а не подбородок. У нее еще заметная ямка есть по центру - что в сумме не дает такого эффекта сверхтяжелой челюсти.
Хотя первые две - хорошо смотрятся в целом.
Это только лицо в датасете было, крупным планом? Из роли в сериале, или были общие фото вне роли?
Аноним 13/12/25 Суб 00:42:15 1453342 259
Аноним 13/12/25 Суб 00:48:20 1453347 260
image.png 675Кб, 1852x733
1852x733
Аноним 13/12/25 Суб 01:05:17 1453351 261
>>1453342
Человек-шиздетектор, ты? Сходи в ремонт.

>>1453347
Ну, да - теперь алиса - универсальный аргумент. :)

Только вот вопрос вообще не в том, узнает сетка лицо или нет.
Я просто расписал мелкие детали, которые искажены. Художник такое увидит сразу.
Я ж тут не говорил, что все совсем плохо, а ты уже окрысился.
Аноним 13/12/25 Суб 01:27:12 1453370 262
Z-Image-Edit када?
Аноним 13/12/25 Суб 06:29:26 1453466 263
16660891270270.jpg 46Кб, 460x428
460x428
Я не понял щас, че комфи наконец-то научился сам обновлять пути к чекпойнтам, лорам и всяким другим ваям при загрузке воркфлоу...
Аноним 13/12/25 Суб 07:37:56 1453477 264
>>1453351
> Ну, да - теперь алиса - универсальный аргумент. :)
Ну так кожаный мешок в нейротреде ошизел, нужна компвис нейросеть, которая скажет кто на пикчах.

> Только вот вопрос вообще не в том, узнает сетка лицо или нет.
Ого, вот это маневр.

> Я просто расписал мелкие детали, которые искажены.
Это ты в зоге удмуртов и банкетных классифицируешь? Ты доебался до человека на ровном месте потому что тебе припекло от того что лора натренена на 256, что обоссало тебе ебало и нужно срочно искать минусы чтобы задемеджконтролить рваную сраку. Первый раз что-ли на дваче?

>Художник такое увидит сразу.
У меня худ образование, много лет худ школы, академический специалитет 6 лет, а рисую я 26 лет. Не лезь в этот аргумент, я тебя сожру.

> Я ж тут не говорил, что все совсем плохо, а ты уже окрысился.
Ты токсично пассивноагрессировал, упаковав в коннотацию говна, мне со стороны более лутше видно.
Аноним 13/12/25 Суб 07:49:19 1453480 265
всё хуйня ваши споры, попробуйте обучить лору кого-нибудь с родинкой
Аноним 13/12/25 Суб 07:55:23 1453482 266
>>1453480
Да, Мерелин Монро с испанской мушкой. Слабо? Чтобы не вызвать мушку промптом, но она была.
Аноним 13/12/25 Суб 07:57:18 1453483 267
>>1453120
>насколько реально теряются или нет мелкие детали при датасете из маленьких изображений. Везде об этом говорится, и это, сцуко, логично - ведь если на картинке деталь даже глазом не разобрать - откуда в лоре возьмется правильная информация об этой детали, ведь ее буквально вообще НЕТ в исходнике. А на квадрате 256 - там что-то мелкое но важное может реально как 2-3 пикселя выглядеть. Еще ДО того, как вообще в процесс обработки попадет. Я именно про это.
Братик, ты игнорируешь, что я второй раз щас буду описывать.
1. Держим в уме что флоу насрать на резолюшн выставленный в конфиге, он завязывается на резолюшн латента для корректной генерации, поэтому апскейл латента на флоу такой хуевый и нужны флоу апскейлеры специальные если именно латент скелить.
2. Допустим у тебя датасет из 1 картинки 1024, а резолюшн конфига лоры 256. Её реальный размер может быть хоть 4096×4096 - не важно.
3. После ресайза в 256 вае енкодит ее в раз 20 (я не знаю во сколько раз сжимает вае флюха, но примерно столько) в латент, и флоу подвязывается к этом латенту вычисляя/обучая поля скоростей. Казалось бы, даталоадер сжал картинку и потерял данные, но тут с ноги врывается пункт...
4. Flow не учит шум, детали, и прочее, поэтому все изображения с флоу точные и четкие на практически любых разрешениях - это архитектура синтетического статистического восстановления, а не прямого шумового предикшена. Так в том числе работают супер резолюшен модели. Все что ты видишь на картинках из флоу моделей это статистическая интерпретация модели. Побочным продуктом flow является внутренний принцип модели который можно описать как "галлюцинирующие высокочастотные детали", это так скажем статистика всей модели которая используется при генерации. Так как манямирок нейронок это работа со статистикой (как собственно у всех нейрокалов), то флоу ничего не стоит статистически предположить недостающие элементы опираясь на полученное поле скоростей с датасета.

То есть флоу НЕ может ФИЗИЧЕСКИ достать детали, уничтоженные при ресайзе даталоадером, но флоу они и не нужны, она в принципе их не изучала и не могла изучать, флоу достаточно информации и статданных чтобы их прямо синтезировать обратно, основываясь на знании из всего датасета и всей модели целиком. Магия нейросетевой статистики буквально.
Аноним 13/12/25 Суб 08:05:29 1453486 268
image.png 3250Кб, 2335x1199
2335x1199
image.png 1675Кб, 993x946
993x946
>>1453315
Согласен. Первая вообще не узнаваемая. Есть куда бустить узнаваемость, когда будет base и интересные файнтюны. Меня больше волновала эта лесенка, не замечал её на других генерациях на 9 шагах, но причины могут быть разные. Скорей всего несколько хуевых пикч в датасете. В принципе на другом 256 трейне её нет, там более натуральные jpeg артефакты.
В основном по плечи. Старый датасет только из первого сезона.
>>1453304
Он не в раме, он выгружается нахуй за ненадобностью после стартовой отработки. И раз ты экономишь 10 секунд загрузки и 10-100мб кеша, по-твоему где квантизация происходит?
>>1453466
Не понимаю хули они не сделают поиск по хешу, а не по имени. Даже когда добавят такую фичу, со старыми воркфлоу не сработает.
Аноним 13/12/25 Суб 08:06:35 1453488 269
>>1453482
>Чтобы не вызвать мушку промптом, но она была
У тебя фетиш на оверфит и генерацию без промта?

Кстати, если флоу не работает с контентом картинок, то можно хакнуть жопу флоу через дробление условной 1024 картинки на 4 чанка по 256, а батчсайзом скомпенсировать увелчивишийся датасет. Сайнс, бич.
Аноним 13/12/25 Суб 08:48:25 1453503 270
>>1452826
Десять лор говна - это просто очень много говна.
Такими лорами весь цивит засран.
Аноним 13/12/25 Суб 09:03:19 1453504 271
DurinCard.webp 297Кб, 750x1800
750x1800
JahodaCard.webp 306Кб, 750x1800
750x1800
>>1453488
>>1453482
Да какая Монро, вы о чем вообще. Это ж примитив дизайна, плюс сетка такую личность скорее всего и так знает, хотя бы в следовых количествах.

Возьмите перса с какой-нибудь гачи-дрочильни по типу геншина или ZZZ. Вот уж где обилие мелких деталей, которые на сжатии в 256 пикселов просто в кашу превратятся, плюс тотальная ассиметрия костюма.

Хорошо тренированные лоры на сдохле с такими костюмами справлялись. Правда, все равно пердели от натуги, ибо у вае не хваало силенок детали обратно рисовать. Но - справлялись.
Причем были лоры как с вызовом "персонажа в костюме" одним токеном, так и с разграничением по частям.
Аноним 13/12/25 Суб 09:14:18 1453505 272
Как работают бакеты (в ai-toolkit для z)? Если в датасете 1024х1024 и 768x768, а выбраны бакеты 512, оно само отресайзит пикчи или кропнет? А что произойдет если датасет наоборот меньше бакета, допустим 384x384? Или лучше самому отресайзить? Не берем в расчет обучение pixel art, когда нужен особый метод ресайза.
Аноним 13/12/25 Суб 10:15:58 1453548 273
image.png 1624Кб, 768x1280
768x1280
image.png 1484Кб, 768x1280
768x1280
image.png 1598Кб, 768x1280
768x1280
image.png 1571Кб, 768x1280
768x1280
>>1453488
>робление условной 1024 картинки на 4 чанка по 256, а батчсайзом скомпенсировать увелчивишийся датасет
Ради инетерса тестанул. Взял пикчу анимедауна выше, разрезал на 12 чанков, пизданул скорость экстремальную и несколько эпох сделал. Роботает.
Аноним 13/12/25 Суб 10:18:10 1453553 274
Персонаж жарено[...].png 1306Кб, 1024x1024
1024x1024
Аноним 13/12/25 Суб 10:46:22 1453596 275
Аноним 13/12/25 Суб 11:11:50 1453612 276
>>1453505
отресайзит и если надо кропнет
Аноним 13/12/25 Суб 11:48:39 1453625 277
z0image01096.webp 443Кб, 640x864
640x864
z0image01098.webp 1489Кб, 1248x1552
1248x1552
Как быть с вариативностью у тел/лиц? Буквально дефолтное ебло и тушка у каждой бабы, смена промпта и разрешение не спасает, только если конкретно описывать возраст, пропорции, и то дает примерно одинаковые вариации. В сдохле и то хотябы каждый сид это может быть смена ракурса, композиции. А тут буквально одно и тоже, каждый раз, пока абсолютно другой промпт не напишешь. Както чинится это, или это фишка зимагв? ( в квене то же самое кста)
Аноним 13/12/25 Суб 11:49:22 1453626 278
изображение.png 2Кб, 57x53
57x53
>>1453548
>Роботает.
Что работает?
Аноним 13/12/25 Суб 11:51:02 1453627 279
Аноним 13/12/25 Суб 11:57:32 1453630 280
>>1453627
Нет, ты тупой!
Что работает то?
Что именно у тебя на пикрилах натренировалось? Цвет фона?
Аноним 13/12/25 Суб 12:00:02 1453633 281
Аноним 13/12/25 Суб 12:24:15 1453646 282
>>1453625
Ты там майнер встроил штоли? Зависает интерфейс комфи от пик2
Аноним 13/12/25 Суб 12:54:35 1453679 283
>>1453477
Ты доебался до человека на ровном месте потому что тебе припекло от того что лора натренена на 256
Чел, я не доебался. Я еще раньше написал, что уже остыл, и теперь просто хочу разобраться на практике. И просто перечислил то, где вижу разницу с оригиналом по мелким деталям/нюансам. Главное же - человек запостил ниже датасет на котором это тренировалось - я ему очень благодарен. Стало явно видно, что потеря мелочи хоть и есть, но намного менее критична чем я предполагал. Еще потом сам потестирую, но видимо, кроме совсем уж специфичных случаев, 256 хватает на практике.

Кому я извинения задолжал - тебе или нет, в любом случае, прямо говорю: я был неправ. Прошу прощения.

>>1453486
Большое спасибо за картинку с датасетом. Таки сильно помогло прояснить вопрос.
Кстати, гайды рекомендуют для конкретного персонажа ограничиться 15-20 изображений, а у тебя более 50-ти, что рекомендуется уже для концептов. Это было специально сделано под Z, и у нее другие надобности и в этом, или ты просто всегда так делаешь?
Спрашиваю потому, что и в гайдах, и гемини настоятельно рекомендуют не превышать количество, если нужен именно конкретный персонаж/объект - мол: "только потеряется детализация от обобщения, и увеличится время тренировки почем зря". Врут получается?
Аноним 13/12/25 Суб 13:26:42 1453726 284
охуенную лору обучил на зите, лицо прям один в один, родинка есть и присутствует где надо, 2100 шагов всего, нихуя не работает кроме крупных планов
Аноним 13/12/25 Суб 13:40:59 1453740 285
Какая модель хорошо подходит для удаления ватермарок и прочего мусора?
Аноним 13/12/25 Суб 15:08:36 1453806 286
>>1453272
Не похожа. Хуиту сделал. Переделывай говнодел. Учись.
Аноним 13/12/25 Суб 16:57:32 1453878 287
Z-Image-Omni-Base
A foundation model designed for easy fine-tuning, which unifies the core capabilities of image generation and editing to unlock the community's potential for custom development and innovative applications.
секси
Аноним 13/12/25 Суб 17:08:15 1453888 288
>>1453477
>У меня худ образование, много лет худ школы, академический специалитет 6 лет, а рисую я 26 лет. Не лезь в этот аргумент, я тебя сожру.
Запости побольше нейрокартиночек, плиз. Очень любопытно посмотреть, что генерит человек с таким бэкграундом.

мимо
Аноним 13/12/25 Суб 17:13:58 1453893 289
>>1453625
>это фишка зимагв
Это фишка всех пиздоглазых моделей, похоже. Все рисуют одну и ту же бабу. Нужны едит версии моделей, чтобы рисовать нужных тянучек с референса. Чистый т2и прумптинг — морально устаревшая методология на сегодняшний день.
Аноним 13/12/25 Суб 17:50:23 1453916 290
>>1453740
В принципе любая сдохля, но есть специализированные типа флюкс контекст. По ощущениям контекст лучший для быстрого редактирования исходника.
Аноним 13/12/25 Суб 17:56:08 1453921 291
>>1453740
Я Lama Cleaner для такого использую.
Аноним 13/12/25 Суб 17:58:08 1453925 292
>>1453893
Это фича вообще всех копронейронок еще с первой сд 1.5. Причем чем дальше тем больше, потому что раньше от смены задника цеплялась инфа по остальным элементам, но современные сетки обученный по развернутым промтам из мультимодалок умеют изолировать лица и абстрагировать их вот в такое нейроебало.
Аноним 13/12/25 Суб 18:59:14 1453943 293
Аноним 13/12/25 Суб 19:07:12 1453950 294
>>1453925
>Это фича вообще всех копронейронок еще с первой сд 1.5
Файнтюнов от васяна - да. Ваниллы - нет. Такого разнообразия всего на свете как в ванильной 1.5 нет больше нигде, и не будет, увы.
Аноним 13/12/25 Суб 19:10:19 1453951 295
>>1453625
Кароче я заметил что фича вариативностью проявляется если тренить с transformer_only:false лоры, просто тупа датасет с бабами на токен woman надрачиваешь и пользуешься.
Вовторых помогает переключение клипскипа на -3 (ну или на -1, если ты шиз и ненавидишь промты), -2 дефолтный слишком стабильный. Втретьих уже кидали сидвариатор, он там шум подмешивает согласно настройкам.
Аноним 13/12/25 Суб 19:12:35 1453952 296
>>1453951
>ну или на -1, если ты шиз и ненавидишь промты
Значение знаешь?
Аноним 13/12/25 Суб 19:14:02 1453955 297
>>1453952
NSFW фильтр на полную катушку на -1
Аноним 13/12/25 Суб 19:17:06 1453957 298
Аноним 13/12/25 Суб 19:21:19 1453962 299
image.png 637Кб, 512x768
512x768
image.png 596Кб, 512x768
512x768
>>1453957
В рот тебе насрал. Скип -1, скип -3
Аноним 13/12/25 Суб 19:22:31 1453964 300
Блять кто делает интерфейс к ебаной комфилапше? Он заебал дергать элементы туда-сюда. Так ему и передайте.
Аноним 13/12/25 Суб 19:23:40 1453967 301
А за то что сломал превью в queue дайте ему в ебасос.
Все скозал. Мухожукаюсь.
Аноним 13/12/25 Суб 19:26:42 1453971 302
>>1453962
Ты же дебил, в теме хоть разберись. -1 у него цензурный клипспик орю нахуй
Аноним 13/12/25 Суб 19:53:32 1453984 303
image.png 534Кб, 512x768
512x768
image.png 552Кб, 512x768
512x768
Зачем китайцы зацензурили русик...
клип -3, клип -1
Аноним 13/12/25 Суб 19:55:31 1453985 304
image.png 543Кб, 512x768
512x768
image.png 571Кб, 512x768
512x768
Аноним 13/12/25 Суб 20:02:53 1453988 305
>>1453950
У исходной 1.5 просто вместо тэгов вообще рандомный кал, поэтому у нее по любому промту вариативность долбанутая, поэтому ее еще приводило в чувство повесть в качестве негативного промта, откидывавшего 80% инфы и придававшего хоть какую-то когерентность.
Аноним 13/12/25 Суб 20:06:41 1453992 306
image.png 937Кб, 768x768
768x768
image.png 851Кб, 768x768
768x768
Мужики че за хуйня
Аноним 13/12/25 Суб 20:11:00 1453993 307
image.png 820Кб, 768x768
768x768
image.png 879Кб, 768x768
768x768
>>1453992
мужики блять партия скрывала от нас цензуру мужики
Аноним 13/12/25 Суб 20:12:57 1453994 308
image.png 906Кб, 768x768
768x768
image.png 966Кб, 768x768
768x768
Аноним 13/12/25 Суб 20:17:19 1453998 309
>>1453985
>тупой даун с минусовым айсикю из /б думает что это цензура и продолжает срать под себя
Аноним 13/12/25 Суб 20:19:11 1454000 310
>>1453998
Цензуры нет - твердость и четкий контур! Удар!
Аноним 13/12/25 Суб 20:55:27 1454011 311
image.png 104Кб, 1204x494
1204x494
Будни нищеты.
Аноним 13/12/25 Суб 21:17:50 1454020 312
image 121Кб, 278x345
278x345
>>1453964
>Блять кто делает интерфейс к ебаной комфилапше?
Теперь по этому темплейту открывается ZiT. Исправьте!
Аноним 13/12/25 Суб 23:59:12 1454205 313
image.png 1403Кб, 1024x1024
1024x1024
image.png 1571Кб, 1024x1024
1024x1024
image.png 1291Кб, 1024x1024
1024x1024
>>1453679
Да я на похуе взял сет, собиравшийся ещё для сд 1.4, с более поздними сырыми дженерик капшенами из llava, посмотреть что вообще будет на 256, 200 пикч. Я не знаю советов и рекомендаций. Всё на что я натыкался за эти годы это было "делайте пуки, а не каки", по 10 параграфов на банальную очевидную хуиту. Я бы прочел советы реально крутого чела, но не натыкался на гайды от подобных. Обычно гайды пишут теоретики с копро-лорами.
>>1453726
>нихуя не работает кроме крупных планов
Кек

>Не похожа. Хуиту сделал. Переделывай говнодел. Учись.
Не дожал сообщение, добавь ещё 5 предложений.
Аноним 14/12/25 Вск 00:05:02 1454217 314
Z-Image01020.png 1331Кб, 832x1216
832x1216
Z-Image01034.png 2224Кб, 1216x1536
1216x1536
Z-Image01044.png 1410Кб, 832x1216
832x1216
Z-Image01036.png 1371Кб, 832x1216
832x1216
https://huggingface.co/malcolmrey/zimage
Чел ебать выдал уже 400+ лор на лица, которые теперь даже не загрузить на цивит.
Вот проба с его лорами. Дженна сходу лучше.
Аноним 14/12/25 Вск 00:12:53 1454234 315
>>1454217
>селебы селебы селебы
дегенеративное тупое бесполезное говно
Аноним 14/12/25 Вск 00:14:43 1454238 316
>>1454205
Пикчи это Z ? Круто, напоминает dall-e 3 из тех самых тредов с генерациями в /b/.

Тогда ещё ванговали, когда появится что-либо открытое, равное по возможностям. Те, кто назвал 2 года, были правы.
Аноним 14/12/25 Вск 00:44:28 1454284 317
Z-Image01052.png 1226Кб, 832x1216
832x1216
Z-Image01098.png 1325Кб, 1024x1024
1024x1024
image.png 1453Кб, 640x1600
640x1600
Z-Image01103.png 4002Кб, 2048x1152
2048x1152
Я как и хотел тоже попробовал опять. 256, BS = 8, steps = 300 (намеченные 2500 шагов на 8, с округлением результата), lr = 0.0001*sqrt(8) = 0.000282842712474619
https://imgur.com/a/01fX8bu
20 пикч, автокапшены с цивита, то есть дженерик описание без имён и триггер вордов.
Около 15гб врам, 45 минут, но ощущение, что можно было ускорить.
Просто, быстро, удовлетворительно, почти несочетаемо с другими лорами, по крайней мере на стандартных лоадерах. Поэтому удивляет, что чел наобучал уже столько лор ещё до выхода базы.
>>1454238
Всегда 2 года. AGI через 2 года, кстати.
Видеонейронка приблизительно сравнимая с Veo 3 и Сора 2 тоже через 2 года на локалках.
Аноним 14/12/25 Вск 01:47:49 1454336 318
В общем, потрахался я весь вечер с устрицей, и выяснил, что на 3060 12GB лору для зины без offload unet тренировать в принципе нельзя (на моем калькуляторе). Даже на датасете с картинками размером 256, и BS=1. Не лезет. Нужно хотя бы 25% offload. Зато на 50% и BS=4 - 4.5 сек. на шаг. Если еще и получится хорошо - ну так и совсем замечательно, в общем то. В этот раз концепт тренить поставил, а не персонажа.
Аноним 14/12/25 Вск 03:47:07 1454384 319
>>1454336
>Даже на датасете с картинками размером 256, и BS=1. Не лезет.
че? у меня 11.1 занимает если трансформер 4бита а енкодер 2 бита. если не держать енкодер то гигов 7 будет.
Аноним 14/12/25 Вск 08:13:02 1454450 320
>>1454336
Зачем ты вообще держишь TE в памяти во время обучения, ты ебанутый? Она выгружается из памяти даже при выключенных Unload/Cache опциях. Возможно, Low VRAM нужно тыкать.
Аноним 14/12/25 Вск 08:41:16 1454454 321
image 232Кб, 2684x802
2684x802
image 2220Кб, 1066x1134
1066x1134
Аноним 14/12/25 Вск 09:04:52 1454462 322
>>1454454
зато не мыло на сдохле, правда ведь?
только выиграле ведь, правда...?
Аноним 14/12/25 Вск 09:18:39 1454464 323
>>1454454
Лол. Столько способов шарпить, а они додумались делать это через вае.
Даже простая смена настроек на er_sde - sgm уже делает более четко
Аноним 14/12/25 Вск 09:26:26 1454467 324
image 505Кб, 1671x1223
1671x1223
image 26Кб, 467x301
467x301
CLIPAttentionMultiply нода с такими настройками, как бы "стабилизирует" картинку. Масштаб объектов более адекватный друг к другу, лучше пальцы и глзза и много другое. Слева без нее, справа с ней. Почти всегда лучше пальцы и мелкие элементы. Влияет на текст. Не только в Зет, но и во многих других моделях, с такими настройками, картинка будет исправлена.
Прямо панацея какая-то. Хз, почему никто не знал.
Аноним 14/12/25 Вск 09:28:31 1454468 325
>>1454464
>Даже простая смена настроек на er_sde - sgm уже делает более четко
Этот вае от флюкса работает с многими моделями. И ты теперь можешь шарпить их все. Не везде можно использовать сгм. МОжно же бонго-батя57 с перешарпом
Аноним 14/12/25 Вск 10:26:06 1454491 326
hru.jpg 201Кб, 832x1216
832x1216
Clipboard Image.jpg 16Кб, 438x433
438x433
Аноним 14/12/25 Вск 12:43:35 1454565 327
image 215Кб, 704x1408
704x1408
image 336Кб, 704x1408
704x1408
Аноним 14/12/25 Вск 13:12:18 1454585 328
>>1454384
>>1454450
Low VRAM всегда стояла. Но трансформер в 4 бита не пробовал. Значит надо попробовать...
А что касается encoder'а - если ставить просто галку на его выгрузку, то судя по описанию в справке к ней, не будут работать индивидуальные теги для каждой картинки из .txt - только один общий на все картинки заданный прямо в задании.
Мне для обучения на концепт это не подходит - там стиль изображения надо явно указывать - это фото, арт, аниме, 3d рендер или еще что, чтобы не смешивало стили в общую кашу. По крайней мере - так руководства учат...
Аноним 14/12/25 Вск 13:19:00 1454588 329
image 160Кб, 832x1216
832x1216
image 302Кб, 832x1216
832x1216
image 79Кб, 948x590
948x590
>>1454565
Хочу поделиться настройкой семплера/шедулера: dpm_2/ddim_uniform. Старый забытый семплер. Шедулер ddim любит сильно наваливать деталей по мелочам везде. В свызке с Зет именно они дали совсем не похожую на дефолт картинку. Отличается всё, что можно. Один минус - присутствует узорчатый шум(кривые кружочки) на коже, если резкие клозапы голого тела делать. Но в принципе проявляется не всегда и его можно потерпеть. На 9 шагах самое то.
В общем картинку преображает, если глаз уже замылился от Зет, то попробуйте.
Пик1 дефолт.
Аноним 14/12/25 Вск 13:22:10 1454591 330
image 194Кб, 832x1216
832x1216
image 278Кб, 832x1216
832x1216
>>1454588
Еще, по моим тестам за пару дней, он лучше следует промпту. Если упомянешь нсвф, то долой одежу, а дефолт может остаться в купальнике. Вот на пик1 дефолт, а я просил нарисованную картину. На пик2 dpm_2/ddim_uniform
Аноним 14/12/25 Вск 13:25:15 1454596 331
>>1454588
CFG на скрине 1.5, но лучше начинать с 1.0 и до 2.5
Аноним 14/12/25 Вск 13:30:15 1454605 332
>>1454596
>CFG на скрине 1.5, но лучше начинать с 1.0 и до 2.5
Тут, как бы, или начинать с 1.1, или сидеть на 1.0 - там же принципиальная разница. На 1.0 отрицательный промпт не работает. И при переходе на 1.1 время на один шаг растет практически вдвое.
Аноним 14/12/25 Вск 13:31:44 1454607 333
>>1454605
Ну, да. По сути я делал только три варианта 1.0, 1.5 и 2.0.
Аноним 14/12/25 Вск 14:01:19 1454620 334
Designer - 2023[...].webp 1484Кб, 1024x1024
1024x1024
>>1454238

Стилизацию под 60-е не может делать. Ещё ляхи не умеет рисовать.

dall-e 3 до лоботомии и запечатывания цензурой не приходилось упрашивать, а у Z те же болезнь, что и у SD - даже когда ему пишешь "большие бёдра", он всё равно худышек хуярит
Аноним 14/12/25 Вск 14:07:17 1454624 335
>>1454620
Зина любит подробности. Если ты написал "большие бедра" - она только бедра и изменит. Пиши детально про фигуру. Не нужны худышки - пиши что "пухлая фигура", или там "амазонка" в зависимости от того, что надо.
Аноним 14/12/25 Вск 14:07:17 1454625 336
the-upcoming-z-[...].webp 171Кб, 1920x1080
1920x1080
the-upcoming-z-[...].webp 163Кб, 1920x1080
1920x1080
"Будущая Модель редактирования Z-Image настолько умная, что вы вводите ингредиенты и говорите: «Приготовьте блюдо»!!! Просто невероятно!"

"это может стать альтернативой Nanobanana Например, можно напрямую попросить изменить позу или добавить 3 случайных человека на одно фото и т.д."
Аноним 14/12/25 Вск 14:29:59 1454671 337
l1.loraname-KS1[...].png 3900Кб, 1440x1920
1440x1920
я со своей тянкой
Аноним 14/12/25 Вск 14:43:37 1454700 338
>>1454671
Грудь больше, чем у тянки, респект.
Аноним 14/12/25 Вск 14:46:09 1454705 339
>>1454588
>Хочу поделиться

>Почти под каждой лора на сивикале пишут про dpm_2/ddim_uniform

>на деле наваливает мусор из деталей но пидорасит геометрию этих деталей
Аноним 14/12/25 Вск 14:55:42 1454721 340
>>1454705
Я не пользуюсь лорами(кроме ускорялок), не хожу на цивитай. Всё придумал сам и поделился.
Вопрос: почему ты не поделился этой информацией здесь? Сэкономил бы мне время.
Аноним 14/12/25 Вск 15:04:22 1454736 341
>>1454721
Не поделился из-за того, что не хотел анону советовать кал. В влюбом случае все эти тесты делаются за час, с прогоном всех шедулеров и сеплеров на автомате.
Аноним 14/12/25 Вск 15:05:48 1454740 342
>>1454625
Дико. Складывается ощущение, что если они выпустят Z-Video, то и она приблизится к Соре. Но это вряд ли, в видео сфере итак был большой прогресс, это пикчевые модели так безнадежно устарели и были стародревним говном из жопы с кривой анатомией и всратой композицией, что нагнать было не сложно.
Аноним 14/12/25 Вск 15:07:52 1454748 343
>>1454740
Кому вообще нужны видеомодели, кроме ололошкололоты с тиктока?
Аноним 14/12/25 Вск 15:11:54 1454757 344
>>1454467
Может, потому что никакая не панацея?
А в некоторых случаях, ещё и делает всё хуже.

Это, конечно, хорошо, что запостил. Спасибо.
Только ни про настройки и их смысл ни слова, ни тестирования нормального (которое покажет, что не всегда это годится).

https://www.reddit.com/r/comfyui/comments/1f9n4te/why_clip_attention_can_improve_your_images_or/
Аноним 14/12/25 Вск 15:20:03 1454770 345
>>1454585
>Low VRAM всегда стояла.
Ну так она всегда вкл должна быть у нищеты.
>Но трансформер в 4 бита не пробовал. Значит надо попробовать...
Если че 4 бита для трансформера это аналог настроек как в QLoRA, так что кволити не страдает. Вот ниже 4 уже вопросы есть, но у нас как бы флоу архитектура, а ей в теории и 1 бита информации достаточно чтобы правильно апроксимацию скорости сделать. Но я не пробовал.
>А что касается encoder'а - если ставить просто галку на его выгрузку, то судя по описанию в справке к ней, не будут работать индивидуальные теги для каждой картинки из .txt - только один общий на все картинки заданный прямо в задании.
Там где анлоад те галка там да кепшены не работают.
А если галка где леер офлоад, на 100% для енкодера в 2 бита и 0% для трансформера, то тогда кепшены работают и те выгружается в рамку. Еще можно включит кеш текст эмбедингов, но тогда не работают дропауты и триггер ворд.
Аноним 14/12/25 Вск 15:31:14 1454795 346
image.png 144Кб, 403x406
403x406
image.png 2814Кб, 1024x2048
1024x2048
В случае с зеткой всё зависит от промпта. Дефолтные настройки не значит плохие. Ваши изъёбства - самовнушение.
Аноним 14/12/25 Вск 15:37:39 1454810 347
Дайте гайд на тренировку лор для Z image плиз.
Аноним 14/12/25 Вск 15:41:01 1454819 348
соя1.png 71Кб, 819x540
819x540
соя2.png 56Кб, 1372x377
1372x377
>>1454620
Для хвалёной микро бананы эта картинка оказалось чересчур горяча

Уменьшил до шакалов, потом попросил увеличить
Аноним 14/12/25 Вск 15:46:45 1454830 349
>>1454819
Людям откровенно нечем заняться.

Лучше бы выпускники философских факультетов и дальше продолжали работать в общепите, курьерами и грузчиками, чем устраивались в IT-компании, а потом ломали модели своей дебильной душной этикой.
Аноним 14/12/25 Вск 15:55:17 1454833 350
>>1454748
Рекламщикам. Режиссерам. Долбоебам.
Аноним 14/12/25 Вск 15:59:36 1454836 351
>>1454748
Всё, расходимся. Эксперт из комментариев сказал, что жизнь тлен и никакие видеомодели не нуж0ны.
Аноним 14/12/25 Вск 17:26:16 1454959 352
>>1454770
Да, так у меня примерно и стоит. 100% для encoder 25% для unet. Но unet сейчас в 8 бит, и вероятно, если выставить в 4 bit то можно 0% попробовать.
Аноним 14/12/25 Вск 17:33:26 1454969 353
>>1454770
>>1454959
Попробовал 4 бит и 0 оффлоад. Ы...
Оно так медленнее, чем 8 bit и 25% offload. 5.25 против 4.5 sec/it.
Логично, сцуко. 3060 нативно не то что в 4 - в 8 бит не умеет. А своей шины туда-сюда гонять остаток модели ей видать и так хватает, чтоб ядра загрузить.
Аноним 14/12/25 Вск 17:36:31 1454977 354
seedream-v4-176[...].png 1084Кб, 1024x1024
1024x1024
seedream-v4-176[...].png 1187Кб, 1024x1024
1024x1024
>>1454620
>Стилизацию под 60-е не может делать

Всё же может делать. По стилистике довольно натуралистично получает. Но, похоже, у него слабо с фантазией: не умеет додумывать окружение, нужно всё прописывать в промоте, что хочешь увидеть. Ну и да, нужно изъебнуться, чтобы это была не худышка.

Короче говоря, в плане качества это левел-ап, но в плане промтинга - практически то же самое, что и SD.


Qwen, кстати, умел бурно фантазировать, но потом заменили на какую-то более тухлую версию.
Аноним 14/12/25 Вск 17:40:38 1454990 355
image.png 235Кб, 430x565
430x565
image.png 76Кб, 183x223
183x223
анончики подскажите в какой нейронке они это делают ?
Аноним 14/12/25 Вск 17:42:29 1454993 356
>>1454990
нах ты принёс сюда этот кал? В /б параше спрашивай
Аноним 14/12/25 Вск 17:47:09 1455001 357
>>1454977
>но в плане промтинга - практически то же самое, что и SD.
Чел, побойся... ну кого угодно. :)
SD промптинг по сравнению с тем что у Зины - просто отсутствует. Чистый рандом по отдаленным мотивам. А то что у Зины фантазии нету - это может быть как багом так и фичей.
Лично я предпочту сам детально написать - что мне надо, если сетка это поймет и сделает. А чтобы рандом на картинках получать - wildcards подстановки в промпты давно придуманы.
Аноним 14/12/25 Вск 17:48:05 1455002 358
>>1454993
Не злись, анончик, это не твоя личная доска.
Аноним 14/12/25 Вск 17:50:11 1455003 359
>>1454993
ну блядь сюда и принес потому что тут прошаренные аноны сидят. а чё в /b/ шизы одни
Аноним 14/12/25 Вск 18:13:03 1455025 360
>>1454748
Нетрудно догадаться, если посмотреть, что здесь постят из треда в тред. Местному контингенту все модели нужны с одной единственной целью: чтобы дрочить. Сгенерил картинку няшной тяночки - подрочил. Анимировал картинку - еще раз подрочил.
Аноним 14/12/25 Вск 18:29:52 1455037 361
>>1455025
>чтобы дрочить

Как-то у тебя всё плоско и примитивно. Сплошная картонная профанация в духе постмодернистской деконструкции. Дело ведь в чувствах (а ведь это именно то, что отличает живое от неживого), в эстетическом восприятии.
Аноним 14/12/25 Вск 19:18:06 1455079 362
>>1455025
>Сгенерил картинку няшной тяночки - подрочил. Анимировал картинку - еще раз подрочил.

База.
Аноним 14/12/25 Вск 19:32:43 1455109 363
grok-video-221c[...].mp4 1113Кб, 640x480, 00:00:06
640x480
>>1451974
Одно видео высрал, потом начал триггериться
Аноним 14/12/25 Вск 19:44:29 1455124 364
grok-video-1b8a[...].mp4 1370Кб, 560x560, 00:00:06
560x560
grok-video-1b8a[...].mp4 2539Кб, 560x560, 00:00:06
560x560
Аноним 14/12/25 Вск 19:50:29 1455138 365
grok-video-11dd[...].mp4 1066Кб, 560x560, 00:00:06
560x560
Аноним 14/12/25 Вск 19:52:04 1455139 366
grok-video-11dd[...].mp4 1054Кб, 560x560, 00:00:06
560x560
grok-video-11dd[...].mp4 1095Кб, 560x560, 00:00:06
560x560
Аноним 14/12/25 Вск 19:59:50 1455155 367
grok-video-230f[...].mp4 1474Кб, 560x560, 00:00:06
560x560
grok-video-7658[...].mp4 1751Кб, 560x560, 00:00:06
560x560
Аноним 14/12/25 Вск 20:03:08 1455158 368
>>1454810
Ставишь ai-toolkit, дальше всё однокнопочно.
>>1454795
А теперь попробуй это же на er_sde.
>>1454830
Это не этика, это капитализм. Этика это у грока, который в принципе позволяет генерить голых баб.
>>1454990
Nano Banana

Чел проебался мимо грок треда.
Аноним 14/12/25 Вск 20:05:34 1455162 369
>>1455025
Так а нахуя ещё использовать? Ты дохуя дизайнер рекламы? Геймдев? Или у тебя гнилая душонка и нужно САМОВЫРАЖАТЬСЯ?
Аноним 14/12/25 Вск 20:13:37 1455182 370
>>1455162
Может, это бот пишет? Подозрительно что тут, что в вк стали попадаться такие душно-уёбищные тупые комментарии.

Не, такие и до этого были. Но дело, как бы правильнее это сказать, в ощущении некоторой неуместности. В добавок таких было меньше. И исходили от несколько другого контингента.
Аноним 14/12/25 Вск 20:14:38 1455186 371
image.png 2664Кб, 1024x2048
1024x2048
>>1455158
>А теперь попробуй это же на er_sde.
Лучше не стало. Стало по-другому. О чём я и писал.
Аноним 14/12/25 Вск 20:16:19 1455189 372
>>1454810
>Дайте гайд на тренировку
Поддерживаю, нужен гайд от адеквата.
Аноним 14/12/25 Вск 20:37:19 1455222 373
>>1455186
Как-то ты зажал с генерацией, что simple вышел более детализированный чем sgm_uniform.
14/12/25 Вск 21:44:38 1455283 374
ComfyUItempzpbi[...].jpg 638Кб, 2160x2864
2160x2864
Аноним 14/12/25 Вск 21:51:58 1455289 375
298521810512937.png 132Кб, 1789x1183
1789x1183
433131359480521.png 17Кб, 692x433
692x433
>>1454810
>>1455189

Хуле там гайдить. Базовый лейаут пикрел.
Меняется только:
- скорость на адафакторе, хотите сейфово тренить - ставите меньше
- можно заофлоадить енкодер на 100%
- можно поменять таймстеп биас - хайпас изучает по сути калтент, лоупасс стиль, баланс - и то и другое
- дикей на маленьких датасетах не нужен

Если офлоадить енкодер можете резолюшн на 512 поставить или батч выше ставить или вместе с акумуляцией чтоб быстрее тренить и градиенты чище были.

В адвансед настройках можете выставить в блоке нетворка transformer_only: false - будет обучать все доступные для лоры слои а не только ффнет и атеншен, генерализация быстрее все дела адапатация лучше
Можете поменять конв дименшен на равный линейным слоям - будет больше локальной инфы с датасета пиздить, флоу похуй.

Переключать на локр с квантизацией на трансформере смысла нет - он не поддерживает ее и просто не запустится, а так локр лучше лора модуля по капасити и точности есличе. Ликорис в тулките пиздец старый версия 1.8 (актулаьная 3 сколькототам), поэтому нихуя больше не работает, я пишу патчик на поддержку всех актуальных алго (хочу BOFT заставить работать, потому что это наиболее близкое к полноценному файнтюну решение в части адаптеров т.к. меняет веса напрямую не затрагивая базовое поведение модели) но пока не понимаю как в этом говне устрицы все работает.
Аноним 14/12/25 Вск 21:58:40 1455294 376
Аноним 14/12/25 Вск 21:58:50 1455295 377
image.png 11Кб, 556x207
556x207
>>1455289
А да, в адвенседе вот ету хуйню тоже включайте, хуже не будет.
Аноним 14/12/25 Вск 22:06:09 1455299 378
image.png 22Кб, 501x138
501x138
>>1455294
10000 чтобы поставить и забыть, адафактору хватит 1000-1500 шагов для датасета 100 картинок, то есть 10 рипитов на картинку. В идеале обычно 100 рипитов на картинку делается чтобы прям все выжать, но это хуита как по мне нинужная.
0.001 просто в 10 раз меньше чем стандартная скорость адафактора, но то для гигантских датасетов и батчей. 0.0001 слишком медленно, 0.0005 норм.
Аноним 14/12/25 Вск 22:19:04 1455306 379
>>1455289
Петух-теореточник, можешь показать сравнения чем вся эта ебля лучше дефолтных настроек?
Аноним 14/12/25 Вск 22:57:04 1455333 380
image.png 2910Кб, 2048x1536
2048x1536
>>1455222
Там у меня везде simple. sgm_uniform вообще не в тему.
Аноним 14/12/25 Вск 22:59:36 1455341 381
>>1455289
Чисто от себя - если концепт тренится, а не перс, то разница между 512 и 256 исходниками все таки немного есть. Не очень большая, но заметная, если упарываться в качество. "Текстуры" и мелкие детали все же лучше передаются. Если 256 - оно тоже не получается говном, но все это мелкое добро просто подменяется тем, что и так в модели есть. Скажем, кожа будет обычной, даже если в исходнике везде есть мелкие бледные малозаметные венки, и это часть концепта. Но пока процесс такую деталь вытащит из 256 - оно в оверфит по крупным деталям уходит, аж до поломанных пальцев (не шутка - начинает их корежить как сдохля а то и 1.5). При 512 - нормально получается именно вместе с этой мелочью. В остальном - не влияет, с чего я таки в охуе до сих пор. Магия какая-то. :)

Эксперементирую со вчерашнего вечера на терировке концепта.
Rank 96, LR 0.0002, DG=2, BS=4, 69 картинок датасет. 600 шагов - уже оверфит для концепта. Но заметить очень трудно, потому что единственный признак - детали текут из стиля в стиль, и сами стили смешиваются. Рандомных артефактов и прочей херни от случайного шума на картинке вообще нет.

Если 3060 (и возможно вся 30хх) быстрее работает с Transformer Offload 50% и 8 бит, чем 0% offload и 4 bit - уже писал выше.
Аноним 14/12/25 Вск 23:06:39 1455350 382
Получится ли пилить комиксы в Зимадже? Или оно не понимает как располагать фреймы?
Аноним 14/12/25 Вск 23:32:58 1455402 383
>>1455138
Это продолжение Гарри Поттера.
Аноним 14/12/25 Вск 23:34:18 1455410 384
>>1455306
>ебля
>перетыкнуть пару тумблеров
ты еблю не видел, шезлонг
>лучше дефолтных настроек
А какие у тебя вопросы? Ты аналитическим мышлением не владеешь и сам умозаключения сделать не можешь?
Адафактор самый лоурам оптим, при этом не являющийся 8бит калом. Еще пару аргов включишь и вообще будет авто лр.
4бит для трансформера потребляет в джва раза меньше врама, а никаких потерь нет.
2бит для енкодера буквально не влияет ни на что, енкодер необучаем, а врам и рам экономит.
256-512 пукселей для датасета очень экономит врам, флоу все равно откуда поля скоростей считать, а батчем можно значительно улучшить чистоту градиента.
Доп слои тренировать лучше, потому что там есть контекст рефайнеры и прочие важные штуки.
Аноним 14/12/25 Вск 23:34:31 1455412 385
>>1455155
>1
Неплохая бы получилась реклама Windows XP в начале 2000-х.
Аноним 14/12/25 Вск 23:40:52 1455422 386
>>1455341
>Чисто от себя - если концепт тренится, а не перс, то разница между 512 и 256 исходниками все таки немного есть. Не очень большая, но заметная, если упарываться в качество. "Текстуры" и мелкие детали все же лучше передаются. Если 256 - оно тоже не получается говном, но все это мелкое добро просто подменяется тем, что и так в модели есть. Скажем, кожа будет обычной, даже если в исходнике везде есть мелкие бледные малозаметные венки, и это часть концепта. Но пока процесс такую деталь вытащит из 256 - оно в оверфит по крупным деталям уходит, аж до поломанных пальцев (не шутка - начинает их корежить как сдохля а то и 1.5). При 512 - нормально получается именно вместе с этой мелочью. В остальном - не влияет, с чего я таки в охуе до сих пор. Магия какая-то. :)
Есть рабочая страта как обойти ограничения 256: берутся 2 идентичных датасета - только в одном целые изображения уменьшаются до 256, а во втором эти же изображения разбиваются на чанки по 256 (можно без капшенов). Поля скоростей будут идентичными для каждого датасета, но полезного сигнала больше.
Аноним 14/12/25 Вск 23:47:24 1455431 387
1765745243665.jpeg 1132Кб, 2304x1792
2304x1792
Аноним 15/12/25 Пнд 00:48:05 1455525 388
Аноним 15/12/25 Пнд 01:00:58 1455538 389
>>1455422
>Есть рабочая страта как обойти ограничения 256
А это точно будет лучше, чем просто датасет из 512? Картинок то больше будет, эпоха длиннее.
Сейчас у меня просто 512 запущено с BS=4, памяти хватает, падение скорости строго линейно (было 4.5 с 256 стало 9 с 512).
Выигрыша по скорости от двойного датасета я точно не получу, а вот по качеству?..
Аноним 15/12/25 Пнд 01:27:14 1455556 390
>>1455538
>А это точно будет лучше, чем просто датасет из 512?
Это точно будет лучше по количеству информации, чем просто ресайз до 512, т.к. будешь иметь полную информацию с изображений в формате множества 256 слайсов.
Аноним 15/12/25 Пнд 01:57:10 1455608 391
>>1455556
А, дошло. Это выход, когда исходники мегапиксельного и выше качества. А я тут для тестов просто надергал картинок без особого подбора из сети - так они сами примерно около 512 после обрезки до квадрата оказались. Вот и затупил - их разве что пополам еще резать.
Аноним 15/12/25 Пнд 05:36:17 1455720 392
image.png 1860Кб, 1024x2048
1024x2048
Аноним 15/12/25 Пнд 05:46:27 1455723 393
Аноним 15/12/25 Пнд 08:42:37 1455753 394
>>1452562
Пытался завести инпейнт, а он ещё не имплементирован. Главная фича - аутпейнтить вокруг лица. Справится ли оно лучше вана.
Аноним 15/12/25 Пнд 09:25:06 1455782 395
Пару дней ковыряю этот ваш стейбл дифьюжн, попробовал разные модели и походу моя гтх1660 флюкс не потянет без шансов (500 сек на итерацию лол). Пошел искать 3060
Аноним 15/12/25 Пнд 09:34:22 1455784 396
>>1455782
>флюкс
нинужон
>Пошел искать 3060
вот ето правильно, но можно и с 16 гигами ченить взять бюджетное
а лучше 3090 24 гига сразу
Аноним 15/12/25 Пнд 09:44:56 1455787 397
И чо, какая модель сейчас ебет, раньше юзал flux shnell gguf, потом забил?
Аноним 15/12/25 Пнд 10:15:16 1455794 398
floox.mp4 482Кб, 688x464, 00:00:06
688x464
>>1455787
Для быстрого развлечения Z. Qwen по сути убит им. Если попердолиться, то на Qwen можно сделать лучше фото, но в остальном вообще не вижу преимуществ. Тот же Edit абсолютно ущербный, а при необходимости проще сделать что-то в Banana.
Поэтому имеют смысл разве что Z, Chroma и XL, ну и для специфических задач Wan, но и его может заменить Z. Хотя какие-то отдельные редкие лора лучше всего обучены на Flux.
Аноним 15/12/25 Пнд 10:37:43 1455805 399
Аноним 15/12/25 Пнд 10:44:31 1455814 400
>>1455794
Flux Schnelle и читается как Флюкс Шнелле, а не как Флакс Шнел, в чём смысл шебм?
Аноним 15/12/25 Пнд 11:10:29 1455824 401
>>1455821
Я флюксом совсем не пользуюсь, просто мимопроходил и поинтересовался.
Аноним 15/12/25 Пнд 11:13:44 1455827 402
В галереях моделей обычно 90% мусор. В хроме вообще 99% мусор. Причем те немногие кто делает хорошо, нередко оставляют вф, но их не юзают повсеместно, а юзают дегенеративные EXTENDED EXTENSIVE SUPER PRO WORKFLOW, который после 100 недостающих нод за 1 час генерит копропикчу хуже дефолтного семплера.
В связи с этим вопрос. Покажите самые охуенные чужие пикчи из Z Image, увидеть что на ней можно делать.
Аноним 15/12/25 Пнд 11:38:42 1455844 403
Бляяя, а ведь Z-Image влезает в колаб и теоретически его там можно тренить, не нагружая свое ведро.
Аноним 15/12/25 Пнд 11:46:48 1455846 404
Аноним 15/12/25 Пнд 12:12:31 1455850 405
>>1455846
Running 1 process
Loading ZImage model
Loading transformer
config.json: 100% 473/473 [00:00<00:00, 3.67MB/s]
(…)ion_pytorch_model.safetensors.index.json: 49.0kB [00:00, 141MB/s]
transformer/diffusion_pytorch_model-0000(…): 82% 8.18G/9.97G [00:51<00:08, 217MB/s
кек, что-то даже запускается. жаль у меня все конфиги под н100 и лень настраивать
Аноним 15/12/25 Пнд 12:17:35 1455852 406
>>1454217
Зачем, блять и нахуя?
Если зитка и так выдает ортегу и айлиш из коробки.
Аноним 15/12/25 Пнд 13:19:37 1455908 407
>>1454454
> 2

Что это за пиздец такой? Причём тут шарп, если сетка нахуярила какую-то ебучую чешую и щетину.
Аноним 15/12/25 Пнд 13:33:03 1455925 408
>>1455794
Ну мы же не англичане, чтобы читать это слова как "флакс".

Sam Altman знаешь ли тоже Сэм Олтмэн. Ракеты Маска тоже не Фалькон, а Фэлкон. Так ещё можно долго продолжать.

Это нормально переиначивать заимствованные слова так, как удобно.

Более того, часто стремление достигнуть максимальной фонетичности уродует слова. Хотел бы пользоваться единицей измерения уатт (Watt)?
Аноним 15/12/25 Пнд 13:45:55 1455945 409
>>1455925
А Маск кстати Элон, а не Илон. Блэт, Обэмэ
Аноним 15/12/25 Пнд 13:53:45 1455958 410
>>1455925
> тоже не Фалькон, а Фэлкон. Так ещё можно долго продолжать.
Ага. И football тоже у нас, как фотбал произносится, не так ли?
> Это нормально переиначивать заимствованные слова так, как удобно
Кому удобно? Переиначивание флакс просто выдает нетакусика. Переиначивание его даже не во флукс, а в флюкс, выдает либо школьника, либо овулирующую сельдь, привыкшую готовить кашку с молочком и вареньицем своему пиздючку.

мимо проходил
Аноним 15/12/25 Пнд 14:23:00 1456012 411
>>1455852
Блядь, даже страшно представить как ты видишь мир, если у тебя Z выдает селеб из коробки. В двери осторожно на ощупь входишь?
>>1455925
Ну фэлкон это вообще база. Илон тоже звучит очень похоже.
Аноним 15/12/25 Пнд 15:25:52 1456091 412
z-image00015.png 1316Кб, 1024x1024
1024x1024
фу, гадость какая. зачем такие лоры делать?
Аноним 15/12/25 Пнд 15:27:02 1456092 413
Аноним 15/12/25 Пнд 15:29:56 1456095 414
>>1456092
котикам и щеночкам
Аноним 15/12/25 Пнд 15:30:57 1456097 415
image 313Кб, 768x1024
768x1024
image 346Кб, 768x1024
768x1024
image 375Кб, 768x1024
768x1024
>>1456012
Вот тупо первые не черипикнутые генерации в 768х1024 тупо по имени, с ортегой дописал венсдей. Если покрутить несколько раз и добавить разрешения будет больше схожести.
Аноним 15/12/25 Пнд 15:42:01 1456102 416
>>1456097
> с ортегой дописал венсдей
Вообще не похожа, Квен по референсу лучше генерит.
Аноним 15/12/25 Пнд 15:47:57 1456110 417
>>1456102
>Квен
Ну да ведь изначально по треду спрашивали именно про квен. Так ведь?
Аноним 15/12/25 Пнд 16:00:04 1456125 418
image 265Кб, 851x1200
851x1200
Аноним 15/12/25 Пнд 16:01:36 1456128 419
>>1456125
как же мне нравится когда местного шизоэксперта утверждающего о непохожести унижают нейронки
Аноним 15/12/25 Пнд 16:22:33 1456153 420
image 262Кб, 1398x1438
1398x1438
>>1456125
Сейчас бы аргументировать ии-слоп ии-слопом. Ещё и тупым. Нейронка и по скетчу тебе скажет кто это или вообще по одежде/причёске догадается. Дело же не в этом, а в том что ты натренил какое-то говно с лицом другого человека.
Аноним 15/12/25 Пнд 16:52:32 1456250 421
>>1456097
Ну и что это за рандомные раскрашенные бомжихи.
Аноним 15/12/25 Пнд 16:54:11 1456254 422
Возможно тупой вопрос но насколько критично отсутствие видюхи?
RAM 32, i9 13gen
текстовые копайлоты более-менее пашут.
ебнутая скорость/качество не нужны 512х512 достаточно, надо редачить картинки по промпту, будет ли это адекватно работать (условно до получаса) или без cuda это часы?
Аноним 15/12/25 Пнд 17:08:02 1456265 423
>>1456254
Сегодня, в мире лоКАЛок
>редачить картинки по промпту
означает сделать подбор промта из 5-10 попыток, потом ролл сида на 4-8 вариантов. То есть умножай свои полчаса 10 точно, а то и на 20.
Аноним 15/12/25 Пнд 17:08:21 1456266 424
>>1456254
Для лоурезов в SDXL-моделях хватит, раз тебе полчаса это терпимо. Хотя речь будет идти о минутах, И можно ускоряками обмазаться (lightning lora, dmd2 всякие) для генерации за меньшее количество шагов.
Аноним 15/12/25 Пнд 17:15:13 1456271 425
>>1456265
мне прям охуенно не надо, скорее просто хоть какой-то апскейл в 2-4 раза с добавлением деталей и сглаживанием шума
>>1456266
спасибо!
Аноним 15/12/25 Пнд 17:30:06 1456293 426
>>1455003
тут сидят прошаренные в своей шизовости
Аноним 15/12/25 Пнд 17:32:00 1456296 427
>>1456271
> хоть какой-то апскейл в 2-4 раза с добавлением деталей и сглаживанием шума
SeedVR2 попробуй, он и на ЦПУ в разумное время должен просраться
Аноним 15/12/25 Пнд 19:30:04 1456434 428
image.png 147Кб, 809x831
809x831
>>1456097
Готов поспорить, ты печатаешь СЛЕПЫМ набором.
Пожалуйста, не вылазь больше. Ты почему-то решил, что тут будет терпимость к таким умственным инвалидам как ты. Если еще осмелишься цифровым способом сравнивать, тащи хотя бы дистанцию между лицами.
Аноним 15/12/25 Пнд 19:32:14 1456439 429
>>1456271
>>1456254
Нахуй тебе тогда локал? Столько возможностей вокруг. Локал для дрочки. Качество и скорость в онлайне.
Аноним 15/12/25 Пнд 20:03:43 1456526 430
ModelScope https://x.com/ModelScope2022/status/2000394797434163654
🚀 Good news for Z-Image Turbo users!
We’ve open-sourced DistillPatch LoRA to restore true 8-step Turbo speed for any LoRA fine-tuned on Z-Image Turbo.

💡 The problem:
Standard LoRA training breaks Z-Image Turbo’s acceleration—images turn blurry at steps=8, cfg=1, even though they look fine at steps=30.

✅ We tested 4 approaches:
1️⃣ Standard SFT → high quality, but slow
2️⃣ Diff-LoRA → fast, but inflexible
3️⃣ SFT + distillation → great results, heavy lift
4️⃣ SFT + DistillPatch (our recommendation) → plug in one LoRA, instantly get 8-step Turbo performance back 🚀

https://modelscope.cn/models/DiffSynth-Studio/Z-Image-Turbo-DistillPatch/summary
https://github.com/modelscope/DiffSynth-Studio/blob/main/docs/en/Model_Details/Z-Image.md
Аноним 15/12/25 Пнд 20:04:09 1456528 431
1.mp4 412Кб, 752x568, 00:00:05
752x568
2.mp4 1277Кб, 464x920, 00:00:05
464x920
3.mp4 344Кб, 536x792, 00:00:05
536x792
4.mp4 1154Кб, 864x496, 00:00:05
864x496
>>1454748
>Кому вообще нужны видеомодели, кроме ололошкололоты с тиктока?
Аноним 15/12/25 Пнд 20:05:48 1456530 432
>>1456526
> The problem
Зачем они придумали несуществующую проблему?
Аноним 15/12/25 Пнд 20:32:48 1456571 433
Аноним 15/12/25 Пнд 21:14:34 1456649 434
>>1456526
Лол, сука. Это типичная ситуация "у чужого решения один изъян - оно сделано не мной"? Ostrich сделал же адаптер и теперь уже де-турбо модель.
Аноним 15/12/25 Пнд 23:07:05 1456809 435
>>1455794
Чёт проорал с долбоёба, у которого всё написанное латиницей это дефолтно англюсик.
Аноним 15/12/25 Пнд 23:12:58 1456825 436
>>1456809
Чёт проорал с долбоёба, который считает что его нахрюк кто-то будет читать выдуманным языком
Аноним 16/12/25 Втр 02:11:35 1457091 437
Аноним 16/12/25 Втр 02:16:25 1457099 438
Аноним 16/12/25 Втр 02:22:32 1457111 439
Аноним 16/12/25 Втр 02:29:12 1457122 440
Аноним 16/12/25 Втр 03:05:17 1457154 441
Я может быть тупой, но почему cfg 1>2 увеличивает время генерации степа в два раза?
Аноним 16/12/25 Втр 03:08:13 1457155 442
>>1457154
Загугли что такое CFG.
Вкратце, увеличение CFG приводит к существенному увеличению времени генерации.
Аноним 16/12/25 Втр 03:14:22 1457162 443
image.png 2170Кб, 928x1664
928x1664
Оно научилось в сисик и писик, модель можно считать успешной.
Аноним 16/12/25 Втр 03:33:13 1457181 444
Аноним 16/12/25 Втр 03:43:21 1457188 445
Аноним 16/12/25 Втр 03:52:57 1457189 446
Аноним 16/12/25 Втр 04:34:46 1457207 447
Аноним 16/12/25 Втр 04:36:30 1457208 448
>>1457189
Только там все негатив юзают с тремя словами, без него пидорасит.
Аноним 16/12/25 Втр 10:27:48 1457287 449
>>1457154
Когда CFG=1.0, то движок может существенно упростить вычисление гайденса. Если CFG отличается от 1.0, то приходится считать по полной формуле. И тут уже не важно 0.9, 1.1 или 4.0 - все будут одинаково тормозно.
Аноним 16/12/25 Втр 10:34:47 1457288 450
>>1457154
>>1457287
Кстати гпт мне объяснил что cfg 1.0 еще и влияние лор усиливает максимально, я так пару раз недоглядел а потом охуевал с того что получилось
Аноним 16/12/25 Втр 13:50:11 1457414 451
Прикол, если в Z использовать предложение "You are an assistant." перед промтом, то несколько генераций по подному и тому же промту будут более разнообразными, чем голый промт.
Аноним 16/12/25 Втр 13:52:26 1457418 452
Алсо, clip layer на -3 иногда убирает проблемы с текстом. Особенно, с кириллицей.
Аноним 16/12/25 Втр 14:58:07 1457485 453
Аноним 16/12/25 Втр 14:58:57 1457488 454
Аноним 16/12/25 Втр 15:14:38 1457507 455
image 300Кб, 1501x662
1501x662
>>1457414
>более разнообразными
Спасибо! Я попробовал такой подход: сначала генерирую черновой вариант (настройки на скрине), а затем прогоняю его через i2i. С текущими параметрами черновик выдаёт совсем другой сюжет, и основная задача — получить с него качественный i2i‑результат.
При низком denoise картинка выходит мыльной, а при высоком — становится чётче, но сюжет заметно уходит. Возможно, кто‑то подскажет оптимальные настройки для такого случая i2i.
Настройки X
Ответить в тред X
15000
Добавить файл/ctrl-v
Стикеры X
Избранное / Топ тредов