Оффлайн модели для картинок: Stable Diffusion, Flux, Wan-Video (да), Auraflow, HunyuanDiT, Lumina, Kolors, Deepseek Janus-Pro, Sana Оффлайн модели для анимации: Wan-Video, HunyuanVideo, Lightrics (LTXV), Mochi, Nvidia Cosmos, PyramidFlow, CogVideo, AnimateDiff, Stable Video Diffusion Приложения: ComfyUI и остальные (Fooocus, webui-forge, InvokeAI)
Пытался использовать ллмку для написания промптов. Потом править промпты ручками. Плюнул, написал на русском. Получилось лучше, ближе к задуманному. Вот думаю.
Ребят, уже года два не трогал оффлайн генерацию картинок, тк старушка 1660ти уже не справлялась. Сейчас в попыхах пришлось купить себе 5050, да, ужасная, понимаю, но все же. Что сейчас можно на чем генерят, что пойдет на этот огрызок?
>>1462278 А почему Qwen3 все советуют и на реддите тоже. Почему не JoyCaption(может в nsfw и бору теги), или не гемма 3 12b (хорошее понимание изображений и богатое описание)?
>>1462333 Я еще что заметил,в зимаге русский текст получается если только капсом написать. Нижний регистр вообще не получается, а капс практически без ошибок выходит.
>>1462333 Анон делал лору для Edit. Жду, что он тут появится. Хочу узнать как он собирал датасет. Мое предположение, что если взять кадры со спермой, почистить лицо любой edit моделью и обучить на этих парах, то лицо не будет искажаться. Потому что в его лоре слегка искажается будто обучена на парах фотографий в разные моменты времени.
Prompt: A medium close-up shot of a crt moninor, displaying text 'Не особо жалую Z-Image, но кириллицу пишет и строчными и КАПСОМ.' Green ambient cinematic key-lighting.
В чём-то ты определённо прав. Не особо пользуюсь Z-Image. Хотел тебе сказать, что всё дело в волшебных пузырьках в модели text encoder и «сложности» описания сцены. Даже картинку на FLUX.2 бахнул: >>1462551
А потом затестил на Z-Image с его default qwen_3_4b.safetensors Сдаюсь. Даже упростив сцену до prompt выше, всё равно не получилось вывести строку без ошибок. И на латинице тоже (на ней, думал, будет без ошибок). Иероглифы лучше получаются. А остальной текст это «Вонни и Птчк». Изменение настроек sampler/scheduler (default: res_multistep/simple) на (euler, heun, res_3s/beta, linear_quadratic, beta57) ожидаемых результатов не дали.
>>1462562 У меня как раз 4080s. FLUX.2 жирный и тормозной (чтобы ворочался побыстрее, MultiGPU узлы в помощь и достаточный объём RAM для оффлоада, чтобы SSD не дрочить; у меня 128 Гбайт). Для получения качественных результатов в сложных сценах promptах без JSON-разметки (и специальных узлов, которые позволяют её собирать) лучше не лезть. Мне нравится, что она качественно позволяет текст выводить и следует promptу (даже сложному, детальному, при наличии JSON-разметки). А вот всё остальное (в том числе сложность получения «гиперреализма», который в не особо близком мне Z-Image есть прямо из коробки, а на FLUX.2 для этого нужны realistic LoRAs типа lenovo_flux2.safetensors; да и то с оговорками и переменным успехом). Ещё, если это читают coomerы, то в NSFW FLUX.2 «из коробки» не умеет совсем; сверхсоевая модель.
>>1462561 Не знаю. FLUX.2 в какой-то степени может. Но я нечестно поступил, я загуглил референс-картинку с твоей лисой или кто это и подсунул её FLUX.2, описав остальное в prompt.
>>1462570 Тогда усложним задачу. Тоже самое, но в 1990х, монитор один и ламповый с тремя стаканами акций на экране, механическая клавиатура для трейдинга. И Холо порядочно уставшая.
>>1462579 Под референсом для FLUX.2 я подразумевал пикрил 1. Я его скармливал, этого FLUX.2 достаточно.
>Тогда усложним задачу. Тоже самое, но в 1990х, монитор один и ламповый с тремя стаканами акций на экране, механическая клавиатура для трейдинга. И Холо порядочно уставшая.
Вот это без JSON-promtа уже не сделать на FLUX.2 Поэтому, уточним детали. 1990-е это общая обстановка или стиль фотографии, как на «мыльницу» (FLUX.2 некоторые стили фотографий понимает)? Потом, сам персонаж должен быть остаться плоским в аниме-стилистике (как на пикриле в этом посте) или как на пикреле выше трансформироваться в подобие 3D?
>монитор один и ламповый с тремя стаканами акций на экране >с тремя стаканами акций на экране
Это как? CRT-мониторы FLUX.2 умеет рисовать. А что за стаканы, я хз. Prompt я на английском ему пишу, если что.
>>1462565 С рамой проблемы, 32 ссаных гига ддр4, правда 4000mhz. Лан пох, факапнул тут rm -rf'ом с недосыпа models из каталога с лапшой вместо output, перекачивать все лень.
>>1462590 >факапнул тут rm -rf'ом с недосыпа models
Печально. Сочувствую. Я эту папку отдельно сохранил, чтобы случайно не ушатать при обновлении ComfyUI и прочих перипетиях.
>32 ссаных гига ддр4, правда 4000mhz У меня DDR4 @ 3000 МГц; правда 128 Гбайт в Quad Channel. Сейчас посмотрю на следующем пике сколько займёт. А то тут глянул, а там 111 Гбайт RAM было забито (может, там Z-Image не выгрузилась ещё, помимо FLUX.2) и прифигел малость.
>>1462588 А, окей. Я не так понял. >1990 Это про время, тогда была другая электроника и дизайн всего. Старые компы, мониторы, здоровенные клавиатуры. >персонаж должен быть остаться плоским Лучше чтобы было как на твоей картинке >А что за стаканы stock exchange order book На русском называется стакан. Типо пикрил для быстрой торговли. Надо чтобы они были на экране поставлены в ряд.
>>1462599 В общем, что-то типа пикрила. Каждый референс, ещё минута к генерации. Потребление RAM 111 Гбайт. Выгрузил все модели, чтобы проверить начисто. Теперь понятно как ушатываются SSD некоторых Анонов, когда туда оффлоад делается. Если бы не знал, можно было бы не заметить. Меня объём RAM до этого момента спасал, получается. Ещё взлолировал с монитора, когда FLUX.2 на просьбу отобразить несколько копий референс изображения с интерфейсом торговли, просто растянул CRT монитор. Вот prompt, я поленился JSON-формат делать и попробовал одной строкой:
A hyper-realistic 1990s digicam style with CCD sensor characteristics photograph, a medium-shot depicting a character from Image 1 in 2d anime style, pretty tired and sleepy, sitting at the vintage 90's era IBM PC terminal with CRT monitor, displaying 3 copies of reference Image 2, vintage mechanical keyboard, at 1990s stock market with CRT television screens and trading stocks shorting. Warm lighting, dramatic lighting, orange tint for highlights, blue tint for shadows.
>>1462604 Лул эти чудеса техники. Видимо он подумал, что если есть лучевые мониторы c портретной ориентацией, то почему бы не положить его набок. Окей по крайней мере теоетически он в такое может. Клавиатура даже нормально получилась.
Хотя потребление памяти чудовищное для таки задач.
>что если есть лучевые мониторы c портретной ориентацией, то почему бы не положить его набок
Я слежу за генерацией на этапе preview. Ждать 3-5-7 минут ради запоротой генерации непозволительно (после скорострела Z-Image). Когда видишь, что не получается, лучше сразу остановить и сэкономить время. FLUX.2 начинал рисовать его как нормальный монитор, а потом, на последующих шагах стал тянуть, чтобы вместить референс с интрефейсом торговли. Он хотел его ещё больше вытянуть, но решил нарисовать третий пустой CRT монитор рядом.
> Клавиатура даже нормально получилась Мне нравится, что FLUX.2 имеет примерное представление о железках. Допускает вольности, но в целом, может в vintage разных эпох худо-бедно.
Вот ещё одна генерация на пикриле. Убрал строчку про двухмерность. Забавно, что третье изображение референса с интерфейсом торговли начиналось бледнее остальных (но на начальном этапе генерации условия были соблюдены; уже на первом шаге было 3 копии изображения). А затем превратилось просто в два интерфейсных окна.
Ещё я SEED не сохранял, генерировал с разными. А правильнее было бы зафиксировать.
>Хотя потребление памяти чудовищное для таки задач. Согласен. Но FLUX.2 dev (возможно, скорее про-версия, предназначалась для корпоратов с их датацентрами и колоссальными объёмами VRAM в ригах). То, что это можно запустить хоть в каком-то виде за счёт оффлоада в RAM, да ещё и получать генерации в пределах 3-5-7 и далее минут, уже считаю крайне неплохим результатом.
>>1462613 Расскажи подробнее про эталонные изображения. Какие ноды использовать чтоб добавить их в свой воркфлоу? Это только flux2 так умеет или на Z тоже возможно? И да, спасибо за инфу про JSON разметку - на Z опробовал, годнота.
Аноны, Z по части генерации текстур, ассетов (предметов, объектов) и прочей стоковой хрени хуже, чем flux? Я пробовал простые запросы типа "чистый лист бумаги" или "голая стена", так Z часто хуярит просто белое изображение. Да ещё и между генерациями у него с вариативностью плохо.
У кого-то есть опыт генерации подобного? Может, специфика промтов? Я пробовал stock image писать в начале проста, так Z начинает генерить людей с презентации. Хуйня какая то.
>>1462693 зимаге нужно более детальное описание того что ты хочешь
В дипсике пишешь типа 1 промпт для текстуры "голая стена" Вот это уже вставляешь в зимагу Голая бетонная стена в индустриальном лофте, фактурная серая поверхность с неровностями, шероховатостями, мелкими сколами, пятнами от высохшей влаги и следами опалубки. Естественное рассеянное освещение под острым углом подчёркивает грубую текстуру и глубину рельефа. Монохромная цветовая гамма в оттенках бетона, пепла и пыли. Высокое разрешение, фотореализм, детализация каждой трещины и песчинки.
>>1462724 прекрасные узоры, чдохля ведь не способна такое, неее...
Я хочу посмотреть как ваши модненькие XYZ-модели для которых нужны пекарни за полляма умеют в брестфидинг - нурсинг, чтобы баба кормила грудью младенца при этом не дроча ему член. и чтобы младенец не просто тупо утыкался кудато-там, а явно сосал сисю, что-бы сосок был во рту. жду ваших нелепых потуг и оправданий.
Задача ясна? Тут кто-то хотел челенджей и реквестов? Считайте, что это он и есть)
>>1462746 О том и речь, я выкинул все свои sdxl модели в итоге, т.к. зимага сочетает умение в текст почти уровня флакса (с нюансами), отзывчивого промптинга и охуенного реализма и отличной скорости на картошке.
Бонусом текстовый энкодер понимает и русский язык.
Девушка в домашнем халате с чашкой чая стоит на балконе хрущёвки ранним осенним утром, наблюдая, как двор оживает: дети идут в школу, пенсионеры выгуливают собак, а её отражение едва видно в запотевшем стекле. Россия, осень, свинцовое небо
>>1462757 Хз почему но у меня обратная ситуация - на sdxl приемлемо идёт, зимаг ради интереса попробовал (все же пишут что он быстрый) вырубил на 10-й минуте первого шага, что-то явно не то.
>>1462820 >при этом не дроча ему член по секрету, единственная модель, которая в это умела (с оговорками) была пони v6, у вас есть охуенный шанс показать свои неибейшие скиллы в плетении комфи-соплей, и пристыдить меня деда.
>>1462797 >если ллм или другая модель то не выгрузилась из видеокарты у тебя грана... ллм не той системы, только у меня той, что надо, но я её вам не дам)
>>1462657 Да, FLUX.2 работает с референсными изображениями. Там ничего экзотического не надо. Всё есть в default workflow для FLUX.2 (по умолчанию там два референса подключено и написано, что по этому образцу можно добавить ещё). Вообще, такая работа с референсами это Edit — функционал модели. По ссылке подробнее: https://docs.bfl.ml/guides/prompting_guide_flux2 (там про JSON-форматирование тоже есть) Z-Image-Edit я не видел, чтобы выпускали. Аналогичный функционал работы с референсами есть в Qwen-Image-Edit-2509. Поэтому с FLUX.2 мне уже было проще.
>>1463041 так умеет только флюкс и в этом похоже и заключается его смысл. генерация по рефу через квен эдит это весьма ограниченая тема, пусть и юзабельная. плюс у флюкс2 расширенный датасет который знает какая тачка хранится в гараже твоего бати
>>1462716 У меня зет не переносит эталонную копию а генерирует что-то подобное. Так и должно быть? Пример промта: The girl depicted in image 1 sits on a chair at a computer desk and looks at the monitor. Transfer the reference copy of image 2 to the monitor. Тебе удается перенести точную копию изображения?
>>1463174 так это не едит, там ллм по изображению генерирует промпт описывающий изображение. похожий эффект можно получить засунув картинку в чатгпт. за точной копией иди в квен едит
>>1462724 Спасибо бро! Да, это решение. Но я пошёл по ленивому пути: добавил нод оллама с квен3:8б и он мои примитивные запросы описывает высоким слогом, лол.
А вообще, это как будто бы мастхэв фича. Ибо расширенние промта делает и более толковое изображение. Вот, для сравнения, та же баба, что и выше, с тем же промтом, но прогнанным через промт "напиши мне красивый промт" лол.
>>1463226 >та же баба я пока бабы не увидел, пластиковое говно с жёсткими тенями и примитивной текстурой, свет ебанутый, будто киловатной лампой со всей дури светят, ноль иммерсива, хуита короче, всё это можно описывать безо всякой ебанутой llm-ки как: 1girl, casual spacesuit. и нихуя не поменяется, ровным счётом, даже лучше станет. всё то что тебе насрала твоя поридж-ллм это просто шизойдная каша из случайных слов, в итоге модель выхватывает лишь работающие токены, которых всего 3 из 33-х, в лучшем случае, а остальное игнорит. да, она может всосать в себя хоть "войну и мир" но толку с этого никакого, пиши сразу по сути с рабочими токенами.
>>1463086 >Хз, пробовал так Вот я об этом и говорил. И если генерировать несколько, то будет куча такой белой однотипной хуйни. Для сравнения, flux1dev сразу выдаёт ебейшее разнообразие по простому запросу Stock image. the wall. Да, они не идеальны, но с большинством уже можно работать, или запустить генерацию ещё раз, чтобы выбрать из другой пачки говна. Но, разнообразного говна!
>>1463160 какой позорный пердолинг, волк из журнала "крестьянка" сдохли вырезан маникюрными ножницами из и кое как вкорячен с чудовищным проёбом по свету и детализации, садись 2. ты вкурсе, что вживлённых персов нужно вторично проходить, чтобы вписать в полотно?
>>1463255 >Для сравнения, flux1dev Для справедливого сравнения нужно сравнивать с Флюкс Шнель. Это же турба Зет, значит сравни с турбо флюксом - Шнель.
>>1463273 Шнель хуйня же. Я сравниваю то, что генерирует по скорости примерно одинаково на моей системе. Сравнение не для хейта, а для того, чтобы найти решение своей проблемы.
>>1462844 Как же сдохля ебёт. Современные модели только на то и годятся, чтобы генерить болванки для последующего обмазывания сдохлей с контролнетами, айпиадаптерами и т.п.
Не надо всего этого пластикового говна китайского с сэймфэйсами и двумя с половиной стилями, и уж тем более на хуй не надо всратого совевого флюкскала для обладателей 5090, надо прокачивать сдохлю, чтобы к ней было побольше средств контроля, и они получше работали, и оптимизировать это всё как следует.
>>1463312 >то 0 и есть Ну, сгенерь только одну картинку из батча. Чтоб она самая была, но одна. Хз, твой промпт Stock image. the wall. Остальное на скрине. fp16
>>1463295 > генерить болванки > для последующего обмазывания сдохлей с контролнетами айпиадаптерами это что за секретная метода когда ты СНАЧАЛА генеришь пикчу, а уже ПОТОМ каким-то образом обрабатываешь ее контролнетом в сдохле? или ты просто навалил умных слов о которых когда-то слышал?
>>1463354 Я перепроверил у себя. мой чемодан в том что когда крутишь лоры при одинаковом промпте, кеш не сбрасывается, и лоры норм крутятся, без неё кеш постоянно скидывается
>>1462756 Не, ну падажжи, анимешные люстро-модели такое умеют. Хотя с постоянством и правильностью поз там ниоч маловато датасета, да и вообще взаимодействия за рамками ебли так себе получаются, плюс пальцы ожидаемо колбасит, но вполне можно кормящую мамку с ребенком и без NSFW-контекста сгенерить. >>1462826 Пони тут не нужен.
>>1462756 >модненькие XYZ-модели для которых нужны пекарни за полляма такие на домашних компах очевидно не заведутся как минимум без скрипа. но я полагаю что для тебя это вообще любая модель которая вышла после sdxl, поэтому вот генки с хромы.
>при этом не дроча ему член попробуй использовать файнтюн который умеет делать что-то кроме порнухи, МОЖЕТ БЫТЬ ПОМОЖЕТ
>>1463530 И вот так, с помощью нехитрых манипуляций мы получили 46 секунд вместо 40. Но зачем?
Может лучше найдете способ как отключить ебучий upcast у комфипараши и гонять почти вдвое быстрее с вдвое меньшим потреблением памяти? Я пробовал фаст, саге и прочее, комфикал все равно апкастит фп8 до бф16. https://civitai.com/models/2172944/z-image-tensorcorefp8
>>1463896 У меня нет заготовленных батов, но добавил этот флаг к вызову main.py, ебучий калфи всё равно кастит вверх. Я не понимаю этот принцип. Модель фп8, нахуя эта скотина "повышает" точность, если 4000 поддерживают 8 битов, а 5000 вообще поддерживают 4 бита.
model weight dtype torch.bfloat16, manual cast: torch.bfloat16 Prompt executed in 15.67 seconds model weight dtype torch.float8_e4m3fn, manual cast: torch.bfloat16 Prompt executed in 14.89 seconds model weight dtype torch.float8_e4m3fn, manual cast: torch.bfloat16 Prompt executed in 15.03 seconds
>>1464001 >Модель фп8, нахуя эта скотина "повышает" точность, если 4000 поддерживают 8 битов Не знаю правда или нет. Скайнет скозал так: RTX 4000 поддерживают INT8, а не полноценный FP8 FP8 официально и полноценно поддерживается только на Hopper (H100)
>>1464001 а так все нейронки инфернируют в своей полной точности, веса только скукоживают чтобы меньше врама занимала статическая часть, а рабочая динамическая вычислительная хз часть всегда одинаковый объём занимает
>>1464077 Сочно. У меня нюанс в том что мы с гпт до этого пилили машинки в стиле пикрил1, и оказалось что он очень привязывается к стилю, робот сам как выглядит как будто к машине лицо приделали, в SD это как то гибче. Вот ещё топовый кек сегодня был - делал всякие пушки под моделирование, после нескольких штук пишу - а сделай противотанковую турель на платформе, открываю пик2 и ору в голос.
>>1464119 Ну так она и занимает столько потому что мудацкий комфи апкастит. Нет? >одинаковый объём Тогда почему не полные 32 бита, а именно бф16? Нет более указан именно "manual" cast. Мне кажется это как-то можно задать. Нахуя тогда чел загрузил специальный билд и пишет, что оно сильно бустит скорость.
>>1464240 >Ну так она и занимает столько потому что мудацкий комфи апкастит. Нет? Апкаст это процесс, а не занимаемое пространство. Ты можешь хоть в int1 иметь веса на карте, но сам расчет будет intN -> fp16, это карте по враму ничего не стоит. >Тогда почему не полные 32 бита, а именно бф16? 1. Потому что изначальная модель bf16/fp16 и в коде скриптов так прописано (можешь паприколу все на float поменять ток смысла ноль) 2. fp32 и выше смысла нет для генерации, эти точности только для обучения
>>1464596 Про фп8 прав. Причём, с флаксом это проще было: скачал ггуф q8 и получил легковесный вариант модели с незаметной разницей. С з имаге подобное не работает, к сожалению.
>>1464596 Кто вообще дрочит на поломанные мизинчик, когда генеришь 100 пикч? Уж для продакшена можно запустить полную версию, а для себя хотелось бы вдвое быстрей генерить на фп8, все равно эти пикчи удаляются.
>>1464720 >генеришь 100 пикч... Я генерю 100 пикч не потому что пальчики не сходятся. Я генерю 100 пикч потому что возможности и границы модели надо исследовать автоматическими методами. Пидорить часами один и тот же 1girl промпт - проёб жизни.
Чуваки что с Civitai..?? Сносят к Хуям пикчи ! Выкладываешь через сутки сносят без причиный. SDXL еще норм робит, но посты с Z-image просто банят или xxx рейтинг на картинку где все норм.
>>1465257 может без метаданных загружаешь? у меня на цивите фап рефы сохранены именно на зимагу и они все еще на месте спустя пару недель, с красными тегами причем.
>>1465317 >>1465317 То то и оно что описание оставляю, лоры добавляю что использую. Все в png, Для повторяемости. Может за схожеть лиц с celebrity ? даже без красных тегов удаляли хз чего у них там.
Последний Бан на морду Джокера )) без adetailer лица. Просто тестил лору на стиль.
>>1465386 Тоже думал DMCA. Харли Квин, Бэтманы и тд это все в базовой модели. Их можно все ок же должно быть.
Хз куда капать, мож репорты набрасывавют просто. Вообще проблема тока с реалистиком и Z image. Да и в лентах civitai, tensorart и остальных одно аниме це зрада.
Ты вместо пустого latent_image подсовываешь в sampler либо ранее сохранённый latent_image от генерации, либо конвертируешь картинку в latent и подсовываешь её на вход latent_image в sampler. Для последнего варианта, в минимальной схеме добавляются два узла и три связи.
По порядку: 1) Открывай свой Z-Image workflow; 2) Добавляй узел Load Image; 3) Добавляй узел VAE Encode; 4) Соединяй эти два узла (IMAGE>pixels); 5) Тяни VAE от узла Load VAE; 6) Соеднияй VAE Encode с KSampler (LATENT>latent_image); 7) В KSampler ставишь denoise где-то на 0.2 (тебе не нужно сильно менять исходное изображение; если оставить 1.0, то будет совсем другое изображение); 8)… 9) PROFIT.
Если исходное изображение больше 2048×2048, то используешь узел ImageScaleToTotalPixels на шаге 8 (с потерей деталей и даунскейлом до 1 Мп, чтобы модели было проще ворочать).
>>1466106 >Если исходное изображение больше 2048×2048, то используешь узел ImageScaleToTotalPixels на шаге 8 (с потерей деталей и даунскейлом до 1 Мп, чтобы модели было проще ворочать).
Если железо позволяет, можешь в этом узле указать 2 Мп. И генерировать в 2048×2048. Или использовать другие узлы для resize в другие разрешения, если генеришь не «квадраты», а «прямоугольники». С разрешением выше 2048×2048 Z-Image Turbo нормально не работает (про всякие фокусы со сшиванием не говорим; я лично не проверял их работу, но в теории они существуют).
>>1466147 Увеличивай denoise (выше 0.45, так заметно должно быть). Если что, это img2img, а не Edit. Просто генерации стартует не с «чистого листа», а с latent_image, полученного из изображения.
Ананасы, я чутка выпал из обоймы. К хромогу присрали уже редактирование изображений по промту? Нунчаки вобще стоят ебли? Или будет как с DMD скорость выше но результат мыло?
>>1467078 Нахуй не нужен этот анимешный слоп-кал. Когда хотя бы до бананы 2к добустят, тогда можно пользовать. А так ни качества, ни знаний. Просто бесполезная хуйня при рабочих онлайн-инструментах. Только если обучат на какое-то узкое нужное/интересное применение, которое даже банана не умеет.
>>1467078 Отлично. По «пресс-релизу» выглядит красиво, апдейт 2509. Посмотрим что они сломают и где насрут в этот раз, по сравнению со старыми версиями. Как бы не пришлось не только старую Edit, но и 2509 держать вместе с этой.
>>1467234 А чем разница между тем, чтобы запустить браузер для комфи и запустить lmarena в инкогнито? И там, и там нсфв либо лютый кал, либо цензура, а во всем остальном банана ебет с колоссальным отрывом. А генерит так же безлимитно и даже быстрей.
>>1467247 >раздеть Даун, чтобы раздеть твою мамку достаточно sd 1.5 инпейнт модели
Правильно анон выше сказал, все эти квены хуены нахер не нужны, когда банана есть, только если для абсолютных дебилов которые локально генерят кривую мыльную пластиковую сиську и дрочат на такое
На рефорж можно накотить как-то плюшку из аутоматика, чтобы лоры было удобно через выпадающие менюшки подключать и веса настраивать, а не вставлять это по одной из отдельной вкладки в промпт (как по дефолту сделано)?
>>1467366 Я до сих пор там, ибо есть одна нужная мне лора для сд1.5, которой нету для других моделей. Ну и пощупать чето новенькое захотелось типо xl. По этому не кривляйтесь
>>1467398 >грандиозно улучшает результат И где же ваши охренеть грандиозные результаты? Пока я вижу в шапке лишь этот позор от z-кала который не смог в простой портретный пик И так на протяжении уже двух лет, только один пиздёж безкартиночный
>>1467378 Похоже то расширение лишилось поддержки в новых версиях аутоматика, а для рефоржа его вообще не делали. Мда. Это же так удобно было. А теперь как прогромизд какой-то циферки вручную вводи и клики лишние делай.
>>1467378 >чтобы лоры было удобно через выпадающие менюшки подключать и веса настраивать комфи >есть одна нужная мне лора для сд1.5 на комфи также будет работать
>>1467361 Так промптом вроде удобнее, нет? На подключении лоры у тебя и галерея с картинками (размер которых настраивается в опциях), и поиск удобный, и по папкам смотреть можно. Авто-ввод нужных тэгов при подключении тоже поддерживается, если пропишешь их для лоры. Если же вес поменять надо - имхо в промте проще циферку переключить, чем в отдельную менюху мотать, и там ползунок крутить, или ту же цифру печатать.
>>1467442 Ужас какой. Вдвойне ужас, что это комфи-сектант преподносит как преимущество.
>>1467468 >преподносит как преимущество. челу нужен определённый функционал. я нашёл похожее в комфи и показал ему. не всю жизнь же грызть форджекактус, когда-нибудь придётся перейти на базу - комфи. не любят его только рукожопые неосиляторы.
Сейчас уже нет популярных моделей которые позволяют Graphic контент пилить? MidJourney делает, но через пару дней любой аккаунт с подпиской улетает в бан
>>1467697 что, правда?) охуеть, спасибо чел тут интересовался подобным и пробовал писать код - не вышло у него. и сам я про сохранение в webp не знал до определённого момента. к этому времени у меня уже всё подзасралось, хули там, где-то 2 года генерирования. вот переношу все пнгшки в webp иногда лучше не вякать попусту, не зная подробностей
>>1467816 Я этим пользуюсь, рекомендую. + встроенный органейзер лор с возможностью скачивания с цивита. Хожу по цивиту с большим черным мешком и скачиваю все лоры, а потом из органейзера накидываю в ноду.
решает проблему поиска подходящих лор из других стопицот лор + в в каталоге на лору можно записать инструкцию и ключевые слова для активации и уже из ноды вытаскивать нужные параметры для лоры.
>>1467361 Тут анон уже отметил, что промптом удобнее и быстрее, чем нажимать кнопочки. Но есть и вариант с кнопочками - просто создавай стили с нужными лорами и быстро их включай из выпадающего меню.
>>1467705 Тебе анон справедливо написал про троллинг тупостью, потому что картинка вырисовывается такая, что ты два года тупо выпучив глаза жал кнопку генерации, даже не попробовав скосить глаза на другие опции, которые не так уж и глубоко зарыты.
>>1463284 >напиши пишу, я их специально пригасил (freckles:0.2), веснушки цепляют за собой дохуя ненужного мусора и артефактов, и при апскейле вносят разъёб. Но тебе, пидарасу токсичному, об этом знать не нужно, пожалей себя - побереги силы, они тебе ещё понадобятся для обсёра.
>>1467883 ещё один бесполезный высер. в отличие от вас я хоть что-то сделал и не пожадничал, выложил, вспомнив что тут тоже кому-то надо было такой скрипт. не все такие вумные как ты и сразу находят webp ноду.
>>1467883 >не так уж и глубоко зарыты Так и не нашёл как сохарнять в webp в штатной ноде. Собственно похуй, кастомки ставятся в два клика. мимо_считаю_дефолтные_ноды_калом
>>1467925 вот кстати заметил что тут таких дохуя умных чето все больше и больше становится. лезут с гнилыми поучениями не зная всех подробностей. один вообще отчебучивал детектируя пластиковые соски, не те пальцы и тд. в его голову никак не могло прийти что генерации могут делаться на отъебись, чисто поржать. такое ощущение что челики недавно вкатились в генерацию и их теперь распирает от гордости что смогли оседлать питухон+гит. смотри мамочка, мне череп жмёт! пойду на двощ раздавать всем советы!
>>1468071 немного костыльно конечно. и постоянно сохраняет в папку в отличие от preview image, но в целом норм. тот же preview все равно засирает папку tmp пнгшками, в отличие от.
>>1468131 и трусы снимает, я не стал сюда выкладывать. При раздевании надо еще уточнять что полностью надо все раздевать, чтобы все видно было, иначе оставляет купальник, да.
еще можно наконец нормально за руль сажать тянок.
Думаю, рабочий процесс мб будет выглядеть так - сначала комбинируем 2-3 рефа, а потом уже рефайнить в других более быстрых моделях
>>1468156 бля если турба диффикульт ту траин считается разрабами (ну да, сисик писик сложно втюнить, а такто вообще не сложно), то я в ахуе че там будет на изи
Бля, можно ли вообще хоть в какой-то локалке получить норм реалистичное ебало? Чтобы без оверсмуфа, без этой ебаной нейродрочной резкости, чтобы вот прям как на реальном фото было? Я уже и флакс 2 пробовал, и квены ваши обоссанные, пиздец какой-то. Я нахуя 5090 блять покупал, если за эти деньги мог бы годовые аккаунты на все хиггсфилды купить??
>>1468160 Ну по факту, даже две лоры не совместить. Лучше на другие параметры посмотри. >>1468152 >edit >steps: 50 Бляяяяяяяяяяя. Я думал она будет такая же быстрая, такая же невариативная, а поэтому с ебейшей точностью повторять референс. Рип, юзлес кал. До этого у них Base вообще был подписан как Visual Quality - Bad. Короче, только для создания лор можно ожидать и надеяться, что станет чуть лучше. Похоже, даже на файнтюны можно не надеяться. Челы попробуют, получат хуйню и дропнут. Если бы они показали файнтюнерам как потом превращать модель в такую же годную Turbo. А то опять, если и обучат, то вместо хорошей дистилляции будет подобие Chroma-Flash, которая каким-то чудом ещё хуже чем Base.
Оказывается у rgthree есть api для вытаскивания с цивита инфы для лор. Сделал простой Powershell скрипт (.ps1) для апдейта инфы всех лор в папке. https://pastebin.com/raw/cMW7U3Lv
>>1468247 Да до пизды, хоть 15. Это значит, что не 8 и cfg 1, а значит половина результатов будет говняк, который ещё и генерится значительно дольше. Причем они сразу пишут, что качество хуйня даже по сравнению с Turbo. Юзлес.
> я пока бабы не увидел, пластиковое говно с жёсткими тенями и примитивной текстурой, свет ебанутый, будто киловатной лампой со всей дури светят, ноль иммерсива, хуита короче, всё это можно описывать безо всякой ебанутой llm-ки как: 1girl, casual spacesuit. и нихуя не поменяется, ровным счётом, даже лучше станет. всё то что тебе насрала твоя поридж-ллм это просто шизойдная каша из случайных слов, в итоге модель выхватывает лишь работающие токены, которых всего 3 из 33-х, в лучшем случае, а остальное игнорит. да, она может всосать в себя хоть "войну и мир" но толку с этого никакого, пиши сразу по сути с рабочими токенами.
и чето пукаешь про токсичность когда тебе деликатно намекают что ты обосрался в своих попытках что-то доказать) порофлил с агродауна-плаксы и его семёна >>1468082
>>1468351 еще и скорость увеличится за счет того что можно просто скачать уже кем-то сгенеренную пикчу по похожему промпту, смысл изобретать велосипед если то же самое выйдет. профит! с качеством пока правда все хуево, но это нюансы
>>1468351 Ладно бы дело только в ролле сидов было. Зетурба на совершенно разных генеренных промтпах схлопывает одни и те же объекты в одни и те же композиции.
>>1468455 >Зетурба на совершенно разных генеренных промтпах схлопывает одни и те же объекты в одни и те же композиции. Так все ускорялки с cfg=1 работают, просто ты видимо в сдохле сидел и не пользовался ими. Они собственно сами сказали что у турбо модели diversity = low. Поэтому и ждем базовую модель, а не из-за сраных лор.
>>1468455 >>1468460 >в одни и те же композиции чел, эта "композиция" мне знакома ещё с полторашки, с анимешных моделей: бегущая смеющаяся девочка. Но ты продолжай бухтеть о "новизне" зетки, о том какая она оригинальная и неповторимая)
F на мобильных андроид устройствах есть приложения генерировать изображения, чтобы как на компьютере только проще? Какое устройство нужно для этого по мощности?
Как установить этот ебаный комфи? Гайды на гитхабе написаны индусом-долбоебом. Установил инстал-версию, она какого-то хуя начала мне папки раскидывать по всему диску: эти блять - вот тут будут лежать, а эта хуйня - вот здесь. Снес все к хуям. Повторно уже не устанавливает - пишет ошибку. Окей, скачал портабл версию, запустилось, генерация картинок - а вот хуй тебе скачай модель нахуй. Скачал - а вот хуй тебе CUDA kernel errors. Зашел на гитхаб почитать - одно пук сереньк.
>>1468657 >CUDA kernel errors Разберись какая у тебя видимикарта. Я сначала скачал для 5060 не то что надо и оно работало, но часто вылетало. Подошла версия куды 12.8 что соответствует аппаратной версии 5060. Нигде это блять не пишется. Тоже выебся пока понял. И драйвера ставь студио, а не гейм-реди. Сначала тоже по советы еблана с ютуба поставил гейм и иногда ловил перезагрузку драйвера. Студио драйвера - времень.
>>1468698 Спасибо, попробую завтра уже. У меня 1070ti. Сначало написало, обновите драйвера, обновил через Нвидиа центр автоматом, вообще не вдавался. Фокус - работает. С этой залупой весь день бьюсь. Поставил плагин для фотошопа от комфи, горит что не подключена Автомата1111. Это просто пиздец какой-то.
>>1468776 >У меня 1070ti. Сначало написало, обновите драйвера, обновил через Нвидиа центр автоматом, вообще не вдавался. Фокус - работает. С этой залупой весь день бьюсь Может меня поправят сейчас те, кто на винде, но вообще-то 12-ая куда и соответствующий торч уже не очень их (Pascal) поддерживают. На пингвине нужно на базе куда 11 ставить, чтобы точно на паскале завелось (если нет желания из исходников пересобирать торч). Минимальная серия карт для 12-той куды чтобы без проблем все встало - 30xx, Ampere.
>>1468648 https://github.com/xororz/local-dream там только sd 1.5 но зато можно в инпеинт. на snapdragon 8 gen 3 рендерит 512x512 за 30 секунд с обычной моделью и ускорением с помощью GPU и 4 секунды если скачать модель сконвертированную под NPU. если подрубить turbo\LCM лору то будет примерно в 2 раза быстрее. в целом тут требуемый минимум где-то 6 гб озу (модельки весят по гигабайту) и более-менее шустрый GPU по Гфлопсам. если нужно использовать NPU то требуется snapdragon 8 gen 1\2\3\elite
>>1468657 >CUDA kernel errors. >>1468776 >У меня 1070ti. лучше качать более старые портабл сборки. у комфи приоритеты на скорость, а не обратную совместимость.
>>1468657 ты какойто криворучка ебать у меня стоят 2 системных питона 3.10.6 и 3.11.9 (активный), куда 12.8, старющие дрова 572.70 для 3060 никогда никаких проблем не было с портаблкомфи, которому и питон не нужон т.к. енв уже в комплекте
>>1468841 а так у тя некроговно тебе надо поставить последнюю актуальную куду на твое некроговно (не помню, вроде 11.8) и обновить в самом питон енв комфи зависимости, и может оно запустится тогда ну или найти некроверсию комфи для старой куды и сосать некромодели
>>1468841 чел, астанавись... 1070ti не умеет в быстрые расчеты fp16 и не имеет тензорных ядер. твой максимум это SDXL с тормозами. так что вместо ебли с комфи попробуй это приложение для начала https://jellybox.com потыкай генерацию, вкатишься и скорость устроит то можно и комфи попробовать. там никакого питона и прочей хуйни, а также модели скачиваются прямо из проги.
>>1468657 >>1468841 У меня долго время были проблемы с драйверами и cuda, не было сил разобраться, потом в один момент решил, что надо перебороть, открыл чат, написал "гопота помоги" (правда плюс тариф), тупо копировал ей тексты ошибок, а она что мне делать. В итоге так не особо напрягая мозг всё починил. Там и не очень подходящие драйвера были и ещё что-то.
Я тут презентацию подготовил. Оцените. Гуфы хоть и входят целиком во врам, но медленнее, так что не нужны в таком случае. Переваривает(в мыло) до 8к картинки.
• Работает в скрытом пространстве для сглаживания резких бликов и теней. • Внедряет микрозернистость, совместимую с VAE, для добавления фотографической текстуры и уменьшения цифровой гладкости. • Улучшает микродетали за счет выборочного повторного внедрения высокочастотных структур из одного недорогого прохода UNet. • Предоставляет выделенный путь для контролируемого внедрения CFG-дельта для влияния на окончательную настройку.
>>1468995 Это ухищрения за счет снижения контрастности. Сравни и покажи, если не в лом, с таким решением. Просто 0.99 в стандартной ноде на пике и в любой модели будет улучшена детализация.
>>1468927 чел, мне не нужно генерить 100500 голых баб в наносек. Мне нужно связать СД с фотошопом, чтобы делать повседневные вещи по работе. SDXL у меня тянет.
>>1469060 >Мне нужно связать СД с фотошопом, чтобы делать повседневные вещи по работе. SDXL у меня тянет. Самая мощная связка для редактирования фоточек и генерации в холсте это krita + comfy через плагин https://github.com/Acly/krita-ai-diffusion
>>1468680 блядь, это сыромятина, без второго прохода и апскейла и деталировки, дело не в ноге, а в том, что концепт перекочевал из древних моделей, в вашу обожаемую (не такую как все) зеточку, но это похоже диалог с табуреткой.
>>1469386 Ты вообще реальный мир видел хотя бы на фото? Очень странное отстаивание хуевых генераций. мимо
>>1467078 Ну как эта Edit-2511? Можно удалять прошлые Qwen Edit? Я почти не юзал Qwen Edit, они сосут даже у Flux.1, но для приличия одну модель надо держать, чтобы лоры пробовать (которые тоже кстати пососали разок и были брошены).
>Я почти не юзал Qwen Edit, они сосут даже у Flux.1
Я не использовал FLUX.1 Речь идёт именно про Edit-модель, FLUX.1 Kontext?
FLUX.2 dev у меня есть именно для генерации. Хотя в ней есть функционал, который можно назвать Edit. Стараюсь не использовать чистые Edit-модели для целей генерации исходного контента.
Вчера попробовал сравнить qwen-image-edit-2511-Q5_K_S.gguf c Qwen-Image-Edit-2509-Q5_K_S.gguf (который я использовал ранее). Решил сравнивать одинаковый размер квантов для чистоты эксперимента. В целом эксперимент не удался. Пробовал сравнивать сначала на своём модифицированном workflow от 2509 с доработками под 2511. Потом, из-за неудовлетворительных результатов, решил пробовать на default workflow для 2511. Генерации не сохранил, потому что получилось говно. И ещё, потому что считаю, что могли быть виноваты квантованные версии. Беспруфно мне показалось, что на задачах «фотоколлажа» с изменением поз персонажей (речь далее будет идти только о протестированных квантах, а не о fp8, bf16 моделях) 2511 лучше 2509 только местами, а в целом хуже и это шаг назад.
В задаче изменения стиля 2511 примерно так же плоха, как 2509, где изменением стилистики изображений пожертвовали взамен более качественного Edit.
>Можно удалять прошлые Qwen Edit? Наоборот, как я и ванговал, >>1467250 Как бы не пришлось теперь держать три модели вместо одной. Qwen-Image-Edit лучше работает с простым изменением стиля изображения целиком. 2509, 2511(?) для манипуляций с отдельными элементами изображения, изменения положения и поз персонажей.
Хотя обещали совместимость с LoRAs, пришлось для чистоты эксперимента Samsung_qwen_overtrained.safetensors отключать. В 2511 эта LoRA как-то непонятным мне образом влияла на результаты, по сравнению с 2509. Артефакты Qwen-dithering, о которых я писал ранее, в 2511 не починили. Методы борьбы те же, что и для Qwen-Image >>1426917 →
Вообще >>1468972 задумался теперь о целесообразности использования GGUF. Опыт использования flux2_dev_fp8mixed.safetensors с MultiGPU узлами, когда она оффлоадится в RAM (и занимает 111 Гбайт RAM) показал, что в целом такой вариант худо-бедно, но работает. Главное, чтобы оффлоад был не на SSD. Выгружая каждый раз по сотне гигабайт, можно SSD ушатать. Вопрос в другом (это как раз надо будет как-нибудь проверить): Высокие кванты GGUF всё равно не влезают целиком в 16 Гбайт VRAM моей 4080s. А низкие кванты, которые влезают, могут говнить результаты по сравнению с не-GGUF. Хотя, если речь идёт о Qwen, то в разных источниках типа такого https://medium.com/diffusion-doodles/qwen-image-fp8-vs-full-q8-gguf-66b5fb873584 (открытию ссылки мешают трёхбуквенные) заявляют о том, что Q8 это почти как FP8, только быстрее. Сомнительно, в общем.
Получается, надо выкачать FP8/BF16 и сравнить скорость работы при оффлоаде в RAM. Если будет сопоставимо, то оставить GGUFы только тем у кого нету RAM, нет места для хранения жирных моделей на SSD, и нужно всё затолкать в 24/16 Гбайт VRAM, чтобы не насиловать SSD.
>>1469329 че ждать, все имеющиеся лоры работают. гениталии правда пиздецово выглядят даже под лорами, как будто их в базовом датасете не было даже в заблюренном виде.
>>1469735 брат, тебе не нужно пытаться запихивать модель в врам, там еще условно гигов 8+ должно оставаться с запасом на генерацию, то есть суммарно тебе надо иметь минимум 24гб+ для таких вещей, цифры навскидку. 99.9% населения планеты такими ресурсами не обладают и генерят с моделью в оперативе, правда из них далеко не все об этом догадываются (посмотреть в диспетчер задач слишком сложно), поэтому качают ггуфы чтобы потом один хер отправить их в оперативку
при своих спеках забудь про ггуфы (по крайней мере имеющихся моделей) они нужны только чтобы модель в оперативу влезала, ценой качества и скорости
>>1469753 >при своих спеках забудь про ггуфы (по крайней мере имеющихся моделей) они нужны только чтобы модель в оперативу влезала, ценой качества и скорости
Спасибо. Я постепенно прихожу к таким же выводам, но смущали растиражированные в reddit и прочих местах мнения, где с пеной у рта «доказывалось» по методике «яскозал», что Q8 GGUF «качественнее» FP8 модели. Причём, всё было хуже, я повёлся на аналогию по сравнению с LLM, а там ещё и убеждали, что Q5, это вот прям не особо хуже Q8. Что только Q4 и ниже не следует использовать. Хотя находились и те, кто «топили» чуть ли не за Q3, говоря что им норм, а остальные не шарят. Много псевдо-информации, вводящей в заблуждение. Особенно, если ещё генерированные изображения черрипикнуть и слегка подделать результаты в «подтверждение» своей позиции.
>>1469755 > Q8 GGUF «качественнее» FP8 модели ну есть такое мнение, от киджая тоже слышал. но там разница уровня "чуть лучше при одинаковом весе модели и общем качестве".
ггуферы это в целом безмозглые фанатики, за несколько месяцев в этом треде я убедился полностью. челы реально думают что вес модели это как вес рюкзака за плечами, типа чем меньше тем быстрее будет скорость, поэтому будут качать Q4 даже если у них fp16 без проблем влезает и будут обмазывать картиночную модель ускорялками даже у них и так за 10 секунд все генерит
В общем, хочу вскользь добавить про Qwen-Image-Edit-2511 (qwen_image_edit_2511_fp8_e4m3fn.safetensors)
Низкий квант Q5 GGUF действительно срал и плодил кроненбергов на втором плане. При использовании FP8 ситуация изменилась в лучшую сторону, но всё-таки недостаточно хорошо.
Пусть 2511, но это тот же самый Qwen, со всеми его болячками и недостатками, начиная с Qwen-Image. Без обмазывания LoRAs делать пикрилы «из коробки» не получится в принципе, все проблемы с «пластиковостью», «мультяшностью», как у классического Qwen-Image и его Edit-вариациями. Допускаю, что я не умею правильно использовать Qwen-Image-Edit-2511, но по сравнению даже с FLUX.2 dev, он годится только ценники товаров на AliexpressОзоне дорисовывать.
Ещё подвох кроется в Qwen-Image-Edit-2511-Lightning-4steps-V1.0-bf16.safetensors LoRA. Четыре шага это катастрофически мало для нормальной генерации. Lightning LoRAs для Qwen-Image и Edit вариантов были в исполнении хотя бы на 8 шагов. Для 2511 на текущей момент хотя бы 8-шаговой lightning LoRA я пока не нашёл. Таким образом, чтобы получить что-то вменяемое, приходится ставить как минимум 20 шагов при CFG 4.0, как рекомендуют в workflow. А от этого существенно увеличивается время генерации. Да и результат, субъективно, не фонтан. Пока мне кажется, не стоит оно того. 2509 в чуть-чуть другой обёртке. Что-то как будто подтянули, а что-то, наоборот, сломали. И я пока ещё не понял, что именно. Да и если честно, дальше ковыряться с ней особого желания нет.
>>1469823 в промпте "волкинг", вот и волкает, про спуск это ты сам придумал. получается ии понимает, что на ступеньках можно и просто ходить, тем более таких здоровых музейных, а мясной мешок нет????
>>1469735 >из-за неудовлетворительных результатов А ты использовал в тесте лору ускорялку лайтнинг 4 шага? По моему мнению на последней эдит модели она не получалась или бракованная. Результат с лорой и без неё (20 шагов цфг4) вообще разный. Нужно тестировать вообще без любых лор. Именно для теста, но в 5-6 раз дольше.
>>1469735 >заявляют о том, что Q8 это почти как FP8, только быстрее Так то конечно нужно верить только своим глазам и тестировать самому, но все скайнеты, которых я пытался на эту тему, однозначно сказали, что fp8 качество всегда лучше, мелкие детали, градиенты, микротекстуры и.т.п.
Вопрос к знатокам. Есть интернет площадка, где пишутся используемые модели, типа photostab v5, general xl v3.5 и тд. Эти модели или аналоги можно к себе установить или они онли для коммерческого использования отпидорены до идеала и даже если я скачаю, то все равно результата такого не будет?
>>1469946 >видосов >Video >Stable Diffusion тред Ты дебил? >>1469952 Почему они такое пишут? Каждый день какая-то модель выходит. Или этот хост тоже принадлежит алибабе?
seedream 4.5 и z-image чтото мне кажется я напортачил с апскейлом у гойда-имадж, кто как с ней апскейлит, аноны? я по дефолту через ультимейт
красивая кинематографичная сцена ночной дождливый город в стиле нео-реализма молодая женщина стоит под фонарём мокрые волосы прилипли к лицу кожа живая с порами и мелкими несовершенствами взгляд уставший но спокойный на ней длинное тёмное пальто с текстурой плотной ткани отражения неоновых вывесок в лужах мягкий контровой свет объёмный туман высокая детализация лица фотореализм глубина резкости кинематографический цветокор атмосфера одиночества и тишины ultra detailed realistic lighting film still 8k shallow depth of field
>>1469863 >по 10 картинок в одной стилистике 1) Если нужна не конкретная стилистика, а просто чтобы совпадало, то возьми любую мейнстримовую модель, посмотри в какие стили она умеет лучше всех и используй их 2) Если нужна конкретная мазня конкретного рисобаки, то только лоры тренить 3) Ещё есть опция edit модели сказать "нарисуй в стиле этого изображения", но объективно это пункт 1, потому что edit модели тоже далеко не все стили умеют переносить Плюс где-то начиная с qwen, когда пошли нормальные текст энкодеры, стало можно генерить вполне себе консистентные серии из картинок в рамках одного холста. 10 не сгенерит, но 3-4-6 вполне справляется. Потом эти огрызки через i2i апнешь.
>>1470021 Говно какоето, но ладно. Вижу там часть моделей из градиентовского хаба, например дримвивер25 или рев анимейтед в2, собственно ищешь тут https://huggingface.co/GraydientPlatformAPI и кочаешь например https://huggingface.co/GraydientPlatformAPI/dreamweaver25/tree/main , оно там в формате дифусерсов так что придется в чекпоинт собирать в комфи если надо Модели которые не ищутся вероятно либо переименованы просто как делает флекси хач, либо являются моделями с впиздяченными кастомными лорами чтобы фармить бабки с лохов.
То, что выдаёт Qwen-Image-Edit-2511 при самостоятельной генерации частей изображений (дорисовки фона и персонажей) без LoRAs на «реализм» и «skinfix» мне было стыдно выкладывать. Qwen «из коробки» выдаёт что-то типа «digital art» (не знаю как лучше описать этот стиль; цифровая иллюстрация) без намёка на «реализм», стыдобу и цифровую мазню уровня трёхлетней давности.
Понятно, опять никакой надежды на лоКАЛ. А создатель лучшей XL модели уже писал, что готовится обучать Base. Turbo - лучшее, что случилось на лоКАЛе и больше ничего не будет, потому что мы банально не сможем уже даже скачать, а скоро и использовать что-то новое, даже если оно и выйдет через 3 года. Попользуемся тем, что есть пока компьютеры не сгорят, а потом
>>1470349 > и больше ничего не будет, потому что мы банально не сможем уже даже скачать к такому ужасающему выводу пришли еще много месяцев назад, а потом вышла зетка. с чего ты взял что и после зетки ничего никогда не выйдет?
>>1470360 За что ты так всех пользователей комфи? Все таки неудобно каждую новую модель запускать из кода. Ну пушит выблядок недоделанный пре-альфа выблев в релиз, а хули? Комфидауны и не такое стерпят. Под себя.
>>1470665 Подскажите пж, есть какая-то оболочка попроще? Скачал flux 2, у меня вот такой же интерфейс там, сложно капец, нихрена не понимаю куда тыкать. У меня до этого был стейбл, ды дыже первый флюкс качал, там не было всего этого говна, было просто окно для ввода промта ну и кучка настроек разных. А тут какие схемы, блоки, сложна оч(
Но у меня работает и без указания в параметрах запуска. Специально обновил только что до самой свежей версии (предварительно сделав snapshot, как полагается).
Какими корповскими нейронками пользоваться, чтобы парочку персонажей сгенерить для своего похода в исекай? Внешность партнеров мне рассказчик уже описал в паре абзацев, далее осталось это вставить в нейрозавод.
Для свежих актуальных моделей вряд ли. Всё, что прямо «с пылу, с жару» получает поддержку в ComfyUI.
>окно для ввода промта ну и кучка настроек разных
Открываешь типовой workflow из TEMPLATES для FLUX.2 В узле ввода positive prompt пишешь свой prompt, остальное, что не понимаешь, не трогаешь. Жмёшь RUN.
Если хочешь лучше результаты, куришь мануалы по ComfyUI, вникаешь, тратишь две недели на неспешное освоение базы генерации про всякие существующие модели, samplers/schedulers, разбираешь чужие типовые workflow. Потом более-менее осмысленно крутишь настройки узлов, понимая порядок их следования и соединения, лапша уже не кажется такой страшной.
Платные корпоративные сервисы, наверно, избавят тебя от всего этого за денежку, выдавая некий усреднённый результат.
Там спрашивал? https://2ch.su/ai/res/1408566.html Здесь больше про локальную генерацию. Возможно, что-то подскажут, но вероятность фаер резиста крайне мала.
>>1471108 ComfyUI — оболочка для запуска моделей. В ней нет NSFW-фильтров. Вся цензура или отсутствие знаний NSFW — в самих моделях и используемых text encoders. Вот для них и следует искать способы обхода (abliterated–версии text encoders, NSFW LoRAs для моделей, недокручивание offset последних слоёв и т. п.), если тебе нужно NSFW. У разных моделей с этим всё обстоит по-разному. Но в целом: криво, костыльно и убого.
>>1471161 Всё зависит от критериев оценки и спектра решаемых задач.
Из проверенного лично:
Для бомжей на нищем железе с t2i ололо-генерациями в стилистике «реализма»: Z-Image Turbo.
Для более качественных генераций, с учётом композиции, и работой с reference images на более солидном железе (оффлоад в RAM на 111 Гбайт): FLUX.2 dev с LoRAs на «реализм» и JSON-promptами.
Qwen-Image, Qwen-Image-Edit, Qwen-Image-Edit-2509, Qwen-Image-Edit-2511 откровенно слабоваты. Qwen-Image только с «реалистичными» LoRAs, если нужен результат, отличный от стиля «digital painting». Qwen-Image-Edit относительно неплохо меняет стиль изображения. Qwen-Image-Edit-2509/2511 сносно выполняют Edit и работают с reference images.
>>1471161 Ну лично для меня: Chroma, при всей ее всратой анатомии, это гигантский хаб всех не-анимешных стилей под солнцем. Z для реализма и некоторых traditional media стилей, прекрасного взаимодействия нескольких субьектов и скорости. Neta Yume как недотренированный анимешный аналог Z, правда он медленнее. Qwen edit как рефайнер для других моделей. naiXLVpred102d_custom как лучший фолловап Нуба на сегодняшний день, без вазелина ваикала. Ну и WAN, само собой. Из них самый прорывной для локалок это наверное все-таки WAN.
>>1471188 >оффлоад в RAM на 111 Гбайт Это пиздец, зачем такое вообще упоминать? Должна быть народная модель. Zimage отлично подходит под народную модель. Но Flux уже за гранью. Может он неплох, но ужасно громоздкий, соотношение потребляемых ресурсов и выходного результата просто ебейше ушлепское.
Qwen и Zimage - однозначно прорывы года и лучшие модели. И Nano Banana, если корп-сегмент брать во внимание.
случайно получилось, что-бы слегка были видны булочки, если пишу например: buttocks slightly visible то всё - жопа голая, а мне это ненадь. сдохля если что)
>>1471285 На сдохле - хрен его знает, скорее рандом и удача. А если подобная задача на Z, то "слегка" - понятие растяжимое, а модель точность любит. Тут больше помогает писать характерные признаки нужного. В данном случае - чтоб в промпте было: short skirt (или tights-level skirt), view from behind и visible panties (или no panties - по вкусу). Логика работы: если юбка есть, хоть и короткая - зад получается в основном закрыт. А если еще надо чтобы при этом было видно трусы сзади - получается соответствующий ракурс и высота юбки.
как это промтится?
Аноним27/12/25 Суб 20:27:17№1471356378
>>1471295 >tights-level THIGHS LEVEL А я скопипастил, смотрю нихуя не получается, потом вчитался и понял, что опечатка) Спасибо. Это сработало, очень помогает лора: thigh-gap. Сегодня в инсте случайно наткнулся на румынскую песенку и шишак в небеса улетел, уж очень я люблю всё это этническое. triple split screen, multy-view, back view, [full body], teen-girl (99 yo), hands on hips, romanian embroidered [thighs-level] dress, high waist, wide red waistband, edging hem, (huge floral) wreath on head, panties under dress
>>1471147 аблитерейтед модели нужны чтобы убрать цензуру когда модель генерит текст по запросу, то есть это влияет на то что модель выдает, а не на понимание входного текста. то есть если там под капотом промпт не переписывается как в зетке, то оно нихуя и не дает по опредлению.
>>1471161 ван 2.2 без вариантов. модель просто имба с учетом ускорялок которые очень хорошо работают, позволяя делать видосы за считаные минуты почти не теряя в качестве. на ее основе уже напилили пару десятков моделей и они продолжают выходить чуть ли не каждую неделю. и квен эдит я бы еще записал, реально полезная темка, генерит на удивление быстро
забавно что вышедшие на данный момент t2i (не эдит) модели абсолютно все говно в плане юзабельности, но каждая по своему.
пони в7 это просто неюзабельный пиздец, тут без комментариев, хотя может уже есть файнтюны, не чекал
хрома не без изъянов, но в целом охуенная, но блять генерит по 3 минуты (что все еще приемлемо учитывая очень обширный датасет включая полную поддержку нсфв, сейчас это уже редкость)
квен имаге вроде мощная модель, но на выходе вместо цельной картинки ты получаешь какую-то аппликацию из кое-как вставленных отдельных предметов в разном стиле, совершенно не складывающихся вместе. артефакты которые превращаются в полный пиздец под ускорялками, типа нательных волос, веснушек, рельефа камней, и т.д.
зимага турбо генерит с характерными артефактами в виде слоя плесени по всей пикче и надо ебаться чтобы заставить ее генерить разные пикчи на разный сид (приехали), плюс датасет азиатский в основном, ждем когда выйдет фулл версия и разраб хромы ее зафайнтюнит
флюкс 2 сожрет всю оперативку в твоем подъезде а ради чего непонятно, да можно засунуть 10 референсов и датасет там вроде крутой, но как будто проще не пытаться ебаться с этим и просто заюзать нано банану онлайн
хуньянь 3.0 дает прям гига охуенное и детальное качество картинки, самое крутое что я видел, но он весит в два раза больше флюкса 2 и на домашних компах неюзабелен, поэтому только онлайн
>>1471526 >флюкс 2 сожрет всю оперативку в твоем подъезде а ради чего непонятно, да можно засунуть 10 референсов и датасет там вроде крутой Графон и следование промпту при этом кал говна под толстым слоем сои, даже на анально огороженных про/флекс/макс. Флукс 2 — обсер уровня СД 3. Скорее всего, на этом с Black Forest Cucks можно попрощаться.
>>1471261 База, не прям прорывы, но хорошие модели для локалки, флакс ушел, и вернуться к нему может заставить только какая-то лора, плохо обученная на новых моделях. Banana Pro это вообще нечто, ебейший отрыв от всего остального говнища, первая модель, которая реально может улучшать и менять фото, а не превращать их в копронейроговно с потерей микродеталей лица. Ещё не идеально, но скачок есть. >>1471822 Я после того как погонял полный Flux 2 на LMArena, полностью перехотел его пробовать локально и пропало сожаление от того, что Z-Image его перекрыл. Он бы и сам себя перекрыл. >>1471551 Скорей как сд 3.5, потому что вряд ли во флакс так плохо с анатомией.
>>1471161 Объективно прорывов было три: 1) Wan, как первая модель которая гарантирует консистетность картинки какой бы ты хлам на вписал в промпт 2) Flux Kontext - первая edit локалочка. Пусть edit модели и не оказались серебренной пулей, но некоторый массив проблем они закрывают 3) Qwen - первая моделька с полноценным llm на роли текст энкодера. Появилось значительно более эффективный способ сказать модельке что рисовать
Все остальные - уже количественные улучшения. Хрома - очень яркое подведение итогов старой архитектуры. Зетка Турбо - предельно прагамтичное объединение в малом весе всех новых фич.
Ребзя, кто подскажет, какая модель умеет хорошо рисовать и хорошо знает европейские национальные костюмы, я как ни копну, всё очень плохо, веьма поверхностно всё на отъебись сделано, ни восточной европы, ни балкан, нихуя толком нет, сплошная азиатщина ебаная и косплей. Я вчера попробовал, результат близкий к плачевному, посудите сами: >>1471356
Ананы, а как в ебаном qwen image edit убрать пластмассу? Пиздец, там уровень хуже сдохли.
И ещё. Я использую 2511 fp8 scaled lightning, потому что дефолтная библа генерит только чёрный кадр. Это с vae залупа? А где его найти нормальный, я уже штук 5 разных затестил, один хуй.
>>1472319 А никак нормально не убрать, это «фишечка» Qwen, его default «стиль», который я характеризую как digital painting.
Для того, чтобы с этим хоть как-то справиться, начинал с отдельного прохода low-noise WAN 2.1. Потом отказался. Стал подкидывать ему samsung realistic LoRA с небольшой 0.20–0.40 strength, а затем сверху проходить SeedVR2. Сейчас практически отказался от Qwen по этим причинам (и потому что я локально FLUX.2 dev могу катать).
С моделями 2511 там с файнтюнами были какие-то ещё проблемы. Пробуй default workflow для 2511 от ComfyUI (там узел один костыльный добавляется) и модель, которая с ним идёт. Если проблем нет, то уже подсовываешь разные файнтюны на FP8 scaled и так далее.
Хочу при помощи нейронок клинить хентайную мангу, но я полный ноль в этих вопросах. Можете дать какое-то направление, в сторону которого копать? Что вообще гуглить? По железу у меня всё неплохо - rtx5080, должно хватить, как я понимаю.
Клинит, когда задачу сформулировать не в состоянии.
Прикрепи пример изображения и результат того, что тебе нужно из него получить. Если вместе с этим нормально подробное описание того, что тебе нужно сделать, предоставишь, то ещё лучше. А пока…
>Можете дать какое-то направление Могу, но тебя это не устроит.
>>1472610 >underbutt тоже хорошо работает, заметил ещё эффективность зависит от цвета юбки, если юбка белая, то завышается охотнее чем допустим чёрная, я уже говорил, есть есть лора thighs-gap с весом: 0.2 прекрасно делает своё дело. Ещё, как это ни странно, токен: sweaty тоже помогает здорово, а также: seductive pose.
Кстати, еще немного на счет ZIT, и лор для неё. Я тут немного поэксперементировал, с теми, что сам тренировал и с теми что на цветке лежат. И у меня создалось впечатление, что многие лоры на цветке (если не большая, львиная часть) - в состоянии жуткого overfit - перетренированы в хлам. По крайней мере те, которые тренировались на концепт, а не на стиль или конкретного персонажа/объект. ZIT просто очень прощающая сама по себе, и даже такое затрененное насмерть в состоянии как-то использовать, хоть такая лора и душит модель, а не синергирует с ней, как должно быть. Я хотя и не великий спец по ним, но если верить гайдам и тому, что говорит гемини по поводу признаков, и поведения лор - получается так. Нормальная, стандартная лора на концепт не должна тянуть за собой изменения стиля. И не должна менять персонажа, если нету ее ключа в промпте - это, если верить гемини стандартный тест. Так вот - из более чем десятка лор взяты с цветка - только 3 прошли эту проверку. А мы еще удивляемся - почему подключение больше одной лоры так легко шакалит картинку ZIT. Оно же получается, как если для одной лоры выставить много больше 1.0 силу.
>>1472727 Z тут не при чём, это нормальное поведение для DiT и flowmatch на низких батчсайзах, у них локальный минимум для оптимизаторов всегда сильно дальше визуально оптимального результата. Lookahead-оптимизаторы помогают не падать в ямы, а ещё лучше SAM, но с ним долго тренить. Большой батчсайз и нормальные оптимизаторы дают заебись результат. Ну и никто не мешает отскейлить веса лоры.
>>1472778 Ну, должны или нет - если они тренируются и работают, причем хорошо - если делать все же по гайду, а не как попало - то нам что, плохо от этого?
Вообще, я в устрице уже несколько лор тренировал себе просто с адаптером, и стараясь соблюдать рекомендации гайдов - так они хорошо работают. И даже миксятся между собой вроде бы неплохо. Но там разница по настройкам обучения с тем, что на цветке делают...
В общем, вот про одну лору с концептом из моих экспериментов: 65 изображений, весь тренинг - максимум 1400-1500 шагов, даже со спокойными настройками (но с batch size = 4). Смотр результат через каждые 100 шагов, останавливаю когда вижу хорошее действие. С агрессивными - можно даже за 200-300 шагов получить рабочий концепт, причем не так, чтобы сильно хуже качеством (но все же - хуже), но и смотреть уже надо каждые 50 шагов а то легко пропустить нужный момент. А на цветке ужаривают по 3000-5000 шагов. Даже для конкретного персонажа или узкого концепта. Я сначала думал, что там поголовно с BS=1 тренируют, потому и шагов столько ставят - так нет ведь. Это что, никто вообще гайдов не читает, или я один тут чего-то не понимаю? И если общество право - то почему тогда у меня работает? В чем подвох???
>>1471188 Не знаю, чел, я сколько не пытался нормально поработать с флюкс2 -- все говно получается. Либо он в рот ебет промпт, либо выдает какое-то пожеванное изображение, а от 3+ референса банально с ума сходит и выдает слоп уровня 1.5. Еще и генерации по 5 минут на картинку. Пиздец. И это у меня 5090+128 рам.
Попробовал qwen edit 2511. Похоже они его сломали. Что локально, что на сайте. Качество изображения хуже: мыльное, двоится. Про его нововведения сказать не могу так как бросил тесты от огорчения.
Какие еще есть edi модели? Я знаю только qwen edit и flux kontext. Может можно еще что-то локально попробовать?
P.S. Мне понравилось в qwen edit 2509 обрабатывать фотки, менять свет, детали. Если бы не съедалось качество и персонажи бы не уплывали.
>>1473025 Перестань страдать хуйней и попробуй нано банана про 2к (или 4к). Разница космическая. Смешно, когда пишут, что флакс 2 нормальная edit модель. Между 1.5 и Z меньше разница, чем между самой свежей бананой и любой другой лучшей edit моделью. Локал только для лор нужен. Ну и для фото анусов и noobai. И то, грок и это уже пытается отобрать. >>1473040 Qwen + snofs что-то пытался делать, но качество хуйня.
>>1473041 Ну, посмейся ещё, раз тебе смешно. Ты в треде локальной генерации советуешь использовать проприетарных облачных корпоратов. Советы уровня: «нет хлеба, пусть едят пирожные» и «если вы бездомный, просто купите дом».
Когда я говорю, что FLUX.2 dev неплох как Edit-модель, я говорю об этом только в контексте этого треда, сравнивая его с Qwen-Image-Edit-2509/2511. Вся прелесть, что такие модели можно запускать локально хоть в каком-то виде, что особенно актуально в перспективе грядущей чебурнетизации всей страны.
>>1462570 То чувство, когда просто по просьбе анона почти не глядя сгенерировал картинку и получился шедевр. Это однозначно лучше референса, приведенного ниже, причем на порядки.
>>1473041 > попробуй нано банана про 2к (или 4к) В едит оно не сильно лучше Флюкса 2. А у Флюкса Про вообще сосёт. У бананы как раз с качеством неочень и цензура адовая.
>>1473046 Ну, в контексте "а если всё и везде наебнется", конечно неплохая, наверное. Сравнение абсолютно неуместное. Это скорей как предлагать обладателям всратых убогих проблемных квартир воспользоваться возможностью бесплатного элитного жилья с рядом небольших ограничений. Дроч локали ради локали это шиза, говорю это как обладатель железа, поддерживающего флакс 2. >>1473053 > А у Флюкса Про вообще сосёт. >У бананы как раз с качеством неочень Ты по голове ёбанный что ли...
>>1473066 > Ты по голове ёбанный что ли... Ты просто не пользовался Флюксом 2, очевидно же. У бананы есть стандартный стиль перешарпа, мелкие детали неочень, особенно в реалистике. Банана не может в генерацию аниме, не может в баб. А у Флюкса 2 со стилями нет никаких проблем.
В целом, если сравнивать одинаковые запросы, то флакс2 конечно лучше квен едит, но время генерации, конечно, все это обесценивает. Блять, у меня на 5090 10 минут, 10 МИНУТ НАХУЙ одна картинка из трех инпутов варилась. Я лучше 10 генераций на квене сделаю, отберу самую удачную, прогоню через апскейл и этот пайп куда вероятнее даст мне лучший результат.
Они в этом месте знатно насрали (помимо Qwen-овской мерзенькой dithering halftone pattern сеточки ещё до кучи были grid artifacts). Я не сразу нашёл в чём дело. TLDR: если используешь ускорялки типа lightning LoRAs для Qwen-Image(-Edit-2509; 2511 вроде не подвержена, там надёжная защита в виде сломаной 4-шаговой ускорялки, которая просто говно и генерировать нужно без неё, на 20 шагах), то убедись, что модель и версия ускорялки совместимы между собой по таблице из ссылки выше и без раздумий перекачай, если это не так. В противном случае, ещё и grid artifacts при генерации получишь. «О сколько нам открытий чудных…».
>>1473439 Рад, что тебе понравилось это кривое пластиковое говно с уплывшей геометрией, без деталей кожи, с мерзким dithering halftone pattern в области глаз и волос На будущее добавь LoRAs:
…если хочешь хоть какого-то подобия «реализма» от мультяшно-пластикового Qwen-Image(-Edit-2509/2511) добиться. Ну и в строну VAEfixа тоже глянь, не повредит: >>1473043
>>1473821 Огонь! Спасибо! Качество и точность страдают (что бы не писали в пресс-релизе), зато можно срать на космической скорости за 8 шагов по сравнению с обычной скоростью генерации FLUX.2 на 20 шагахэто ж ведь главное достоинство Z-Image.
>>1473832 > на космической 8 и 20 шагов не такая огромная разница чтобы трейдить качество, на опыты норм. Всего на минуту дольше без лоры, в носу поковырял и картинка уже готова
>>1473821 Вот теперь заебись, 16 секунд на 1024х1024, один референс +3 секунды. Только с весом лоры какой-то проёб, надо подбирать вручную, на 1.0 пережаривает как-то.
Хочется лета, вместо этого пизданулся на льду, дупа теперь болит >>1473894 Это нужно лоры искать или файнтюны, или использовать теги конкретных, просто так нейронка такое отсеивает как шум
>>1474196 Флаг им в руки. Qwen-Image-Edit-2511 сломан, FP8 модель срёт grid артефактами (вчера на контрастном светлом изображении заметил), недаром в workflow ComfyUI по умолчанию предлагают bf16 модель. Ещё, она по-моему, хуже 2509. Теперь простой Qwen-Image решили доломать?
VNCCS is NOT just another workflow for creating consistent characters, it is a complete pipeline for creating sprites for any purpose. It allows you to create unique characters with a consistent appearance across all images, organise them, manage emotions, clothing, poses, and conduct a full cycle of work with characters. r/StableDiffusion - VNCCS V2.0 Release!
Usage
Step 1: Create a Base Character
Open the workflow VN_Step1_QWEN_CharSheetGenerator. r/StableDiffusion - VNCCS V2.0 Release! VNCCS Character Creator
First, write your character's name and click the ‘Create New Character’ button. Without this, the magic won't happen.
After that, describe your character's appearance in the appropriate fields.
SDXL is still used to generate characters. A huge number of different Loras have been released for it, and the image quality is still much higher than that of all other models.
Don't worry, if you don't want to use SDXL, you can use the following workflow. We'll get to that in a moment.
To begin with, you can use the default poses, but don't be afraid to experiment!
At the moment, the default poses are not fully optimised and may cause problems. We will fix this in future updates, and you can help us by sharing your cool presets on our Discord server!
r/StableDiffusion - VNCCS V2.0 Release!
Step 1.1 Clone any character
Try to use full body images. It can work with any images, but would "imagine" missing parst, so it can impact results.
>>1473857 Не то же, а в раз 5-20бесконечно лучше. >>1473821 Мне кажется, базовые модели вообще не должны использоваться для инференса. Это сырой продукт для других задач. Хорошая дистилляция всегда лучше оригинала по качеству, но хуже по вариативности и вещам, на которые обычным пользователям будет вообще похуй. Но дауны вроде лодстона почему-то не юзают дмд и делают хуйню вместо дистилляции. Почему так?
>Что по скорости на 16V/64R? Она вообще стоит того? Тебе лучше её не трогать. У меня на 128 Гбайт RAM она делает на ~105+ Гбайт оффлоад в RAM. У тебя будет делать оффлоад на SSD и ушатает его.
Это я потом стал внимательно в диспетчер задач смотреть на то, что творится при генерациях, когда тут в тредах жути нагнали. Меня большой объём RAM спас от изнасилования SSD.
>>1474994 Да как-то привык уже, давно стоит здоровый файл подкачки. Вот ты в который раз кидаешь эти пикчи, и не понимаю зачем её юзать. Кроме отсутствие edit возможностей, ZIT ебет по качеству это мыло. Может дистил лучше.
По возможности реализации концепций (через JSON-prompting) и нормального вывода текста, Z-Image-Turbo в подмётки FLUX.2 dev не годится.
Z-Image-Turbo годится только для очень простых генераций, даже когда ему скармливаешь JSON-prompt (он его понимает, как и Qwen, кстати).
FLUX2.dev — генерируешь то, что хочешь получить (с указанием положения объектов, стиля изображения). Ты уже имеешь готовый концепт в воображении и просто методично его переносишь. Z-Image-Turbo — генерируешь то, что получится, дроча кнопку Run до тех пор, пока что-то приличное не выпадет.
>>1475066 На ней давно уже сделали всё, что можно. Только особо отбитые тренили её до упора, лишь ухудшая свои тюны, как ластифай, например. Про натвиздауна вообще молчу, там уже с первой версии была мертвая ущербная модель.
>>1475108 Если ты про Qwen-Image-Edit, Qwen-Image-Edit-2509, Qwen-Image-Edit-2511, то ценники на карточках товаров на AliexpressОзоне менять и в китайские шмотки болванчиков переодевать.
Если серьёзно, то Qwen-Image-Edit может сгодиться, чтобы inpaint/outpaint средненько сделать и стили изображения поменять (например в «кадр мультфильма» или «иллюстрацию акварелью»).
Номерная линейка 2509, 2511 заточена под манипуляцию с элементами изображения (дорисовывание по изображению-примеру, удаление объектов) (в ущерб работе со стилями обычной Qwen-Image-Edit). Из них свежая 2511 по-моему, поломана и кажется хуже 2509. Довольно невнятна в BF16 и имеет grid артифакты в FP8.
Сами по себе для генерации изображений не очень подходят, хотя некоторые пытаются их использовать для этого. Qwen-Image из коробки без LoRAs неюзабелен кроме как для «цифровой иллюстрации» в «реализм» не может совсем с (LoRAs хоть как-то).
Ещё FLUX.2 с задатками Edit-манипуляций с элементами изображений, работой с reference images и различными стилями. Жирная (если меньше 128 Гбайт RAM, лучше не трогать, сбережёшь SSD и нервы), медленная (вышедшая вчера LoRA на 8 шагов ситуацию не исправляет, так как теряет детали композиции), требует определённого подхода к составлению JSON-promptов, если хочется чего-то с обилием деталей на генерации. Публика без железа её не жалует. При определённом подходе позволяет делать пикрилы.
>>1475204 дружище, а какую сборку (портабл) порекомендуешь, что-бы всё внутри уже было, чтобы реестр не засирать всеми этими (или вечно не теми) пайторчами и питонами?
>>1475113 >Что даёт? В классическом епсилон-prediction сдхл модель по сути учится локально убирать шум: на каждом шаге она предсказывает ε, который нужно вычесть. У модели нет глобального понимания направления из-за этого траектория получается ломаной, шаги накапливают ошибку, а при малом числе шагов часто появляются артефакты и мутанты.
Во flow-подходах модель учит векторное поле скоростей v(x, t): не "какой шум убрать", а в какую сторону и с какой скоростью двигаться, чтобы прийти от шума к данным. Это ODE с почти прямыми траекториями, а не стохастический денойзинг.
За счёт этого у флоу генерация стабильнее, меньше накопления ошибок, лучше работает на малом числе шагов, лучше держится промта.
Кароче флоу это более управляемая и гибкая геометрия генерации.
>>1475418 Так торопились, что в описании фич: Enhanced Huamn Realism Надо посмотреть, конечно, но наверно такой же сырой кал, слепленный на скорую руку, как и описание.
>>1475396 Это ты из описания какого-то рекламного взял или сам изложил? Я не знаком с деталями, но по твоему описанию работы звучит всего лишь как особенности sampler/scheduler, которых сейчас огомное количество наплодили, выбирай-нехочу; а они уже будут определять траекторию денойза. Только написано всё в стиле рекламного маркетингового bullshit уровня мема про деревянные подставки для аудиокабелей за 100500 денег.
>>1475536 >Это ты из описания какого-то рекламного взял или сам изложил? Сам изложил. >Я не знаком с деталями, но по твоему описанию работы звучит всего лишь как особенности sampler/scheduler, которых сейчас огомное количество наплодили, выбирай-нехочу; а они уже будут определять траекторию денойза. Ты не так пынямаешь. Семплер и шедулер меняют численную интеграцию уже заданной динамики, поэтому ты можешь их спокойно менять, делать свои голден щедулеры с ультранизкими бетами гаммами и прочими переменными, а флоу меняет саму динамику. То есть при epspred в SDXL модель учит фактически шумовые паттерны, а траектория появляется постфактум из семплера, без семплера и расписания денойза у тебя не произойдет инференс вообще. А при flowpred модель напрямую учит векторное поле движения, где траектория часть самой модели, а не внешнего семплера или шедулера. Ты фактически не можешь структурно симулировать флоу внешними средствами, если модель не обучена под задачу флоу обжект изначально.