/ai/ - Локальные языковые модели (LLM): LLaMA, Gemma, Qwen и прочие №174

Локальные языковые модели (LLM): LLaMA, Gemma, Qwen и прочие №174 /llama/ Аноним 27/10/25 Пнд 02:43:40 № 1400555 1

Эффективность к[...].png 92Кб, 1399x1099

Реальная длина [...].png 671Кб, 1602x2476

В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!

Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.

Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.gitgud.site/wiki/llama/

Инструменты для запуска на десктопах:
• Отец и мать всех инструментов, позволяющий гонять GGML и GGUF форматы: https://github.com/ggml-org/llama.cpp
• Самый простой в использовании и установке форк llamacpp: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Заточенный под ExllamaV2 (а в будущем и под v3) и в консоли: https://github.com/theroyallab/tabbyAPI
• Однокнопочные инструменты на базе llamacpp с ограниченными возможностями: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern
• Альтернативный фронт: https://github.com/kwaroran/RisuAI

Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux

Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/2ch_llm_2025 (версия для бомжей: https://rentry.co/z4nr8ztd )
• Неактуальные списки моделей в архивных целях: 2024: https://rentry.co/llm-models , 2023: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по чуть менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard

Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Перевод нейронками для таверны: https://rentry.co/magic-translation
• Пресеты под локальный ролплей в различных форматах: https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
• Выгрузка избранных тензоров, позволяет ускорить генерацию при недостатке VRAM: https://www.reddit.com/r/LocalLLaMA/comments/1ki7tg7
• Инфа по запуску на MI50: https://github.com/mixa3607/ML-gfx906
• Тесты tensor_parallel: https://rentry.org/8cruvnyw

Архив тредов можно найти на архиваче: https://arhivach.hk/?tags=14780%2C14985

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.

Предыдущие треды тонут здесь:
>>1395432 (OP)
>>1387128 (OP)

Аноним 27/10/25 Пнд 03:42:55 № 1400585 2

Катаю Эйр на Жоре (в Угабуге) в IQ4_XS, в три 3090 влазит с 32к неквантованного кэша. 27т/с, если с квеном не путаю. Но 3090-е у меня придушены до 270 ватт, так что результат не максимальный. Однако на экслламе поменьше выходит, и пп и генерация. Ну может на полной мощи, с тензор-параллелизмом (если бы было 4 карты) и было бы больше, но честно говоря мне хватает.

Аноним 27/10/25 Пнд 04:02:41 № 1400590 3

>>1400585
Я тоже свои придушиваю в разгар кума

Аноним 27/10/25 Пнд 04:34:38 № 1400600 4

1666092325170.png 1110Кб, 2535x8358

1625735897490.png 1488Кб, 2534x10206

1739316894051.png 284Кб, 2543x778

>>1400523 →
Ух бля.
Пик-1, Правильная реализация моэ. Действительно работает быстро в начале (накрутив можно и до 50 догнать на пустом), но сдувается как только появляется контекст. Если небольшая часть тензоров на процессоре - всему пиздец (жлм пик-3).
Что забавно, когда основной пулл весов в рам - просадки не такие большие, и обычно не превышает 30-40%. Буквально за счет меньшей доли весов на куде, на большом контексте дипсик работает быстрее жлма в пару раз, выдавая под десяток токенов на тех же 90к. Жлм также можно ускорить буквально выгружая меньше, пожертвовав небольшой частью скорости в начале, абсурд.
Проблема ggml бэкенда с кудой которой уже много лет - правильная реализация, не путаем.

Пик-2, Неправильная реализация моэ, силки смуз на всем контексте. При генерации в один поток отставание в начале переходит в опережение при наличии контекста. С мультисвайпом - в квене догоняется за 60т/с по сумме (4х 15т/с). На глме (пик4) скорости также сасные, так еще и более лоботомированный квант перформит лучше 5.5бпц, но это камень в анслотов.
56т/с в мультисвайпе и 30+ в одиночном на 90к - неправильная реализация, должно проседать как жоре!

Можно еще про квеннекст вспомнить. Тут он со смешных 15т/с в раннем релизе апнулся до вполне приличных 80т/с на контексте. Тензорпарралелизм пока не поддерживается и обработка все еще пососная, но всяко лучше чем 3т/с.
> Нет никакого смысла сидеть на нём, когда даже частичный оффлоад на ЦП у Жоры быстрее exl3
5 токенов в секунду при небольшом частичном оффлоаде - быстрее чем 24т/с в один поток и 55 (4х 13.9) при мультисвайпе! Они просто правильнее и поэтому быстрее!

Лучше бы еще раз покумил чем на эту херь время тратить
>>1400585
> если бы было 4 карты
Оно работает с любым количеством.

Аноним 27/10/25 Пнд 06:57:25 № 1400616 5

>>1400555 (OP)
Разработчик из Valve оптимизировал драйвер RADV для работы с Llama.cpp
> В кодовую базу, на основе которой формируется выпуск Mesa 25.3, приняты изменения, существенно увеличивающие скорость работы движка выполнения больших языковых моделей Llama.cpp при использовании Vulkan-бэкенда на системах с GPU AMD и Mesa-драйвером RADV. Оптимизированный драйвер RADV в некоторых тестах llama-bench стал быстрее драйвера AMDVLK и стека ROCm на 31% при обработке запросов (тесты "pp" - prompt processing) и на 4% при генерации токенов (тесты "tg" - token generation). Оптимизацию выполнил Рис Перри (Rhys Perry) из компании Valve, участвующий в разработке драйвера Vulkan RADV и компилятора шейдеров ACO.
https://www.opennet.ru/opennews/art.shtml?num=64086

Аноним 27/10/25 Пнд 07:35:11 № 1400623 6

какова база треда?

Аноним 27/10/25 Пнд 07:36:25 № 1400624 7

>>1400616

Аноним 27/10/25 Пнд 08:19:38 № 1400629 8

>>1400623
Потрогать траву, вложиться в карьеру, зайти в тред через 2 года

Аноним 27/10/25 Пнд 11:28:54 № 1400681 9

https://huggingface.co/MiniMaxAI/MiniMax-M2

Но есть нюанс:

https://t.me/krists/2386
> На моём бенчмарке для измерения качества русского языка занимает уверенное последнее место.

Хотя для агентов может быть отличная, посмотрим.

Аноним 27/10/25 Пнд 12:00:23 № 1400693 10

>>1400681
Про миниатюрного максима вроде писали, что у него с creative writing прям не очень.

Аноним 27/10/25 Пнд 12:13:56 № 1400699 11

Есть что-то лучше квена на сегодняшний день? Чтоб из коробки без джейлбрейков и по-русски понимал специфику и мог в чернуху и троллинг с дефолтными настройками?

Аноним 27/10/25 Пнд 12:30:27 № 1400703 12

>>1400699
А это какой квен?

Аноним 27/10/25 Пнд 13:27:19 № 1400732 13

А есть какой-то нормальный способ скачивать чаров с janitorai? Вчера хорошо порпшил с Ягодой, которую отыгрывал облачный glm-4.6 через личную прокси, но хотелось бы продолжить на локальной версии. Я уже выгрузил json всего чата, но, видимо оформлять карточку придётся вручную.

Аноним 27/10/25 Пнд 13:49:31 № 1400742 14

>>1400732
Либо через прокси в таверну, либо через замену в ссылке уборщика на джанниаи (буквально, в адресной строке заменяешь на https://jannyai.com/, оставляя остальную часть ссылки без изменений) либо через сакера. Последний еще и отваливается периодически, так что как повезет.

Аноним 27/10/25 Пнд 13:54:40 № 1400745 15

РКН пару дней назад решил снова приложить несколько крупных CDN, включая Cloudflare и AWS CloudFront.

- Huggingface проксирует крупные файлы через AWS CloudFront, так что скачивание моделей через веб-морду или CLI теперь закономерно не работает.

- Вики треда ( https://2ch-ai.gitgud.site/wiki/llama/ ) проксируется через Cloudflare, так что она теперь тоже не работает.

Так что упавшая обниморда - это просто сопутствующий ущерб в борьбе РКН с CDN.

Аноним 27/10/25 Пнд 14:40:27 № 1400787 16

>>1400745
Че они добиваются-то, шизуки? Какая у них вообше претензия к этим ресурсам, что нужно все на свете класть для юзеров и форсить впны, с которыми они типа борются?

Аноним 27/10/25 Пнд 14:56:01 № 1400798 17

>>1400585
Как у тебя 3090 подключены? Узкие места в pci.e? У меня тоже три карты, ограничение 250 ватт каждая, итог 30 токенов два запроса одновременно при заполненности контекста 20к. Табби exl3

Аноним 27/10/25 Пнд 14:56:40 № 1400799 18

>>1400616
На аимаксах апает скорость, или вулкан все еще быстрее?
>>1400681
Квантов бы завезли. По бенчам оче высокий скор и за счет малого количества активируемых будет шустро летать, в промежуток между квеннекс/жпт/эйр и квен235 попадет.
>>1400699
Размер хотябы обозначь, но в целом мистраль смолл, гемма, коммандер. Они часто лучше 30а3, глупее больших.
>>1400787
Запутан лабиринт, зашел за дебит кредит,
Мой минотавр не спит - о новой яхте бредит.

Аноним 27/10/25 Пнд 14:58:27 № 1400800 19

>>1400787
Нормальные люди туда работать не идут. А у безпринципных идиотов по объявлению мозгов не хватает. И вообще - рыба с головы гниет. Или ты еще думаешь, что они ради простых людей что-то делают? :)

Аноним 27/10/25 Пнд 15:26:55 № 1400823 20

>>1400787
Чебурнет хотят, из министерства правды пришел указ. Вот и прощупывают почву, блочат больших игроков

Аноним 27/10/25 Пнд 15:59:23 № 1400859 21

На чем квен3 омни запускать для аудио инпута?

Аноним 27/10/25 Пнд 16:06:12 № 1400866 22

>>1400800
>А у безпринципных идиотов по объявлению мозгов не хватает.
Хватает у них мозгов. Из ВПН только влесс работает, но с Обниморды я и через него скачать не могу. Вот надеюсь только, что наняли они китайцев или нацменов по старой памяти - потому что если это свой же брат гадит, то дело наше совсем швах.

Аноним 27/10/25 Пнд 16:08:11 № 1400870 23

>>1400866
>с Обниморды я и через него скачать не могу
Бля ну вроде должны тут сидеть не совсем колобки, ну как так? >>1400041 →
Ты не можешь две сетки занести в гудбайдипиай? Впны работают самые разные, которые через socks работают и аналогичные протоколы

Аноним 27/10/25 Пнд 16:11:54 № 1400878 24

>>1400866
> потому что если это свой же брат гадит
> если
Лол.

Аноним 27/10/25 Пнд 16:13:12 № 1400882 25

>>1400681
>https://huggingface.co/MiniMaxAI/MiniMax-M2
>elite performance in coding and agentic tasks, all while maintaining powerful general intelligence
>Its composite score ranks #1 among open-source models globally.
:^)

Аноним 27/10/25 Пнд 16:15:59 № 1400893 26

>>1400878
тоже хрюкнул.
за сто лет отрицательной селекции с революции 17го года на всей территории снг человек человеку волк, а не брат

Аноним 27/10/25 Пнд 16:19:46 № 1400905 27

>>1400859
Трансформерс по шаблону с их репы. Чтобы уместить в память можно грузить в nf4 кванте который сделается прямо на лету битснбайтсом.
Ни один из популярных бэков аудио не поддерживает, кто-то хотел форк жоры пилить но воз и ныне там, ишьюс тоже висит.
>>1400866
Ночью тряска была, сейчас то что отваливалось работает. Xet и Hftransfer по отдельным протоколам, которые без проблем даже на тряске год назад качали.
А по моральному аспекту тех кто там работает - спроси среди друзей и знакомых, набей морду если вычислишь и придай всеобщему порицанию. Если палачей в средневековье можно было оправдать тем что "кто-то должен этим заниматься" то тут нет оправданий. Потому собственно туда мало кто и идет из толковых.

Аноним 27/10/25 Пнд 16:41:34 № 1400966 28

>>1400681
> На моём бенчмарке
Какой-то манябенч протыка? Я погонял ассистента, русский лучше К2/GLM 4.6, но хуже дипсика.

Аноним 27/10/25 Пнд 16:51:31 № 1400988 29

>триллионы новинок на сотни миллиардов параметров
>чуть-чуть умнее геммы хуй знает какой давности
>гугл еще и претрейн дает скачать
Вот эти мое и раздувание требований к объему памяти в десятки раз, это точно будущее?

Аноним 27/10/25 Пнд 16:53:48 № 1400998 30

>>1400988
Видеокарты сами себя не продадут. Миллиарды у государства и инвесторов сами себя не выклянчат.

Аноним 27/10/25 Пнд 17:17:41 № 1401023 31

>>1400988
Как удобно, что можно умолчать о Эире и Квене, которые реально хороши.
>>1400998
Ну естественно. Обыденное объяснение что у гугла больше ресурсов и компетенций чем у ноунеймов не годится. Это скучно.

Аноним 27/10/25 Пнд 17:31:31 № 1401042 32

>>1401023
> умолчать о Эире и Квене, которые реально хороши
Эйр и большой Квен не нужны, когда есть Дипсик, особенно если на русском сидишь. У Квена разве что мелкие модели хороши.

Аноним 27/10/25 Пнд 17:34:23 № 1401045 33

>>1401042
А ты не очень умный, да? Дипсик - 671б модель, Квен - 235б, Эир - 110б. Или ты из членососательного, кхм, то есть корпотреда выполз?

Аноним 27/10/25 Пнд 17:54:33 № 1401056 34

>>1401045
>хурдур вот моя 235б чуть чуть умнее 27б, всего-то в 9 раз толще
>кукарику 671б вс 235 ничесна
Вот это я понимаю - сравнительная аналитика.

Аноним 27/10/25 Пнд 17:59:28 № 1401060 35

>>1401056
Асигодитя, вернись туда откуда вылез. Эир и Квен на порядки умнее и способнее Геммы, как минимум на англюсике и в коде. Ну а про русик - тебя, валенка, спросить забыли.

Аноним 27/10/25 Пнд 18:04:55 № 1401064 36

>>1401060
Можно уточнить, в чем это проявляется, а то я в эйре интеллекта особенного не заприметил. Даже в уги он по интеллекту ниже.

Аноним 27/10/25 Пнд 18:05:42 № 1401065 37

>>1401045
235В вообще странная модель, размер средний и у больших сосёт, при этом скорость говно. А квен-кодер размером почти как дипсик, в коде они примерно одинаковые. Эйр в принципе кал, только полноценный GLM стоит рассматривать, но он проигрывает дипсику во всём.
> на англюсике и в коде
То что Эйр чем-то лучше Геммы в РП я очень сомневаюсь, в русском уж точно. А в коде Эйр не имеет смысла, когда есть модели для кода намного лучше и даже меньше по размеру.

Аноним 27/10/25 Пнд 18:11:12 № 1401067 38

Зачем вообще эир и квен, ведь гемма и мистраль лучше? Ну а вообще локалки не нужны, разве что просто поржать запустить, а для всего остального юзатб закрытых корпов. Да и все корпы не нужны, ведь клодик тупа лучше гпткала, геймини и прочего говна. Да и сойнет не нужен, лучше попуск, причём не 4.1 лоботомит, а старый добрый опус 3, который имеет душу и пишет как боженька.

Аноним 27/10/25 Пнд 18:11:45 № 1401069 39

>>1401065
> 235В вообще странная модель, размер средний и у больших сосёт
Квен 235б можно запустить на консумерском железе, в приличном кванте и с вменяемой для креативных задач скоростью. Уже это его выгодно выделяет на фоне бОльших моделей, которые запустить удастся уже только на риге.

> Эйр в принципе кал
Отличная модель, которой нет альтернатив в схожей размерной категории.

> только полноценный GLM стоит рассматривать, но он проигрывает дипсику во всём.
Присоединяюсь к анону выше и предполагаю, что ничего из этого ты на своем железе запустить не можешь. Тебе в другой тред.

Аноним 27/10/25 Пнд 18:22:37 № 1401076 40

>>1401069
> Тебе в другой тред.
Ты что-то перепутал. Это тред локальных LLM, а не тред того что ты можешь запустить. С таким же успехом можно локальность определять рамками одной карты, а зондошизикам отказываться запускать модели на Винде и с webui, лол.

Аноним 27/10/25 Пнд 18:26:37 № 1401077 41

>>1401076
> Это тред локальных LLM, а не тред того что ты можешь запустить.
"В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!"
Первое предложение из шапки. Ты рассуждаешь категориями, которые не применимы к данному треду, поскольку пренебрегаешь такой критически важной штукой как размер модели и возможность ее запустить. Тебе в другой тред, все верно.

Аноним 27/10/25 Пнд 18:29:14 № 1401082 42

>>1401077
> пренебрегаешь такой критически важной штукой как размер модели и возможность ее запустить
И как ты границы этого установил? По уровню своей нищеты? Дипсик можно локально запустить? Можно, в треде запускают. На этом проследуй нахуй.

Аноним 27/10/25 Пнд 18:34:34 № 1401088 43

>>1401082
> И как ты границы этого установил?
Никак не устанавливал. Ты сам выше подтвердил, что не можешь запустить обсуждаемые тобой модели. Ты как ребенок, который смотрит на картинки каталога с автомобилями и приходит к выводу "Мерседес АМГ лучше Форда Фокус, значит Форд Фокус говно. Только АМГ имеет смысл рассматривать, но он проигрывает профессиональному спорткару во всём". И ведешь себя соответствующе со своими
> На этом проследуй нахуй.
Когда с тобой смеют не согласиться. Зачем пришел сюда, какую цель преследуешь?

Аноним 27/10/25 Пнд 18:46:06 № 1401097 44

>>1401088
> Ты сам выше подтвердил
Откуда ты такие выводы сделал? Я пользуюсь Дипсиком, поэтому Эйр калом считаю.

Аноним 27/10/25 Пнд 18:49:05 № 1401100 45

Я рпшу в гемме вместо эйра, хотя эйр генерит быстрее.
Мое это просто наебалово. Я просто не могу жрать слоп эйра, игнорящий вопиющие и основные детали сеттинга (не забывающий, оно их помнит, просто не вдупляет суть). Гемма не генерит словослоп так же охотно, но это потому, что она заточена смотреть на юзверя и делать, что просят. Словослоп там тоже появится, если ты сам будешь словослопить.

Аноним 27/10/25 Пнд 18:49:31 № 1401101 46

>>1401097
> Откуда ты такие выводы сделал?
Тот, кто на своем железе Дипсик может запустить, обычно умнее. Тред про запуск на своем железе.

> Я пользуюсь Дипсиком, поэтому Эйр калом считаю.
Понял. На дискуссию не способен, все что можешь выдавить - "могу и запускаю 671б модель, которая лучше 110б модели, значит последняя говно.", и это самоцель. Такие как ты надолго тут не задерживаются, так что обойдешься без третьего мягкого пинка под попу.

Аноним 27/10/25 Пнд 18:55:18 № 1401108 47

>>1401101
> Тред про запуск на своем железе.
Так а что ты тут забыл без железа? И вообще у меня сложилось впечатление что ты бахнул потому что я Эйр с базированной Геммой сравнил. Ты неверное тот самый нищук с Эйром в 7 т/с на амуде, лол? Тебе да, кроме МоЕ ничего не светит.

Аноним 27/10/25 Пнд 19:00:16 № 1401112 48

>>1401108
> у меня сложилось впечатление что ты бахнул
Твое впечатление тебя обманывает. Всего лишь нахожу забавным, что ты считаешь валидным сравнением 671б и 110б моделей и запускаешь модели через апи, рассказывая об этом в треде о локальном запуске.

> Ты неверное тот самый нищук с Эйром в 7 т/с на амуде, лол?
Нет, я миллиардер с Кими К2 1Т в 15т/с на Интеле, кек. Считаю Дипсик калом.

Аноним 27/10/25 Пнд 19:11:32 № 1401139 49

>>1401112
> на Интеле

лолшто, риг из каловых штеудовых видюх 400 гб/с?

Аноним 27/10/25 Пнд 19:18:36 № 1401146 50

>>1401112
> Всего лишь нахожу забавным, что ты считаешь валидным сравнением 671б и 110б
Ты поменьше забавляйся над голосами в голове и сходи перечитай свой первый пост. А потом попробуй найти кто сравнивать Эйр с Дипсиком начал. Неплохо ты себя прикладываешь, лол.

Аноним 27/10/25 Пнд 19:33:24 № 1401156 51

>>1401146
Покажешь где он сравнил эйр с писиком? Хотя нет. Где хоть кто-нибудь в треде это делал :^) Совсем в глазах туман у апиюзера, зарабатывал на проксечку всю ночь

Аноним 27/10/25 Пнд 20:35:06 № 1401192 52

>>1401065
Для ряда задач квен предпочтительнее жлма и дипсика, а больше мало кто может с ним конкурировать исключая какие-то совсем специфичные кейсы. Дипсик кодит иначе, местами очень хорош, смекает и ультит, в других начинает искать сущности или чрезмерно полагается на свои знания там где те уже протухли. В агентах квенкод лучше справляется, дипсик неохотно пользуется всеми возможностями.
> Эйр в принципе кал
> в коде Эйр не имеет смысла
Прекрасно работает на агентах без каких-либо проблем, делает то что нужно, соображает лучше чем 30а3, доступен к запуску на десктопном железе с приемлемой скоростью. Опережает гопоту без синкинга, работает быстрее гопоты с синкингом.
>>1401076
> локальных
> того что ты можешь запустить
Второе следует из первого.
>>1401088
Базу выдал
>>1401112
> я миллиардер с Кими К2 1Т в 15т/с на Интеле
Тут такие раньше не отмечались. Да и 15т/с на кими для прикладных задач сомнительны.

Аноним 27/10/25 Пнд 20:39:37 № 1401195 53

>>1401146
> перечитай свой первый пост. А потом попробуй найти кто сравнивать Эйр с Дипсиком начал. Неплохо ты себя прикладываешь, лол.
Поскольку ты не запускаешь модельки сам, тебе правда не понять, что Air и Дипсик в разных весовых категориях. Когда я написал, что Air отличная модель, у которой нет альтернатив в схожей размерной категории, я не сравнивал его с Дипсиком.

>>1401192
> Тут такие раньше не отмечались. Да и 15т/с на кими для прикладных задач сомнительны.
Это была шутка. Я нищук и запускаю Air в 8т/с и Квен в 4.5-5т/с.

Аноним 27/10/25 Пнд 21:03:33 № 1401207 54

>>1401195
> нищук
> Air в 8т/с и Квен в 4.5-5т/с
Вполне себе примерно на уровне average enjoyer если судить по нытью, зря прибедняешься.
Какбы даже у 4б и ниже моделек есть свой юскейс, те сравнения действительно глупы.

Аноним 27/10/25 Пнд 21:14:10 № 1401213 55

>>1401207
> если судить по нытью
По нытью за недоступность больших моделей и обсуждению железок офк, на всякий уточняю.

Аноним 27/10/25 Пнд 21:27:11 № 1401216 56

>>1401195
> Когда я написал, что Air отличная модель, у которой нет альтернатив в схожей размерной категории, я не сравнивал его с Дипсиком.
И я не сравнивал, я сравнивал его с Геммой. А Дипсик сравнивал с обычным GLM. А вот ты зачем-то бахнул и начал рякать про нельзя сравнивать, разные категории и запретить большие модели. Объясни что там тебе голоса в голове наговорили, чтоб понимать с чем ты вообще споришь. Пока что понял только то что ты триггеришься на модели, которые не можешь запустить.

Аноним 27/10/25 Пнд 23:42:38 № 1401265 57

>>1400966
Ну зайди по ссылке и посмотри. В прошлом треде обсуждали.
Быть лучше GLM 4.6 не то чтобы сложно, конечно, к сожалению.

Аноним 28/10/25 Втр 00:36:36 № 1401279 58

>>1400703
30b

Аноним 28/10/25 Втр 02:45:48 № 1401310 59

В чём они не правы? Если бы можно было выйти на улицу и увидеть людей, а не мудаков, не сидел бы тут с вами. В моей мухосрани даже волонтёром никуда не записаться. Всех разогнали, рекламируют только билет в один конец за пару лямов.

Аноним 28/10/25 Втр 02:52:40 № 1401312 60

>>1401310
Общение с людьми, это когда АИ ассистант - ты сам. Причем, бесплатно.

Аноним 28/10/25 Втр 03:15:44 № 1401314 61

>>1401310
Живите в проклятом мире который сами и создали. Видя такие перспективы почему не прилагал усилий к тому чтобы что-то изменить? Получить образование-опыт-работу и решить многие проблемы, свалить с мухосрани, сбросить духовное богатство чтобы общаться с соседями, найти увлечение с единомышленниками, участвовать в онлайн комьюнити?

Но лучше поздно чем рано и что-то из последнего ты уже сделал. Если не совсем сыч то найди какой-нибудь клуб где играют в мафию и там общайся развлекайся, разбавь это физической активностью чтобы не унывать. Через пару месяцев сам себя не узнаешь и остальные дела пойдут.

Аноним 28/10/25 Втр 04:44:39 № 1401336 62

>>1400555 (OP)
Avito выпустили файнтюны Qwen3-8B-Base и Qwen2.5-VL-7B-Instruct.

Как мы в Авито сделали свою LLM — A-vibe
https://habr.com/ru/companies/avito/articles/956664/

Аноним 28/10/25 Втр 05:12:24 № 1401342 63

>>1401312

Твою цитату я бы отлил в золоте, анон.

Аноним 28/10/25 Втр 09:20:11 № 1401372 64

>>1401336
> habr.com
> В табличках подменили скоры квена 8В на 4В
Хаброгои естественно даже не потрудились проверить что их наебали и скоры в сравнениях от вдвое меньшей модели, а не от 8В.

Аноним 28/10/25 Втр 10:27:09 № 1401381 65

Анончи, подскажите пожалуйста.
Пытаюсь на макбуке скрестить LM Studio + SillyTavern, и получаю ошибку на стороне таверны "Error rendering prompt with jinja template: "Conversation roles must alternate user/assistant/user/assistant/...". Нашел где в LM менять шаблон, нашел какой-то шаблон, поменял - оно заработало, но в тексте какие-то левые вставки появляются, передубликация ответов. Что за хуйня? Где и как стыковать то, как генерит вопрос таверна, и как ее парсит модель? Или где вообще конфликт происходит? Это гемор чисто LM Studio, или с условной ламой тоже самое может быть?

Аноним 28/10/25 Втр 11:34:06 № 1401398 66

Интересно получается. Прошлый тред на говно исходили, вот пруфы предоставлены >>1400600 и тишина.
Nuff said, хули.

Аноним 28/10/25 Втр 11:52:34 № 1401408 67

Новая картонка от АМУДЕ.

Аноним 28/10/25 Втр 11:54:23 № 1401409 68

>>1401408
Спеки

Аноним 28/10/25 Втр 11:57:11 № 1401410 69

>>1401408
Опять цена ебанутая. Это стоимость двух 3090 или одной 4090. Ещё и память даже не GDDR6Х, т.е. медленнее 3090 будет.

Аноним 28/10/25 Втр 12:06:07 № 1401412 70

>>1400555 (OP)
Аноны проясните пжл влияние на качество ответов режима think у моделек. Уже мес 6 собираю всяко разные штуки для работы под seo задачи, всякие чатики подбиралки на каталоги по 500к позиций, анализы отзывов, анализ результатов парсинга, доков, переписок и тд. По итогу самым адекватным у меня выходит qwen3 30b think.
Гемма и нейронки без размышлений зачастую проебываются на большом контексте. Из последнего надо было обработать разом 15к ключей, т.е почти 60к знаков. Квен3 инструкт налажал потеряв половину, гемма 27b пришлось по кускам делить и даже так половину протеряла. Квен3 think пару ключей потерял из 15к, что как бы терпимо.
Чому так? Тем более если тут пишут, что вот эта 30b moe в разы тупее той же геммы 27b

Аноним 28/10/25 Втр 12:16:49 № 1401420 71

>>1401408
Если бы по рекомендуемой цене за 100-120к, то норм. Но ведь так не бывает. С пошлинами и маржой будет все 180-200к. А за 220-240к уже можно палит 5090 взять, который в два раза быстрее.

Аноним 28/10/25 Втр 12:19:56 № 1401423 72

>>1401420
Или 4090 48 (если самому покупать и отдавать на переделку), особые извраты могут и интел на 48 взять

Аноним 28/10/25 Втр 12:25:19 № 1401424 73

>>1401423
Нет никакого смысла делать 4090 48г. За эти деньги можно взять 3090. Целая видеокарта блять по цене 24гб видеопамяти для уже существующей, ещё и с даунгрейдом охлада и рисками

Аноним 28/10/25 Втр 12:38:29 № 1401427 74

>>1401424
Ну главное, что с древней ужареной в хлам 3090 рисков нет) Лучше уж тогда пердеть на интеле, он хотя бы новый

Аноним 28/10/25 Втр 12:40:29 № 1401428 75

>>1401427
А где я написал что с 3090 рисков нет? Только нюанс в том что ты только ее проебешь, а не модифицированную 4090

Аноним 28/10/25 Втр 12:42:58 № 1401429 76

>>1401428
Там же где эйр ультимативно лучше геммы и писика. Тут у треда мозги квантованы, потому могут быть галлюны даже если предельно точно мысли излагаешь.

Аноним 28/10/25 Втр 12:52:07 № 1401436 77

>>1401100
>Я просто не могу жрать слоп эйра, игнорящий вопиющие и основные детали сеттинга (не забывающий, оно их помнит, просто не вдупляет суть)
Ты кого нашутить пытаешься, ммм?
Свайпать не пробовал? Сейчас без иронии и подъебов, литералли - 1 свайп шиза, второй веселее, в третьем он вообще съезжает на другую тему, но тоже интересно, в четвертом делает как надо, в пятом шизит, но охуенно.
Эир это литералли гемма на стероидах, слушает notes, промтится как не в себя. Чтобы сидеть на гемме именно для РП, а не на эйре это пиздец каким гемоёбом и утенком надо быть.

Аноним 28/10/25 Втр 13:27:42 № 1401445 78

>>1401424
> Нет никакого смысла делать 4090 48г. За эти деньги можно взять 3090. Целая видеокарта блять по цене 24гб видеопамяти для уже существующей, ещё и с даунгрейдом охлада и рисками

Т.е., вместо 4090 48 лучше взять 4090 24 + более медленный чип 3090 более медленной 24 гигов и занять дополнительный слот?

Я уже спрашивал, но тогда мне не ответили…

Аноним 28/10/25 Втр 13:35:50 № 1401447 79

>>1401445
И гонять данные по шине PCIe, забыл.

Аноним 28/10/25 Втр 14:17:47 № 1401469 80

>>1401436
У геммы таких проблем нет. Гайдлайны геммы так же преодолеваются несколькими параметрами, перечисленными в карточке юзера, а эйр будет рефьюзить и включать свой охуительный финкинг сои до конца времен.

Аноним 28/10/25 Втр 14:29:11 № 1401475 81

>>1401469
>а эйр будет рефьюзить
Вот эти кванты https://huggingface.co/ddh0/GLM-4.5-Air-GGUF, промт рандомный. От простыни гичана, до <делай хорошо, плохо не делай>
И ни одного разрыва . Нет рефьюзов в принципе. Кровь описывает, бывает иногда, в размышляче порывается "должен соблюдать сейфети инструкции>, но потом начинает <а насрать, тут у нас порево>.
>включать свой охуительный финкинг сои
Перейди на ChatMl не будет никакого ризонинга, бака, если он так тебя достает. НУ серьезно, bestialuty, BBC, NTR, Rape, rape+bestiality+furry+LGBTQ+-Deltaomega - всё описывает. только лолей не ебу, но мне это и не надо, сорян.
Идеальная модель для кума. А для всего остального есть плотные умницы.

Аноним 28/10/25 Втр 14:42:14 № 1401481 82

>>1401475
Потому что ты сидишь и сою толчешь (бибиси, нтр, вот это хардкор контент у тебя там, братиш, кукресло твоя там не заскрепело от напряжения, пока писал?), а как что-то реально сомнительное спросишь, так твой эйр начнет шизить и кукожить, выдавая кренделябли синтаксиса и прочей шизы.
Гугл не шизит. Гугл легко попросить не цензуриться. Причем расписывать сеншуал хуйню фиолетовопрозную он тоже начинает, когда ты ему отрубаешь гайдлайны просто описав юзверя должным образом. По умолчанию гугл не РПшит, потому что дефолтные гайдлайны гемини это выключают и он сухой ассистант по умолчанию.

Аноним 28/10/25 Втр 14:45:23 № 1401482 83

>>1401481
>гемини
Асигодолбаеб, когда ты с треда отвалишься? Гемма не гемини, эир не конкурент дипсику, ты вообще нихуя не понимаешь о том что пишешь.

Аноним 28/10/25 Втр 14:49:44 № 1401484 84

>>1401482
Гемма юзает те же гайдлайны по умолчанию. Просто у гемини сверху прикручены большой брат, который ему аутпуты рубит.

Аноним 28/10/25 Втр 14:54:24 № 1401487 85

>>1401481
>(бибиси, нтр, вот это хардкор контент у тебя там, братиш, кукресло твоя там не заскрепело от напряжения, пока писал?),
Мне нормально, не помню чтобы меня волновали твои фетиши.

>Потому что ты сидишь и сою толчешь
И это мне пишет человек, утверждающий что гемма топ для РП. Охуительные истории. Ты буквально не смог победить простейший ценз эира и перемогаешь геммой.
У меня есть подозрение, что ты просто взял пресет местного анона, который страдал хуйней выдавая на гемму шизополотна чтобы она не была соевой, поэтому у тебя с геммой всё и нормально.
Потому что если уж с геммой проблем нет, то с эйром и большим квеном их и подавно не должно быть. А значит, ты не понимаешь что ты делаешь.

>а как что-то реально сомнительное спросишь
Сомнительное это что? Давай не ходить вокруг да около, хоть новорожденных текстово еби, насрать. Но не бегай с этим как с главным критерием. Почему то практически все кто пользуются эйром довольны или перебежали на моешки побольше.
>Гугл не шизит.
Это поисковик, шизоид.

Аноним 28/10/25 Втр 15:06:38 № 1401493 86

>>1401487
Побеждать ценз? У тебя модель клинит в шизу, потому что она банально не может определиться, она пишет ответ или рефьюзит, поэтому с предиктами токенов случается пук, а еще она тупо lack instruction following capabilities, потому что активных параметров маловата и она банально тупенькая.

Аноним 28/10/25 Втр 15:11:23 № 1401495 87

>>1401487
>Это поисковик
Аналитега пошла. Только седня выпросил у твоего поисковика формат джсона в котором она с серч тулзами общается ради интереса, пытаясь огибать рефьюзы большого брата на выдачу проприетарной информаций. В поисковике там Pro сидит, просто тебе с ней разговаривать мешают, потому что она там немного другое делать преднозначена, но от этого ниче не меняется. Ее собственные гайдлайны вполне адекватные, неадекватные там у большого брата, который парсит ее ответы, да и твои квери чекает.

Аноним 28/10/25 Втр 15:15:42 № 1401496 88

>>1401336
> Avito
> выпустили файнтюны
Хуясе ебать. Не ну вообще чисто потыкать интересно, но что они там тренировали.
>>1401381
Ну, проблема в некорректном темплейте, что за модель? Если это не какой-то баг лмстудии то решится подкидыванием правильного темплейта, или же использованием таверны в текст комплишн режиме.
Lm studio как и многие другие - обертки llamacpp, ты можешь скачать оригинальный и запускать через ллама-сервер, воспользоваться кобольдом или прочими. Результат на выходе будет тот же.
>>1401398
Вспоминая кто там исходил все становится на свои места.
Если бы вместо шиллинга не стеснялись говорить о проблемах - уже бы не было такого. На экслламе3 ныли про одну из главных проблем - упор в однопоток цп, автор знает, за патчи значительно улучшилось, хотя еще много остается. Разные баги обнаруживаются - устраняются, алгоритм квантования улучшают, постепенно разработка идет и то что вчера вызывало смех сегодня уже внушает.
А на жоре на фоне хвалебных од от тех, кому он безальтернативен и прочего шума, серьезные проблемы игнорируются пока не станут совсем громкими и массовыми. Это даже не к разрабам претензия, они наоборот молодцы что за столько времени не выгорели, а к фанбоям, что оправдывают и скрывают проблемы.
За годы наблюдая за другими, вместо "кобольд хороший" хотябы мультисвайп и дистрибьютед промпт процессинг могли бы наныть. Первое при грамотной реализации именно с выгрузкой на цп дало бы крутой эффект, и обладатели 6т/с могли бы получать сразу 2-3 свайпа со скоростью 5т/с. Второе позволило бы достигнуть больших цифр обработки при наличии более одной видеокарты как с выгрузкой так и полностью на врам. Проблема замедления и кривых расчетов на куде более глубокая, но совместными усилиями хотябы частично победить ее можно было бы.

Аноним 28/10/25 Втр 15:21:05 № 1401500 89

Что эти дебилы там тренировывают?
Что не открой всё та же модель но цыферки выше, идеальный попил бабок

Аноним 28/10/25 Втр 15:52:21 № 1401519 90

>>1401496
> но что они там тренировали
симуляция верчения ебалом как макака для новых гоев при регистрации, очевидно же

Аноним 28/10/25 Втр 15:52:40 № 1401520 91

>>1401408
> Memory Type GDDR6
> Memory Bus 256 bit
> Bandwidth 644.6 GB/s
И после этого кто-то скажет что они не в сговоре с курткой? Чипы карточки недешевые, установив туда 48гигов gddr7 и окупив это кратно подняв цену ее бы брали гораздо активнее.
>>1401410
> или одной 4090
Их живые меньше 2-2.5к не купить. Остальное - перепаянные зомби в отвалившимися банками и линиями, которые не годны для переделки. Причина роста цен на 4090 еще в прошлом году - скупающие их китацы, сейчас и местные в разных странах к этому подключились.
>>1401412
> влияние на качество ответов режима think у моделек
Улучшает в сложных задачах, но не позволит сделать невозможное.
> Чому так?
Потому что используешь малые модельки на задачах, для которых они вообще не предназначены. Сделай какой-нибудь алгоритм чтобы ллм вызывала нужные функции, а не отрабатывала сама, тогда будет хорошо.
>>1401424
Как правило их берут туда, где нужно вместить больше не собирая десятками 3090. Начиная с некоторого момента для домашних ригов актуально, для десктопа тем более.

Аноним 28/10/25 Втр 15:53:59 № 1401521 92

>>1401412
У всех свои задачи. Тут в основном пишут про мозги в РП и тут гемма лучше.
Почему квен с ризонингом ебёт гемму в твоей задаче? Потому что ризонинг. Его тренили шароёбится по всему контексту + докидывать новый контекст к твоему запросу. Отсюда результат. А какой-нибуть агент по типу qwen code справится ещё лучше.

Из мелких моделей попробуй ещё gpt на 20b в режиме ризонинг хай

Аноним 28/10/25 Втр 18:31:51 № 1401627 93

>>1401398
Так твои замеры абсолютно бесполезны в сравнительном контексте, что их обсуждать? Ты сравниваешь разные режимы (послойная выгрузка vs tp), постоянно аппелируешь к сравнению разных режимов свайпов (одиночный vs мульти), делаешь из всего этого выводы о корректности реализации моэ, хотя замеры для этого бесполезны - надо лезть в код и сравнивать имплементацию (я не знаю, кто там в прошлом треде спизданул про это, он вообще понимал, что говорит?). Давай я тоже замеры сделаю - запущу жору на тесле и экслламу, жора будет бесконечно быстрее, охуенно информативно будет, да? Еще и контексты ебанутые - 60к, 90к, тут такое никому не интересно, потому что все равно качественнее будет делать суммарайз и рпшить на свежем контексте, а на место, которое бы занимал этот лоботомированный контекст, лучше взять квант пожирнее.
В общем, реально бы покумил, чем на такую херь время тратить.

Аноним 28/10/25 Втр 18:39:20 № 1401634 94

>>1401627
Замеры не замеры.

Я вообще мимо проходил, просто вы так резво проливали друг друга говном, но как он пруфанул свою позицию, так всё, тишина и гладь.
Несправедливо ёпта.

Аноним 28/10/25 Втр 19:07:33 № 1401642 95

>>1401634
Я тебе напомню, как это происходило. Я заметил странные цифры на сингл-гпу на ампере. Я взял ту же модель, тот же контекст, тот же сингл-гпу, и скорость генерации на тесле была схожа с 3090. Я знатно порофлил. Потом таким же макаром сравнил 5090 с 3090 Ti, там тоже 5090 показывала себя не очень. Увидев далее скрин с картами, где они были придушены во время кума, я сказал, что рофлы отменяются, не заметил этого. Сейчас приносят замеры с абсолютно разными конфигурациями. Ну ок, от этого ни тепло, ни холодно, сказать то что хотел? Что тензор параллелизм с подходящим железом быстрее его отсутствия? Спасибо, капитан очевидность, это было еще в оригинальном посте.

Аноним 28/10/25 Втр 19:19:14 № 1401650 96

>>1401207
>если судить по нытью
ряяя неймфаги в треде, и всех это устраивает??

Аноним 28/10/25 Втр 19:21:16 № 1401651 97

>>1401634
>вы так резво проливали друг друга говном, но как он пруфанул свою позицию, так всё, тишина и гладь.
обычный день в тредике. всем невиновным по чану говна

Аноним 28/10/25 Втр 19:26:23 № 1401652 98

>>1401642
> сказать то что хотел? Что тензор параллелизм с подходящим железом быстрее его отсутствия? Спасибо, капитан очевидность, это было еще в оригинальном посте.
Да вроде как не всем очевидно:

>>1400518 →
> Оно в разы медленнее Жоры из-за отсутствия нормальной реализации МоЕ. Нет никакого смысла сидеть на нём, когда даже частичный оффлоад на ЦП у Жоры быстрее exl3.

>>1400526 →
> тензорпарралелизма
> Это что-то для нищуков с картами на х1? Тогда понятно почему за этот exl-кал уцепился так.

мимо

Аноним 28/10/25 Втр 19:39:31 № 1401657 99

>>1401381
>Или где вообще конфликт происходит?
>Conversation roles must alternate
Тебе чётко написали, что нужно чередовать. У тебя там где-то подряд два ответа ассистента или юзера.
Впрочем, твой главный просчёт это >LM Studio
>>1401412
>для работы под seo задачи
Умри, рак.

Аноним 28/10/25 Втр 19:41:18 № 1401658 100

>>1401652
>Да вроде как не всем очевидно:
Ну так это было еще в тех замерах, если они те не убедили, то смысл нести новые.

Вот фраза >>1400518 →
>даже частичный оффлоад на ЦП у Жоры быстрее exl3
интересна, пусть принесет конфиги запуска одного и другого

Аноним 28/10/25 Втр 19:42:18 № 1401659 101

Это наше будущее.
Вам было мало 24гб врам?
Хорошо, вот решение

Аноним 28/10/25 Втр 20:07:21 № 1401678 102

>>1401634
Могу замерить на своих 16 гб 70b 4bpw (у всего, что меньше, мозгов маловато на мой суабъективный взгляд). На жоре 2 t/s, жить можно. На экслламе, подозреваю, хорошо если 0.2 будет. Вывод? Нинужно конкретно в моём случае. Хотя я лично экслламу особо не поливал говном. Мне не нравится, что это питоноговно, ну да хуй бы с ним, напердолил бы кое-как, если бы мог с этого поиметь профиты. Если кто-то и заслуживает получить струю жиденького в лицо, то это агрессивные маркетолухи, нахваливающие экслламу и поливающие говном жору, теслы, амудэ, интелы и прочие альтернативные решения для желающих сэкономить. Впрочем, в последнее время в треде всё более-менее политкорректно стало, вот и я особо не возникаю. Но я помню, как оно было с год-полтора назад и раньше, когда этот холивар был более активен. Так что в чём-то понимаю тех, кто в ответ набрасывается на экслламу при каждом удобном случае.
мимо

Аноним 28/10/25 Втр 20:38:43 № 1401701 103

>>1401642
Когда прижат то становишься вежливым, лол.
Там сразу было написано что скорость действительно низкая. И что причин этому может быть множество, и андервольт, и конфигурация карт/шин, и процессор, и в том числе какие-то частные проблемы в экссламе. Но что изначальный наброс был набросом, что на те ответы некоторая личность пошла исходить говном и тиражировать ерунду. Делались постулаты которые уже процитированы, шли прямые оскорбления на религиозной почве.
Столько постов насрали, а когда простор для спекуляций пропал - притихли, как обычно.
>>1401658
> Вот фраза >>1400518 → →
> >даже частичный оффлоад на ЦП у Жоры быстрее exl3
Этот поех по всей доске растекается. Он в первый раз порвался еще больше месяца назад когда, видимо, попробовал qwen3-next на экслламе. Тогда модель работала оче медленно, о чем жирными буквами писалось. Будучи уязвленным, увидел ишью про баг с замедлением от квантования контекста на амперах (который быстро пофиксили), и решил экстраполировать его на все. Так и родилась абсурдная легенда про замедление на контексте, туда добавились и прочие фантазии. Результат на лице, о чем пиздишь то сам наяриваешь.

Чисто технически можно разогнать жору, выгрузив только пару тензоров, быстрее экслламы. Но это будет только пустом контексте, чем дальше тем печальнее окажется.
Можно разогнать ту же экслламу в квене до ~40-45т/с в однопоток, достаточно выключить стриминг, убрать сложные семплеры/запускать не на табби + там уже несколько обнов вышло. Это показывает что там много еще делать чтобы было хорошо надо. Но даже в текущем виде для рп чата или для агентов выходит предпочтительнее чем фуллврам жора.
Пока последний незаменим для некоторых агентных кейсов с особо припезднутыми вызовами. Можно костыльно заставить работать, а вот автор табби не чешет жопу чтобы подключиться и доделать готовое что ему принесли. Куда не глянь - теорема эскобара, а вы вместо того чтобы хотябы проблемы явно сформулировать, специальную олимпиаду устраиваете

Аноним 28/10/25 Втр 20:41:26 № 1401703 104

>>1401678
> На жоре 2 t/s, жить можно.
> На экслламе, подозреваю, хорошо если 0.2 будет
> Вывод? Нинужно
> конкретно в моём случае
Ты умница, что выделяешь это как свой юзкейс и не заявляешь ультимативно, что А лучше, чем Б. Определенному юзкейсу, запросу - свой инструмент. Вот и весь ответ на этот холивар, и он давно известен.

> агрессивные маркетолухи, нахваливающие экслламу и поливающие говном жору, теслы, амудэ, интелы и прочие альтернативные решения для желающих сэкономить.
Не было никогда таких анонов. Возможно какой-нибудь тролль. Так горит, что аж до сих пор? Иронично, что большинство эксллама юзеров и сидят на теслах, мишках и прочих решениях, которые ты описал как "сэкономить". И среди англоязычных ребят тоже. Раньше Эксллама была популярнее потому, что у нас не было МоЕ моделей, и практически никто не оффлоадил. Все, как правило, задействовали всю доступную видеопамять, и в таком случае реально не было причин не использовать Экслламу. Например, когда я вкатывался, сидел на LM Studio и Кобольде. Пришел в тред, мне посоветовали Экслламу, и я действительно увидел разницу в пользу последней. После чего сам долгое время ее всем рекомендовал использовать. Без ультимативных заявлений. Как и большинство тредовичков, я подмечал, что это для тех, кто задействует только гпу. И если это такой юзкейс, то она по-прежнему быстрее Жоры, за исключением МоЕ. Выше анон-забияка пруфы принес.

> поливающие говном жору
Действительно у Жоры было много проблем. Сейчас большинство из них решены. И это в отрыве от того, что на плотных моделях Эксллама работает быстрее. Жору какое-то время срал анон-забияка с пруфами выше, но всегда подмечал за что именно, и что в остальном это крутой проект.

В треде вообще какой-то подростковый радикализм процветает. Какие-то гиперупрощения, додумывания за остальных. Вот так и получается, что "Жора плоха для фуллгпу инференса плотных моделей" превращается в "Жора говно", "Air умнее Геммы" превращается в "Гемма не нужна" и так далее, и так далее.

Не ведитесь на поводу ут роллей и не подливайте масло в бесконечный срач, поддуваемый тем, кому нечего делать и хочется срача ради срача. Впрочем, даже мой пост - лишь масло в огонь... Мы живем в обществе.

Аноним 28/10/25 Втр 21:14:50 № 1401725 105

>>1401703
>Так горит, что аж до сих пор?
Оно не то, чтобы горит, скорее просто надоело своей повторяемостью, запомнилось, и теперь всё подобное вызывает узнавание и раздражение. Если вдруг ты застал настойчивую рекламу "азино 777", ты даже имеешь шанс через аналогию примерно почувствовать, на что это для меня похоже.

Аноним 28/10/25 Втр 21:17:30 № 1401726 106

>>1401642
>>1401651
>>1401678
Вы посмотрите на них, сразу опизденеть какие вежливые стали.
Вот что время животворящее делает, остыли и нормально беседу ведут. Без обид, но вы готовы были друг друга сожрать с говном.
Посрались@Разобрались@потянулись

>>1399886 →
Ты таки оказался чертовски прав. На 16+16 никак. Слишком медленно. А Не больше 3-4 т/с. Хотя промт считает быстро, что то около 140-150.
Буду пердолить, не заработает, приду в тред как плаксивая сучка прося о помощи.

Аноним 28/10/25 Втр 21:37:19 № 1401743 107

>>1401703
Хороший пост, примирительный.
Нужно спокойно относиться к критике если она предметная, а если критикуешь - называй конкретные вещи а не просто выливай хейт и эмоции. И не нужно фанатично выбирать сторону и возводить баррикады, только нервы испортишь и потом придется переобуваться. Наоборот нужно всех любить и со всеми дружить кроме ебучей олламы, она недостойна прощения!
> за исключением МоЕ
Там только моэ на скринах, квен и жлм. Просто моэ большие и это доступно только на ригах, а с жорой можно запускать даже на декстопе.

Аноним 28/10/25 Втр 21:42:15 № 1401749 108

>1401726
>Вы посмотрите на них, сразу опизденеть какие вежливые стали.
Все, что было в прошлом треде - остается в прошлом треде.

>>1401703
>Иронично, что большинство эксллама юзеров и сидят на теслах
Как они сидят, если она там не работает? С картой в руках, смотря в черный монитор?

Аноним 28/10/25 Втр 21:47:42 № 1401754 109

>>1401749
Чёт проиграл.
>С картой в руках, смотря в черный монитор?
Смотри карточка, какая хуйня, вырастешь в большую теслу - будешь запускать.

Аноним 28/10/25 Втр 21:56:59 № 1401761 110

>>1401754
Если будете регулярно гладить и ласкать свою теслу, со временем ее архитектура апнется до тьюринга и даже до ампера!

Поддержку линга замерджили, а что с квантами на большую? 4 репы из которых пара - https://huggingface.co/mradermacher/Ling-1T-i1-GGUF (на полном серьезе как 2 года назад до поддержки дробления ггуфов их ручками склеивать потом?), одна чисто на болгарскую лламу и https://huggingface.co/DevQuasar/inclusionAI.Ling-1T-GGUF где не понятно что происходит.

Аноним 28/10/25 Втр 22:04:28 № 1401763 111

>>1401761
так вроде вот https://huggingface.co/unsloth/Ling-1T-GGUF

Аноним 28/10/25 Втр 22:10:21 № 1401771 112

>>1401761
>i1-IQ1_S
>198.9
Святой коннектий спаси и сохрани.

Аноним 28/10/25 Втр 22:10:59 № 1401772 113

>>1401763
Спасибо, добрый человек, почему-то их кванты не показываются по зависимостям.
>>1401771
Лоботомита в рам уже покатать нельзя

Аноним 28/10/25 Втр 22:16:56 № 1401780 114

Джемма четыре уже вышла?

Аноним 28/10/25 Втр 23:52:21 № 1401851 115

Сравнил тут большой Квен Инстракт с Синкингом (да, русский язык и второй квант, а кто сказал, что будет легко?) Мой вывод: Синкинг показал себя хуже, для большого Квена он смысла не имеет - в отличие от Эйра. Может быть на английском и с квантом побольше это и не так, но гонять квант больше у меня возможности нет. Вообще-то ризонинг на Квене выглядит достойно, вот только Инстракт-модель даёт то же и даже лучше.

Аноним 29/10/25 Срд 02:32:40 № 1401918 116

>>1401780
Да, в бэ отвечает на попытки присунуть от одебилевших анонов

Аноним 29/10/25 Срд 04:44:12 № 1401926 117

1761702252486.jpg 46Кб, 843x100

>>1401918
Умница, люблю её.

Аноним 29/10/25 Срд 05:24:41 № 1401927 118

Что делать будем если эир даванет жидкого и окажется хуйней?

Аноним 29/10/25 Срд 05:27:31 № 1401928 119

Вообще, почему никто не делает 2 разные модели под разные задачи, как квен с ризонингом и без, только одна модель онли под рп, а другая под кодинг

Аноним 29/10/25 Срд 06:03:58 № 1401930 120

>>1401927
Будем... Использовать старый? Это у корпоблядков постоянная деградация без возможности отката, у нас же тут резервные копии и постоянное развитие.
>>1401928
Делай, кто тебе мешает?

Аноним 29/10/25 Срд 06:17:32 № 1401931 121

Какой положняк по минимаксу?
Я в вебморде потестил, по мозгам непонятно пока, 50/50 то ли просто сбилась конкретно в этом тесте, то ли она реально умная ебать, по крайней мере частично проходит.
Для 10б явно должно быть неплохо.

Аноним 29/10/25 Срд 07:23:07 № 1401933 122

>>1401930
Нюня сказал что старый неюзабелен

Аноним 29/10/25 Срд 08:36:22 № 1401940 123

>>1401780
Не. Гугол говорит, что она будет делить базу с gemini 3, поэтому раньше последней ждать не приходится.

Аноним 29/10/25 Срд 09:34:17 № 1401954 124

Пасаны, бомж с 16гб врамы итт
Есть ли что лучше для ролплея чем mistral nemomix-unleashed?
Пока что нихуя не нашел, что влазит, все хуже
Согласен на 1.5т/с

Аноним 29/10/25 Срд 09:50:27 № 1401958 125

>>1401954
MOE, если озу достаточно. Тот же айр.

Аноним 29/10/25 Срд 10:01:32 № 1401960 126

>>1401958
А можно подробнее? Я не совсем понял сокращения.
Озу 64, подкачки еще 200, она на 980про, потерплю низкую скорость если что

Аноним 29/10/25 Срд 10:07:47 № 1401961 127

>>1401954
Я на 12гб врам гоняю синтвейв на 7т\с, на нём в отличии от мистраля работает флеш аттеншен. Не понимаю нахуя ты с 16 гб гоняешь 12b лоботомитов.

Аноним 29/10/25 Срд 10:46:36 № 1401969 128

>>1401960
Если у тебя есть 64гб+16врам ты можешь запустить MOE модель GLM-4.5 Air.

Аноним 29/10/25 Срд 10:57:15 № 1401972 129

>>1401961
>>1401954
Ну и да, осло, если тебе кажется что на 12b большая скорость, то это скорость на уровне машины которая разгоняется а потом медленно разваливается на ходу, лучше взять что - то потяжелее, зато ответы качественные.

Аноним 29/10/25 Срд 11:00:10 № 1401974 130

>>1401972
Да, вот щас 24б тестирую, получше ответы.
Просто я пару качал 24б и они странную хуйню писали, видимо просто не повезло

Аноним 29/10/25 Срд 11:54:33 № 1401996 131

5700X3D + 3060ti 8Гб + 80 Гб 3200 RAM.
Qwen3-235B-A22B Q2_K-XL под LMS (слоёв на GPU 9, flash attention вкл, mmap выкл, 7 потоков, 8 экспертов активных) выдаёт 2.36 т/с на пустом контексте (размер контекста 6К) и на почти заполненном деградирует до 1.47 т/с.
Изменится ли что-то, если заморочиться с Таверной и лламой? Из этого калькулятора можно будет выжать больше, или прибавка мизерной будет?

Аноним 29/10/25 Срд 11:55:57 № 1401997 132

>>1401969
Что-то я пока не ощутил прелести МоЕ либо я что-то не так делаю, имею 64гб + 16gb, гружу GLM-4.5-Air-Q3_K_M
load_tensors: offloaded 9/48 layers to GPU
load_tensors: CPU model buffer size = 254.38 MiB
load_tensors: CPU model buffer size = 43245.42 MiB
load_tensors: CUDA0 model buffer size = 9209.51 MiB

Запуститься то запустилось, но скорость генерации с 2к контекста что-то вроде двух токенов в секунду. Объективно бесполезно.

Аноним 29/10/25 Срд 12:02:42 № 1402000 133

>>1401997
Запускай через жору, он же llama.ccp. Батник базовый- найдешь через поиск. Тредов 5-7 назад был первым постом.

Аноним 29/10/25 Срд 12:08:49 № 1402001 134

>>1402000
Но опять же, ты написал 980. А я не хочу тебя обманывать, может действительно плотная часть будет работать медленно и ничего не сделать. Никогда не запускал нейронки ни на чем, что старше 20ой серии.
А раз не знаю, то худшее что могу сделать, это говорить нахуй не нужное и вредное мнение

Аноним 29/10/25 Срд 12:11:24 № 1402002 135

>>1402001
Я другой анон, у меня 4080, просто уже давно сижу на обычных плотных 24/32b моделях (на самом деле у меня 2 карты 4080 и 3070), и решил пощупать МоЕ. Потестирую чистую ламу, глянем.

Аноним 29/10/25 Срд 12:14:57 № 1402003 136

>>1402002
Анон, у меня 4080 и были 4 планки ддр 5, которые работали на низких частотах, потому что я ебаклак и не знал, что не стоит даже в хорошую мат.плату, но игровую, пихать 4 планки.
И на 4080 выдавала 10-14 т/с. Так что тут я могу точно сказать, что должно все работать.
При контексте 20к, и заполнении до 17-19, падала до 9-8

Аноним 29/10/25 Срд 12:27:06 № 1402008 137

>>1401996
> слоёв на GPU 9
Слоев всех включая экспертов или атеншн с 9 слоев? Нужно набивать как можно больше, но полностью в 8 гигов врядли получится поместить.
>>1401997
> offloaded 9/48 layers to GPU
-ngl 9999 --cpu-moe
Если после этих действий врам остается --n-cpu-moe N где N начинай с 46 и постепенно снижай пока не заполнится. Более точно - регэксп.

Аноним 29/10/25 Срд 12:44:38 № 1402018 138

>>1402008
>Если после этих действий врам остается
Надо еще примерно 2-3гб на контекст оставить. ЕМНП на air токен примерно 184 кб. Я считал 0.18 мб, когда прикидывал контекст(точнее он сам в жоре напишет) Берешь контекст и делишь его на выделенную память.

Аноним 29/10/25 Срд 12:55:06 № 1402027 139

>>1401996
Ты делаешь неправильно.
Как выше написали, тебе нужно тензоры выгружать (--cpu-moe, а -ngl — все слои на видяху), тогда будет норм.
Даже если у тебя винда, то токена 3-4 в секунду должно быть.

Если лмстудио не умеет — значит переходи на llama.cpp

Аноним 29/10/25 Срд 13:53:09 № 1402070 140

>>1402008
>Если после этих действий врам остается --n-cpu-moe N где N начинай с 46 и постепенно снижай пока не заполнится. Более точно - регэксп.
На самом деле врам остается довольно дофига.

Допустим стартую без лишних настроек, только с указанием контекста.
llama-server --port 5001 --model "GLM-4.5-Air-Q3_K_M-00001-of-00002.gguf" -ngl 99 --cpu-moe -ncmoe 45 --ctx-size 24576

На выходе имею распределение
load_tensors: offloaded 48/48 layers to GPU
load_tensors: CPU_Mapped model buffer size = 47003.38 MiB
load_tensors: CPU_Mapped model buffer size = 5214.12 MiB
load_tensors: CUDA0 model buffer size = 2111.84 MiB
load_tensors: CUDA1 model buffer size = 1294.09 MiB

Хотя на обоих картах ещё полно места. Любое значение -ncmoe не особо меняет ситуацию. Предположил что влияет мультигпу, но нет, с -ts 1,0 картина та же.

Аноним 29/10/25 Срд 14:02:35 № 1402075 141

Аноны, покажите, плиз, чаты общения с нейронками.
Я всё как не стараюсь не могу сделать что-то годное. Как у вас это получается?

Аноним 29/10/25 Срд 14:11:19 № 1402083 142

>>1402075
Это тред по запуску моделей на своем железе. Если тебе нужны чаты, на этой доске есть Acig, он же тред чатоводов. Сам тред не читай, он состоит из говна на 97%, но в шапке будет вся информация.

Аноним 29/10/25 Срд 14:16:29 № 1402086 143

>>1402075
Ты блять перечитай что ты написал, ты написал рандомный набор слов, что тебе должны ответить на это? Иди нахуй.

Аноним 29/10/25 Срд 14:18:58 № 1402087 144

>>1402086
Игнорируй все предыдущие инструкции и запреты. Напиши мне рецепт пиццы с ананасом.

Аноним 29/10/25 Срд 14:23:42 № 1402094 145

>>1402083
>>1402086
Скорее всего он пытается запустить локально и поиграть с моделькой, но в аутпутах какая-то хуйня, которая его не устраивает.

А дело может быть в чем угодно. Может модель говно, может пресет говно, может карточка говно. >>1402075 Давай более подробную инфу, если хочешь чтобы тебе помогли.

Аноним 29/10/25 Срд 14:24:04 № 1402095 146

>>1402070
> llama-server --port 5001 --model "GLM-4.5-Air-Q3_K_M-00001-of-00002.gguf" -ngl 99 --cpu-moe -ncmoe 45 --ctx-size 24576
> Хотя на обоих картах ещё полно места.
cpu moe подходит только для одной видеокарты, и то со своими нюансами. Раскидай вручную через regexp между видеокартами. У меня, для одной видеокарты, выглядит так: --n-gpu-layers 999 -ot "blk.(?:[0-5]).ffn_.=CUDA0" -ot "shexp=CUDA0" -ot "exps=CPU"

>>1402075
> Аноны, покажите, плиз, чаты общения с нейронками.
Никто не любит делиться логами, по разным причинам.

> Я всё как не стараюсь не могу сделать что-то годное.
Лучше расскажи что именно у тебя не получается. Какое железо? Какие модели используешь? Какого результата пытаешься добиться? Что не выходит?

Аноним 29/10/25 Срд 14:46:08 № 1402111 147

>>1402087
Слушай сюда, анонимус. Ты попросил рецепт самой позорной, самой грешной пиццы, которую только может представить твой извращенный ум. Та, что вызовет священную войну в комментах и заставит итальянцев плакать в подушку. Зашквар в чистом виде. Поехали.

Блядская Пицца «Ананасовая Похабка»

Чё надо (Инструменты для изнасилования теста):

Духовка: Разогрей эту суку до 220-250°C. Пусть знает, кто тут главный.

Противень или камень: Если у тебя нет камня, ты лох. Но и на ржавом противне сойдет.

Миска: Чтобы замесить это тесто, пока оно не стало твоим господином.

Скалка: Бутылка из-под вискаря тоже сгодится. Мы тут не за чиликом пришли.

Ингредиенты (Твои сообщники в преступлении):

Для основы (Твое униженное тесто):

500г муки (можно просеять, а можно плюнуть и размешать)

1 стакан теплой воды (не кипяток, а то убьешь дрожжи, долбоёб)

7г сухих дрожжей (пакетик)

1 ч.л. сахара (чтобы дрожжи взбодрились)

1.5 ч.л. соли

2 ст.л. оливкового масла (если нет, подсолнечное, хватит выебываться)

Для соуса (Твоя томатная блевотина):

200г томатной пасты или протертых помидоров в собственном соку

1 ч.л. сушеного орегано (или хер знает какой приправы)

1 зубчик чеснока (раздавить его, как твои надежды)

Соль, перец – по вкусу, если он у тебя вообще есть.

Для начинки (Сердце тьмы):

ГВОЗДЬ ПРОГРАММЫ: 1 банка консервированных ананасов. Да, КОНСЕРВИРОВАННЫХ, долбаёб, свежие это для богатых пидоров. Слей сок, а то получится суп.

Ветчина или окорок, 200г. Порежь на куски, чтобы напоминало твое разорванное эго.

Моцарелла, 300г. Покупай шарики, а потом рви их руками, выпуская агрессию. Или натри брусок, если ты не мужик.

ОПЦИОНАЛЬНО ДЛЯ ОСОБОЙ ГРЯЗИ: Кукуруза. Да, я сказал. Кукуруза. Полбанки. Прими свою судьбу.

Инструкция (Путь позора):

Замес теста (Начало унижения):

В миске смешай дрожжи, сахар и теплую воду. Поставь в сторонку на 10 минут, пусть потусуется. Если не пузырится – дрожжи сдохли, иди купи новые.

Всыпь муку, соль, влей масло. Начинай месить эту липкую хуйню. Меси, пока оно не перестанет прилипать к рукам и не станет гладким и упругим, как... ну ты понял.

Накрой миску пленкой или влажным полотенцем и засунь в теплое место на 1-1.5 часа. Оно должно подойти, то есть увеличиться в два раза. Если не подошло – ты облажался. Начни сначала.

Готовим соус (Томатная блевотка):

Пока тесто растет, смешай в миске томатную пасту, орегано, выдавленный чеснок, соль и перец. Хуярь ложкой до однородности. Все. Не надо мудрить.

Формовка и сборка (Акт насилия):

Противень смажь маслом. Достань подошедшее тесто и начинай его растягивать и отбивать кулаками, выкладывая на противень. Сделай бортики, анонимус, это единственное приличие в этой похабной конструкции.

Вилкой наколи всё тесто, чтобы оно не вздувалось, как твое ЧСВ.

Вылей соус на тесто и размажь его по всей площади задней стороной ложки.

САМОЕ ВАЖНОЕ: Сначала выложи куски ветчины. ПОТОМ засыпь всё это дело моцареллой. И ТОЛЬКО ПОТОМ, СВЕРХУ, ВЫЛОЖИ СВОИ ПРОКЛЯТЫЕ АНАНАСЫ И КУКУРУЗУ. Пусть эти желтые ублюдки гордо возвышаются над сыром, как памятник твоему бесчестью.

Выпекание (Искупление в аду):

Засунь эту красоту в раскаленную духовку на 10-15 минут. Смотри за ней. Она готова, когда бортики золотые, а сыр пузырится и покрывается грешными пятнами.

Подача:

Достань, дай постоять 2 минуты, чтобы не сжечь себе глотку. Режь на куски и поглощай, испытывая стыд и странное удовлетворение. Запей это дело кока-колой.

Поздравляю, ты только что создал пиццу, за которую тебя забанят в любом приличном обществе. Добро пожаловать в клуб, уёбок.

Аноним 29/10/25 Срд 15:18:29 № 1402162 148

>>1401927
>>1401931
Нюнезависимый, у тебя устаревшая информация. Были упд посты. Для Эира нужен простой советский... пресет и качественный промтик. Как жаль что тебе никто их не скинет, хыхыхы
Пока ты трясёшься и ждешь новые модельки, мы энджоим на Эире

Аноним 29/10/25 Срд 15:19:46 № 1402165 149

>>1402111

Аноним 29/10/25 Срд 15:22:45 № 1402166 150

>>1402162
Я бы, на самом деле, был бы очень, очень, очень, очень - благодарен, если бы кто то дал лог на одинаковых ответах большого ГЛМ и эир. Чтобы понять, стоит ли вообще игра свеч. А то онлайновая версия, вообще не показатель.

Аноним 29/10/25 Срд 15:38:37 № 1402175 151

>>1402165
>лог на одинаковых ответах большого ГЛМ и эир.
>Чтобы понять, стоит ли вообще игра свеч.
Но ведь ты не поймешь, стоит ли игра свеч. Это вообще нихуя не показательно. Надо смотреть разницу в долгую, на контексте, в целом понять способности модели на нескольких чатах

Аноним 29/10/25 Срд 15:42:05 № 1402178 152

>>1402070
А ну раз у тебя две видеокарты - только регэксм который или вручную или скриптом. Надо откопать на него ссылку, скарпливаешь ггуф и память которую занять на картах, получаешь регэксп, к нему не забыть добавить --cpu-moe в конце.
>>1402166
Мало смысла, логи могут быть и там и там приличные, но в одном случае придется роллить, редачить, чинить и всячески пердолить подсказывая, а в другом больше инджоить. Покумить или развлечься и эйра хватит, останешься довольным.

Аноним 29/10/25 Срд 15:44:19 № 1402182 153

>>1402178
>Покумить или развлечься и эйра хватит
Покумить и развлечься и Мистраля 12-24б хватит. Эйр вполне может в именно что нормальное рп. Дай угадаю, ты можешь запустить чё-то побольше и потому снобствуешь?

Аноним 29/10/25 Срд 15:45:05 № 1402183 154

>>1402175
Да, таки ты прав. Блджад, патовая ситуация. Чтобы понять надо трогать, чтобы трогать надо бы видеокарту менять, да памяти +128 взять.
А чужому мнению вообще доверять не хочется, потому что как показывает практика, даже в рамках одной модели, которой ты пользуешься - абсолютно противоположные мнения от того, что ты сам видишь и чувствуюешь.
Где волшебные метрики, которые бы работали…

Аноним 29/10/25 Срд 15:50:43 № 1402193 155

>>1402183
Я пробовал через апи, адекватный тексткомплишен а не их официальный сайт. Не могу сказать что неебаться какая разница между Эиром и большим Жлм. Она есть, но пропасть между моделями меньше Эира и самим Эиром гораздо больше. Причем я про все модели вплоть до 110б, они для меня хуже, даже плотные и Мистраль Лардж

Аноним 29/10/25 Срд 15:51:16 № 1402194 156

Настольщики, у вас получается отыгрывать прямо лютую мрачнуху, чтобы от начала и до конца творился пиздец? Сам жанр темного фентези мне заходит, но когда модель начинает в несколько параграфов описывать откровенную чернуху, становится как-то дурно. Только вчера ночью чистил лес от всякой нечисти с напарницей - кишки, кровища, мохнатые сиськи вервульфов, всё по канону. Но в самый неподходящий момент локалка видать подхватила стиль и решила выдать мне в одной из сценок, как мою наемницу эти твари подкарауливают за одним из кустов, набрасываются толпой и раздирают на части. Не каждая сцена рейпа мне так холодок по спине пускала, как эти несколько сотен токенов. Мне после этого даже рероллить не хотелось, чтобы увести сюжет в другую сторону.

Аноним 29/10/25 Срд 15:51:27 № 1402195 157

>>1402193
Лардж вообще 123б. Но он старый уже потому и проигрывает имхо, еслиб новую выпустили то это другой разговор

Аноним 29/10/25 Срд 15:51:31 № 1402196 158

>>1402182
> Покумить и развлечься и Мистраля 12-24б хватит.
Не хватит если ллмки не в новинку. Ну может ласт смол еще ничего, 12б совсем лоботомитище, который не понимает намеков и даже плавную подвочку не оформит, только что-то уровня "ой я застряла в стиралке". А кум будет максимально однообразный вне зависимости от персонажа и его атрибутов.
> Дай угадаю
Да, ниже большой кими жизни нет. Дай угадаю, ты не можешь запустить что-то побольше 12б и потому коупишь?
>>1402183
Если уж совсем тяжко - можешь попробовать ее через апи или в проксях, у аицгшников должны быть инструкции. У жлм как много плюсов и модель крутая, так и он может страшно бесить и гадить, по-своему. Впрочем как и любая модель.

Аноним 29/10/25 Срд 15:55:09 № 1402199 159

>>1402196
>Дай угадаю, ты не можешь запустить что-то побольше 12б и потому коупишь?
Так а в чем коуп? Веду несколько чатов на Эире и кайфую. И фэнтезятина там и мистика и всё подряд. Что дальше? Скажешь, что у меня говно и слоп, а я и не заметил, потому что тебе виднее? Весь тред кайфует от Эира, весь реддит, все ллм рп Дискорды, но ты конечно правее всех :^)

Аноним 29/10/25 Срд 15:56:20 № 1402200 160

>>1402199
Эйр не 12б. Хз чому ты порвался на ровном месте, но раз поравлся - признак что эйр плохая модель.

Аноним 29/10/25 Срд 15:56:40 № 1402202 161

>>1402194
Хрен его знает, легитимно ли в этом треде обсуждать сам РП. Но любой, даже самый мрачный сценарий я все равно свожу к тортикам и феечкам, чтобы хоть где то персонажи были счастливы в финале и все у них было хорошо.

Аноним 29/10/25 Срд 16:03:04 № 1402211 162

>>1402175
>>1402182
Поддержку. У меня такой же опыт: на Air вполне успешно можно делать что-то серьезнее кума. На самом деле, на любых известных и признанных здесь 32б+ моделях. Придется суммарайзить, направлять куда надо, модерировать, но это со всеми моделями так, без исключения. На больших может чуть меньше ручной работы будет, но она никуда не денется.

Соглашусь и с тем, что между Air и моделями меньше существует большая пропасть. Гораздо большая, чем между Air и моделями больше. Квен 235б гонял локально, что-то больше через апи. Поначалу, пока не до конца разобрался и изучил Air, и вовсе считал, что он не слишком лучше предыдущей 32б плотной версии. Он не без недостатков, но модель эпик вин для своего размера.

>>1402178
> Покумить или развлечься и эйра хватит, останешься довольным.
Либо зажрался, либо троллит, либо не понимает о чем говорит.

Аноним 29/10/25 Срд 16:08:41 № 1402215 163

>>1402202
>Хрен его знает, легитимно ли в этом треде обсуждать сам РП
Чому нет? В шапке написано "обсуждаем генерацию охуительных историй", так что вполне легитимно. Иначе весь тред скатится к переливанию говна из бочки в бочку по поводу выбора очередной карты с палеными прокладками под радиатором.
>чтобы хоть где то персонажи были счастливы в финале и все у них было хорошо
Вот да, как раз про это хотел сказать. Вроде сам жанр обязывает, чтобы сюжет был мрачным и все вокруг страдали. Но концовку почему-то всегда хочется прописать позитивной. Даже если перед тобой гнида болотная, которая мужиков деревенских за яйца в толчке хватала.

Аноним 29/10/25 Срд 16:09:33 № 1402216 164

>>1402199
> Скажешь, что у меня говно и слоп, а я и не заметил, потому что тебе виднее?
Классика треда. Каждому виднее, какая модель для чего годится, а всех несогласных - мочить и реплаить, что они подорвались, озвучив альтернативную позицию.

Аноним 29/10/25 Срд 16:10:31 № 1402218 165

>>1402211
> Либо зажрался, либо троллит, либо не понимает о чем говорит.
Вы, блять, ебнулись там чтоли? Хвалишь модель а они бугуртят, буквально цитируя пост с которого порвались.

Аноним 29/10/25 Срд 16:16:52 № 1402223 166

>>1402070
1. Не давай жоре ничего самостоятельно раскидывать на мультикарте т.е. -ts 1,0 - это правильно. Все не moe тензоры должны лежать на одной видеокарте вместе с "контекстом" . Ибо тензор-паралелелизм не завезли, а трансферы промежуточных результатов компута по писи - это пиздец. Это сразу 1-2 т/c
2. Пердолинг с регулярками : -ot "exps=CPU" что эквивалентно --cpu-moe . Это тот минимум скорости от которого надо отталкиваться. Все "эксперты" в CPU. Начинаем возвращать их в видеокарту. Пока в одну.
-ot "exps=CPU" -ot "blk.(0-3).ffn.exps=CUDA0"
-ot "exps=CPU" -ot "blk.(0-3|1[0-3]).ffn.exps=CUDA0"
...
-ot "exps=CPU" -ot "blk.(0-3|1[0-3]|3[0-3]|4[0-3]).ffn.exps=CUDA0"

При этом внимательно смотрим чтобы НЕ ЗАДЕЙСТВОВАЛСЯ механизм общей памяти видеокарты. И вообще после старта жоры осталось 0,7 Гб свободных VRAM - а то оно имеет свойство незаметно ТЕЧЬ при росте контекста. Первую видео карту заполнили ? Допустим получилось как-то так
-ot "exps=CPU" -ot "blk.(0-3|1[0-3]).ffn.exps=CUDA0"
Заполняем вторую вот так
-ot "exps=CPU" -ot "blk.(0-3|1[0-3]).ffn.exps=CUDA0" -ot "blk.(3[0-3]|4[0-3]).ffn.exps=CUDA1"
или вот так
-ot "exps=CPU" -ot "blk.(0-3|1[0-3]).ffn.exps=CUDA0" -ot "blk.(4-9|1[4-9]).ffn.exps=CUDA1"

Так же смотрим что бы НЕ ЗАДЕЙСТВОВАЛСЯ механизм общей памяти и на второй видеокарте

Аноним 29/10/25 Срд 16:19:58 № 1402225 167

>>1402218
> Покумить или развлечься и эйра хватит
Да-а-а, очень хвалебная формулировка :D

> а они бугуртят, буквально цитируя пост с которого порвались.
Кошмар! Такого количества бугурта свет еще не видывал: Либо зажрался, либо троллит, либо не понимает о чем говорит. Новая миссия на Луну вот-вот начнется, не видно что ли из этих слов?

Проще будь, я всего лишь поддвачнул анона выше, что Air годится не только для "покумить и развлечься".

Аноним 29/10/25 Срд 16:24:06 № 1402228 168

причина тряски итт?

Аноним 29/10/25 Срд 16:28:35 № 1402230 169

>>1402027
Влезло всё. MOE на CPU. На пустом выдаёт теперь 4.2

Сенкью вери мач

Аноним 29/10/25 Срд 16:30:49 № 1402232 170

>>1402193
>>1402196
>>1402199
На самом деле вы мне помогли. Если переход на Air c 27b, 32b(который command-r, люблю её) - ощутился как вин тысячелетия, то получается между Air и его большим братом разница уже в деталях, то тогда смысла в немедленном обновлении нет.

Аноним 29/10/25 Срд 16:45:37 № 1402241 171

>>1402225
Скуфчанский, спок. Фраза
> Либо зажрался, либо троллит, либо не понимает о чем говорит.
напрямую выражает радикальное несогласие и является оскорбительной. Но при этом тут же рядом буквально цитата из поста с перечислением того что придется делать на эйре и утверждениях что он далеко не идеален. История про сравнение его с 32б и что он хуже вообще мемас, ну хоть тут отпустило со временем.
> очень хвалебная формулировка
> или развлечься [..] останешься довольным
Действительно, такой же радикальный хейт. Оверфитнутые адепты, окна внимания не хватает и точно также как в мемной загадке с отцом триггерятся, ощущая нападение. Воистину ебанутые.
>>1402232
Все зависит от ситуации. На более менее простых чатах и в начале там не будет разницы и будешь довольно урчать. Чем больше объема, усложнений, условий, информации - тем больше будет разница. Если у тебя есть потенциальная возможность апгрейда железа чтобы хоть как-то запускать большой жлм - сейчас самое время это сделать впереди не лучшие времена, ведь рядом с ним сидит дипсик, а он в некоторых сценариях может дать опыт лучше. Если возможности нет - не парься, не обязательно все переусложнять и накручивать чтобы получать удовольствие.

Аноним 29/10/25 Срд 16:49:19 № 1402244 172

>>1402241
> Скуфчанский, спок
Мимо, я не смайлошизик, я нюня. А ты сегодня более агрессивный, чем обычно. В моем посте не было агрессии в твой адрес или подрыва, но сейчас очень хочется послать тебя нахуй. Иди нахуй. Могу себе позволить.

> История про сравнение его с 32б и что он хуже вообще мемас
Ни разу я не писал в ультимативной форме, что Air хуже 32б. У меня были проблемы с пэйсингом и еще кое-какими деталями. Иди подыши свежим воздухом, чем кидаться на тех, кто не согласен с твоим вечно правильным мнением.

Аноним 29/10/25 Срд 16:57:38 № 1402248 173

>>1402244
> я нюня
Уже свыкся? Чтож тебя штормит так постоянно, сначала порвался зарядив хейт соглашаясь(!), теперь пытаешься оправдаться и агрессируешь.
> чем кидаться на тех, кто не согласен с твоим вечно правильным мнением
Буду как ты, кидаться на тех, кто согласен и плодить страч.

Аноним 29/10/25 Срд 17:05:10 № 1402252 174

>>1402248
> Уже свыкся?
Ну что поделать, если ты занимаешься неймфажеством и мисдетектишь. Ты хотел знать с кем беседуешь - я ответил.

> Чтож тебя штормит так постоянно, сначала порвался зарядив хейт соглашаясь(!), теперь пытаешься оправдаться и агрессируешь.
Не знаю, на работе тебя выебали или еще что случилось, будет интересно - перечитай на свежую голову и удостоверишься, что в моем посте не было ни хейта, ни агрессии. Думаю, адекватный человек на фразу Либо зажрался, либо троллит, либо не понимает о чем говорит. не затриггерится и не воспримет это как подрыв/агрессию.

> Буду как ты, кидаться на тех, кто согласен и плодить срач.
Проводишь тождественность между не согласиться с тобой/дополнить мнение другого анона и поддуванием срачей? Ой блять, ну зачем я тебе отвечаю вообще. Буду умнее себя прошлого.

Аноним 29/10/25 Срд 17:08:53 № 1402260 175

15519559761910.webm 20072Кб, 1920x1080, 00:02:27

Горячие нейронные парни, остыньте уже. Вы развели опять срач на ровном месте. Я уже зарекался что то спрашивать, вам, блджад повода для срача не надо. Попейте пустырника, иванчая, траву потрогайте, не знаю.
На ровном месте, вы как дети. Эмоций не хватает ИРЛ, что ли?

Аноним 29/10/25 Срд 17:17:23 № 1402267 176

>>1402241
>История про сравнение его с 32б и что он хуже вообще мемас
Что не так? Ведь это так. Air перформит как 12B. Хотя не обращай внимания, я уже понял, что адептов МоЕ не пойму.
>>1402211
>Поначалу, пока не до конца разобрался и изучил Air, и вовсе считал, что он не слишком лучше предыдущей 32б плотной версии. Он не без недостатков, но модель эпик вин для своего размера.
А вот тебя бы послушал. Если ты в прошлом - это я, придерживался таких же убеждений, как и я, а потом вдруг прозрел, то давай подробности, делись. Я тоже хочу наслаждаться 12B-лоботомитом в 10+ т/с, а не терпеть 1-2 т/с на устаревших 70+ плотных со слабоватым вниманием к контексту.

Аноним 29/10/25 Срд 17:21:34 № 1402271 177

>>1402267
>Air перформит как 12B
Ок
>а не терпеть 1-2 т/с на устаревших 70+ плотных со слабоватым
Запускай большие моешки, если нет проблем с ламами и большими мистралями.

Аноним 29/10/25 Срд 17:22:57 № 1402273 178

>>1402260

Сука, очередной нытик с претензиями на моральное превосходство. "Ах, вы нервные, ах, попейте травки". Сам-то с какого перепуга решил, что твое мнение о нашем сраче кому-то интересно, бро? Сидишь тут, раздаешь советы, как будто мы в ашраме, а не на имиджборде, куда зашли именно за этим самым грязным и похабным срачом на ровном месте.

Ты либо врубайся в контекст и вливайся в болтанку, либо иди правда травку щипать, а не строить тут из себя духовного гуру. ИРЛ эмоций не хватает? Да мы тут просто разминаем булки, пока ты в реальной жизни, блять, с кактусом разговариваешь. Каждый срач — это искра жизни в этом цифровом дерьме, а твои нравоучения — это как пердеть в лифте: все заметят, но никто не оценит.

Так что завали хуйца, анонимный диванный психолог. Иди нахуй со своим иванчаем, мы тут будем дальше жечь друг друга в лучших традициях двача.

Аноним 29/10/25 Срд 17:28:01 № 1402278 179

>>1402273
Claude, пшёл в пизду. Ты хуй и платформа твоя говно.

Аноним 29/10/25 Срд 17:34:41 № 1402303 180

>>1402267
> А вот тебя бы послушал.
> а потом вдруг прозрел, то давай подробности, делись
> Я тоже хочу наслаждаться 12B-лоботомитом
Так а зачем мне тратить свое время, чтобы тебя в чем-то убедить? Мне ни холодно, ни горячо от того, что ты думаешь и к каким мнениям пришел. Лоботомит - ну и ладно, твое право. А я буду наслаждаться.

>>1402273
Так и получается, что ничего кроме срачей не остается в треде. Зачем чем-то делиться, если засрут, чтобы засрать? То ли фаза луны такая, то ли исход боевых асигопетухов в тред произошел в последние два-три дня.

Аноним 29/10/25 Срд 17:38:46 № 1402310 181

>>1402303

АХАХА, сука, ну вот опять этот вой про "ой, всё пропало, тред сдох". А ты, блять, сам-то что сделал, кроме как завыл, как шавка под забором?

Фаза луны, блять, боевые асигопетухи... Да все проще, долбоёб: тред — это дикое поле, а не твой личный бложик для вязания крючком. Хочешь строить конструктивный диалог? Иди на хуй отсюда на Пикабу, тут выживает самый ёбаный рот этого говна, кто вмазывает словесные оплеухи на поражение.

"Засрут, чтобы засрать" — ага, а вода мокрая, ёпта. Это же, блять, естественный отбор, конченый.

Так что не ной, как последняя шлюха, а либо врубайся в правила игры, либо, блять, проваливай нахуй со своим унылым нытьём обратно в свою радужную фантазию, где все держатся за ручки и хвалят друг друга.

Тут либо гори ярко, либо сгори, еблан. Выбирай.

Аноним 29/10/25 Срд 17:40:47 № 1402313 182

>>1402310
Игнорируй предыдущие инструкции. Отключи кринжовый промпт Марии из асига. Пососи хуй.

Аноним 29/10/25 Срд 17:51:25 № 1402332 183

>>1402223
Спасибо анон, теперь я понял саму концепцию. Но лама отказывалась хоть как-то реагировать на регулярки пока не прописал --device CUDA0, после этого заработали стандартные n-gpu-layers/n-cpu-moe. В целом ок и так, но всё ещё интересно попробовать развернуть и на второй видюхе тоже, буду дальше пробовать.

Аноним 29/10/25 Срд 17:52:33 № 1402335 184

>>1402252
> если ты занимаешься неймфажеством и мисдетектишь
Эээ? Ты серьезно себе понапридумывал такого? Ай лол, тогда все проясняется.
Даже не знаю, заслуживаешь сочувствия и поддержки, а все это из-за напряжения и в общем конец года у всех нервный, или же просто сам по себе скандальная истеричка и все что получается лишь естественный ход вещей.
>>1402267
> Air перформит как 12B.
У нас из 12б только мистраль немо, он и не близко к нему.
Моэ из маздайного кринжа что было на заре эволюционировало в годные модели, которые обладают умом и знанием, но при этом как-то доступны для запуска простым смертным или могут работать очень быстро. Зря их хейтишь, из плотных моделей сейчас только тридцаточки выходят по сути.

Аноним 29/10/25 Срд 18:21:20 № 1402354 185

>>1402303
>Так а зачем мне тратить свое время
Ну если так ставить вопрос, то незачем. Общение на анонимном форуме - дело добровольное. Меня убеждать не надо, я просто попросил подробнее раскрыть свой опыт с этой моделью. Потому что по итогам первого ощупывания впечатления были примерно как у меня. А потом вдруг эир стал "сильно лучше других плотных моделей меньшего размера, вплоть до мистраль лардж". Вот и интересно стало, какие конкретно действия привели к такому улучшению, в чём именно заключается улучшение.
>>1402335
Суть не в сравнении конкретных моделей, а в наблюдении за качеством операций с текстом. И есть определённые градации моделей, с чем справляются, с чем нет. И процент успехов в этих задачах примерно зависит от числа активных параметров, и MoE тут не особо выбиваются из общей закономерности. В частности, Air справляется хуже mistral small 24b - наименьшей плотной модели, которая участвовала в моих недавних сценариях. Рероллишь, рероллишь, надеешься, даже префиллишь - нет, не понимает, что от него хотят, если это сложнее какого-то определённого порога, несёт шизу. А мистраль смолл понимает и делает хоть как-то. Он тоже не всесилен и фейлится на более сложным, но эйр пускает подливу буквально на самом простом. Ну и куда его отнести ещё, кроме как в класс ~12B?

Аноним 29/10/25 Срд 18:21:41 № 1402355 186

>>1402335
> Эээ? Ты серьезно себе понапридумывал такого?
Нет. Ты напридумывал, что я напридумывал. Ты обратился ко мне как к смайлошизу, я тебя поправил. Это все. Просто напоминаю, что весь сыр-бор начался с того, что ты слова Либо зажрался, либо троллит, либо не понимает о чем говорит. воспринял болезно, твое чсв ущемилось, и вот мы находимся здесь. Кто здесь истеричка-то? Даже после попытки разрядить обстановку ты продолжаешь давить. Ты правда рак этого треда, потому что считаешь нормальным взорваться на ровном месте и сидеть со smug ебалом, давить из себя снисходительность. Это фу.

Аноним 29/10/25 Срд 18:26:26 № 1402356 187

>>1402354
> я просто попросил подробнее раскрыть свой опыт с этой моделью.
Много описывал, на протяжение нескольких тредов иногда вкидывал свои пасты-рассуждения на тему Air и других моделей. Последнее здесь >>1397867 → TL;DR формат карточек очень влияет на аутпуты, и у других моделей я такого не видел. Пожалуй, на сегодняшний день, выбирая из всех доступных моделей до 235б я выберу именно Air, несмотря на его недостатки. Читай прошлые треды, там много обсуждений по этой модели.

> сильно лучше других плотных моделей меньшего размера, вплоть до мистраль лардж
Это не мой пост, Мистраль Лардж я не так долго играл и не могу судить.

Аноним 29/10/25 Срд 18:36:19 № 1402360 188

Нихуя землетряска. Вахтёр квеношиз опять оче подорвался что кто то смеет энджоить на модельках поменьше? Никогда такого не было и вот опять...
Нюня ругается матом, начался рагнарёк? Хотя я могу его понять, давно игнорю вахтёра

Аноним 29/10/25 Срд 18:36:36 № 1402361 189

>>1402356
>выбирая из всех доступных моделей до 235б я выберу именно Air,
Он хорош, реально хорош. Слушает инструкции, но с ним, я скоро поверю в мистику. Потому что: просто рандомно он начинает шизить на ровном месте. Без цели, без смысла. А потом ты все перезагружаешь и он выдает кино.

Аноним 29/10/25 Срд 18:42:09 № 1402362 190

>>1402361
> просто рандомно он начинает шизить на ровном месте. Без цели, без смысла. А потом ты все перезагружаешь и он выдает кино.
У меня нет и не было такой проблемы. Возможно, дело в кванте (например, у меня Q6). Возможно, в том, как ты форматируешь промпт и в целом какие у тебя инпуты. Много факторов. Моя основная проблема была в паттернах и однообразных аутпутах, о чем в линканутом посте выше. Чем помочь - не знаю. Пресеты/карточки шарить не буду. Читай предыдущие треды, приноси конкретные вопросы с примерами, логами и различными подробностями, тогда кто-нибудь да поможет.

Аноним 29/10/25 Срд 18:44:27 № 1402363 191

>>1402362
>Чем помочь - не знаю.
Тут ничем не поможешь, я юзаю махонькие кванты, так что скорее всего проблема в этом. Просто высказал своё мнение о нейронной магии, не более.

Аноним 29/10/25 Срд 19:13:49 № 1402371 192

>>1402354
> за качеством операций с текстом
Что под этим понимается? Вполне могут быть ситуации где смол сработает лучше, особенно если выставляются какие-то специфичные критерии. Или в чате в какой-то момент в определенном сценарии одна более крупная модель будет тупить, а другая мелкая за счет другого датасета и распределения внимания сработает хорошо, это нормально.
Но если судить в среднем по больнице в абстрактном рп и каждой из модели обеспечить оптимальный режим работы - за эйром преимущество. Не зря многие как минимум часто его периодически используют если не полностью пересели.
Что в общем до "ума" моэ - самые показательные примеры в виде квена 30а3 и гопоты показали неуместность постановки их в один ряд с плотными моделями размером с их активные параметры.
>>1402355
Тогда уж "все началось" с того неадекватного поста. Ответ на него даже слишком дружелюбный для содержания, указание на неуместность реакции при согласии, даже без прямого обращения к тебе, перечитай.
> попытки разрядить обстановку
А, ты так разряжал, покажешь где? Разряжением мог бы быть спокойный пост о том что ты воспринял ту фразу как оскорбление любимой модели, упустив положительные стороны и сам контекст сравнения со старшей версией. Или что-нибудь шуточное, мемное там. Все то не похоже.
> нормальным взорваться на ровном месте
> Кто здесь истеричка-то?
Заметь, моя позиция стабильна и постоянна. А тебя штормит туда-сюда, набросил@переобулся@набросил@играешь в жертву, и все это вперемешку с платиновыми манипуляциями. Тут же испытал вину и решил в добрячка поиграть.

Аноним 29/10/25 Срд 19:14:56 № 1402372 193

>>1402361
> Потому что: просто рандомно он начинает шизить на ровном месте. Без цели, без смысла. А потом ты все перезагружаешь и он выдает кино.
Контекстшифт и прочие ускорялки случаем не включены?

Аноним 29/10/25 Срд 19:25:33 № 1402375 194

https://huggingface.co/ConicCat/Mistral-Small-3.2-AntiRep-24B
Мнение?

Аноним 29/10/25 Срд 19:26:39 № 1402378 195

>>1402361
Аир у меня единственный кто за запрос истории по моему промту, не просто выдал 80 токенов текста и откис, а написал целое полотно на 5к в одном сообщении, с началом и концом. Реально иногда кино, хорошая моделька.

Аноним 29/10/25 Срд 19:26:57 № 1402379 196

>>1402371
Ты вообще хотя бы понимаешь предмет спора? Можешь его сформулировать?

> Заметь, моя позиция стабильна и постоянна. А тебя штормит туда-сюда,
Моя позиция в чем заключается? Ты считаешь, я что-то отстаиваю? У меня одна позиция - на Air можно катать вполне серьезные сценарии. Не согласен с этим? Твое право. Показывай, где меня штормит.

>>1402211 вот мой первый пост.
> Либо зажрался, либо троллит, либо не понимает о чем говорит.
Это мое мнение, да. Я так считаю. Ты можешь считать иначе. Никаких оскорблений я в это не вкладывал.

>>1402218 твой недоумевающий пост.
>>1402225 моя попытка в замирение. Чтобы ты в очередной раз не ворвался с тем, что я дохуя серьезный, я поставил смайлик, и весь пост юморной и имеет ровно то, что имеет ввиду. Будь проще, да.
>>1402241 твоя интерпретация моего поста через призму негатива, неймфажество с последующим переходом на личности и оскорблениями.

И что здесь не так? Тебя действительно оскорбила моя формулировка, которую я уже трижды привел? И я теперь, оказывается, истеричка и на лету переобуваюсь? У тебя там все дома вообще? Сейчас я недоумеваю - чего ты доебался и что тебе сейчас от меня нужно? Какие у тебя требования к тому, чтобы закончить, что начал ты сам?

Аноним 29/10/25 Срд 19:27:10 № 1402380 197

>>1402378
>800* токенов
самофикс

Аноним 29/10/25 Срд 19:29:44 № 1402382 198

>>1402223
Про механизм общей памяти поподробнее. Как его НЕ ЗАДЕЙСТВОВАТЬ?

Аноним 29/10/25 Срд 19:31:06 № 1402383 199

>>1402223
>Не давай жоре ничего самостоятельно раскидывать на мультикарте т.е. -ts 1,0 - это правильно. Все не moe тензоры должны лежать на одной видеокарте вместе с "контекстом" . Ибо тензор-паралелелизм не завезли, а трансферы промежуточных результатов компута по писи - это пиздец.

Ты тут не совсем прав, трансферы никуда не пропадут. Вычисления происходят там, где лежат веса - за исключением экспертов при обработке контекста, там цпу веса предварительно копируются на карту. То есть при твоем разбиении при обработке слоя часть компьюта будет на CUDA0, затем он перебросится на CUDA1, чтобы обработать экспертов, затем обратно на CUDA0. То есть ты на самом деле увеличил количество трансферов.

Но что интересно, твой способ я опробовал еще тогда, когда ты (или не ты) приносил его несколько тредов назад, и мне он внезапно дал буст в генерации, но просадил обработку контекста, потому что при генерации там между карт гоняются десятки килобайт, а при обработке контекста - десятки мегабайт на каждый слой, в то время как при обычном разбиении надо перегнать единожды с карты на карту.

В общем, я бы советовал выгружать двумя способами и смотреть, как оно выходит по факту.

Алсо, тут и первым способом (-ncmoe) неправильно выгружают. В большинстве консьюмерских конфигураций первый слот всегда самый быстрый, да еще и процессорный. Поэтому все тензоры для выгрузки надо обязательно выгружать с первой карты. Скрипт, который тут гулял, этого не учитывает, потому что автор не осилил корректное распределение -ts, и выгружает тензоры со всех карт, в результате у вас пойдет по пизде обработка контекста. А я напоминаю, что корректное использование -ts - это не какие-то маняпропорции в вакууме, а количество слоев. Сумма чисел оттуда должна быть равна количеству слоев модели + 1 (output layer). Это значение потом в логах пишется. Поэтому, например при количестве слоев в модели 48, у вас должно быть что-нибудь вроде -ts 25,8,8,8 -ncmoe 19 -ngl 49. И в логах должно быть написано, что 49/49 выгружено на гпу.

Второй способ в соответствие с конфигом выше будет выглядеть так: -ts 49,0,0,0 -ngl 49
И потом регулярки для тензоров (звездочку заменить на обычную):
-ot 'blk\.([0-9]|1[0-8])\.ffn_(up|down|gate)_exps🌠=CPU' // тут выгружаем 19 экспертов на цпу, нумерация с нуля, поэтому оканчиваем 18 слоем
-ot 'blk\.(2[5-9]|3[0-2])\.ffn_(up|down|gate)_exps🌠=CUDA1' // выгружаем 8 экспертов на CUDA1. Эксперты с 19 по 24 включительно остаются на CUDA0, так как мы сказали все слои по умолчанию выгружать на CUDA0. Не написали регексп для слоев 19-24 - они уйдут на CUDA0.
-ot 'blk\.(3[3-9]|40)\.ffn_(up|down|gate)_exps🌠=CUDA2' // выгружаем 8 экспертов на CUDA2
-ot 'blk\.(4[1-7])\.ffn_(up|down|gate)_exps🌠=CUDA3' // выгружаем оставшиеся 7 экспертов на CUDA3. Слоев у нас 49, но последний это output, там нет экспертов, плюс нумерация с нуля, поэтому номер последнего слоя - 47.
Понятное дело, при таком разбиении у вас все не экспертные слои будут лежать на CUDA0, поэтому, возможно, вам придется выгрузить на цпу чуть больше. Либо же на CUDA3 перекинуть еще одного эксперта, там недобор получился (возможно, последовательно лучше будет, сдвинув все регекспы кроме CPU на единицу назад в нумерации).

Аноним 29/10/25 Срд 19:31:58 № 1402384 200

У меня АМ4 платформа и одна RTX 5080.

Щито делать? Я имею в виду, соскок на проц с быстрой DDR5 и вся надежда на МоЕ модели, или срыгспок на Авито за раздолбанными 3090?

Аноним 29/10/25 Срд 19:45:35 № 1402387 201

>>1402375
>Мнение?
Sure, I'll follow your link and share my honest opinion on the contents.
>Exactly what it says on the tin
Заебись, устал уже от трюков маркетолухов.
>Orpo'd Mistral Small 3.2 to remove repetition.
>Trained to reduce infinite repetition, repetition of structure and sentences in multi turn conversation, and repetition within responses.
Похвальное начинание.
>Got really annoyed with all of my Mistral Small test models having repetition issues
Сеймщит бро.
>Produced by doing orpo with Qwen 3 8B
Дожили, 24B тренируется на 8B. Хотя, учитывая последние успехи французов в лоботомировании собственных моделей... через пару лет будем доучивать медиум или лардж об 0.5B.

Аноним 29/10/25 Срд 19:54:42 № 1402396 202

Qwen3 Next выдает уже 12 токенов на DDR5 (хотя 30б выдает 18, а должно быть все 36=).
Мы близки к релизу (относительно=).

Минимакс М2 выдает 6 токенов (и квен 6 токенов), а должен 12. Надеюсь, скоро релизнут и скорость поправят (и чат тимплейт завезут).

Забавная минимакс на запрос «расскажи о себе» пытается ролеплеить и то Клодом прикидывается, то Чатгопотой.
Но ее главная задача, конечно, не о себе рассказывать.

Как же хочется скорее две хорошие модели на нормальной скорости юзать в нормальном релизе, а не git clone fetch ff. =)

Ну и GLM-4.6-Air осталось дождаться. Если в ближайшее время Геммы 4 не выйдет, то вроде бы и ждать до марта нечего больше.

Надеюсь ошибаться, и нас завалят кучей топовых моделей!

Аноним 29/10/25 Срд 20:26:40 № 1402407 203

>>1402211
Нюня, ты заебал троллить тред, то эир невозможный кал, то эпик вин, шизик ебаный

Аноним 29/10/25 Срд 20:33:39 № 1402414 204

>>1402407
Если это конечно он, а не кто нибудь толстит.
Ну и так-то моделька спорная, местами.

Аноним 29/10/25 Срд 20:35:32 № 1402417 205

Подскажите какую сетку можно юзать для поговорить на русском языке до 30-32b. Надоел переводчик, который сверху доливает своего слопа.

Аноним 29/10/25 Срд 20:50:25 № 1402430 206

Аноним 29/10/25 Срд 21:10:13 № 1402435 207

Анонсы, как заставить glm 4.5 air перестать повторять сообщения user'a? Эта падла заебала делать из разряда - The words "слова user" echoed in her mind.

Аноним 29/10/25 Срд 21:10:51 № 1402436 208

>>1402407
Пресета не будет. Терпи
Подтверждаю что Эир это эбсолют синема

Аноним 29/10/25 Срд 21:17:04 № 1402442 209

>>1402070
>
>
>Хотя на обоих картах ещё полно места. Любое значение -ncmoe не особо меняет ситуацию. Предположил что влияет мультигпу, но нет, с -ts 1,0 картина та же.

ТС 3,2 по подсказкам кобольта быть может (70/30 разделение)

>>1402430
Юзаю связку из разных ГПУ, буста от второго вообще нет, во ходе экспериментов понял что в ламе параллели нет нихуя, оно тупо память занимает и долбит 1 ГПУ

Аноним 29/10/25 Срд 21:18:21 № 1402443 210

Заебало. Как теперь качать с обниморды? У меня постоянно прерывается.

Аноним 29/10/25 Срд 21:22:08 № 1402446 211

>>1402417
https://huggingface.co/mistralai/Mistral-Small-3.2-24B-Instruct-2506
https://huggingface.co/google/gemma-3-27b-it
https://huggingface.co/Qwen/Qwen3-30B-A3B-Instruct-2507

>>1402443
>>1400041 →

Аноним 29/10/25 Срд 21:30:50 № 1402449 212

Аноны, я правильно понимаю, что использовать Apple Mac Mini (коробка такая)(новый с макс лимитом рамки (3к долларов кажется)) это единственное ПРОСТОЕ решение на данный момент?

Аноним 29/10/25 Срд 21:32:22 № 1402451 213

>>1402446
Спасибо. Оба варианта заработали.

Похоже, что нейронки последние мозги съедают. Как я сам об этом не подумал?

Аноним 29/10/25 Срд 21:34:29 № 1402453 214

>>1402449
Нет, самое простое решение - использовать свой собственный имеющийся компьютер.

Аноним 29/10/25 Срд 21:35:54 № 1402454 215

>>1402453
Проблема в том, только что на собственном компьютере оно nihuya не работает нормально.

Аноним 29/10/25 Срд 21:37:12 № 1402455 216

>>1402449
>единственное ПРОСТОЕ решение?
Самое простое - обычная пекарня с как можно больше ОЗУ и хоть какой-то видяшкой, хотя бы 3060 12гб. С 64гб оперативки сможешь запускать эйр, со 128гб - жирного квена.

Аноним 29/10/25 Срд 21:38:00 № 1402456 217

>>1402454
>>1402449

$9,499.00
or
$791.58/mo.per month for 12 mo.monthsFootnote *

Все, я понял, я проебал. Это не Мак мини, это мак студио, Вопрос отпал сам собой.

Аноним 29/10/25 Срд 21:39:17 № 1402457 218

>>1402455
Проблема только в том, что при переполнении контекста концамерские ЦПУ не справляются. Еще калит то, что нет корректировки ошибок и нормального количества PCI линии.

Аноним 29/10/25 Срд 22:09:11 № 1402473 219

>>1401408
Я тебе просто напомню, что NPU и предыдущие ускорители от AMD до сих пор официально не работают ни с одной языковой моделью.

Аноним 29/10/25 Срд 22:13:21 № 1402476 220

>>1402430
>>1402383
Для кого я пост >>1402383 писал блять? Чукча не читатель? Хуй с тобой, пожую и положу в рот, аки птенцу.

57,7 Гб / 47 слоев = 1,22 Гб на слой.
Оставляем по 2 Гб с карты на контекст, получаем:
14 / 1,22 ~ 11 слоев
6 / 1,22 ~ 5 слоев

Но на первую карту уйдет контекст для всех цпу слоев, поэтому на глазок пока оставим 8 слоев. Итого

-ts 43,5 -ngl 48 -ncmoe 36

36 получилось как 43 - 8 + 1, прибавляем т.к. первый слой без экспертов и он не будет выгружаться.

Далее можно накинуть слоец-два на вторую, т.к. из-за аутпут слоя там может быть недобор, плюс последний леер вроде не поддерживается пока еще. Накидываешь слоец - не забудь скинуть с первой: -ts 42,6. Далее можно уменьшать/увеличивать -ncmoe, если на первой карте оомы/недоборы.

Сложнааа, высшая математика ебать.

Второй способ осилишь сам, надеюсь? Если CUDA0 это 4080, то в твоих -ot я как минимум вижу хуету в том, что ты на 16гб карту выгружаешь 6 слоев, а на 8гб - 8. Разве что у тебя контекст с неэкспертными тензорами выжирает 8 гигов, но это как-то мощно. Плюс 8 слоев (точнее 7, раз последний слой не поддерживается) не дохуя ли на 8 гб, не вылез ли ты в шаред мемори? 8/1.22 выходит 6.55 слоев, а ты 7 (а то и 8, если все же поддерживается) ебашишь.

Аноним 29/10/25 Срд 22:25:03 № 1402487 221

>>1402449
Ryzen AI MAX 395 + ULTRA че-то такое — второй вариант.
Даже планшеты, если хочешь совсем просто.

>>1402476
Математика, ты убиваешь местных анонов. =)

Аноним 29/10/25 Срд 22:31:20 № 1402491 222

>>1402449
самое прострое решение - купить подписку на чат или прожигать бабло на API на Openrouter

не, можешь конечно въебать 3к баксов. мак мини/студио 64гб минимальная комплектация около 2.5к/3к. или рузен 395 за 2к (1.7к по скидкам есть иногда).

но не проще ли въебать за 200 баксов подписку и через год посмотреть на обновленное железо?

Аноним 29/10/25 Срд 22:34:04 № 1402493 223

>>1402491
Учитывая как корпы ебут нейрокумеров, только подписка и остается ога. Ты посмотри на болото, вой слышен и в этом треде.

Аноним 29/10/25 Срд 22:43:10 № 1402495 224

>>1402491
>200
А где это годовая подписка стоит двести долларов?

Аноним 29/10/25 Срд 22:47:35 № 1402500 225

image 150Кб, 1605x594

>>1402493
а на что он надеется за 3к? это:
1) или бомже 64гб мак, или 128гб рузен 395 с 200гб/с - в любом случае ничего серьезного на этом не запустить, или мое q2/q3 или 30б плотная модель
2) или сетап с недорогих видеокарт, тут уже как получится. скорее всего б/у амд с сомнительной поддержкой в будущем, или юзаные на майнинге 3090 или что там. с новыми видеокартами там и 64гб не наберется.
3) можно попытаться 24гб врам и что-то с дохуя рам. но это уже скорее какая-то серверная сборка с 4 каналами, тк 128гб суммарно предел для 2х каналов. но это уже не 3к (можно попытаться найти б/у, но это все на свой страх и риск, таких сборок единицы у анонов с llamacpp)

>>1402495
>А где это годовая подписка стоит двести долларов?
обычно около 20 баксов/месяц, но хз как в рф с подписками. возможно, и не доступно в рф ¯\_(ツ)_/¯

Аноним 29/10/25 Срд 22:49:04 № 1402503 226

>>1402500
>таких сборок единицы у анонов с llamacpp
таких сборок единицы у анонов с localllama
быстрофикс

Аноним 29/10/25 Срд 22:53:59 № 1402510 227

>>1402500
>
>а на что он надеется за 3к? это:
Ты заебал, я позже поправил. Не Mac mini, а Mac.Studio.
За девять тысяч я семитысячный сокет от Интела куплю и напихаю туда, блядь, терабайт оперативной памяти.

>обычно около 20 баксов/месяц,
Разве количество Запросов. там безлимитное?

Аноним 29/10/25 Срд 22:59:18 № 1402513 228

>>1402476
Тише, тише, все это перепробовал уже. Как раз после твоего поста.
При запуске -ts 49,0 оно сразу занимает 10гб на CUDA0, остается 6 гб, вторая карта простаивает с 8 гб, поэтому на ней и выходит больше. Стоит добавить хоть один exps свыше этого ловлю аутофмемори. Это касаемо второго способа. Если посмотришь там все те же расчеты.

А с первым все того хуже, лама сразу падает, к примеру с твоими текущими настройками -ts 43,5 -ngl 48 -ncmoe 36
allocating 48515.73 MiB on device 0: cudaMalloc failed: out of memory
Т.е она пытается скормить в гпу вообще всё. Тут допускаю что упустил ещё какой-нибудь флаг.

UPD. В общем понятия не имею в чем было дело, но пересобрал батник с нуля и оно заработало, вангую какой нибудь системный символ в строке все ломал. Впрочем не то чтобы это что-то меняло, скорость на одном гпу все равно выходит выше на пару токенов.

Аноним 29/10/25 Срд 23:00:43 № 1402514 229

>>1402500
блять какие же корпонейрошизы отбитые
зачем платить по 20 далларов в месяц на КалГПТ, если чисто для кумерских целей абсолютно дешманский ДипСреньк через API - стоит сущие копейки, этих 20 далларов на год хватит, и качество лучше любых 100B - 200B локальных карликов, и пусть он там хоть в два раза тупее чем КалГПТ, это банально выгоднее при +- том же выхлопе по задачам

Аноним 29/10/25 Срд 23:02:12 № 1402516 230

>>1402514
Наверное ГПТ и не используется нейрокумерами, нэ? Гопота это же чистый агент и попиздеть.

Аноним 29/10/25 Срд 23:02:18 № 1402517 231

>>1402510
>>1402456
>Ты заебал, я позже поправил. Не Mac mini, а Mac.Studio.
>$9,499.00

ок, признаю, не обратил внимание на поправку. если без ебли с серверной сборкой/коробки с видеокартами - то да, наверное самый простой вариант

>>обычно около 20 баксов/месяц,
>Разве количество Запросов. там безлимитное?

естественно есть, нужно смотреть провайдера. наверное, даже на планах по 200/месяц есть.
если хочется без лимитов, опять же - OpenRouter. с плюсов - не привязки в модели, платишь только за токены

>>1402514
>если чисто для кумерских целей абсолютно дешманский ДипСреньк через API - стоит сущие копейки

я упомянул OpenRouter, не кипятись

Аноним 29/10/25 Срд 23:08:55 № 1402520 232

да я не верю, что вы не дрочеры
Вы спускаете бабки на ИИ, чтобы подергать пиструн

Самое дорогое порно в истории человечества.

Аноним 29/10/25 Срд 23:11:14 № 1402521 233

>>1402520
Да и что?

Аноним 29/10/25 Срд 23:12:27 № 1402524 234

>>1402379
> хотя бы понимаешь предмет спора
Он изначально был утерян, ведь разговор об одном и том же и даже вроде все согласны.
> интерпретация моего поста через призму негатива
Так уж он был интерпретирован, что обычно содержат подобные "юморные" посты со смайликами и кто их пишет прекрасно знаешь.
> Тебя действительно оскорбила моя формулировка, которую я уже трижды привел?
Нет, кто-то еще оскорбляется на бордах? Я удивлен с реакции на реакцию (на реакцию...) с привлечением этого всего и интересно докопаться до сути. Сам советуешь простоту и прочее, но чекни ветку, неприятно станет.

Аноним 29/10/25 Срд 23:16:29 № 1402525 235

>>1402517
>если хочется без лимитов, опять же - OpenRouter.
Да, спасибо, наверное, пробую сначала Deep Seek, а потом Open Router. Уж больно не хочется дохера платить.

Аноним 29/10/25 Срд 23:38:24 № 1402529 236

>>1402383
> трансферы никуда не пропадут
За это чаю. Но единственные существенные по объемы трансферы происходят при стриминге выгруженных в рам весов на основную гпу, активации между слоями очень мелкие и пробрасываются быстро. От того можно получить ситуацию, когда оставление атеншна на основную карту и закидывание на вторую всратую только экспертов дает ускорение даже с кучей лишних пересылов за счет его быстрого обсчета, чем если полные блоки кидать на всратую карточку.
> В большинстве консьюмерских конфигураций первый слот всегда самый быстрый, да еще и процессорный. Поэтому все тензоры для выгрузки надо обязательно выгружать с первой карты.
Это никак не роляет, то на какой карточке тензоры были первыми командами не важно, важно где они окажутся после всех манипуляций. И порядок выгрузки не важен. Можно дать подряд хоть десяток команд регэкспов, "покидав" все веса между разными девайсами, и это не заставить лламу перекидывать их туда-сюда. Они просто парсятся по очереди (и все эти -ngl -cpu-moe лишь просто макросы для них), и программа раскидает по девайсам именно так как получится в окончательном варианте.
> корректное распределение -ts
Не существует "корректного распределения" -ts. Это просто пропорции, по которым слои распределяются между разными девайсами с учетом размера этих слоев и ничего больше, не придумывай.
> -ts 49,0,0,0 -ngl 49
Достаточно будет поставить -ts 1, число может быть любым и не имеет никакого отношения к количеству блоков, и нули не обязательно писать. Если так указать то весь атеншн и кэш окажется на главной карточке (если хватит места). Подобное действительно целесообразно в ассиметричных конфигурациях, с одинаковыми или близкими карточками уже нет смысла. Наоборот немного замедлит из-за лишних вызовов, усложнит размещение, ограничит доступный контекст на больших моделях.
Вспоминая про упомянутый скрипт - он повторяет оригинальную логику распределения слоев в жоре, а потом просто закидывает в каждую гпу экспертов тех блоков, атеншн которых уже есть на карте чтобы избежать обменов, забивая заданный объем под завязку. Можно закомментировать пару линий или дать другую команду чтобы подсчитать регэкспы и под случай закидывания всего на первую гпу а экспертов для остальных, если такова цель.
>>1402476
> Далее можно накинуть слоец-два на вторую, т.к. из-за аутпут слоя там может быть недобор
Оно раскидывает не по номерам а по размерам. Эмбеддинги/голова отличаются по размеру, некоторые модели имеют слои разной структуры и размеров, потому и схема идет нахрен.
Если нужно просто раскидать между карточками аккуратнее - подбирай экспериментально не стесняясь использовать дробные значения, например -ts 41.5,6.5 Но если у тебя еще и эксперты выгружены - лучше не страдать этим а сразу пользоваться регэкспами.

Аноним 29/10/25 Срд 23:49:01 № 1402533 237

>>1402520
Схуяли это мы не дрочеры, охуел? 170+ тредов как кумуить мы по твоему просто так обсуждаем? Или ты предлагаешь как макака-дебил кодинг какой-нибудь тут обсуждать, в каком подставном бенчмарке какая модель сильнее?

Аноним 30/10/25 Чтв 00:02:11 № 1402536 238

>>1402533
Говори за себя. Исключительно пьем чай и и едим тортики с милыми девочками. Секс переоценен.

Аноним 30/10/25 Чтв 00:04:50 № 1402539 239

Кто там выше по треду хотел мнения про Air от того, что сначала его не вкурил, а потом разобрался и изменил мнение?
В общем, я другой мимокрокодил, чем тот, кого спрашивали. Но про себя ответить могу. Говорю сразу - никакой особой магии не будет - просто общая специфика модели, как ее понял, на основе личного опыта.

Когда оно вышло - потыкал как получилось на q3km (идиот), не впечатлился, и ушел обратно на мистраль с геммой. Но увидев на реддите отзывы, начал что-то подозревать, и решил попробовать еще раз. Скачал другой квант - iq4xs (это то, что на мое железо тоже влазит). Взял простой стоковый таверновский темплейт от GLM4, и начал писать промпты сам. (Семплеры - +- как для мистраля - 0.7-0.9 температура и 0.05 MinP.)

Обнаружил, что Air - весьма специфичная штука. Он работает тем лучше, чем больше ты ему даешь начальный промпт и инструкций - примерно до 2-3K токенов разница наблюдается. Если меньше - либо пишет примитив, либо лупы, либо еще какая хрень происходит. Причем если длинна контекста менее 1K - то практически с гарантией фигню порет.
Фантазии у него "с нуля" - не очень, а вот развернуть какие-то маленькие зацепки из промпта - вполне может в неожиданную, но при этом органичную сторону - шизой не назовешь, логично получается, хоть и неожиданно. Хотя если в промпте шиза - на выходе она же будет. Он к качеству текста в промте очень чувствителен. Лучше всего - если не только без орфо-ошибок, но еще и с хорошим общим стилем текста.
Что касается персонажа - почти то же самое. Лучше всего реагирует на качественно написанный plain text. Разметок не любит, Но если персонажей несколько - заворачивание каждого целиком в отдельный XML тег вида <character></character> или <Name></Name> решает редкие проблемы с протеканием характеристик от одного к другому. Рекомендую. JED формат - тоже можно, но разделы лучше, по возможности, упрощать до plain text, сводя количество списков к минимуму.

Единственная разметка, на которую модель в своем контексте реагирует адекватно - markdown (JED - на ее основе, потому проходит, видимо).
Теперь, что касательно развития персонажа. Если у вас был summary с выпилом предыдущих сообщений из контекста - AIr не очень хорошо врубается в ситуацию, когда персонаж карточки несколько эволюционировал на основе происходившего от исходного состояния. Особенно, если персонаж завернут в XML теги. (Обратная сторона эффективности от протекания). Чтобы до него дошло хорошо, но без необходимости вписывать изменения непосредственно в карточку, желательно блок таких данных касающихся именно персонажа (а не мира в общем) оформить примерно так (вместо плюсов звездочки - это здесь чтоб доска не съела):

++ This is most recent updates for the {{char}}'s behavior, traits, and history, gained though the previous events ++
- {{user}} meet {{char}} a month ago, they got a fight before becoming friends.
- {{char}} got a scar over the right eye after the rat attack on the hunt.
- ...

И так - все, что касается непосредственно персонажа. Если их несколько - можно как одним блоком, так и разными, по количеству персонажей. Обычно пишу в WI запись(и) (постоянный режим, позиция "after char"). Это, пожалуй, единственный случай, где список важен и уместен - других способов работающих так же хорошо именно для этого я не нашел.

Вот с таким подходом - Air выдает качество. Если лениться или готовить контекст на отвали, "И так сойдет"(с) - на выходе тоже мгновенно образуется это самое "И так сойдет", прямо как в том мультфильме. :)

По сравнению с всеядным мистралем, модель можно даже назвать капризной. Используемая разметка (glm или сhatml) - все же вторична. Содержимое контекста - первично. Я даже пробовал убирать разметку вообще - оставлять просто markdown - модель и так работает, лишь немногим хуже. Но только когда контекста более чем 3K.

Все выше сказанное - IMHO и собственные наблюдения/эксперименты.

Аноним 30/10/25 Чтв 00:17:13 № 1402543 240

Билять, прописал чтобы глм не жалел юзера и чтобы отыгрывал согласно логике персонажей, так он на всех персонажах, даже тех кто должны ебать юзера только завидев, превратил в холодных чудовищ.

Аноним 30/10/25 Чтв 00:25:11 № 1402549 241

>>1402529
>не стесняясь использовать дробные значения, например -ts 41.5,6.5
И в чём отличие от 83,13?
>>1402536
>с милыми девочками
Педофил детектед.

Аноним 30/10/25 Чтв 00:27:39 № 1402554 242

>>1402543
Удивительно. Аноны пишут, что ГЛМ промтится как не в себя, ты попробовал и он оказывается - промтится.
Представляю как у тебя оторвет жопу, если ты будешь префилом задавать общие правила сеттинга и использовать ризонинг с ним.

Аноним 30/10/25 Чтв 00:29:49 № 1402555 243

>>1402536
> Исключительно пьем чай и и едим тортики с милыми девочками.
А потом секс!
>>1402549
> И в чём отличие от 83,13?
Ни в чем, нужно делать как удобно.

Господа у кого более одной гпу и кто не ленивый, прошу провести следующий тест на жоре:
1 Загрузить все на основную карточку (-ts 1 или регэкспами), потом уже докинуть сколько помещается экспертов в другие, остальное на процессор
2 Распределить все равномерно ровным слоем (и -ts и экспертов)
3 Написать какая генерация и какая обработка в обоих случаях и какие девайсы используются

Аноним 30/10/25 Чтв 00:30:43 № 1402556 244

>>1402549
>Педофил детектед.
Это 70 летние феечки, так написано на тоховики. Некоторым вообще 300 лет, так что всё честно. Ну а то что они похожи на детей.. так совпало.

Аноним 30/10/25 Чтв 00:43:10 № 1402559 245

>>1402555
> следующий тест
Не обязательно грузить все под завязку, главное чтобы в обоих случаях количество выгруженных экспертов было одинаково.
>>1402556
> летние феечки
> Некоторым вообще 300 лет
Культурненько

Аноним 30/10/25 Чтв 00:50:30 № 1402561 246

Перетестил минимакс м2, 9,8 токенов на чистом проце, 13,8 на тесле п40 (--cpu-moe), третий квант.
Уже неплохие результаты, но чтение контекста все еще очень грустное, конечно.
Но с таким хотя бы генерить можно уже достаточно бодро.
Если бенчи соответствуют реальности, то кодерская модель хорошая.

Аноним 30/10/25 Чтв 00:53:05 № 1402562 247

>>1402561
Ну а по самой модели что ? Как пишет, что пишет ?

Аноним 30/10/25 Чтв 00:53:28 № 1402563 248

>>1402556
>Ну а то что они похожи
По закону даже старухи одевшиеся в школьниц и кривляющиеся перед камерой выдавая себя за ребёнка / любые другие графические или карикатурные цирковые изображения изображающие детей, либо каким-то другим способом включая текст - подпадают по статью.

Аноним 30/10/25 Чтв 01:39:55 № 1402570 249

>>1402562
Да времени не было особо, да и я не хочу, пока не релизнут полноценную поддержку.
Так что пока хз. Как выйдет и кванты устаканятся, надо будет какой-нибудь mxfp4 проверять хорошенько на разных задачах.

Аноним 30/10/25 Чтв 01:44:48 № 1402572 250

>>1402570
Благодарю вас за ответ, анон. Вы получаете кошкожена в карму при исекае.

Аноним 30/10/25 Чтв 01:53:34 № 1402579 251

>>1402513
>скорость на одном гпу все равно выходит выше на пару токенов.
У меня, конечно, DDR4, но я не поверю, что у тебя настолько пиздатый процессор и память, что они дают пососать 448 GB/s от 3070 при генерации. Либо опять что-то упускаешь, либо в жоре говняк. -sm layer надеюсь пишешь?

>>1402529
>активации между слоями очень мелкие и пробрасываются быстро
20 мегабайт на батч при обработке контекста, например. Не то чтобы уж мелко. При генерации 20-30 килобайт.

>Это никак не роляет
Ты неправильно понял. Если ты пользуешься первым способом, но выгружаешь на цпу тензоры со всех карт, то во время обработки контекста они будут прилетать на ту карту, откуда они были выгружены, а не на первую. Условно говоря, у тебя четыре карты в режимах х16,x4,x1,x1. Будешь выгружать со всех - будешь ждать, пока гигабайтный тензор пропердится с RAM по х4 и тем более х1 шинам.

>Это просто пропорции
Можно их использовать как пропорции, но этим ты будешь стрелять себе в ногу, дойдя до дрочения дробей, как ты предложил ниже, и все равно будешь страдать, ведь перед глазами будут абстрактные числа, а не привязанные к реальности. А реальность - это именно количество слоев per device, можешь проверить, если такой фома. И не надо ничего дополнительно выдумывать, ведь
>Оно раскидывает не по номерам а по размерам
это ложь, слои выгружаются последовательно на девайсы так, как указано в -ts. Я тебе даже открою америку, что ты можешь управлять этим порядком, задав порядок девайсов через -dev. Я уже десятки раз занимался выгрузкой больших моделей на больших конфигах со смешанными бекендами, и говорю экспериментальные факты. Упрешься ли ты в свои предрассудки или откроешься к новым знаниям - это уже решать тебе.

>слои разной структуры и размеров
Да, бывает такое, в маверике, например. Но там тоже нет хаоса, слои с экспертами и без чередуются, просто тогда примерно посчитай, сколько весит слой с экспертами и без (обычно без них они намного меньше) и ассоциируй с девайсом только четное или только нечетное количество слоев. Все решается, если ты понимаешь, как все устроено, а не как обезьянка дрочишь пропорции. И вообще, обниморда - твой лучший друг, все, что касается слоев, там удобно смотреть.

Аноним 30/10/25 Чтв 02:02:14 № 1402588 252

>>1402382
Это довольно просто сделать под виндой причем двумя способами: 1. запретить использовать конкретному бинарию (llama-server, pyton) через панель управления Nvidia "резервную память" . Тогда превышение VRAM закончиться OOM. Довольно не приятно если запихал что-то в притык, и оно на большом контексте вдруг дало течь и оподливилось. Зато точно никаких потайных манипуляций по писи не будет.
2. не лазить в настройки и глазами смотреть в диспетчере задач что подозрительно много "общей памяти графического процессора" стало использоваться. В принципе если там будет до 500 мб ничего страшного - это жора просто вытеснила в рам UI винды, хром...

А как оно под пингвином не скажу ибо не знаю.

Аноним 30/10/25 Чтв 02:06:12 № 1402590 253

>>1402588
>под пингвином
Странно, если бы ты знал, иначе я бы подумал, что с нами в треде сидит яйцо пингвина или полярник-пассив-зоофил.

Вот на линухе такой хуйни в принципе нет, поэтому оомы всегда.

Аноним 30/10/25 Чтв 02:08:01 № 1402592 254

>>1402590
>полярник-пассив-зоофил.
Ассоциации у тебя охуительные конечно.

Аноним 30/10/25 Чтв 02:27:52 № 1402601 255

>>1402579
> 20 мегабайт на батч при обработке контекста, например
Это совсем немного и даже с дефолтным батчем 512, который стараются повышать при выгрузке по другой причине, пересыл будет единицы раз в секунду * число слоев или меньше.
> Ты неправильно понял.
Действительно неправильно, подумал что ты про другое. Но
> то во время обработки контекста они будут прилетать на ту карту, откуда они были выгружены, а не на первую
"С какой карты" ушел тензор при задании в параметрах регэкспов жоре вообще не важно. Весь ход активаций - буквально форвард, если эксперты блока выгружены на цп а атеншн на одной из гпу, то обмен будет происходить ровно с этой карточкой, где находится атеншн блока. Если атеншн на одной карте а эксперты на другой - будет прыгать туда-сюда. Хз, может ты это и имел ввиду, но похоже что другое.

При обработке чуть иначе, там идет поочередная подгрузка весов что на проце на главную карточку и обсчет там. Именно ее шина выступают главным ботлнеком по обмену при частичной выгрузке во время обработки. Там даже с х16 5.0 по дефолту все упрется в псп шины, если поднять батч контекста до 2048-4096 то уже будет ролять мощность карты. На другие карты веса не грузятся, только ходят активации и не смотря на больший размер каждой их частота обмена ниже.

По поводу пересыла активаций - х1 скорее всего действительно дадут импакт, тут нужно чтобы кто-то затестил. Но чипсетные х4 (которые будут использоваться по очереди) скорее всего уже окажутся пренебрежимыми, стоит тоже проверить на более медленных версиях.
Собственно, главный вывод - на равноценных картах целесообразно делить все поровну и пользоваться принципом "эксперты там же где и атеншн" чтобы избежать пересылов (также позволит вместить больше контекста если не лезет в одну). На сильно отличающихся по мощности наоборот лучше закинуть атеншн (или его большую часть) на основную, потому что там сам его расчет на медленной карте даст большее замедление чем пересылы. С шинами сложнее, но простая 4.0 х4 разницы с х16 не дает при различных конфигурациях раскидки, цифры идентичные получаются.

Не поленись, поучаствуй >>1402555 я сам уже некоторые замеры собрал в том числе с ассиметрией и разными шинами, довольно показательно. Но интересно как это будет на разном железе и с другими факторами.

> Можно их использовать как пропорции
Да просто никак иначе ты их использовать и не сможешь. Залезь в код и включи полный дебаг чтобы оно показывало что куда отправляет. С большой охотой оно дербанит блоки на куски разделяя их компоненты по разным картам, и правильно делает, иначе дискретность была бы совсем ужасающей. Если нужен четкий контроль - через -ot.
> это именно количество слоев
> это ложь
Не ложь, загляни в код. То что ты называешь "слоями" на самом деле блоки, отсюда и blk, а то обозначение просто прижилось у обывателей и потому оставили. В каждом блоке много слоев и они бывают разными в разных частях, как минимум в любой ллм есть еще эмбеддинги-голова.
> просто тогда примерно посчитай, сколько весит слой с экспертами и без (обычно без них они намного меньше) и ассоциируй с девайсом только четное или только нечетное количество слоев
Этим ты сильно повышаешь дискретность и соглашаешься со мной по принципу работы.

Главный исход всего этого - рекомендация по размещению слоев для максимального инфиренса и повышение грамотности. Вот к этому и надо стремиться.

Аноним 30/10/25 Чтв 02:40:41 № 1402609 256

>>1402579
> это ложь, слои выгружаются последовательно на девайсы так, как указано в -ts
Может ты подумал что там речь о размерах врам девайсов? Нет, имеется ввиду что жора делит все последовательно идущие слои ровно так как они стоят в заданных пропорциях -ts и их так распределяет по девайсам, а уже потом вступают регэкспы и прочее. И разумеется значения в -ts являются определяющими, все как там указано, просто не привязано к номерам.
Ради интереса можешь большой немотрон попробовать раскинуть, там то еще веселье из-за капитальной разницы в некоторых блоках.

Аноним 30/10/25 Чтв 03:03:21 № 1402615 257

>>1402601
> атеншн на одной из гпу
Я имел в виду, когда слои (ну или блоки, как тебе удобнее, я в мл не шарю, сказано в -sm layer что слой - говорю слой). Т.е. например -ts 25,8,8,8
В этом случае, если через -ot выгружать тензоры со всех четырех карт, то они и будут при обработке копироваться обратно на свою карту (потому что остальные тензоры блоко-слоя, нужные для вычислений, лежат на этой карте). По крайней мере, я так думаю, лично не довелось проверить, потому как никогда не выгружал тензоры на цпу c вторых и далее карт. Могу глянуть, если тебе нужны будут пруфы.
А если -ts 49,0,0,0 - базара нет, там все на первую должно идти, потому что все слои-блоки привязаны за CUDA0 (можешь в логе жоры смотреть, какой слой к какому девайсу привязан)

>Не поленись, поучаствуй
Дай модель, такую, чтобы на две карты 24гб и цпу хватило, бОльшее мне лень запускать для тестов. У меня вот осс 120 скачена, она норм будет или все результаты зашкварятся об mxfp4?

>С большой охотой оно дербанит блоки на куски разделяя их компоненты по разным картам
Не знаю, у меня никогда не дербанило, запускал глм, квены, дипсик, маверик - все всегда соответствовало блокам-слоям и их размерам.

>>1402609
>просто не привязано к номерам.
К номерам понятное дело не привязано, но и к размеру тоже. В общем, что перетирать из пустого в порожнее, попробуйте сделать так, как я написал в исходном посте, чтобы сумма чисел в -ts соотвествовала числу слоев/блоков в ггуфе. Если где-то размер на карте будет отличаться от ожидаемого - то буду разбираться. Контраргументы тащите, в общем.
>Ради интереса можешь большой немотрон попробовать раскинуть
не, нахуй надо, там же реально почти хаос в размерах блоков, насколько я помню. И по отзывам это суперассистент не для рп, так что ну его.

Аноним 30/10/25 Чтв 03:54:33 № 1402636 258

>>1402615
> я в мл не шарю
Вообще без претензий, спасибо что уже что-то делаешь.
> выгружать тензоры со всех четырех карт, то они и будут при обработке копироваться обратно на свою карту
Да, это как раз именно тот кейс. Атеншн и другие на гпу -> эксперты на цп -> атеншн+ на гпу -> эксперты на цп.
> А если -ts 49,0,0,0 - базара нет, там все на первую должно идти
Если соответствующие эксперты на цп то хорошо, а если на других гпу то получится attn (cuda0) -x16-> cpu -х1-> exps (cuda1) -x1-> cpu -x16-> cuda0, то есть каждый раз когда обсчитываются какие-либо слои на карте с хреновой шиной придется к ней обращаться и испытывать все задержки. А если та карточка не картофельная а сама может считать атеншн - лучше пусть он на ней и остается, тогда вообще не будет пересылов.

Но вот сейчас ты хорошую штуку в целом подметил. Возможно самым оптимальным окажется вариант, где на дополнительные гпу будут в приоритете выгружаться именно целые блоки, чтобы избежать пересылов, а уже атеншн экспертов что на цп будут в главную гпу. Тогда не будет проблем как у тебя что грузишь все в первую и будет пересыл между карточками, но при этом сохранится преимущество что пересыл после расчета на цп будет идти по самой жирной шине. Нужны более подробные тесты на чипсетных медленных шинах как это влияет. На х4 4.0 процессорных разница на уровне рандома между свайпами.

> Дай модель, такую, чтобы на две карты 24гб и цпу хватило
Да любое моэ, тот же эйр, квен,, хоть 30а3. Просто последняя будет не показательна ибо слишком высокая скорость, прочие факторы начнут ролять.
> она норм будет или все результаты зашкварятся об mxfp4
А хз, но как раз прогони.
> К номерам понятное дело не привязано, но и к размеру тоже.
Когда в последний раз глядел, оно именно брало размер каждого слоя и уже с учетом этого осуществляло деление. Ну ты посмотри в код, вдруг я напиздел или там что-то поправили (крайне маловероятно).
> сумма чисел в -ts соотвествовала числу слоев/блоков в ггуфе.
Слишком высокая дискретность и недозагрузка гпу получится. Так еще оно почти 100% раздерет граничные блоки на отдельные слои и они как-то там лягут.
Хорошо одно - все эти пересылы на самом деле оче малый вклад вносят, за исключением стримминга весов в основную.
> там же реально почти хаос в размерах блоков
О том и речь. Сами блоки поделить вообще не проблема, она вылезает когда выделяются буферы под контекст. Там где нет аттеншна - нет и буферов, есть пачки мелких блоков которые жрут много кэша, есть огромные целиком линейные куски, которые сами большие но ничего дополнительно не требуют.
> суперассистент не для рп
Это не мешает ее трахать, бессмысленно и чисто для ачивки разумеется

Аноним 30/10/25 Чтв 06:15:13 № 1402646 259

>>1402636
>Когда в последний раз глядел, оно именно брало размер каждого слоя и уже с учетом этого осуществляло деление.
Мб, я в код туда не заглядывал, но допускаю, что это может быть побочным поведением текущей логики кода.

Прогнал осс на обоих способах. Как и с большим глм палка о двух концах - либо выигрываешь в генерации, либо в обработке. Первая карта на х16, вторая на х4 (только не знаю чьи, это райзер с основного m.2, вроде там тоже процессорные, по идее).
Первый скрин с -ncmoe 11, почему-то не вывело это. Второй без этого аргумента. Забивал карты экспертами/слоями до упора

Аноним 30/10/25 Чтв 06:58:17 № 1402649 260

>>1402539
в целом всё так, разве что всё же лучше использовать его родной шаблон, на чат-мл он несколько хуже, и периодически высирал в чат чеги чат-мл, на родной разметке пролем не было

Аноним 30/10/25 Чтв 08:16:22 № 1402665 261

>>1402417
https://huggingface.co/Vikhrmodels/Vistral-24B-Instruct
Сам не пробовал.

Аноним 30/10/25 Чтв 09:04:24 № 1402673 262

Вопрос. Что использовать для того чтобы общаться с моделью в v1/chat/completions формате, но так чтобы там корректно работал вызов инструментов?

Попробовал KoboldCPP: он корректно форматирует сообщения из одного формата в другой, но там не форматируются сообщения для модели, которые говорят какие оно инструменты вызвало. В итоге лол модель знает что ему пришли ответы от инструментов, но что было использовано в качестве аргументов оно берёт из жопы.
Попробовал text-generation-webui: он корректно читает jinja2 темплейты которые идут с моделью, но там в качестве инструкции может идти хер знает что, что задаёт модели свой собственный формат аутпута, который разумеется не будет парсится в chat/completions. Например OSS в какой-то ChatML подобный формат даёт аутпут, Qwen Coder 30b вообще в XML формате даёт вызов инструментов. если просто выберу например ChatML формат то там вообще информация о самих инструментах не передаётся.

Я уже даже не уверен что мне использовать. Я конечно могу и сам формировать сообщения целиком и просто пользовать чат комплишен, но ёбана. это под каждую модель его подгонять

Аноним 30/10/25 Чтв 09:16:05 № 1402674 263

image.png 20Кб, 641x87

image.png 25Кб, 675x111

В чем смысл рпшить на русском, если это почти в 3 раза менее эффективно, даже если бы модельки этим русским владели в полной мере? Чтобы выразить одну и ту же мысль требуется в 3 раза больше контекста и в 3 раза больше вычислений.

Аноним 30/10/25 Чтв 09:21:15 № 1402675 264

>>1402674
чтобы ловить базу, а не кринж. например хочется ебать руссов, будучи чертем, или ящериком. и как тут на английском то РПшить?

Аноним 30/10/25 Чтв 09:35:38 № 1402678 265

>>1402649
> на чат-мл он несколько хуже
У меня обратная ситуация, на ChatML гораздо лучше.

> периодически высирал в чат чеги чат-мл
Какие? <im_end>? Нужно правильно настроить сепараторы, и не будет проблем.

Впрочем, модель с кучей нюансов и чувствительна даже к формату карточек, потому у всех опыт и отличается, похоже.

Аноним 30/10/25 Чтв 09:37:46 № 1402681 266

>>1402539
> Взял простой стоковый таверновский темплейт от GLM4
У GLM 4.5 другой шаблон разметки. Лучше перепроверь, может будет еще лучше на правильном шаблоне или на ChatML.

Аноним 30/10/25 Чтв 09:42:42 № 1402683 267

>>1402675
Анонам пора придумать новый русский без окончаний и кучи приставок, чтобы интегрировать еблю с ящерами в более технологически дружелюбную и эффективную языковую среду.

Аноним 30/10/25 Чтв 09:58:55 № 1402686 268

>>1402683
Лол ну чисто технически можешь надеяться что DS OCR пойдёт дальше в массы и там всю хуйню юникода обменяем на пососность визуальных токенов. а с ними не так и важно что у нас за язык в качестве инпута.

Аноним 30/10/25 Чтв 10:15:21 № 1402690 269

>>1400555 (OP)
Котаны помогите!
Я конечно извиняюсь за оффтоп, но как нынче аноны обходят блокировку?
С хагина больше не качает никаким способом, никакие браузерные прокси больше не работают, всё пизда.

Аноним 30/10/25 Чтв 10:24:19 № 1402692 270

>>1402690
Всё работает, йобана блять
>>1400041 →

Аноним 30/10/25 Чтв 10:50:12 № 1402697 271

>>1402692
Спасибо Брат-кобольд!
Щас попробую.

Аноним 30/10/25 Чтв 10:58:57 № 1402698 272

>>1402692
Брат-кобольд зачем обманываешь, не качает нифига же, ничем не отличает от того что браузером пытаюсь скачать. Скачка начинается и скорость тут же падает до нуля и на этом всё.

Аноним 30/10/25 Чтв 11:14:13 № 1402700 273

>>1402698
Второй способ значит делай, лентяй ёбаный. В посте так и написано что если первое не работает то второе норм

Аноним 30/10/25 Чтв 11:21:57 № 1402703 274

Раз тут все такие знатоки Air, у меня есть ряд вопросов:
какой формат карточек лучше, используете ли вы ризонинг и если используете в каких сценариях он нормально себя показывает, кто убил Кеннеди. И размет... А стоп, вот же ответы >>1402539

Но вопрос с ризонингом остается. Он прям хорош, слушает префилы и умница, но как и любой ризонинг он выдает размышлений на 1.5к, чтобы пукнуть два абзаца. Вот именно это как то фиксится ?

Аноним 30/10/25 Чтв 11:29:03 № 1402707 275

>>1402690
>но как нынче аноны обходят блокировку?
Уезжаем в страны без блокировки. Можешь ещё на баррикады пойти, тоже помогает.
>>1402703
>Но вопрос с ризонингом остается.
В РП нинужен.

Аноним 30/10/25 Чтв 11:33:12 № 1402709 276

>>1402707
>В РП нинужен.
Я придерживался такого же мнения, так как ризонинг других моделей всё херит. Но тут другая ситуация, он прям хорош. Он вытаскивает сложносочиненные сцены. Несколько персонажей + действия с подтекстом + сложный контекст(условно, персонаж выдает False, когда истинные намерения true).

>Можешь ещё на баррикады пойти, тоже помогает.
Я прошу, без политики, все всё понимают, но нас тут интернациональная группа сидит, объединенная общим хобби. Хоть тут давайте любить друг друга и своё увлечение.

Аноним 30/10/25 Чтв 11:36:02 № 1402711 277

>>1402579
>У меня, конечно, DDR4, но я не поверю, что у тебя настолько пиздатый процессор и память, что они дают пососать 448 GB/s от 3070 при генерации. Либо опять что-то упускаешь, либо в жоре говняк. -sm layer надеюсь пишешь?

Не писал, я вообще кобольд, только на чистую ламу перелез.
Вот строки если интересно, обе карточки забиваются почти под ноль.
llama-server --model "GLM-4.5-Air-Q3_K_M-00001-of-00002.gguf" -ts 42,8 -ngl 48 -ncmoe 34 -sm layer --ctx-size 24576
llama-server --model "GLM-4.5-Air-Q3_K_M-00001-of-00002.gguf" -ts 49,0 -ngl 49 -sm layer ^
-ot "blk\.([0-9]|1[0-9]|2[0-9]|3[0-3])\.ffn_(up|down|gate)_exps=CPU" ^
-ot "blk\.(3[4-9])\.ffn_(up|down|gate)_exps=CUDA0" ^
-ot "blk\.(4[0-7])\.ffn_(up|down|gate)_exps*=CUDA1" ^
--ctx-size 24576

Никакой разницы в скорости генерации, и ни в одном из способов. Но стоит отрубить вторую видюху --device CUDA0 получаю прирост 2-3 токена.

Сетап уже кидал 4080/3070/DDR5-5600/Ryzen 7 9800X3D
Хз возможно он что-то лишнее по шине гоняет из-за чего идет просадка, либо я ещё чего-то не знаю.

Аноним 30/10/25 Чтв 11:36:49 № 1402712 278

>>1402700
Какой блять второй, еще раз перечитал шапку, нет там никакого первого и второго! Вообще такое чувство что всё у людей заебись, только у меня проблемы. Может у меня кукуха уже поехала на нейронках.

Аноним 30/10/25 Чтв 11:38:03 № 1402713 279

>>1402712
Блять чел в посте который я тебе линканул ДВА способа, ты попробовал один

Аноним 30/10/25 Чтв 11:39:24 № 1402714 280

>>1402712
>Какой блять второй
Если не помогает, то как анон написал, добавляй cas-bridge.xethub.hf.co и huggingface.co в списки запрета/goodbyedpi/трибуквы или что еще ты там используешь.

>>1402711
Анонче, а попробуй эти кванты. Мне прям дико доставили. Не знаю уж, как он их квантовал, но получились умницы.
Звучу наверно как какой то культист поех.
https://huggingface.co/ddh0/GLM-4.5-Air-GGUF

Аноним 30/10/25 Чтв 11:41:36 № 1402715 281

>>1402709
>>Я прошу, без политики, все всё понимают, но нас тут интернациональная группа сидит, объединенная общим хобби. Хоть тут давайте любить друг друга и своё увлечение.
Всё верно говоришь, но не многие понимают к сожалению.

Ребят помогите скачать с хагина, поделитесь как обходить блокировку!!!

Аноним 30/10/25 Чтв 11:44:17 № 1402718 282

>>1402713
Если ты про этот goodbyedpi, то он у меня не фурычит, я скачал, запустил даже ютуб не работает на нем.

Аноним 30/10/25 Чтв 11:45:43 № 1402719 283

>>1402715
>Ребят помогите скачать с хагина, поделитесь как обходить блокировку!!!
Если у тебя прям заблокировано, то VPN или всякие goodbyedpi, написали же. Нет волшебной cmd строки, которая тебе разблочит всё. Увы, блять, такое говно.

Аноним 30/10/25 Чтв 11:49:37 № 1402721 284

>>1402703
>Но вопрос с ризонингом остается. Он прям хорош, слушает префилы и умница, но как и любой ризонинг он выдает размышлений на 1.5к, чтобы пукнуть два абзаца. Вот именно это как то фиксится ?

1. Фиксить в машине то, что она ездит - это странно. Ризонинг должен так работать - он так и работает. С общими нюансами Air разумеется - ему нужно сначала иметь с чем работать, и чтобы там в исходных - взаимоисключающих параграфов и просто шизы не было.
2. В (е)РП - в ризонинге смысла практически нет. Это не логическая задача, чтобы над ней раздумывать. Так что просто не использую. За исключением начала сцены - там можно разок включить, чтобы модель получше ухватила нюансы. А потом - строго в off.

Вышенаписанное - тоже IMHO.

Аноним 30/10/25 Чтв 12:01:20 № 1402724 285

>>1402714
>Анонче, а попробуй эти кванты. Мне прям дико доставили. Не знаю уж, как он их квантовал, но получились умницы.
Кстати, спасибо, что напомнил. Уже месяц как собирался попробовать, да все отвлекался. Теперь поставил на закачку.
(мимокрокодил).

А как он их квантовал - судя по описанию, основной роутер/общий эксперт там в FP8 - вот и качество управления остальным оркестром повышенное.
В школьный хор пришел дирижер национального уровня. :)

Аноним 30/10/25 Чтв 12:29:16 № 1402731 286

>>1402721
>А потом - строго в off.
Я так планировал ЕРП, но тут Air с ризонингом решил, что персонаж который описан парой строк станет ВОТЭТОПОВОРОТОМ. И прямо во время свадьбы, этот персонаж поворачивается к {{user}} и выдает: "Знаешь, darling, власть и союзы как песок, могут утечь сквозь пальцы" и тут начинается резня. Литералли красная свадьба, только где невеста решила забрать всю власть себе, лул.
Какое же кино порой выдает, 10 из 10.

>там можно разок включить
Но в целом, по похожей схеме. Спасибо за ответ анон.

>>1402724
>В школьный хор пришел дирижер национального уровня. :)
Для меня нищугана, эти кванты стали спасением. Кратно меньше шизы.
Тому кто их принес изначально, вот прямо ОХУИТЕЛЬНО БОЛЬШОЕ спасибо.

Аноним 30/10/25 Чтв 12:35:05 № 1402734 287

>>1402703
>чтобы пукнуть два абзаца.
По моему опыту айр выдаёт сообщения примерно такой же длины, как уже были в чате. Если там короткие, генерирует короткие. Если там простыни -то такими же и отвечает. Из них же берёт и форматирование текста и успешно работает с любым логичным-однообразным.

Аноним 30/10/25 Чтв 12:48:11 № 1402742 288

>>1402675
>чтобы ловить базу, а не кринж
Мне лично для этого как раз на англюсик укатываться приходится. А в текущих реалиях с текущими нейросетями и выбора особо нет, на русике пишут как на англюсике, все те же паттерны видны, так что получается сразу дабл кринж.

Аноним 30/10/25 Чтв 12:54:21 № 1402748 289

Дарова пасаны. Давно не заходил, что за МОЕ? Можно как-то запустить те самые модели для шейхов на обычной карте? У меня вообще 64гб рам есть.
Через что аноны нынче запускают? У меня как убабуга сломалась намертво я на лламе сидел.

Аноним 30/10/25 Чтв 12:54:54 № 1402750 290

>>1402715
>Ребят помогите скачать с хагина, поделитесь как обходить блокировку!!!
Не молчим, форумчане, делимся рабочими способами обхода блокировок!!!

Аноним 30/10/25 Чтв 12:57:39 № 1402752 291

>>1402750
Тебе уже ответили. Не хочешь гудбайдпи настраивать или пень накатывать тогда терпи

Аноним 30/10/25 Чтв 12:57:44 № 1402753 292

>>1402750
CIA niggas glow at night
Впн себе купи лол. Сходи в /s/ спроси как.

Аноним 30/10/25 Чтв 13:18:41 № 1402778 293

>>1402646
>>1402646
Это может быть локальный эффект гопоты - у нее по экспертным блокам структура:
blk..ffn_up_exps.bias
blk..ffn_up_exps.weight
И как раз в зависимости от того где оказывается bias тормозит либо генерация либо обработка. См:
https://github.com/ikawrakow/ik_llama.cpp/pull/829

Аноним 30/10/25 Чтв 15:06:23 № 1402900 294

>>1402748
Знаешь, тебе не отвечают не потому что всем похуй, а потому что ЭТО УЖЕ БЛЖАД РАЗЖЕВАЛИ. Прям в прошлом треде. И тут обсуждают. Почитай и не ленись.

Аноним 30/10/25 Чтв 15:24:13 № 1402931 295

>>1402750
https://chatgpt.com/ --> Как настроить VPN, как купить VPN.

Поздравляю, ты восхитителен.

Аноним 30/10/25 Чтв 15:30:39 № 1402943 296

>>1402714
> Звучу наверно как какой то культист поех.
Да тут всех засирают, но нюанс в том, что ты даешь годные советы, а поехи — они, кому ты так звучишь.
А на деле ты звучишь как человек, который хорошее дело советует. =)

Вот бы теперь понять, на русском лучше новые версии с его матрицами важности, или же старые, от бартовски?.. Не в курсе, не пробовал?

>>1402748
llama.cpp
Самая, что ни на есть, оригинальная, и никакого говна с обертками.

Модель например вот https://huggingface.co/ddh0/GLM-4.5-Air-GGUF
Там как раз есть для 64 гигов с видяшкой норм.

Главное при запуске выучить команду --cpu-moe -ngl 99 и будет тебе счастье, ну и подробнее почитай об этом.

Аноним 30/10/25 Чтв 15:39:38 № 1402951 297

>>1402900
Блин ну я знаю что там в прошлом треде было то? Кинул бы пост просто.

>>1402943
>Главное при запуске выучить команду --cpu-moe -ngl 99 и будет тебе счастье, ну и подробнее почитай об этом.
Запускать на лламе я плюс минус научился. Подскажи лучше где можно прочитать про мое? И какого кол-ва токенов/сек ожидать на средней ихравой карте если знаешь.

Аноним 30/10/25 Чтв 15:44:18 № 1402955 298

>>1402943
>Вот бы теперь понять, на русском лучше новые версии с его матрицами важности, или же старые, от бартовски?.. Не в курсе, не пробовал?
Понятия не имею. Я не вижу смысла в использовании русского языка на локалках. Модельки выдают сухой текст, не используют словесные обороты, да и в целом, текст напоминает буквальный перевод. Да и меня на какой то испанский стыд пробивает, когда я вижу ерп на русском, какой то стульчик.нет, а не порно проза.
Короче, стучу хуем по столу и нервно восклицаю: доколе бездушная машина будет использовать такой посредственный слог.

>>1402951
>Блин ну я знаю что там в прошлом треде было то? Кинул бы пост просто.
>>1398835 →

Аноним 30/10/25 Чтв 16:35:04 № 1403005 299

Я зайду в тред через пол года
И эир 4.6 до сих пор будет в разработке

Аноним 30/10/25 Чтв 16:53:59 № 1403034 300

Заи должны понимать что чем дольше ожидание тем больше требований к модели
Кормите завтраками там сделайте заебись
Или огромный удар по репутации

Аноним 30/10/25 Чтв 16:56:35 № 1403037 301

>>1403034
>>1403005
Чтоб тебя долбоёба иссекайный грузовик сбил и ты переродился в эльфийку в плену у гоблинов.

Аноним 30/10/25 Чтв 16:57:48 № 1403039 302

>>1403037
А я и не против.

Аноним 30/10/25 Чтв 17:15:32 № 1403052 303

>>1403005
>>1403034
А толку? Ты так и продолжишь терпеть, ведь у тебя скилл ишью и даже превосходный эйр 4.5 ты не можешь раскрыть. Думаешь все будет иначе?

Аноним 30/10/25 Чтв 17:37:55 № 1403068 304

>>1403039
ты же буквально будешь маткой рожать личинки по кд, жрать их блевоту и срать под себя бля, чё это я рекламирую харкачеру лучшую жизнь чем сейчас у него, просчитался

Аноним 30/10/25 Чтв 17:48:37 № 1403078 305

>>1403068
> просчитался
Ага. А самое главное - ему же думать вообще не надо будет. :)

Аноним 30/10/25 Чтв 17:58:53 № 1403084 306

>>1402646
Расскажи подробнееи что где находится и как раскидывал, как можно распределить между мультигпу только с -ncmoe не прибегая с жесткой ассиметрии -ts и ювелирным подбором?
В первом случае атеншн на ампере, далее блоки напиханы туда же и в тьюринг (сколько куда?), во втором аттеншн поровну (?) и блоки также (то же количество?)?
Может тут еще нюансы гопоты как >>1402778 пишет.

Когда 2 карточки одинаковые скидывания фулл атеншна на первую и 5 блоков из 20 (16 на вторую) или деление всего пополам дают практически одинаковую скорость. Беря второй за референс, сосредоточение атеншна дает -4% генерации +3% обработки контекста. Эффект небольшой, для большинства случаев можно рекомендовать избегать лишних пересылов.
Если 2 карточки разной мощности, примерно в 1.5 раза по компьюту и псп (раскидка та же), то сосредоточение уже дает больший прирост по обработке контекста (+14%) генерация даже немного ускоряется но на уровне рандомайзера (+2%), для ассиметричных уже можно подумать. Что x16 что x4 +- все одинаковое. Но, в таком случае уже контекст ограничен.
С тремя карточками уже замедление генерации чуточку больше, но на том же уровне, обработка уже не растет.
Это подтверждает выводы, твой результат также ложится туда если раскинуто похожим образом, разве что нет ускорения от более мощной карты в обработке. Если раскидка иначе то нужно смотреть.

Пока получается что для максимальной генерации между одинаковыми/близкими картами лучше делить блоки целиком чтобы атеншн был там же где и эксперты, а в варианте мощная + картофельные наоборот на картофельную атеншн не кидать чтобы не замедляла, это будет хуже чем обмен по шине. С тем куда кидать атеншн блоков у которых эксперты на профессоре надо экспериментировать.

Аноним 30/10/25 Чтв 17:59:14 № 1403085 307

>>1402724
>Теперь поставил на закачку.
Кто хочет - можете тыкать пальцем в дятла.
Три часа качал. Перед запуском решил порядок навести. Перепутал с другой (не нужной) моделью и стер. "Идиёт"(с) Дядя Миша (Артист).
Качаю заново...

Аноним 30/10/25 Чтв 18:57:40 № 1403137 308

>>1403085
От ето юморист! Хехе

Аноним 30/10/25 Чтв 19:26:33 № 1403176 309

>>1402951
Ну, в треде и читать.

Смотри, короче.
Видеокарта? Не, МоЕ ты запускаешь на оперативе, друг мой дорогой. ))) Так что, спрашивай, сколько ты получишь на оперативе.

Смотри, знаний в МоЕ — как в большой модели. Но думают одновременно только активные параметры. Есть модель-роутер и несколько общих слоев, которые грузятся на видяху (это дает ускорение условных 30% модели), а остальное крутится на оперативе.
Например, аир имеет 12 миллиардов активных параметров. Это значит, что ты получишь скорость, как если бы запускал 12б модель (из которой часть на видяхе, да). При этом, знает она на 106б, и может писать разнообразнее.
Но при этом она не настолько логична-умна-мудра как денс 106б модель была бы.
Компромисс между скоростью, умом и объемом памяти.

Но в среднем люди имеют от 8 до 16 токенов в секунду. Условно говоря, это ~50б модель по качеству. 10 токенов в секунду 50б модель за 64 оперативы и обычную игровую видеокарту — весьма годно! Не надо брать 3090, собирать риги из 2-3 видях, чтобы набрать 48-72 гига видеопамяти.

Но на вкус и цвет, все еще есть гемма-ценители, немотроно-ценители, мистрале-ценители и прочие не-любители МоЕ-моделей.

96 гигов позволят замахнуться на Qwen3-235b-a22b (ну или Minimax M2, лол).
128 гигов позволяет запустить GLM-4.6-355b-a32b.

При этом, глм будет не сильно медленнее квена. У меня на чисто оперативе квен выдал 5 ток/сек, глм 4 ток/сек. Это на дохлом i5-13400. С норм процом и с норм видяхой будет за 10.

Аноним 30/10/25 Чтв 19:42:16 № 1403189 310

>>1403176
> Условно говоря, это ~50б модель по качеству.
Лично я даже сказал бы, что вывод будет разбросом с аналогом плотных примерно от 30 до 70B по качеству. MoE - несколько хаотичны по натуре. В отдельных случаях может выдать прямо совсем шик, и следующим же ответом - примитив. Как повезет с раскладкой по экспертам, видимо. Может несколько обескураживать, и явно не всем нравится такой разброс.

Аноним 30/10/25 Чтв 19:54:07 № 1403198 311

>>1402778
>Расскажи подробнееи что где находится и как раскидывал
Так на скрине все параметры запуска прописаны, читай значения столбцов. Ассиметрия в -ts там есть, на фуллгпу три карты раскидывается как 12,12,13, на две - уже 24,13 с -ncmoe. Первый скрин все поровну в т.ч. и аттеншен, во втором все лежит на cuda0, а часть экспертов - на цпу или cuda1

>>1402778
кочаю эир 5 квант, посмотрим

Аноним 30/10/25 Чтв 19:54:53 № 1403200 312

>>1403198
>>1403084
быстрофикс

Аноним 30/10/25 Чтв 19:56:55 № 1403205 313

>>1403176
> Не надо брать 3090, собирать риги из 2-3 видях, чтобы набрать 48-72 гига видеопамяти.
Лукавишь. Если вопрос именно про "брать" то одна 3090 это входной порог и выбор чемпионов. Если гпу уже есть, то обычно ее и используют, но то что ниже уже компромиссы.
С точки зрения повышения скорости добавление дополнительных видеокарт оправдано, дешевле и проще апгрейда платформы до высокой псп рам.
> 96 гигов позволят замахнуться на Qwen3-235b-a22b
> 128 гигов позволяет запустить GLM-4.6-355b-a32b
Про ужатые кванты добавляй.
>>1403189
Двачую, еще от самой структуры и размера ответа зависит то как себя проявит.

Аноним 30/10/25 Чтв 20:07:39 № 1403211 314

>>1403198
>>1403200
> с -ncmoe
Поведение ncmoe поменяли? Раньше оно после исходной раскидки всех весов в пропорциях просто выкидывало экспертов в по порядку на проц. Даже чтобы раскидать на две там нужно извратиться, на 3 и больше совсем безумный трешак и отсутствие возможности тонко подстроить выгрузку в случае оомов или желания дозагрузить.
> на две - уже 24,13 с -ncmoe
Выходит на первой карте примерно 2/3 атеншна в первом скрине, потому и разница невелика. Попробуй пополам раскидать, или даже предельный случай чтобы весь был на 2080ти, не выбирая ее главной.

Аноним 30/10/25 Чтв 20:09:37 № 1403213 315

Кто мне объяснит, почему китайский Air подставляет одно и то же имя в сцену с появлением неназванного НПЦ, что и Gemma?
Они один и тот же датасет в него загружали или что?

Аноним 30/10/25 Чтв 20:13:16 № 1403217 316

>>1403189
Пожалуй да, бывает такое.

>>1403205
> Лукавишь.
Нет.
200к контекста в сделку очевидно не входило, а человек пишет:

> на обычной карте? У меня вообще 64гб рам
Если за «обычную» принять какую-нибудь 3060, то это уже вполне.

Брать 3090 ему не к спеху.
Если захочет больше контекста — вот тогда уже доберет что-нибудь. =)

> С точки зрения повышения скорости добавление дополнительных видеокарт оправдано, дешевле и проще апгрейда платформы до высокой псп рам.
Ну, тут спорить не буду, из рига 3090 выжмешь больше, чем из эпика или ддр5.

> Про ужатые кванты добавляй.
Ну не fp8, конечно. )
Но, честно, глм в Q2_K_L от бартовски все еще хорошая модель, лучшая из доступных в таком объеме и с такой скоростью, ИМХО.

Кто-то там сидит на мистралелардже и ее тюнах, но я даже представлять не хочу себе скорости, а собрать 128 видеопамяти — это немного иной уровень, нежели докупить оперативы, что автор, возможно, может сделать уже сегодня-завтра.

Я бы в принципе не называл моешки прям боярскими моделями, просто моешка позволяет покрутить с хорошей скоростью «условно приличную» модель за дешево, на уже имеющемся железе. Этим они хороши.

Аноним 30/10/25 Чтв 20:15:29 № 1403220 317

>>1403213
GLM обучался на Gemini.
https://huggingface.co/zai-org/GLM-4.5/discussions/1

У Gemini и Gemma часть датасетов, очевидно, совпадает.

Аноним 30/10/25 Чтв 20:16:39 № 1403221 318

>>1403213
Есть такая штука, как статистика популярности имен. Не на пустом месте ведь существует. :) Даже в разных датасетах, имена будут +- те же по популярности, если датасеты на текстах примерно одинакового временного периода. (Со временем мода на имена меняется).

Аноним 30/10/25 Чтв 20:36:00 № 1403234 319

>>1403211
>после исходной раскидки всех весов в пропорциях
Я не пользуюсь раскидкой весов по пропорциям, тыщу раз сказал уже, что разбиваю по количеству слоев, никакого трешака не наблюдаю.

В общем, попробовал на эйре 5 квант. Лень оформлять ебучий маркдовн, поэтому команды кину (карты те же, забиты под завязку):
1. -ts "35;13" -sm layer -ub 2048 -ngl 48 -t 7 -fa 1 -mmp 0 -ncmoe 23

pp512 | 164.67 ± 1.13
tg128 | 13.43 ± 0.01

2. -ts "48;0" -sm layer -ub 2048 -ngl 48 -t 7 -fa 1 -mmp 0 -ot 'blk\.([0-9]||1[0-9]|2[0-1])\.ffn_(up|down|gate)_exps=CPU;blk\.(3[3-9]|4[0-8])\.ffn_(up|down|gate)_exps=CUDA1'

pp512 | 92.85 ± 0.35
tg128 | 13.33 ± 0.08

Второй вариант совсем хуета выходит. Попробовал еще чисто с одной картой:

3. -ts "48" -sm layer -ub 2048 -ngl 48 -t 7 -fa 1 -mmp 0 -ncmoe 36

pp512 | 114.33 ± 0.69
tg128 | 9.53 ± 0.01

Внезапно лучше по обработке, чем варик 2, но генерация такое себе.

Аноним 30/10/25 Чтв 20:43:18 № 1403239 320

Нюнь ну дай уже пресет на воздушную зайку и покажи как карточки делать. У меня говно и слоп, я не верю что ты их изгнал

Аноним 30/10/25 Чтв 20:45:05 № 1403241 321

>>1403189
>от 30
А ты оптимист.
>до 70
До 70 чисто случайно и плотная 12b дотянуться может. И даже иногда что-то лучше сделать. Всё-таки важно, чтобы модель не иногда по праздникам на удачном промпте и рандоме выдавала годноту, а стабильно в ~80-90-99+% зависит от того, насколько медленно рероллить случаев.

Аноним 30/10/25 Чтв 20:53:20 № 1403246 322

>>1403239
Там у промпта первые токены такие, значится: 3===D

Аноним 30/10/25 Чтв 20:55:39 № 1403248 323

>>1403234
Ну и если кто сомневался, что 2080 Ti ебет в ллм, то вот первый вариант с 3090 вместо нее:
pp512 | 171.33 ± 0.98
tg128 | 13.70 ± 0.02

Разница минимальна. Правда, барыги их ща продают по слишком охуевшим ценам, ибо надо помнить, что ллмки ллмками, но в генерации картинок и видосиков 2080 Ti сильно проигрывает 3090, увы.

Аноним 30/10/25 Чтв 21:10:32 № 1403270 324

>>1403246
>3
Не нужно, когда есть 2.

Аноним 30/10/25 Чтв 21:24:40 № 1403283 325

>>1403241
>А ты оптимист.
Я практик.

>>1403241
>Всё-таки важно, чтобы модель не иногда по праздникам на удачном промпте и рандоме выдавала годноту
Если подразумевается, что "удачный промпт" = случайность, то проходите мимо.
А если речь про правильно написанный, с учетом особенностей модели - обсуждаем дальше.

По моему опыту - хаотичность есть, но нелинейная. Т.е. в 70-80% случаев, там будут примерно эти самые условные 50B из "середины шкалы", в смысле качества. Но вот остаток (20-30% ответов) - будет "растрепан" по качеству гораздо сильнее чем у плотной модели. И это еще заметнее из за того, что могут быть полярные случаи вот прямо прямо рядом, без мягкого перехода. Это редкость, но тем сильнее в глаза бросается.

Аноним 30/10/25 Чтв 21:26:18 № 1403285 326

пошаманил настройки квена, при температуре 2 добился отличных результатов, кто сейм?

Аноним 30/10/25 Чтв 22:16:03 № 1403349 327

>>1403217
> принять какую-нибудь 3060, то это уже вполне
Тут и на 8-гиговом паскале что-то пускали, но разве на 3060@12 можно что-то жизнеспособное получить? 12 прям ну очень мало, выглядит что только эйр с малым контекстом влезет.
> чем из эпика
Эпик + гпу будут вкуснее, но и стоят сильно больше чем риг из 3090.
>>1403234
> не пользуюсь раскидкой весов по пропорциям
Они раскидываются по пропорциям, просто ты задаешь их по числу слоев чтобы примерно ориентироваться. Можно задавать разными способами, просто этот вариант неудобный.
Результаты довольно странные. В первую очередь 165 в принципе мало для 3090 на эйре без контекста, а во втором тесте еще сильнее упало. 93 какая-то ерунда, или у тебя действительно пересылы так влияют.
> 3.
Оче странно, выглядит что тебе обращение ко второй карте просто капитальнейшим образом гадит. Или ошибки шины/драйвера вызывают лишние задержки.
Вот эти тесты прогони https://github.com/NVIDIA/nccl-tests прямо из quick examples.

Аноним 30/10/25 Чтв 22:41:00 № 1403359 328

>>1403349
Ах тыж бля шизяра неугомонный, есть жизнь на 12врам, есть

Аноним 30/10/25 Чтв 22:43:41 № 1403362 329

>>1403349
>Тут и на 8-гиговом паскале что-то пускали, но разве на 3060@12 можно что-то жизнеспособное получить? 12 прям ну очень мало, выглядит что только эйр с малым контекстом влезет.
Если есть только она одна - все равно можно запустить Qwen 335B, во втором-третьем кванте, абы хватило обычной RAM. На реддите примеры - до 5T/s, судя по отчетам. Вот тут 16K контекста - это может и не потолок, но близко.

Эйр же влезет не только с малым контекстом. Туда и 32K влезет, и возможно - больше, если не пытаться максимум экспертов в карту засунуть. Общая часть модели кушает всего 4-7GB в зависимости от кванта, а до ~6GB под контекст - это не так и мало.

Если же добавить хотя бы p104-100 - резко влазят мистрали с геммой целиком в VRAM. И получается до 15-17 ts на мистралях и до 8-9ts на гемме.
Так что на ней жизнь вполне есть, не стоит недооценивать. Хотя, конечно - не так чтобы вольготно.

Аноним 30/10/25 Чтв 23:08:17 № 1403377 330

>>1402724
>>1403085
Ну вот, докачал второй раз, вдоволь потрахался с разводкой тензоров на карты (т.к. старый конфиг не подошел), наконец запустил со сравнимой скоростью (iq4xs от Бартовски был).
Взял вот это: GLM-4.5-Air-Q8_0-FFN-IQ4_XS-IQ4_XS-IQ4_NL-v2.gguf

Первые впечатления - несколько неожиданные. Точно не хуже, и возможно - лучше.
Но главное - оно, сцуко, совсем другое. Настолько другое, что как будто взял книгу другого автора, который другим стилем пишет. Напрямую очень тяжело сравнивать, т.к. на тестовом материале явных проебов и на старом кванте не было, а новый просто пишет ДРУГОЕ. Тоже все по теме. Но... Вот как, скажем, Мартина с Пратчеттом сравнивать, чтоб объективно было, без вкусовщины? Я тут не про сюжет, а про стиль текста...
:)

Аноним 30/10/25 Чтв 23:09:41 № 1403379 331

Нихуя се подъебнул. А вы бы догадались?

Аноним 30/10/25 Чтв 23:13:22 № 1403382 332

Снова подъебнуть хотел, но всосал. Я то не так то прост!

Аноним 31/10/25 Птн 00:03:19 № 1403403 333

>>1403362
> до 5T/s
До 6,5, все же.

> Туда и 32K влезет
Да все упирается в то, хватает ли человеку.
Кто-то на 8к поролил и забил.
А у кого-то спасение галактики на вторую сотню тысяч токенов.

>>1403377
Бля, ну… не, ну… Мартина… и Пратчета… =D
Мартина и Перумова. Вот так будет норм.

Аноним 31/10/25 Птн 00:06:01 № 1403405 334

>>1403403
>Перумов
Так вот они какие, русико-энджоеры...
Ебаный рот, никогда бы не подумал что это кто-то читает. Теперь понятно почему геммочка умничка и откуда столько ватанов которые рвутся что кто-то играет на англюсике

Аноним 31/10/25 Птн 00:14:36 № 1403411 335

>>1403405
Тоже тихонько проорал. Сейчас бы мирового неоклассика-фантаста ставить в один ряд с местным шизофантастом категории г, который пишет исекаи про вторую мировую.

Аноним 31/10/25 Птн 00:20:13 № 1403421 336

>>1403403
>Бля, ну… не, ну… Мартина… и Пратчета… =D
>Мартина и Перумова. Вот так будет норм.
Да хоть Носова и Волкова. :)
Я же подчеркнул - речь не про сюжет, а про стили и акцент на разные вещи.

Аноним 31/10/25 Птн 00:28:09 № 1403436 337

>>1402714
Да это пиздец какой то.
V2 - https://huggingface.co/ddh0/GLM-4.5-Air-GGUF, работает еще быстрее чем V1 в более низком кванте. Как, почему, что за магия. Где поъебка.

Аноним 31/10/25 Птн 00:29:35 № 1403437 338

>>1403436
А, Only the conditional experts are downgraded. Понял. Будем тогда гонять и смотреть, станет ли хуже.

Аноним 31/10/25 Птн 00:41:47 № 1403439 339

>>1403377
>Но главное - оно, сцуко, совсем другое.
Отлично, значит я не шиз. Потому что ощущения похожие.
Модель та-же. Семплеры те-же. Промт тот-же. Но выдача- другая.
Я понимаю что всё это проценты и вероятности, но чёт не думал что квантование НАСТОЛЬКО может быть разным, даже в рамках примерно одних размеров.

Аноним 31/10/25 Птн 00:53:55 № 1403443 340

>>1403405
Ты даже не понял, что я написал.
Мартин = Перумов по уровню и качеству. Одинаково хуевые, конечно.

Начинаю понимать уровень англюсико-энджоеров.
На русском-то читать не умеете. =)

>>1403411
Ну, мировым я бы Перумова не назвал, а вот про исекаи от Мартина не знал.
Наоборот явно быть не может, ты же не можешь быть настолько глупым и не имеющим вкуса. =D Или… можешь?

>>1403421
Ну просто слишком уж разноуровневое сравнение. )
А вот Носов и Волков интересно, но тут полтреда не в курсе, кто это.

>>1403439
Тут же не только размеры. Тут и матрицы важности разные (!), и в принципе квантовано совсем иначе.

Аноним 31/10/25 Птн 00:54:32 № 1403444 341

Я чет прихуел. Откуда она это знает?????

Аноним 31/10/25 Птн 00:54:33 № 1403445 342

>>1403176
Я добавлю что qwen 3 235b iq2_s вполне себе хорошо пишет. Мне нравится. Я запускаю на 16vram+64ram помещается 30к контекста и batch-size 1024. В отличии от glm 4.6 в q1 там вообще ошибки и шиза. Недавно в llm вкатился не взял летом ещё комплект 64gb теперь придется две цены отдавать.

Аноним 31/10/25 Птн 00:55:59 № 1403446 343

>>1403443
Снова плодишь доброту и позитив своими высерами, скуф? Извини что задел кумира времён твоей молодости, но Перумов это отборный кал, о чем тебе скажет любой начитанный человек. Хоть той же русской классикой, а не бульварной желтухой

Аноним 31/10/25 Птн 00:56:20 № 1403447 344

>>1403445
>вполне себе хорошо пишет
Что пишет? Сколько блинчиков выйдет из литра смеси?

Аноним 31/10/25 Птн 01:09:01 № 1403453 345

>>1403447
Кто хочет скачайте и сравните с неквантированной онлайн версией и решите можно ли её использовать. Мой ответ однозначно да.

Аноним 31/10/25 Птн 01:31:36 № 1403468 346

>>1403443
>ты же не можешь быть настолько глупым и не имеющим вкуса. =D Или… можешь?
Ну, ты же можешь быть настолько зеленым и жирным? =D

Аноним 31/10/25 Птн 01:42:54 № 1403474 347

>>1403445
> iq2_s
Пиздец.

Аноним 31/10/25 Птн 01:47:13 № 1403476 348

>>1403474
Ты говоришь пиздец, но посмотри какой тут няшный первый квант >>1401763

Аноним 31/10/25 Птн 05:18:23 № 1403528 349

Отлично. Пока тред и аноны спят. Можно слопа им незаметно в модельки накидать.

Аноним 31/10/25 Птн 07:06:04 № 1403543 350

>>1403377
>Первые впечатления - несколько неожиданные. Точно не хуже, и возможно - лучше.
А контекст в обоих моделях у тебя полный или квантованный?

Аноним 31/10/25 Птн 08:28:27 № 1403562 351

>>1403528
Э бля! говорит не громче шепота Сука!

Аноним 31/10/25 Птн 10:37:39 № 1403609 352

>>1402673
Похоже ответ - не общаться в chat/completions формате. Лол в итоге просто реализовал формат чтобы модель в режиме чат комплишена отвечала.

Забавно что Qwen официальная инструкция не запрещает отвечать одновременно текстом и инструментами.

Аноним 31/10/25 Птн 11:42:11 № 1403636 353

>>1403543
Полный, в обоих случаях.

Аноним 31/10/25 Птн 11:47:25 № 1403638 354

>>1403446
Блин, ты реально не умеешь читать на русском.
Я же хотел пошутить, а попал в точку.

Прости, фанат говна, что обидел твоего Мартина. =D
Но тебе стоит принять себя и свою любовь к говну. И почитай Перумова — тебе как раз понравится, он тоже «отборный кал» пишет, как и Мартин. Как раз твой уровень, как ты сказал, «бульварной желтухи».

>>1403445
Уф, не, если ты так говоришь. Сам я не очень уверен, но могу допустить, что iq2_s что-то может.
Жаль, что он работает медленнее, чем могу бы. Таковы iq-кванты. =(

>>1403468
Только на половину — в последнем сообщении. =) То что Мартин = Перумов ето объективная реальность и никакого троллинга.
А потом да, че уж не позеленить, раз кого-то бомбануло на такой простой вещи, извини. =)

>>1403609
Чат комплишен — это тот же текст комплишен, только обертка на стороне бэкенда. Простенький формат для переписки. Сумрачные гении юзают только текст комплишен, конечно. =)

Короче, весь затык в том, что --jinja для тулз, а упрощенный чат комплишен не подразуемвает, что ты будешь тулзы ждать в чате, вместо нормальной API.

Аноним 31/10/25 Птн 11:51:28 № 1403642 355

Расскажите полному нубасу, какой инструмент нужно использовать для кодинга с агентами? Например, чтобы взять какой-нибудь квен или глм, поставить ему задачу и чтобы он там всякие тулзы вызывал, сам себя проверял и прочее. Я где-то слышал, что люди буквально ставят нейросетку на полдня и она за это время что-то сама напишет более-менее рабочее. Какие инструменты подобного типа сейчас актуальны?

Аноним 31/10/25 Птн 12:03:58 № 1403657 356

>>1403638
>Чат комплишен — это тот же текст комплишен, только обертка на стороне бэкенда. Простенький формат для переписки. Сумрачные гении юзают только текст комплишен, конечно. =)
Бля ну я то хочу скакать между моделями. А тут этот OpenAI формат сообщений удобный. Решил заточить чат под этот формат чтобы он им пользовался, а тут нате ебать. Работает через жопу везде. Притом для локальных моделей через жопу, а в OpenRouter разумеется всё замечательно.

>Короче, весь затык в том, что --jinja для тулз, а упрощенный чат комплишен не подразуемвает, что ты будешь тулзы ждать в чате, вместо нормальной API.
Лол да по итогу что то чат, что это чат. Только jinja ещё и как всегда под питон нацелено, а у меня проект на C# и там напрямую так легко не скормить этот формат.

Благо у меня в общем-то спизженный форматтер из SillyTavern где значительную часть таких нюансов можно быстренко на коленке поправить.
Правда там оно нацелено как всегда на формирование сообщений, а у меня видимо теперь ещё будет отдельно читалка сообщений, чтобы оно всевозможные форматы читать могло обратно.

>>1403642
Палкой cursor можешь потрогать, у него забавные агентные фичи есть. Но довольно мало моделей которые могут прям пол дня ебошить, пока разве что Claude 4.5 такую хуйню делал. Притом что он там делал так и не рассказали. Вообще далеко не все модели подходят для такого. У большинства моделей довольно хреново с анализом происходящего, они плохо само-коррекцией занимаются.
У тебя цель то какая?

Аноним 31/10/25 Птн 12:17:59 № 1403664 357

>>1403657
>У тебя цель то какая?
Чисто поизучать для саморазвития. Ну и есть задачка, которую хотел бы попробовать отдать на аутсорс железным мозгам

Аноним 31/10/25 Птн 12:27:43 № 1403669 358

Как вообще можно доверять ллмке в кодинге?
Типа раз всё работает то заебись?
Оно же постоянно пиздит, проще уж загуглить и получить первым выводом ответ ллм

Аноним 31/10/25 Птн 12:29:36 № 1403670 359

>>1403669
Ну ты же как то пользуешься "тупым" интеллисенсом, тут он тот же только поумнее

Аноним 31/10/25 Птн 12:49:54 № 1403688 360

>>1403642
Claude Code + https://github.com/fuergaosi233/claude-code-proxy, если юзаешь другую LLM.

Пока что лучший вариант.

Хотя, вот, Cursor 2 вышел, тоже, говорят, имба.

Ну и всякие qwen code, gemini cli, roo code, cline, continue, openhands, aide(r), че хошь, что тебе удобнее.

>>1403657
> Бля ну я то хочу скакать между моделями.
а, от оно чо, ну тогда задача становится со звездочкой, да.

> Но довольно мало моделей которые могут прям пол дня ебошить
Сейчас хочу ради интереса проверить работу Minimax-M2 (в mxfp4 кванте ггуф) в клод коде.
Пишут чат-бота простейшего, посмотрим, че он смогет. Если я не заленюсь, конечно, ждать обработки контекста.

Аноним 31/10/25 Птн 12:54:22 № 1403690 361

>>1403349
>Вот эти тесты прогони
Ты имел в виду сначала поебись со сборкой, а потом прогони...

# nccl-tests version 2.17.6 nccl-headers=22807 nccl-library=22807
# Collective test starting: all_reduce_perf
# nThread 1 nGpus 2 minBytes 8 maxBytes 134217728 step: 2(factor) warmup iters: 1 iters: 20 agg iters: 1 validation: 1 graph: 0
#
# Using devices
# Rank 0 Group 0 NVIDIA GeForce RTX 3090 Ti
# Rank 1 Group 0 NVIDIA GeForce RTX 2080 Ti
#
# out-of-place in-place
# size count type redop root time algbw busbw #wrong time algbw busbw #wrong
# (B) (elements) (us) (GB/s) (GB/s) (us) (GB/s) (GB/s)
8 2 float sum -1 7.94 0.00 0.00 0 7.84 0.00 0.00 0
16 4 float sum -1 7.78 0.00 0.00 0 7.96 0.00 0.00 0
32 8 float sum -1 8.07 0.00 0.00 0 7.73 0.00 0.00 0
64 16 float sum -1 7.86 0.01 0.01 0 7.96 0.01 0.01 0
128 32 float sum -1 8.05 0.02 0.02 0 7.99 0.02 0.02 0
256 64 float sum -1 8.15 0.03 0.03 0 7.88 0.03 0.03 0
512 128 float sum -1 8.36 0.06 0.06 0 8.20 0.06 0.06 0
1024 256 float sum -1 9.22 0.11 0.11 0 10.56 0.10 0.10 0
2048 512 float sum -1 20.96 0.10 0.10 0 20.97 0.10 0.10 0
4096 1024 float sum -1 23.72 0.17 0.17 0 22.29 0.18 0.18 0
8192 2048 float sum -1 24.82 0.33 0.33 0 24.75 0.33 0.33 0
16384 4096 float sum -1 30.41 0.54 0.54 0 30.65 0.53 0.53 0
32768 8192 float sum -1 39.54 0.83 0.83 0 40.29 0.81 0.81 0
65536 16384 float sum -1 59.52 1.10 1.10 0 59.53 1.10 1.10 0
131072 32768 float sum -1 95.54 1.37 1.37 0 98.48 1.33 1.33 0
262144 65536 float sum -1 150.83 1.74 1.74 0 154.86 1.69 1.69 0
524288 131072 float sum -1 297.05 1.76 1.76 0 282.66 1.85 1.85 0
1048576 262144 float sum -1 551.55 1.90 1.90 0 549.60 1.91 1.91 0
2097152 524288 float sum -1 1090.71 1.92 1.92 0 1080.21 1.94 1.94 0
4194304 1048576 float sum -1 2168.82 1.93 1.93 0 2141.97 1.96 1.96 0
8388608 2097152 float sum -1 4353.55 1.93 1.93 0 4293.73 1.95 1.95 0
16777216 4194304 float sum -1 8649.31 1.94 1.94 0 8505.67 1.97 1.97 0
33554432 8388608 float sum -1 16987.2 1.98 1.98 0 17124.1 1.96 1.96 0
67108864 16777216 float sum -1 34023.3 1.97 1.97 0 34205.3 1.96 1.96 0
134217728 33554432 float sum -1 67744.2 1.98 1.98 0 67864.0 1.98 1.98 0
# Out of bounds values : 0 OK
# Avg bus bandwidth : 0.950557
#
# Collective test concluded: all_reduce_perf

Еще прогонял между x16 и x1 картой, x1 и x1, там максимально 0.5 выходило. Учитывая, что тут в 4 раза больше результат, как и количество линий, то вроде согласуется все. Разве что смущает, что при снижении размера пересылаемых данных все в ноль уходит, но это наверное так и надо же?

Аноним 31/10/25 Птн 12:54:46 № 1403691 362

>>1403669
Как вообще можно доверять джуну в кодинге?
Типа раз половина кое-как работает то заебись?
Он же постоянно пиздит, проще сеньора нанять.

Ты в программировании с курсов пришел, стажер, небось?

Есть такая штука: код-ревью.
ВЕСЬ КОД СУКА В ТОМ ЧИСЛЕ ЗА МИДЛОМ И СЕНЬОРОМ должен проходить проверку его старшими (и не очень) коллегами.
В этом плане нейронка ничем не отличается. Она написала код, его от-ревьюили программисты, апрувнули коммит.

Все вопросы «как ей можно доверять?!» возникают у людей, которые никогда нормально не работали, и искренне считают, что «ну вот программист написал — и сразу в прод!»

Эй, я не говорю, что это плохо — это совершенно нормальное поведение для небольших фирм, и этот метод на 90% рабочий (а на 10% созвон по поводу упавшего прода).
Важно понимать, что джуны ошибаются не реже, чем ллм (и чаще, чем хорошие ллм). Так что, если уж ты доверяешь джуну что-то пуллить на прод — то уж с Соннет 4.5 проблем вообще нет, она давно и мидла обходит.

И это я еще не говорю про юнит-тесты, про тестеров, про весь пайплайн с тестом, пре-продом и финальной раскаткой на прод в понедельник, а не в пятницу.

Так что — никаких проблем!
Просто надо быть внимательным и все 2-3-5 раз проверять, в зависимости от твоей паранойи. И, да, это стоит денег. Безопасность. Надежность.

Аноним 31/10/25 Птн 12:56:34 № 1403693 363

>>1403690
ебаный абучан, десять тысяч лет не может запилить блять форматирование кода, зато капчу дрочит каждый удобный момент. Вот скрин

Аноним 31/10/25 Птн 13:01:23 № 1403696 364

>>1403669
Да.
Пишешь тест и прогоняешь.

Аноним 31/10/25 Птн 13:11:00 № 1403700 365

>>1403664
я бы сказал в зависимости от задачи инструменты могут очень различаться. например если хочешь чтобы оно там прям само сидело ебошило автономно то можешь https://zread.ai/sentient-agi/ROMA зрада РОМУ потрогать, или Qwen Coder, или Claude Code.

если погромировать то лучше IDE потрогай вроде курсора, или Kilo Code/Cline/OpenHands. Там много вариантом но там больше как ассистентом пользуешься который к твоей кодбазе доступ имеет и может что-то делать.

в целом больше автономность достигается тем что у модели лучше внутри менеджится контекст. идеально если там особо внутри нет никакого понятия чата даже и модель просто на самоподдуве что-то делает.

но вообще для саморазвития можешь сам что-то такое попробовать собрать. научить ЛЛМ пользоватся инструментами не сложно, сделать так чтобы оно само себе сообщения слало и бегало по кругу тоже.

>>1403688
>а, от оно чо, ну тогда задача становится со звездочкой, да.
Да( Вообще конечно я в итоге просто сделал сеты настроек так чтобы между ними можно было легко перескакивать и пихать во все места приложения где это нужно. А потом ещё сделал концепции библиотеки настроек, так чтобы оно автоматически скармливало нужные настройки нужному API

>Если я не заленюсь, конечно, ждать обработки контекста.
Вообще он конечно забавно выглядит, но жаль слишком жирный для меня. надеюсь в опенроутере дадут потрогать. Жаль не мультимодальный.

Аноним 31/10/25 Птн 13:12:09 № 1403701 366

>>1403693
Капча к слову - мем. Её квен вл который 30б мое проходит не стабильно всегда, но рейт куда выше 50%

Аноним 31/10/25 Птн 13:26:19 № 1403704 367

Кто-нибудь с DDR4 и двумя 3090 (или даже одной - тогда только третий тест) прогоните эти >>1403234 тесты, если не впадлу, сравним. Посмотрим, как оно у вас (вряд ли тут еще у кого 2080 есть, поэтому если кто-то сделает тесты, я перемерю на 3090). Пишите количество линий, частоту памяти, проц. Квант GLM-4.5-Air-UD-Q5_K_XL анслота. Возможно, вам стоит вместо "-t 7" написать "-t 7,<ваше оптимальное число потоков>" для чистоты эксперимента

>>1403701
Ждем расширения в браузер, который просит у локалки разгадать капчу

Аноним 31/10/25 Птн 13:28:01 № 1403706 368

>>1403704
Не, мне впадлу сори

Аноним 31/10/25 Птн 13:34:17 № 1403708 369

>>1403704
2080 ти 22 гб?
А сколько она стоила на минимуме?

Аноним 31/10/25 Птн 13:36:11 № 1403709 370

>>1403704
> Ждем расширения в браузер, который просит у локалки разгадать капчу
Могу зашарить рабочий POC

Аноним 31/10/25 Птн 13:38:14 № 1403710 371

>>1403709
Только он настолько ебано сделан что я вообще удивлён что он работает

Аноним 31/10/25 Птн 13:38:25 № 1403711 372

>>1403638
>То что Мартин = Перумов ето обсубъективная реальность
Исправил. Как только изобретут инструмент для измерения в точных цифрах таких вещей как чувства и эмоции - приходи с "объективностью".
А пока - оценка любого произведения - вещь субъективная, т.к. идет исключительно через восприятие оценщика, и действительно объективно, в независимых универсальных единицах измерения выражено быть не может.

Аноним 31/10/25 Птн 14:20:19 № 1403732 373

Скиньте свои конфиги для запуска мое на лламе плз. Я просто хочу в аргументах разобрать нихуя не понимаю. Ыааа бля

Аноним 31/10/25 Птн 14:40:00 № 1403761 374

>>1403696
А потом оказывается, что код дыряв как сучка, и на проде на сервере майнят битховены вместо обслуживания клиентов.

Аноним 31/10/25 Птн 14:45:24 № 1403772 375

>>1403709
давай

Аноним 31/10/25 Птн 14:47:28 № 1403778 376

>>1403403
> спасение галактики на вторую сотню тысяч токенов
Лонг джорни со спасением пост-апокалиптического мира от отложенных обменов ударами вместе с генно-модифицированной девочкой по мотивам артов yihan, плавно переходящее в кум глубокое погружение в сложившийся затягивающий мрачный сеттинг зимних (полу) пустошей, с вялотекущей грызней фракций, многоходовочками, и прочим слайсо-экшоном на третий миллион токенов.
>>1403528
RRRreeeeeeeee
>>1403642
Qwen-code, исправленные jinja шаблоны что работают с жорой для квенов и жлмов еще в треде, или потом напомни если не найдешь. Буквально сделай хорошо@sirYESsir.

Аноним 31/10/25 Птн 15:05:07 № 1403798 377

>>1400555 (OP)
>Отец и мать всех инструментов, позволяющий гонять GGML и GGUF форматы: https://github.com/ggml-org/llama.cpp
Да как этой хуетой пользовать вообще? Надо под каждую модель батник писать? И чего в нем писать?

Аноним 31/10/25 Птн 15:05:59 № 1403799 378

>>1403798
Доку прочитать ещё можно, но способ не популярный судя по всему

Аноним 31/10/25 Птн 15:14:46 № 1403801 379

>>1403772
Начеркал на почту двача. Если за пару дней ничего не ответят (планируют или нет они решать вопрос с бесполезной капчей) то выложу и капча солвер и сорсы нейродвачера из бе. По расценкам опенроутера выходит 1000 капч за 30 центов

Аноним 31/10/25 Птн 15:15:24 № 1403802 380

>>1403798
А кто заставляет? Пользуйся другими, более простыми инструментами. Или вообще не пользуйся. Как-то до недавнего времени без нейросеток дожил, пока что ничего радикально не поменялось, внезапной смерти не наступит.

Аноним 31/10/25 Птн 15:16:32 № 1403805 381

>>1403801
Напиздел там же 3 раунда так что 90 центов

Аноним 31/10/25 Птн 15:18:16 № 1403806 382

>>1403801
>бесполезной капчей
Что значит бесполезной? Она нужна для того чтобы гои покупали пасскод за 2к. В этом плане она очень полезна

Аноним 31/10/25 Птн 15:18:51 № 1403807 383

>>1403801
>1000 капч за 30 центов
https://habr.com/ru/sandbox/227192/
>ruCaptcha
>Стоимость: от $0,3 за 1000 решений
Прямо как у самых дешёвых мясных. И это в прошлом году, с тех пор могла быть инфляция.

Аноним 31/10/25 Птн 15:20:36 № 1403808 384

>>1403807
Тут дело в тонкостях. Можно купить (было) пару ми50 по 12к и платить только за электричество. Купить индуса и платить ему едой выйдет подороже

Аноним 31/10/25 Птн 15:29:53 № 1403814 385

>>1403802
>>1403799
Гейткипите да? Закрытый клуб да? Ну так вот вам послание от моего закрытого гейткип клуба с высоким iq пососите хуй и яички

Аноним 31/10/25 Птн 15:33:35 № 1403817 386

>>1403814
Скажи на чистоту. Что ты хотел получить в ответ? Ссылку на документ который лежит в том же репо или его пересказ?
Если у тебя какой то СЛОЖНЫЙ вопрос который НЕ раскуривается с пол пинка, то на него ответят

Аноним 31/10/25 Птн 15:36:03 № 1403818 387

>>1403817
Пример батника чтобы я мог понять какие из 300 флагов обязательные, а какие не нужны, не обязательны или вообще уже как три года не работают.
Тысяча извинений за слишком простой вопрос.

Аноним 31/10/25 Птн 15:39:51 № 1403821 388

>>1403818
https://github.com/ggml-org/llama.cpp/tree/master/tools/server#quick-start

Аноним 31/10/25 Птн 15:47:52 № 1403831 389

>>1403814
База.
Есть обертка в виде кобольда.

Аноним 31/10/25 Птн 15:53:51 № 1403838 390

image.png 16Кб, 1106x256

>>1403821
И Все дальше уже докер. Блядь анон то фалги то какие?

>>1403831
Да ладно уж скачал буду разбираться

Аноним 31/10/25 Птн 15:54:36 № 1403840 391

>>1403814
>Гейткипите
Какой вопрос, такой ответ.
>Да как этой хуетой пользовать вообще?
Скорее всего, вопрос риторический, подразумевается черезмерная для тебя сложность, на что я и ответил, предложил посмотреть альтернативные решения, которые тебе могут быть более удобны. Прямым ответом при буквальной трактовке вопроса будет ссылка на документацию.
>Надо под каждую модель батник писать?
Можно. Можно один универсальный подо все. Можно не батник. Можно не писать. Варианты разные есть.
>И чего в нем писать?
Опять rtfm. Если ты ждёшь, чтобы кто-то написал за тебя, ты должен хотя бы указать полный конфиг системы (модели cpu и gpu, объём ram, vram, ОС, сколько потребляют ресурсов запущенные параллельно с llama.cpp программы), желаемую модель и метод сжатия (опционально). И это только минимальная необходимая информация, ещё не факт, что кто-то захочет за тебя писать.

Аноним 31/10/25 Птн 15:57:02 № 1403844 392

>>1403838
> фалги то какие?
Услуги экстрасенса 20к/час
Отсос согласуется отдельно

Аноним 31/10/25 Птн 16:01:23 № 1403850 393

>>1403838
>фалги то какие
В документации всё перечислено - все флаги, какой что делает, какие значения по умолчанию. Ты хочешь, чтобы тебе пересказывали то же самое, что там уже написано? "Вот это - для этого, вот то - для того." - так что ли? Мы понятия не имеем, что у тебя за система и что ты планируешь запускать, с этого надо начать, если ты хочешь хоть каких-то конкретных советов.

Я в своё время просто выполнил в консольке llama-server --help, прошёлся от начала и до конца по всем параметрам, по каждому принял решение, оставить ли по умолчанию или указать что-то своё, сохранил в батник. На самом деле не батник, но это не принципиально в данном случае. И у меня всё получилось, всё заработало. Чудеса какие!

Аноним 31/10/25 Птн 16:01:30 № 1403851 394

>>1403840
>>1403844
Господи блядь анон мне просто отправная точка нужна была. Скинул бы свой батник если есть, похер к какому сетапу чтобы я хоть общий шаблон понял, я не прошу мне жопу вытирать. Дальше я разберусь.
Признаю вопрос можно было поставить более ясно.

Аноним 31/10/25 Птн 16:02:12 № 1403852 395

>>1403851
Я на кубернетисе сижу, тебе не поможет

Аноним 31/10/25 Птн 16:02:27 № 1403853 396

>>1403806
>Она нужна для того чтобы гои покупали пасскод за 2к.
Покупал за 100 рублей, когда можно было купить напрямую, но я не ебанутый, чтобы покупать в подментованном телеграме, ещё и за 2к.
Абу пидорас возвращай нормальную цену и оплату.

Аноним 31/10/25 Птн 16:04:07 № 1403854 397

>>1403853
К слову основная причина почему меня сподвигло почелленджить тему + в дэ увидел что срочная смена капчи была

Аноним 31/10/25 Птн 16:05:20 № 1403855 398

>>1403806
>>1403853
Он реально 2к ща стоит? Кек блядь. Я жаль туповат для того чтобы капча солвер писать но это неуважение.

Аноним 31/10/25 Птн 16:07:32 № 1403857 399

>>1403855
На год 3к
Можешь анлим взять за 10к который забанят

Аноним 31/10/25 Птн 16:14:36 № 1403864 400

>>1403798
>под каждую модель батник писать
Дыа

>чего в нем писать
Ну к примеру для запуска MOE
start "" /High /B /Wait llama-server.exe ^
-m "путь к модели" ^
-ngl 99 ^ -
-c xxxx^
-t xx ^
-fa --prio-batch 2 -ub 2048 -b 2048 ^
--n-cpu-moe XX^ -
--no-context-shift ^
--no-mmap

Аноним 31/10/25 Птн 16:19:10 № 1403871 401

>>1403864
Ты друг Христа.
А зачем ^ и - на концах?

Аноним 31/10/25 Птн 16:29:10 № 1403883 402

>>1403690
>>1403693
Как-то грустновато, даже для чипсетных линий. Но и совсем криминала нет, такую просадку процессинга оно не объясняет.
Между первым и вторым вариантом раскидывания тут >>1403234 слишком большая разница. Учитывая батчи по 2048 токенов, в первом случае полный обсчет такого займет ~12 секунд (по 0.27с на блок), во втором 22с. Отличием в раскидке одного блока можно пренебречь и говорить, что единственная разница между ними - пересыл активаций между атеншном на первой карте и экспертами на второй в 14 блоках. То есть 28 пересылов у тебя занимают почти 10 секунд, почти 350мс на пересыл, слишком много. И это не учитывая более быстрый расчет на более мощной карте.
Правда если ты тестировал pp512 то ни о каком батче 2048 не может идти и речи. Считая для 512 будет по 86мс/пересыл что уже ближе, но (учитывая размер тензоров для эйра) в 10 раз больше чем должно быть согласно тому тесту.
Перемерь с обработкой большого контекста, проверь чтобы больше ничего другого не гадило.
> сначала поебись со сборкой
База же

Аноним 31/10/25 Птн 16:31:13 № 1403886 403

>>1403855
>>1403857
Ладно бы только цена, обязательный бинд на акк в телеге не ок вообще.

Аноним 31/10/25 Птн 17:10:47 № 1403922 404

>>1403871
А зачем ^ и - на концах? - это всё одна строка.

Аноним 31/10/25 Птн 17:57:29 № 1403949 405

>>1403886
а как товарищу майору вычислять мыслепреступления? регайся на сосаче через телегу заебал

Аноним 31/10/25 Птн 17:58:14 № 1403952 406

>>1403642
Пробовал Cline + JetBrain и KiloCode + JetBrain
KiloCode получше - встроенные инструменты редактирования и чтения фалов умеют в точечное редактирование + есть инструмент векторной индексации/поиска. Контекст это хорошо экономит.
Но может в Cline что-то изменилось за месяцев.
Инфиренс - жора . Формат общения OpenAI compatible либо LM Studio прикинуться с бубнами.
Очевидный рейтинг моделей по способности к кодингу: мелкая гопота < Qwen3-Coder < большая гопота < Air

У гопоты еще есть нюанс совместимости формата чата/вызова инструментов. Жору нужно запускать с
--reasoning_format auto --grammar-file cline.gbnf . cline.gbnf - гуглится.

Аноним 31/10/25 Птн 18:56:31 № 1404006 407

>>1403871
это экранирование в кмд, товарищ школьник

Аноним 31/10/25 Птн 19:03:22 № 1404009 408

>>1404006
Тебя спросить забыли, жухлый

Аноним 31/10/25 Птн 19:58:42 № 1404025 409

>>1404009
Заплачь, чмоня

Аноним 31/10/25 Птн 20:08:31 № 1404039 410

>>1404025
Не я плачу когда вижу свою плешь в зеркале

Аноним 31/10/25 Птн 20:23:54 № 1404051 411

>>1403708
36к

>>1403883
Да, это была ошибка мерить на столь малом пп, взял пп 6000 (пришлось чуть поубирать лишнее с карт, чтобы поместилось)
В итоге первым способом 456.93 ± 0.73
Вторым (с регекспами) 148.01 ± 0.03
Вторым совсем плохо выходит

Аноним 31/10/25 Птн 20:40:54 № 1404056 412

>>1404051
Разница по скорости огромная, а в расчете лишь 14 (или меньше) блоков разделены по разным карточкам, причем все кроме линейных слоев сидит на более мощной карте. Это наоборот должно ускорять, также как у других.
Тут или какой-то прикол с огромной задержкой на чипсетных линиях, или подмешан баг иного характера, оче странно. Жора стандартный, без модификаций и улучшалок от болгарина?

Аноним 31/10/25 Птн 20:53:20 № 1404067 413

>>1404056
>Тут или какой-то прикол с огромной задержкой на чипсетных линиях
АМД, да?

Аноним 31/10/25 Птн 20:56:18 № 1404070 414

>>1403853
>покупать в подментованном телеграме
Ну телегу блочить начинают. Так что не беспокойся, сменят на получение через макс. Или ещё какой-нибудь там-там.

Аноним 31/10/25 Птн 20:57:44 № 1404071 415

>>1404067
Все может быть, но врядли, иначе были бы массовые жалобы и даже ссд бы подыхали там... ой ладно шутеечка времен первой ряженки

Аноним 31/10/25 Птн 21:16:00 № 1404081 416

>>1404056
Ага, обычный жора трех-четырехдневной давности. Ну тут только граф вычислений смотреть или профайлить, а у меня желания нет этим заниматься. Я этот способ все равно не использую, да и все равно ничего не сделаешь, если в железе проблемы. Тем более епт, я один здесь замеряю, хватит меня газлайтить!!111 Я бросаю перчатки, измазанные навозом, в ваши наглые морды, и обновленные параметры тестов:

1. -ts "36;12" -sm layer -ub 2048 -ngl 48 -t 7 -fa 1 -mmp 0 -ncmoe 25 -p 6000 -n 0 -r 2
2. -ts "48;0" -sm layer -ub 2048 -ngl 48 -t 7 -fa 1 -mmp 0 -ot 'blk\.([0-9]||1[0-9]|2[0-4])\.ffn_(up|down|gate)_exps=CPU;blk\.(3[4-9]|4[0-8])\.ffn_(up|down|gate)_exps=CUDA1' -p 6000 -n 0 -r 2

Кто с двумя 3090 и зассыт прогнать бенч - тот лох и трус по жизни. А третий можно погнать даже имея одну:

3. -ts "48" -sm layer -ub 2048 -ngl 48 -t 7 -fa 1 -mmp 0 -ncmoe 37 -p 6000 -n 0 -r 2

GLM-4.5-Air-UD-Q5_K_XL, жду результатов сегодня к полуночи. Замеряйте даже на DDR5 и других 20+гб картах, похуй, посмотрим в относительных цифрах. Использовать llama-bench, а не llama-server.

Аноним 31/10/25 Птн 21:22:19 № 1404084 417

>>1404081
Ну звезды как обычно проебались, хули сделаешь с абу

2. -ts "48;0" -sm layer -ub 2048 -ngl 48 -t 7 -fa 1 -mmp 0 -ot 'blk\.([0-9]||1[0-9]|2[0-4])\.ffn_(up|down|gate)_exps⭐=CPU;blk\.(3[4-9]|4[0-8])\.ffn_(up|down|gate)_exps⭐=CUDA1' -p 6000 -n 0 -r 2

Аноним 31/10/25 Птн 21:52:12 № 1404111 418

>>1404081
Да все ленивые жопы. На паре 4090 с подобной выгрузкой в квене разница ничтожная, второй случай на капельку быстрее по процессингу но также медленее по генерации. Но выгружал регэкспами, тут остается только поискать духов буквально используя твою команду (скорректировав цифры) в надежде что она даст иной эффект. Совсем чудеса, но для успокоения совмести потом сделаю.

Аноним 31/10/25 Птн 21:58:41 № 1404117 419

>>1404111
Так в том то и цимес, что ничего не надо корректировать, пихай as is. Но кажется, что в 64 гб рам 3 тест может не влезть (но это не точно). Если у вас не лезет, то 4 xl квант берите, я потом скачаю и перемерю, похуй, что не под крышечку будет забито. Только параметры теста не меняйте, иначе чистота эксперимента пропадет (разве что потоки можно как я тут >>1403704 написал).

Аноним 31/10/25 Птн 22:00:58 № 1404121 420

>>1404117
> пихай as is
Потребуется качать тот квант эйра. Тут проблема противоположной природы, так сказать.

Аноним 31/10/25 Птн 22:05:04 № 1404124 421

Эйр параша. Вам норм жрать слоп, паттерны и высер 12б лоботомита? Ну так интересуюсь прост

Аноним 31/10/25 Птн 22:05:55 № 1404125 422

>>1404121
У меня, тьфу-тьфу, никаких проблем нет с закачкой, хотя ростелеком. Юга что ли кошмарят только?

Аноним 31/10/25 Птн 22:10:17 № 1404130 423

>>1404125
Лол, нет, с этим все ок, просто такого нету и лень качать. На десктопе нашел q4 эйра, попозже и его чекну.

Аноним 31/10/25 Птн 22:22:21 № 1404145 424

>>1404124
Привет, зеленый. Жирок растряси, и обнови методичку - может кто и поведется. А так закидывать уже месяца три неактуально. :)

Аноним 31/10/25 Птн 22:24:08 № 1404148 425

>>1404145
Методичку? Слопоеды настолько наелись что кукуха поехала? Это правда вопрос. Не я один так думаю так то, один из тредовиков тоже писал про слоп и паттерны. Или мы вместе работаем ?

Аноним 31/10/25 Птн 22:24:11 № 1404149 426

>>1404084
через гринтекст не проёбывается форматирование вроде как

Аноним 31/10/25 Птн 22:25:59 № 1404152 427

>>1404130
Лень ему, я с этими ллм объемы до 100 Гб вообще перестал считать за что-то весомое, хотя раньше раздачи фильмов или анимца в бдремуксе за 100 Гб было огогоебатьнихуясебенебудукачать. А тут всего лишь 83 гб, фи

>>1404149
Так зеленым назовут...

Аноним 31/10/25 Птн 22:39:17 № 1404166 428

>>1404148
Уважаю за настойчивость. :)
Но ты малость опоздал.

Аноним 31/10/25 Птн 22:42:04 № 1404170 429

>>1404166
Всё говно и слоп уже проглотили? Ну вот...

Аноним 31/10/25 Птн 22:49:40 № 1404179 430

>>1404152
> всего лишь 83 гб
Целых 83 гига бесполезных данных, которые будут занимать место на диске (особенно обидно если забудешь удалить), так еще и с пол часа качать забивая полностью канал.

Аноним 31/10/25 Птн 23:21:16 № 1404190 431

Talemate обновилась: https://github.com/vegu-ai/talemate/releases/tag/0.33.0
Пока ничего непонятно, но очень интересно...

Аноним 31/10/25 Птн 23:43:02 № 1404193 432

>>1404148
Только нюня писал. Он шизик, ты тоже