/ai/ - Локальные языковые модели (LLM): Gemma, Qwen, GLM и прочие №243

Локальные языковые модели (LLM): Gemma, Qwen, GLM и прочие №243 /llama/ Аноним 19/06/26 Птн 19:52:46 № 1636327 1

Карта деградаци[...].png 153Кб, 1473x830

Реальная длина [...].png 533Кб, 2340x1714

177602872902419[...].jpg 3331Кб, 1956x3969

В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!

Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.

Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.github.io/wiki/llama/
Гайд для новичков: https://rentry.org/2ch-llama-inference

Инструменты для запуска на десктопах:
• llamacpp - отец и мать всех инструментов, позволяющий гонять GGML и GGUF форматы: https://github.com/ggml-org/llama.cpp
• koboldcpp - самый простой в использовании и установке форк llamacpp: https://github.com/LostRuins/koboldcpp
• TextGen (в девичестве text-generation-webui) - если необходимы другие форматы и больше контроля: https://github.com/oobabooga/textgen
• TabbyAPI - заточенный под Exllama (V2 и V3) и в консоли: https://github.com/theroyallab/tabbyAPI
• Однокнопочные инструменты на базе llamacpp с ограниченными возможностями: https://github.com/ollama/ollama, https://lmstudio.ai

Универсальные десктопные фронтенды:
• SillyTavern - всеядное, сопрягается почти со всем, имеет большую коллекцию расширений: https://github.com/SillyTavern/SillyTavern
• Marinara Engine - вариация на тему таверны, больше возможностей из коробки: https://github.com/Pasta-Devs/Marinara-Engine
• Risuai - еще одна вариация, на этот раз в профиль, излишеств по минимуму: https://github.com/kwaroran/RisuAI

Инструменты для запуска на мобилках:
• Maid - интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• ChatterUI - альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://web.archive.org/web/20241201232031/https://rentry.co/STAI-Termux

Поставщики локальных моделей:
• Hugging Face - платформа куда загружается всё и во всех форматах: https://huggingface.co/models
• Проверенные квантоделы: https://huggingface.co/bartowski, https://huggingface.co/mradermacher, https://huggingface.co/unsloth

Рейтинги и списки локальных моделей:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/2ch_llm_moe_2026
• Неактуальные списки моделей в архивных целях: 2025: https://rentry.co/2ch_llm_2025 (версия для бомжей: https://rentry.co/z4nr8ztd ), 2024: https://rentry.co/llm-models , 2023: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по чуть менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard

Готовые карточки для таверны:
• Botbooru - текущая мета (регистрируйтесь для отображения всего спектра, и/или меняйте страну): https://botbooru.com
• Прошлая мета, откуда массово удалили карточки сомнительного содержания: https://www.characterhub.org, https://www.chub.ai

Официальные документации к инструментам:
• llamacpp: https://github.com/ggml-org/llama.cpp/blob/master/tools/server/README.md
• koboldcpp: https://github.com/LostRuins/koboldcpp/wiki
• SillyTavern: https://docs.sillytavern.app/usage/quick-start

Дополнительные ссылки:
• Перевод нейронками для таверны: https://rentry.co/magic-translation
• Пресеты под локальный ролплей в различных форматах: http://web.archive.org/web/20250222044730/https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
• Выгрузка избранных тензоров, позволяет ускорить генерацию при недостатке VRAM: https://www.reddit.com/r/LocalLLaMA/comments/1ki7tg7
• Инфа по запуску на MI50, тесты производительности и прочее: https://arkprojects.space/wiki/AMD_GFX906
• Тесты tensor_parallel: https://rentry.org/8cruvnyw

Архив тредов можно найти на архиваче: https://arhivach.vc/?tags=14780%2C14985

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.

Предыдущие треды тонут здесь:
>>1633496 (OP)
>>1630186 (OP)

Аноним 19/06/26 Птн 20:07:53 № 1636337 2

Диффузная гемма помнеш... А что если жора так тянет с коммитом потому что она реально кал?

Аноним 19/06/26 Птн 20:11:14 № 1636339 3

>>1636337
>она реально кал
Так это не новость

Аноним 19/06/26 Птн 20:14:29 № 1636341 4

Коллеги, подскажите оптимальные параметры для запуска gemma-4-26B-A4B-qat-mtp-Q4_K_XL в llama.cpp (CUDA13).
VRAM 16 Gb (RTX 4080), RAM 32 Gb. Контекст хотелось бы комфортный для кодинга.

Аноним 19/06/26 Птн 20:33:45 № 1636354 5

>>1636341
Гайд в шапке чекай. Тебе для кода нужно юзать q8

Аноним 19/06/26 Птн 20:36:56 № 1636357 6

>>1636354
Гугл говорит, что qat-q4 это почти q8 по качеству, если ты про это.

Аноним 19/06/26 Птн 20:38:26 № 1636358 7

>>1636357
Гугл мягко говоря приукрашивают картину. Нетрудно самому проверить

Аноним 19/06/26 Птн 21:03:44 № 1636375 8

https://huggingface.co/CohereLabs/North-Mini-Code-1.0-w4a16

Мини-командир 30B-A3B вышел для кодинга.

Аноним 19/06/26 Птн 21:21:56 № 1636383 9

>>1636103 →
Думаю. Думаю, что ты просто слепой или ленивый чтобы поглядеть. Вот хотя бы: https://huggingface.co/ReadyArt/Melody1437-27B-v0.3-GGUF

И там еще несколько, только у него.

Аноним 19/06/26 Птн 21:28:32 № 1636390 10

>>1636375
Спасибо, посмотрю его, если гемма совсем уж непригодной окажется. Прост я раньше не кодил на локальных моделях, хочу проверить, насколько гиблое это дело.

Аноним 19/06/26 Птн 21:32:11 № 1636391 11

>>1636390
Я бы смотрел на квен 35B A3B на твоем месте.

Аноним 19/06/26 Птн 21:36:38 № 1636393 12

>>1636341
А чего подсказывать? Ставь контекст побольше, модель вроде нормальная. Прям сразу --ctx-size 128000.

Аноним 19/06/26 Птн 21:41:04 № 1636395 13

>>1636391
Недавно пробовал эту модель вместе с picoclaw. Вроде нормально, но я поставил весьма специфичную задачу, при каждом неудачном запуске програмы модель её редактировала и пыталась внутри одного файла сделать жалкое подобие версионирования, из-за чего уходила мягко говоря не туда. Зато потом возвращалась назад. Что именно за задача - говорить не буду.

Аноним 19/06/26 Птн 21:42:10 № 1636396 14

>>1636390
Говорят, гемма отлично справляется с задачей кодинга с помощью локальных моделей.

Аноним 19/06/26 Птн 21:44:29 № 1636397 15

Понимаю что тред о локальных, но мне слегка надоело мириться с ограничениями своего железа. Куда можно относительно выгодно закинуть шекели (за модели хотя бы 70+) и не присесть на бутылку за сомнительный РП?

Аноним 19/06/26 Птн 21:45:08 № 1636398 16

>>1636375
Ну такое себе.

Аноним 19/06/26 Птн 21:48:49 № 1636400 17

>>1636397
Вроде nvidia бесплатно хостит небольшие модели типа gpt-oss, gemma4, nemotron3 (120B).

Аноним 19/06/26 Птн 21:53:09 № 1636402 18

>>1636327 (OP)
Ананасы, посоветуйте годный ассистент для локальной LLM

Аноним 19/06/26 Птн 21:53:20 № 1636403 19

>>1636400
https://build.nvidia.com/models
Если я всё правильно понял, у них есть даже бесплатный api для kimi2.6, а это модель-триллионник.

Аноним 19/06/26 Птн 21:59:23 № 1636407 20

>>1636402
Их много. Надо на потребности ориентироваться. Чисто для кодинга - opencode, qwencode (из того, что пробовал), универсальные ассистенты - openclaw, ironclaw (типа безопасный), picoclaw (лёгкий, таких несколько), hermes (не понял прикола), odyssey или что-то типа того (но тут я тоже не до конца понял различие, вроде как одиссей работает только во время взаимодействия с пользователем, а openclaw - постоянно). Но вообще есть отдельный тред на эту тему.

Аноним 19/06/26 Птн 22:00:31 № 1636408 21

>>1636400
>>1636403
> (120B).
Звучит классно. Спасибо. Но что касательно набутыливания за всякие непотребности? Меня гемини уверяет что условному оперрутеру вообще похуй и можно творить всякую содомию, но сомневаюсь как-то.

Аноним 19/06/26 Птн 22:07:05 № 1636413 22

>>1636408
Миноров и non-cons не трогай и все будет норм.
Но зачем оно тогда надо?

Аноним 19/06/26 Птн 22:07:34 № 1636414 23

>>1636393
Я ставил 65536, постоянно вылетает, сука такая..
Запускал так:
llama.cpp\llama-server.exe ^
--model gemma-4-26B-A4B-qat-mtp-Q4_K_XL\gemma-4-26B-A4B-it-qat-UD-Q4_K_XL.gguf ^
--model-draft gemma-4-26B-A4B-qat-mtp-Q4_K_XL\mtp-gemma-4-26B-A4B-it.gguf ^
--spec-type draft-mtp ^
--spec-draft-n-max 2 ^
--ctx-size 65536 ^
--cache-type-k q8_0 ^
--cache-type-v q8_0 ^
--parallel 1 ^
--temp 1.0 ^
--top-p 0.95 ^
--top-k 64 ^
--batch-size 512 ^
--threads 10 ^
--n-cpu-moe 30 ^
--flash-attn on ^
--reasoning on

Несмотря на частый отвал мозга, она уже собралась деплоить..

Аноним 19/06/26 Птн 22:38:57 № 1636427 24

>>1636341
Гемму в кодинге лучше использовать как чат. Ее как будто сбивает с толку большой промпт и обилие инструментов во всяких harness. По крайней мере в opencode у меня с ней такой опыт, может быть в pi будет получше.

Аноним 19/06/26 Птн 23:12:31 № 1636441 25

>>1636427
>Гемму в кодинге лучше использовать как
онахол, пока квен пишет код

Аноним 19/06/26 Птн 23:20:00 № 1636447 26

>>1636441
Проиграл. Все так.

Аноним 19/06/26 Птн 23:23:50 № 1636450 27

>>1636427
>Ее как будто сбивает с толку большой промпт и обилие инструментов во всяких harness. По крайней мере в opencode у меня с ней такой опыт
Я в opencode и гоняю, пока вполне уверенно ведет, только инференс постоянно падает, сука..

Аноним 19/06/26 Птн 23:59:17 № 1636462 28

>>1636441
Ох содомит, но абсолютнейшая база.

Аноним 20/06/26 Суб 00:51:09 № 1636493 29

>>1636414
Что у тебя там может вылетать? Модель весит 14-15гб. Я запускаю qat гемму 26б на 16гб и 6 врам 32к контекста. У ТЕБЯ 16 ВРАМ и 32 РАМА, ЧТО С ТОБОЙ НЕ ТАК?! ХУЛИ У ТЕБЯ НЕ ГРУЗИТ
>--threads 10 ^
В зависимости от твоего процессора. Если у тебя 6\12 проц, то всегда лучше ставить 5-6 ядер в лламе. Оно в итоге всегда лучше выйдет по токенам, так как потоки она хуево заставляет работать.
>--n-cpu-moe 30 ^
... Просто -ngl напиши и поиграй с цифрами, поставь там не знаю 19 или 22, так чтобы у тебя врам забилась, но ее хватало для того, чтобы еще и контекст взять в себя без свопа. Или тебе усралось врам не использовать? Если так то в любом случае это будет медленее, чем с врам.

Аноним 20/06/26 Суб 01:33:36 № 1636513 30

>>1636493
Проц 13600k - это 14 ядер и 20 потоков. Видел рекомендации, что для MoE ставить >10 только замедляет. VRAM используется на 97%, там даже браузер не запускается без последствий. Алсо, MTP тоже память жрет, верно?

Аноним 20/06/26 Суб 01:43:01 № 1636514 31

>>1636513
А озу сколько у тебя занято? Вот у меня гемма 4 квант 32к контекста. MTP я крутил, как q8 так и q4, у меня всегда на лламе уходило под 500мб, а в кобольлде под 1гиг врама. Что собственна уводило у меня чуть в оффлоад, но я получал какую-то хоть прибавку. Но страшно лагало, нужно было дожидаться пока своп пройдет и только тогда браузер продолжал работать.
>VRAM используется на 97%
Поменьше можешь поставить слоев, уменьшай на 1. Если тебе это конечно тяготит ну и может в скорости отразиться, главное чтобы shared memory не было у гпу

Аноним 20/06/26 Суб 01:54:17 № 1636523 32

>>1636341
llama-server.exe ^
-m "%MODEL_PATH%" ^
--fit-ctx 131072 ^
--fit on ^
--fit-target 1024 ^
--cache-type-k q8_0 ^
--cache-type-v q8_0 ^
--flash-attn on ^
--threads 6 ^
--mmproj-offload ^
--no-mmap ^
--temp 0.6 ^
--top-k 20 ^
--top-p 0.95 ^
--min-p 0 ^
--presence-penalty 0.0 ^
--repeat-penalty 1.0 ^
--jinja ^
--spec-type draft-mtp ^
--model-draft "%MODEL_DRAFT%" ^
--spec-draft-n-max 4 ^
--reasoning off ^
--host 0.0.0.0 ^
--port 1234

pause

Аноним 20/06/26 Суб 01:59:07 № 1636527 33

>>1636402
Для красноглазиков - Pi, oh-my-pi
Для кодеров - opencode + oh-my-openagent( жирный system prompt ) / oh-my-opancode-slim ( prompt легче). Я пока сам не понял как пизже, но уже пару задач закрыл и с тем, и с другим.

Аноним 20/06/26 Суб 02:01:05 № 1636528 34

>>1636513
> VRAM используется на 97%
Там 4 или 6 гигов чтоли? тогда на помойку карточку. Если ноут то поищи egpu и пихни какую-нибудь 3090.
Проблема в том, что у тебя банально не хватает видеопамяти на контекст. Можно выкидывать на проц слои итеншна, указывая ngl - там совсем крохи освободятся и получишь резкое замедление. Можно попытаться сильнее квантовать контекст - замедлится и лоботомируется.
> MTP тоже память жрет
Да, можно начать с отключения.

Аноним 20/06/26 Суб 02:01:42 № 1636529 35

>>1636427
Мне gemma постоянно пишет что у неё нет доступа ни куда, и типа она ваще чат. Приходится её переубеждать чтобы она сохранила данные в файл

Аноним 20/06/26 Суб 02:55:39 № 1636538 36

По каким критериям следует искать кастомы геммы 4?
Перепробовано с десяток уже,и все они отбитые нахуй,такова цена свободы чтоль?

Аноним 20/06/26 Суб 03:04:09 № 1636540 37

Или HF как сайт говно?

Аноним 20/06/26 Суб 03:06:43 № 1636541 38

>>1636538
Ты неправильно ищешь, надо искать так
unsloth/Qwen3.6-35B-A3B-MTP-GGUF
или
unsloth/Qwen3.6-27B-MTP-GGUF

Аноним 20/06/26 Суб 03:07:42 № 1636542 39

>>1636540
Мне нравится

Аноним 20/06/26 Суб 03:10:49 № 1636545 40

>>1636541
Квен не умеет в рп,ломает структуру рп,повторяется и плохо говорит по русски,хотя когда последнее мешало куму?вхвхв

Аноним 20/06/26 Суб 03:11:29 № 1636546 41

>>1636523
Хуя ты дядя.

Квантовать контекст на и без того уже лоботомитной модели с легчайшим контекстом, ещё и используя МТР, который не работает с квантованием нормально! Просто гений.

Аноним 20/06/26 Суб 03:15:11 № 1636547 42

Как на HF искать MoE-модели?как они обозначаются?не вижу в топах нигде ни одной,хотя вроде как эта технология же упрощает запуск больших моделей локально

Аноним 20/06/26 Суб 03:19:49 № 1636549 43

>>1636546
У лоботомии модели и кванта кэша нет прямой корреляции.
>легчайшим контекстом
Цель чтобы модель и контекст помещались в видеопамять.
>используя МТР
Увеличивает скорость. Да ошибок будет больше но не сильно критично в определённых сценариях.

Читал статью что Gemma очень чувствительна к квантованию, что-то в 10 раз сильнее чем Qwen. Так что выбор очевиден.

Аноним 20/06/26 Суб 05:56:09 № 1636561 44

>>1636547
Нюфаня?
>Как на HF искать MoE-модели?
У мое моделей есть индекс после их веса, аля 35б, 12б, 27б. Б это миллиарды параметров, прямой показатель сколько знает модель. И после параметров идут сокровенные буковки. А3B, AxB. Где A - active Цифра - количество Б - параметров. Грубо говоря у тебя есть dense модель, плотная, при генерации у тебя воздействуются все слои. А мое меняет эту систему, где на тех же весах, к примеру 30б параметров, для каждого конкретного слова (токена) активирууется не вся сетка 30б, а только ее активные параметры. Как раз, что и пишется в моделях 30б-а3б.

>Как на HF искать MoE-модели?
Офк тебя будут интересовать только гемма4 26б-а4б и квен 35б-а3б все больше ничего нет для обычного рига 16-32 гб озу

Аноним 20/06/26 Суб 06:02:07 № 1636563 45

>>1636561
пусть господь хранит твой дом
пиздато обьяснил
вот бы весь тред как ты
МоЕ увожение

Аноним 20/06/26 Суб 06:03:54 № 1636564 46

Как настроить гемму чтобы не отказывала но и не становилась конченной шлюхой?

Аноним 20/06/26 Суб 06:05:12 № 1636565 47

>>1636561
>а только ее активные параметры.
будь добр а поясни,что происходит тогда с пассивными параметрами?

Аноним 20/06/26 Суб 06:28:46 № 1636568 48

>>1636441
ММПХПХППХаХАХА БЛЯТЬ, сделал мое утро.
извините

>>1636564
Промптить, но она все равно будет рано или поздно периодически скатываться юзербайас и подхалимство, тут либо свайпать либо прямо в (ooc:) дергать её и носиком тыкать что нехорошо быть шлюшкой.

Аноним 20/06/26 Суб 06:35:42 № 1636570 49

>>1636565
Они работают кластерно, по сути активные параметры взаимодействуют с пассивными параметрами задействуя их только по их необходимости, в этом и суть этой архитектуры что для неё не нужно быстрая память ВРАМ которая может хорошо работать одновременно задействуя все слои. По сути нихуя не происходит с ними, ты пишешь промпт напиши мне код, и без необходимости активный эксперт не обращается к пассивным, типа ему для написания кода не нужны будут эскперты которые отвечают к примеру за биологию и тд.

Аноним 20/06/26 Суб 06:35:47 № 1636571 50

>>1636565
Они не пропадают. Они все еще есть. Мое это Mixture of Experts, где маршрутизатор решает каким экспертам лучше передать запрос. Модель думает со скоростью маленькой модельки, но обладает знаниями большой.

Аноним 20/06/26 Суб 06:58:28 № 1636575 51

>>1636570
>>1636571
Хорошо, допустим активные параметры призывают пассивные.
а как эта система работает комплексно?
вот допустим активные параметры призвали пассивные отвечающие за вирусологию.
Затем я сменил тему на квантовую гравитацию.
активные параметры призывают знания про квантовую гравитацию.
а что происходит с знаниями о вирусологии? Они выгружаются?

Аноним 20/06/26 Суб 07:01:34 № 1636576 52

Го составим топ кастомных гемма4 моделей?
Кидайте в ответы свои любимые кастомы.
описывацте почему считаете именно их топовыми.

Аноним 20/06/26 Суб 07:02:39 № 1636577 53

Срачи не разводить!
ну пожалуйста

Аноним 20/06/26 Суб 07:07:31 № 1636578 54

>>1636575
Тебе пиздят такие же нубы, нет экспертов по каким то областям знаний внутри мое нейронки. Каждая слой такой нейросети, а их там 30-100-200 в зависимости от модели, разбит на несколько частей. Тогда как у денсе, обычной модели, каждый слой целостный.
В мое моделях есть слой-роутер, который обучается вместе с нейросетью, его задача как раз таки выбирать какие подсети активировать на слое для ответа.
И для каждого токена выбирается какой то свой слой на разных слоях.
Тоесть та же qwen3 30b a3b на расчет каждого токена с помощью слоя роутера выбирает через какую подсеть на каждом слое вести расчеты.
В сумме давая 3b активных параметров считающихся на каждом слое.
В такой мое нейросети работают все возможные комбинации подсетей для разных токенов, потому что во время обучения информация по ним размазывается равномерно и уникально.
Для того что бы не дублировать информацию в слоях еще сильнее и не раздувать модель еще больше.
Обычно считается что мое модель вмещает в себя столько же сколько и плотная модель в половину ее размера. Как раз таки потому что совсем без дублирования информации не получается.

Аноним 20/06/26 Суб 07:21:32 № 1636581 55

>>1636578
Бля, скажи проще, то есть в зависимости от токенов активируются определенные слои, и если слои уже не требуются они выгружаются или нет? Это дохуя важно в условиях ебейшего дефицита вычислительной мощности

Аноним 20/06/26 Суб 07:24:00 № 1636582 56

А то я может дохуя поговорить люблю, и из за 100500 тем словлю краш модели

Аноним 20/06/26 Суб 07:26:54 № 1636583 57

>>1636581
Анон че ты тупой такой, сказано же что активируются в один момент времени на расчет одного токена только часть каждого слоя.
Короче мое в 2 раза больше но в 10 раз быстрее чем обычная нейросеть.
В памяти для быстрого доступа должны быть все слои, но для расчетов дергается только рандомная(для тебя) часть слоев поэтому они такие быстрые.

>>1636582
У нее просто как у обычной нейросети внимание будет рассеиваться, если с темы на тему прыгать. Компуктер не сгорит.

Аноним 20/06/26 Суб 08:25:23 № 1636590 58

>>1636538
https://huggingface.co/collections/Gryphe/style-tunes

Аноним 20/06/26 Суб 10:09:45 № 1636621 59

Анон, вопрос про SillyTavern. Можно сделать так, чтобы на каждое сообщение от модельки генерировалась картинка по этому сообщению?

Аноним 20/06/26 Суб 10:17:55 № 1636625 60

>>1636571
А есть такая же схема, но полная, где не блоки, а на уровне тензоров показано? И про несколько голов внимания, и про то, куда изображение заходит, и указаны размеры каждого тензора (какой размер у тензора, какой размер у текущих активаций)

Аноним 20/06/26 Суб 10:23:40 № 1636627 61

>>1636621
Да, но тебе понадобится отдельно бэкенд по типу ComfyUI с диффузионной моделью, т.е ты просто в таверне указываешь адресс где у тебя запущен ComfyUI и таверна по запросу сформировать картинку посылает нужные тэги в comfy исходя из контекста последнего сообщения и описания внешности чара в карточке персонажа или юзера.
>>1636625
Нету.

Ты че ебанутый? Каждая модель имеет свой подход к вниманию и тд. тебе секретную документацию от корпоблядков выкрасть лично?

Аноним 20/06/26 Суб 11:25:26 № 1636646 62

>>1636545
> Квен не умеет в рп,ломает структуру рп
Что значит ломает структуру рп? Про не умеет в рп забавно слышать, когда только на нем и рпшу, контексты доходят вплоть до 80к, никаких проблем. Но на английском, да.

Аноним 20/06/26 Суб 11:26:24 № 1636647 63

>>1636538
Такова цена кривых рук, а скорее даже лени. Дефолтная Гемма 4 сделает все, что нужно, если ее верно запромптить.

Аноним 20/06/26 Суб 11:30:48 № 1636653 64

Короче, такой положняк по гемме интересный.

Это, наверное, единственная модель меньше 200b, которая знает специфические вещи, вроде того как говорит Беатрис из re: zero с её kashira и даже этой адаптацией на русский язык, стиль речи Токисаки Куруми и подобное.

В этом есть огромное преимущество, если правильно написать карточку: продублировать имена на японском языке или, что ещё лучше, написать её полностью на японском и с указанием тайтла. Карточка может быть достаточно небольшая, и при этом отыгрыш в сто раз лучше. А Saya no Uta у неё вообще охуенной получается или fate. Но это касается не только анимеблядства. Если вдруг кто-то решил, что мелкоквен или эйр отыграет ваху, сайфай или фэнтези лучше — нихуя. Потому что в датасете совсем мало инфы.

Единственный плюс всяких квенов в том, что они нормально работают с контекстом и на дистанции. При достаточном упорстве можно прописать достаточно хорошо, чтобы не было совсем уж говном.

Аноним 20/06/26 Суб 11:35:38 № 1636654 65

>>1636653
Чел, положняк по твоей гемме давно известен. Она говно и залупа из-за своего сва и годится для лоботомиточатиков на 8к контекста

Аноним 20/06/26 Суб 11:43:31 № 1636655 66

>>1636627
>Каждая модель имеет свой подход к вниманию и тд.
Я знаю. Вот почему нет qwen-4b, где прям указаны как каждый из слоёв использует?
Типа, лама это же считает. Кудаграф - это и есть то, о чём я прошу. Соответственно его просто как-то вывести нужно, а я не до конца знаю как.

Аноним 20/06/26 Суб 11:47:23 № 1636657 67

>>1636646
>Про не умеет в рп забавно слышать, когда только на нем и рпшу, контексты доходят вплоть до 80к, никаких проблем. Но на английском, да.
Мог бы и не признаваться, что ты настолько жесткий говноед. Даже озон это верх стиля по сравнению с тем, что выдает квен

Аноним 20/06/26 Суб 11:54:17 № 1636661 68

>>1636655
Навайбкодь. Впрочем... Держи https://hfviewer.com/

Аноним 20/06/26 Суб 11:56:11 № 1636662 69

>>1636657
> Мог бы и не признаваться, что ты настолько жесткий говноед
Спокуха, геммасимп. Все у меня прекрасно со стилем, что-то среднее между Глм и Мистралем, но с мозгами и вниманием к контексту Квена. У кого руки не из жопы, те разберутся как Квенчиком пользоваться, ну а такие как ты будут агрессивно попукивать при случае.

Аноним 20/06/26 Суб 11:59:08 № 1636668 70

>>1636646
>Но на английском, да.
С этого можно было начать.
>>1636653
>единственная модель меньше 200b, которая знает специфические вещи
А давайте продолжим день конченных вопросов, год назад я думал что количество параметров = знания. Но как-то в мелко-модель умудряются теперь запихнуть столько сколько раньше и в моделях 70b нельзя было представить, нет.. я типа конечно понимаю гемма это гугл, а гугл это датасет всего интернета, но что мешало бы остальным так же выгрузить интернет? Хотя так то если сравнивать гемму-квент в англюсике то разницы почти нет и вся магия просто в том самом живом руссике который собирался с рунета нулевых? мб мб..

Аноним 20/06/26 Суб 12:00:07 № 1636670 71

>>1636668
>С этого можно было начать.
Ойойой, царь во дворца потратил пять секунд на чтение. Англюсик это если чё дефолт треда, на русике играют совсем отчаявшиеся

Аноним 20/06/26 Суб 12:02:01 № 1636671 72

>>1636662
>те разберутся как Квенчиком пользоваться
>прекрасный стиль
Братан, это, боюсь, невозможно, потому что одна-единственная прочитанная в жизни книжка необратимо разрушит систему. Я уже не смогу пройти по этому пути. Завидую тебе, короче.

Аноним 20/06/26 Суб 12:04:40 № 1636674 73

>>1636671
Как к такому выводу пришел? У тебя не получилось - значит непременно не получится у всех остальных?
> Я уже не смогу пройти по этому пути.
Судя по такому максималисткому мышлению, у тебя все еще впереди.

Аноним 20/06/26 Суб 12:04:55 № 1636675 74

>>1636661
А почему там в примере стоял именно 4B? Это ты сейчас сделал за 11 минут и домен поднял?
Походу действительно стоило брать не v100, а 5090.

Забавно, что схема работы штуки, которая знает сильно больше моего описывается на одном листе бумаге в сущности, ну и ещё два нужно для объяснения алгоритмов обучения.

Аноним 20/06/26 Суб 12:08:13 № 1636676 75

>>1636670
Да играй, ради бога. Англюсик это база треда, только это не отменяет тот факт что твои нейроны в мозгу были натренены на руссик при рождении и ассоциативный ряд у тебя будет всегда апеллировать именно к тому самому руссику, и по хорошему пользование англюсиком хочется ограничить на техническом уровне при чтении документаций и тд. а не пытаться не родной язык натягивать поверх глобуса каким бы ты там близким к носителю по уровню языка ни был..

Аноним 20/06/26 Суб 12:09:15 № 1636677 76

Короче, РПэшил я на гемме3 в 27 лярдах и четвёртом кванте. Ну, занимался стандартным времяпровождением скуфа-нищука.

У тут, хуяк! Увидел кОнТрАвЁрСи God of War: Laundry. И глаз у меня зацепился за одну из демагогических манипулятивных статей, которые защищают эту хуйню.

А именно за конструкцию: "It's not A, it's B."

И искра подозрений посетила мой тупой разум. А вдруг... нейрослоп это не дефект модели, а дефект корпуса текстов? А вдруг, нейрослоп и отсутствие мозгов при защите своей позиции - это лишь отражение полнейшего тупизма публичного дискурса?

То же самое с "her breath hitches". А вдруг это просто тотальное отсутствие креативности у писателей эротики?

Аноним 20/06/26 Суб 12:10:58 № 1636680 77

>>1636676
Тем временем я уже больше десяти лет смотрю англоязычный контент в оригинале без субтитров и общаюсь с ребятами из гейропки в войсе и не испытываю когнитивную нагрузку. Ладно, как скажешь, ты ж человек знающий... по жизни, но не знающий английского, фить-ха

Аноним 20/06/26 Суб 12:15:58 № 1636683 78

>>1636677
Ты бы у самой геммы и спросил бы. Она отлично знает про эту хуйню и да, она происходит из блевотных фанфиков, причем на англюсике. Просто скажи ей " Dont use `not just X, but Y`", она тебя прекрасно поймет без уточнений.

Аноним 20/06/26 Суб 12:17:08 № 1636685 79

>>1636668
>год назад я думал что количество параметров = знания. Но как-то в мелко-модель умудряются теперь запихнуть столько сколько раньше и в моделях 70b нельзя было представить, нет
Хех, я беседовал совсем недавно на эту тему с нейронкой, вот что она выдала: раньше параметры LLMок использовались неоптимально, знания были набиты недостаточно плотно. А сейчас достигли практически предела возможностей сколько знаний можно впихнуть в имеющийся размер.

Нейронка еще сказала, что именно по этой причине раньше файнтьюны не ломали русик, как в Мистрале 24b (было куда дополнительный слоп впитывать), а сейчас некуда. Кумслоп от васянов просто замещает собой то что имеется и наименее важно (то что реже активируется в её мозгах), в т.ч. русик.

И с аблитками та же история, типа сейчас невозможно просто взять и вырезать вектор отказа, потому что всё сложнее, переплетено нахуй и эти векторы не только на отказ влияют. Итог - минус русик и прочие редкие малоактивируемые знания. Нормпрезерв геммы 3 был идеален, любая аблитка геммы 4 - лоботомитище.

Не знаю насколько это верно с технической точки зрения, но звучит логично. Знающие люди, поясните, так ли оно?

Аноним 20/06/26 Суб 12:17:44 № 1636686 80

>>1636677
>тотальное отсутствие креативности у писателей эротики
А когда от писак эротики требовалась креативность? Это даже сложно назвать творческой деятельностью, сугубо подобранный кум-шаблон который всем известен с древних времен и который лучше всего действует на нейроны мозга, простой, лаконичный кум-слопик. Это тотальное отсутствие интеллекта тех пидорасов которые это отбирали в дата-сет.
>>1636680
>но не знающий английского
Дык я то знаю и точно так же общаюсь, но не для повседневных задач и всякой хуйни как ты, а сугубо по делу. Одно точно знаю, ты ты нихуя по жизни всё так и не знаешь.

Аноним 20/06/26 Суб 12:19:26 № 1636690 81

>>1636676
Слишком пространные обсуждения, ты не Толстого читаешь, а в лучшем случае бульварное чтиво, еще и сделанное текстогенератором, который нативно тренился на английском. Какой только шизы итт нет.

Аноним 20/06/26 Суб 12:21:24 № 1636693 82

>>1636686
>ты ты нихуя по жизни всё так и не знаешь.
Ладно тебе, не трясись так. Всё ок

Аноним 20/06/26 Суб 12:22:49 № 1636695 83

>>1636675
>Это ты сейчас сделал за 11 минут и домен поднял?
Конечно нет, а совпадение случайно. Ссылка на пост со средита 2-х месячной тухлости https://old.reddit.com/r/LocalLLaMA/comments/1t24y4p/
>Забавно, что схема работы штуки, которая знает сильно больше моего описывается на одном листе бумаге
Вся Вселенная описывается десятком законов и констант, куда уж там негросекам.

Аноним 20/06/26 Суб 12:23:01 № 1636696 84

>>1636683
Вот, хотел такое добавить в char note в карточке и посмотреть. Но идея сама по себе заставила обосраться.

>>1636686
>Это тотальное отсутствие интеллекта тех пидорасов которые это отбирали в дата-сет.
Ну, то есть таки дефект корпуса.

Хотя я подозреваю, что если не впихивать эротику в датасет, то модель будет только "краснеть", "задыхаться" и "не мочь". Короче всё то, чем character.ai занимался c цензурой.

Окей, возвращаюсь в область варпа между доменами Нургла и Слаанеш.

Аноним 20/06/26 Суб 12:23:46 № 1636697 85

>>1636690
Окей, пускай. Слопо-генератор он и на китайском будет слопом. Но тебе бы хотелось разговаривать на английском с кем-то близким? Ну например с мамой, другом, девушкой/женой? Не думаю, максимум бы тебе хотелось на англюсике говорить это с каким-то рандомом которого ты только встретил ради незамысловатых и коротких разговоров.

Аноним 20/06/26 Суб 12:25:25 № 1636698 86

>>1636693
Да я трясусь тебя не обидеть, а то знаю таких.
>>1636696
>будет только "краснеть", "задыхаться" и "не мочь".
Душа..

Чем плох swa? Аноним 20/06/26 Суб 12:31:18 № 1636700 87

>>1636654
>залупа из-за своего сва
>>1636095 →
> но она в лучшем случае работает до тысяч 20 контекста, затем из-за swa разваливается.

Объясните пожалуйста.
Я сравнивал гвен и гемму (мое и плотные) и у меня такие размеры контекста получились:
b - битность (байтовость) кеша, =2.0 для fp16, =1.0625 для q8_0 и так далее
x - сколько раз по 100к контекста
Qwen3.6-35B-A3B MoE: (1.7+1.0xb) ГБ
Gemma4-MoE-26B: (0.5b+1.0xb) ГБ
И по плотным:
Qwen3.6-27B Dense: (4.2+3.1xb) ГБ
Gemma4-Dense-31B: (2.0b+3.7xb) ГБ

То есть у гвена есть RS-часть, которая llama_memory_recurrent: size = 4189.50 MiB ( 4 cells, 64 layers, 4 seqs 6 rs_seq), R (f32): 157.50 MiB, S (f32): 4032.00 MiB - которая постоянная добавка к памяти.
А у геммы есть то небольшое окно swa, где все слои полностью и они при q8_0 ещё и сжимаются, в отличие от RS-части: llama_kv_cache: size = 2125.00 MiB ( 5120 cells, 50 layers, 4/1 seqs), K (q8_0): 1062.50 MiB, V (q8_0): 1062.50 MiB

То есть размеры кеша очень близки, у геммы есть постоянная часть на 5120 токенов полного кеша по всем условным 30 слоям, и есть лёгкий кеш который уже по всему размеру, но представлен только на 5 слоях, что позволяет достичь некоторой связности — итого сплошной короткий блок + полосочки, которые по отдельным слоям идут на весь кеш.
А Гвена же есть RS-часть рекуррентная (судя по названию), которая не зависит от длины контекста, и есть обычный лёгкий контекст по всем слоям — итого рекуррентный блок + размазанный тонким слоем кеш по всем слоям.

А в чём разница? Почему честные значения но только по части слоёв как в гемме это не ок, а рекуррентная часть в которой всё затухает на расстоянии + тонкий кеш это ок? Чем по 2 байта на каждый слой в кеше лучше, чем 2 байта, но только на 5 слоёв из 25?

---

Я ещё воды налью:
Про рекуррентную часть и плотную часть кеша геммы всё ясно, это вот текущий ответ в рамках 1-2 сообщений, чтобы там токены ризонинга учесть. Но вот на большой дистанции всю информацию запоминать скорее всего не нужно, и концепция что запоминание идёт по отдельным слоям вроде как ок. Оно конечно не так работает, и данные хранятся не в отдельных слоях, а в отдельных срезах слоёв, скорее - но математически не очень ясно чем тонкий слой по всем слоям лучше толстого слоя по выделенным. Функцию можно и как нормальное уравнение записать, и как в фурье-преобразовании - математически разница не то что бы большая, с чем удобнее, с тем и работаешь.

Аноним 20/06/26 Суб 12:32:41 № 1636701 88

17590031317960.webm 2718Кб, 128x128, 00:01:02

>>1636696
> "краснеть", "задыхаться" и "не мочь"

Аноним 20/06/26 Суб 12:33:37 № 1636702 89

>>1636676
>только это не отменяет тот факт что твои нейроны в мозгу были натренены на руссик при рождении
Не при рождении, а в период формирования. Чё-то-там-до-трёх-лет.

И при достаточно долгом юзе английского ты начинаешь на нём думать. А некоторые концепции мыслятся на английском легче, чем на русском. Это странно, но скорее всего связано с количеством информации по концепции, что ты потреблял. К примеру, continuations у меня в башке именно continuations, а не "продолжения". Хуй знает как, но так.

Единственный минус (sic!) русского (как и любого родного языка) - тебя можно заставить его воспринимать насильно. Поэтому я так сильно не люблю русскоязычные песенки, особенно учитывая специфику российской эстрады.

мимо

Аноним 20/06/26 Суб 12:39:20 № 1636704 90

>>1636327 (OP)
Если у вас закончились оп-картинки - я могу скинуть то что у меня на стене висит.
Там всего одна V100 и потому это не риг - но крепление подготовлено под две V100, а место есть под 4 - правда вместо второй модули лифта пришли, а потом я что-то задумался хочу я поставить 3090 вместо V100 или нет, или вообще 5090, и вот так до сих пор и не решил. Ненавижу ветки развития в играх, где одна ветка блокирует другую. И будет странно докупить до 2 или 4 V100 и потом их менять. И сразу 5090 я не уверен что мне нужно, если я запускаю на V100 что мне захочется и узким горлышком во всех случаях является не компьютер - а я, и будто бы быстрее мне не нужно.

Аноним 20/06/26 Суб 12:53:48 № 1636710 91

>>1636668
>>1636668

Ну да, в датасете сейчас только "нужное". Соответственно, нужно вообще всё. Что-то отрежешь — и по пизде пойдёт. А нужен сейчас только вонючий код. Даже очень хороший файнтюн превращает 27б в 12б немо почти. Наверное, сейчас возможный максимум заключается в том, чтобы чутка стиль поменять.

А у гугла, видимо, какая-то другая бизнес-модель, и не зря они поисковиком владеют, надо этим пользоваться. Все их модельки выглядят как идеальный зверёк для нормиса и ролевика, потому что там не удалена тонна литературы и кала из интернета, в результате чего даже моешная гемма знает как разговаривают персонажи из блю архива и может спавнить с карточкой на 100 токенов большинство известных девочек.

Но на этом всё, наверное.

Я специально ещё вот сейчас на лмарене потыкал по разным моделям со своими реквестами. Короче, кими 2.6 нихуя не знает, всякие квены здоровенные, никто ничего не знает, всё на уровне геммы или местами чуть выше. Лишь дипсик навалил базы.

Ёбаный мусор.

Аноним 20/06/26 Суб 12:59:51 № 1636717 92

>>1636704
Ты типа так деформировался, что теперь даже картинки только текстом описать можешь? Кидай давай, вставим.

Аноним 20/06/26 Суб 13:20:53 № 1636729 93

>>1636704
>Если у вас закончились оп-картинки
На ближайшее время хватит. Но ты кидай, запас карман не тянет.

Аноним 20/06/26 Суб 13:40:15 № 1636733 94

>>1636710
>даже моешная гемма знает как разговаривают персонажи из блю архива
И плотная 31б вообще умеет в вижен распознавать аниме-девочек лучше чем бесплатная гопота
>>1636717
>деформировался, что теперь даже картинки только текстом описать можешь

+1 болезень кумера кста

Аноним 20/06/26 Суб 14:35:40 № 1636754 95

Хах, я решил использовать новый кебаб тест для того что бы проверить как формат кеша влияет на сетку, взял всего лишь Qwen_Qwen3.5-4B-Q8_0.gguf так как она дохера быстрая, ну и проверить хотел что она выдаст. Так вот, сделал примерно по 10 круток в опенвебуи только с текстом

Write a single HTML file with a full-page canvas and no libraries. Simulate a realistic Döner Style kebab skewer rotating (vertically) in front of a gas powered heating element.

Стабильно лучшие результаты даже на малом контексте с -ctk bf16 -ctv bf16, в обычном кэше видно что хуже. Примеры не дам, это нужно заморачиваться и выбирать скриншоты которые я не делал.
Думойте

Аноним 20/06/26 Суб 14:43:28 № 1636765 96

>>1636754
>-ctk bf16 -ctv bf16
Пора на моделях с родными bf16 делать кеш по умолчанию в bf16. А то касты-рекасты-апкасты, а потом удивляемся, чего это сетки лоботомиты по 2 раза трусы спускают, but wait...

Аноним 20/06/26 Суб 14:59:01 № 1636772 97

>>1636754
> Примеры не дам, это нужно заморачиваться и выбирать скриншоты которые я не делал.
> Думойте
Подумол.
1. Это может быть wishful thinking, потому что ты для себя решил, что bf16 лучше
2. Это может быть рандом, поскольку мы не знаем насколько у тебя контролируемая среда. Мог зароллять более удачные варианты для bf16
3. Это может быть наброс в надежде, что тебе помогут наконец разобраться, что же лучше
В любом случае, никакой ценности от таких постов нет. Я сам сижу на bf16, потому что мне так спокойнее, но никаких убедительных доказательств, что он лучше, нет нигде. И это не случайно. По моему же опыту, во всех моих рп и код юзкейсах, разницы нет.
>>1636765
> А то касты-рекасты-апкасты, а потом удивляемся, чего это сетки лоботомиты по 2 раза трусы спускают
Контрибьюторы Лламы приносили результаты тестов и таблички, с ppl/kld по известным датасетам и бенчам, fp16 против bf16, везде разница в пределах погрешности. К тому же в самом бекенде Лламы есть тесты, и очевидно проводились тесты до кастинга дататипов и после, разница вновь не была выявлена.

Ни на гите Лламы, ни на реддите, ни в Дискордах, нигде не было убедительных пруфов, что однозначно bf16 > fp16. Только посты людей на вайбиках, как здесь выше, где пишут, что "ну мне больше нравится, пруфов не будет". Я бы и сам хотел, чтобы мы наконец получили однозначный ответ по этому вопросу, но пока его нет.

Аноним 20/06/26 Суб 15:01:12 № 1636774 98

Будут ли локальные модели (мелко-среднего звена) развиваться и становиться лучше за счет архитектуры, или этот путь уже все и без больших требований к железу не обойтись*

Аноним 20/06/26 Суб 15:04:19 № 1636781 99

>>1636774
Будут. Геммочка лучше с каждым разым, как и мелкоквены.

Аноним 20/06/26 Суб 15:20:32 № 1636792 100

>>1636772
Я и сам думал что разницы не будет, бла бла бла ошибка незначительна. И специально взял мелкосетку в хорошем кванте, так как на самом деле не важен размер сетки - ответы должны были быть не отличимы.
Но именно тут на мелкосетке которой трудно решить эту задачу из раза в раз стабильно хуже отвечала версия со стандартным кешем. Это значит что он оказывает влияние.
В крупной модели разница могла бы быть меньше потому что она бы проглотила ошибки на таком малом контексте, но эта ошибка накапливается на всем контексте.
Я хочу сказать что ошибка есть и в самом малом контексте, ее просто обычно не видно на глаз, изза того что нейросети вобще трудно оценивать.

Аноним 20/06/26 Суб 15:24:26 № 1636797 101

>>1636754
unsloth\Qwen3.6-27B-IQ3_XXS

--fit-ctx 131072 ^
--cache-type-k q4_0 ^
--cache-type-v q4_0 ^

3m 17s

Аноним 20/06/26 Суб 15:32:47 № 1636800 102

>>1636792
> Я и сам думал что разницы не будет, бла бла бла ошибка незначительна. И специально взял мелкосетку в хорошем кванте, так как на самом деле не важен размер сетки - ответы должны были быть не отличимы.
Но именно тут на мелкосетке которой трудно решить эту задачу из раза в раз стабильно хуже отвечала версия со стандартным кешем. Это значит что он оказывает влияние.
Это до сих пор просто слова. Если ты пишешь, что версия с fp16 кэшем отвечала стабильно хуже, почему не можешь это продемонстрировать? Даже в твоих просто словах (что нельзя принимать за чистую монету) нет никакой конкретики. Снова не уточнено, зафиксирован ли сид, какие вообще сэмплеры использовались и что значит "хуже" и "лучше", когда речь про svg картинку? Даже если верить математике, как раз в пределах контекста до 65к fp16 кэш должен работать лучше, а позже - уже bf16. В итоге ты предлагаешь треду поверить словам без какой-либо почвы под ними и отказаться от опыта других (я точно так же, как и ты, проводил тесты, только в моем случае разницы не было) и математического обоснования. Вот к этому и сводится вся доказательная база точки зрения "ряя bf16 точно лучше", увы. Другого пока нет.

Аноним 20/06/26 Суб 15:38:59 № 1636805 103

>>1636800
Анон, я не обязан бегать доказывать тебе что то и я не говорю верить мне на слово.
Я сделал тесты, я поделился результатом. Я знаю как это все работает и для себя выводы сделал.
Если тебе любопытно можешь потыкать сам по всем правилам которые ты придумал, если нет и ты просто не согласен - ну и ладно, цели убедить в своей правоте я не ставил.
А верить слепо всем тестам по перплексити и клд будет только тот кто не знает что они измеряют.
К тому же не могу не напомнить что была куча обсуждений на реддите с такой же темой, где люди эмпирическим путем приходили к такому же выводу.

Аноним 20/06/26 Суб 15:45:00 № 1636812 104

>>1636805
>я поделился результатом
хде

Аноним 20/06/26 Суб 15:45:39 № 1636814 105

>>1636805
> Анон, я не обязан бегать доказывать тебе что то и я не говорю верить мне на слово.
> Я сделал тесты, я поделился результатом.
> Я знаю как это все работает и для себя выводы сделал.
Ты написал буквы и запостил их в треде. Это все, что ты сделал. Не нужно удивляться или ущемляться, что не все верят тебе наслово.
> можешь потыкать сам по всем правилам которые ты придумал
Что именно я придумал и где? Зафиксировать сид и использовать greedy search для сравнения результатов - это здравый смысл, а не моя выдумка.
> А верить слепо всем тестам по перплексити и клд будет только тот кто не знает что они измеряют.
Есть большой бенч с датасетом MMLU. Результат при bf16 и fp16 кэше одинаков. Что я здесь не знаю?

Не готов обсуждать дальше - не отвечай. Энивей я не понимаю, зачем вообще сюда что-то постить, если заведомо очевидно, что твои слова не являются истиной последней инстанции. Ты правда ожидал, что тебе напишут "бляя, спасибо, теперь я точно знаю что лучше"?

Аноним 20/06/26 Суб 15:48:57 № 1636816 106

>>1636814
Бля серьезно, ты думаешь мне нужно твое разрешение что бы написать сюда?
Окей бро, я теперь в эту тему ничего не скину, ни плохого ни хорошего, так сказать не вышел рылом. Пойду аутировать в агенто тред че теперь делать то.
Я не обиделся, я просто не заметил когда тред захватили душные уебки которые доебываются до любого слова пытаясь доказать свою правоту.
побежденный самец уходит.жпг

Аноним 20/06/26 Суб 15:49:39 № 1636817 107

>>1636812
Не удивлюсь, если тот же шизик >>1629642 →

Аноним 20/06/26 Суб 15:53:45 № 1636821 108

>>1636816
> Принес в тред мягко говоря противоречивый тейк без каких-либо пруфов
> Анон вежливо попросил пруфы и напомнил, что слова таковыми не являются. Утверждающий ведь упомянул, что результаты стабильные, почему их не показать?
> Я не обиделся, я просто не заметил когда тред захватили душные уебки которые доебываются до любого слова пытаясь доказать свою правоту.
Ясно-понятно.

Аноним 20/06/26 Суб 15:55:46 № 1636822 109

>>1636821
Да, это довольно грустно.

Аноним 20/06/26 Суб 15:58:19 № 1636827 110

>>1636578
> Обычно считается что мое модель вмещает в себя столько же сколько и плотная модель в половину ее размера.
Откуда пошла такая эмпирика? А так объяснено хорошо.
>>1636581
При декодинге что чисто на гпу, что в гибридном ничего никуда не выгружается, веса остаются и обсчитываются на девайсах где уже есть. При промптпроцессинге уже есть смысл стримить на более быстрое устройство для обсчета батчей.
> в условиях ебейшего дефицита вычислительной мощности
Не страдай ерундой и найди мощность, или используй что-то еще.
>>1636653
Жлм опережает ее по знаниям некоторых фандомов, даже старый эйр. Но в этом отношении модель действительно удачная. Версию побольше бы еще, там бы и сва так не гадило бы.
> отыграет ваху
Ну не, путается даже в рангах инквизиции, если ты именно отыгрываешь это и там момент, опирающийся на это. Норм только если просто зирошотом спрашиваешь, тогда ответит.
>>1636668
> количество параметров = знания
Про прочих равных это так.
Сейчас сильно развился процесс тренировки даже базы, раньше просто полагались что "само запомнит из общего пулла", а сейчас кормят постепенно, закрепляя мелочи когда общее и контекст для них усвоился. Это позволяет даже в меньший размер упаковать больше, чем раньше помещалось в жирные модели. Но в рамках одного "уровня развития" знания с размером коррелируют напрямую.

Аноним 20/06/26 Суб 16:05:53 № 1636829 111

Нужно объяснение.

Имеется железо - 16GB VRAM, 32GB RAM.
Имеется модель - Qwen3.6-35B-A3B в 5_K_XL.
W10, llama.cpp, анслотовский квант, 65к контекст.

До запуска модели - 3/32GB RAM, 0.4/16GB VRAM.
После запуска модели - 22/32GB RAM, 15.6/16GB VRAM

То есть в целом, всё более-менее понятно, файлы весят 28GB, соответственно 15 ушло в VRAM, 13 ушло в RAM и 6 сверху в RAM это, я так понимаю, контекст.

Вопрос вот в чем: почему после первого обращения RAM начинает засираться? Вплоть до 30GB на ~3к/65к контекста? Открыт тупо браузер и webui от самой llama.cpp. Что еще засрало лишние 8GB в RAM после первого сообщения?

Параметры дефолтные:
llama-server --model "path" --mmproj "path" --temperature 0.7 --top-p 0.8 --top-k 20 --min-p 0 --presence-penalty 1.5 --repeat-penalty 1.0 --ctx-size 65536 --threads 4 --n-cpu-moe 19

Аноним 20/06/26 Суб 16:06:57 № 1636830 112

>>1636829
А вот если бы прочитал гайд из шапки, то знал бы ответ... Чекпоинты.

Аноним 20/06/26 Суб 16:07:58 № 1636831 113

Как же хочется Геммочку 124b... Как же мне плохо без моэ Геммочки...

Аноним 20/06/26 Суб 16:09:20 № 1636832 114

Анонче, а где искать промты для проверки работы нейронки? Типа какие-нибудь объемные промты на ебанутую задачу.

Аноним 20/06/26 Суб 16:10:28 № 1636834 115

>>1636832
Вероятность того, что эти промпты уже находятся в данных, на которых модель тренировали, 99%.

Аноним 20/06/26 Суб 16:35:00 № 1636848 116

>>1636834
Надо рядом с этими промптами размещать неверный ответ, а верный только по ссылке/кодировать в base64. Правда крыса-куны могут сливать их отдельно и рядом, но это уже издержки.
Ну и всегда нужен творческий подход. Я вот слегка меняю условие задачи, чтобы по токенам изменение было маленьким, а по смыслу получалась противоположность. Забавно наблюдать, как все нынешние тупые сетки тупо воспроизводят датасет даже в неподходящей ситуации, лол.

Аноним 20/06/26 Суб 16:38:14 № 1636850 117

>>1636830
Не помогло. Взял 8_K_XL 26B гемму, 28гб, взял конфиг из гайда поменяв только --n-cpu-moe на 17, потому что у меня 16гб VRAM а не 8 как в гайде. При запуске - 20/32ГБ занято, после первого промта - уже прям на первом предложении, 28/32ГБ в RAM. Изменение кол-ва чекпоинтов вообще ни на что не повлияло.

Аноним 20/06/26 Суб 16:40:11 № 1636851 118

>>1636850
Про параметр cache-ram почитай в гайде. Вероятно, оно. И размер сходится - 8гб.

Аноним 20/06/26 Суб 16:42:03 № 1636853 119

>>1636685
> раньше файнтьюны не ломали русик, как в Мистрале 24b (было куда дополнительный слоп впитывать), а сейчас некуда
Они точно также все ломали, даже сильнее. Просто из-за того что модели были тупые это было менее заметно.
Нет "емкости" и "куда впихивать" в привычном понимании.
Если делать аналогии, то сначала отформованный металл подготовили, покрыли грунтом, потом несколькими слоями краски, потом лаком, закрепили и отполировали - вот современная релизная модель. А потом подошел орк, оставил вмятины камнем, пошкрябал ножом, намазал поверх разобдяженную краску по бетону и поссал поверх.
Неудивительно что наступил полный пиздец, для работы с тонкими вещами нужны соответствующие технологии, а не треш, даже если просто хочешь сделать немного.
>>1636700
У геммы у всех слоев классический атеншн (как он работает, почему там сложность O(N2) и много расхода памяти у ллмки спроси), но 5/6 блоков видят только малую часть контекста. Она "очень точно" видит взаимосвязи между последними токенами что попадают в окно, но все "осмысление истории" ложится только на 1/6. Причем, это не значит что скользящие слои "не видят" прошлый контекст, напротив, просто в них атеншн не делает поправку на взаимосвязь между прошлыми эмбеддингами. Потому рассказывал ли ты чару какую-то историю, или она реально приключалось с тобой для скользящих блоков будет однохуйственно. Или можно привести более простой пример с ругательствами хуево-ахуенно-ахуеть-дохуя-нахуй-хуй-хуя(в значении "вау"), пока они в окне - их точный смысл идеально воспринимается, как только вышли - стали ругательствами и осуждением. В ходе обучения модель к этому адаптировалась, но внимание назад ограничено.
У квена 3/4 слоев - линейный атеншн, в нем используется другая функция активации, что позволяет раскрыть скобки и поменять порядок операций, не нужно хранить полную матрицу ключей и значений и обсчитывать это все. При этом механизм не ограничен малым окном, а простирается на весь контекст, но из-за фиксированной матрицы мелкие вещи могут смазываться на фоне самых ярких. Это больше похоже на воспоминания человека, который со временем забывает и не может держать бесконечно много в текущей памяти, но при появлении чего-то релевантного осознает связь и тут же поднимает нужное прошлое (смазывая впечатления от другого). Предусмотрены механизмы компенсации негативных эффектов и модель также адаптировалась к этому в ходе обучения.
Линейный атеншн - более перспективный метод, потому что он полностью охватывает контекст и отлично адаптируется к разной плотности. Но далеко не единственный, есть еще вариации группового и латентного атеншна. Представь что у тебя атеншн - штат кодеров. Тогда swa - попытка снизить издержки, поставив часть сотрудников на 0.1 ставку и сократив рабочие часы. Линейный и подобное - набор вместо сеньеров мидлов и ждунов, которые работают вместе над одним и тем же.

Аноним 20/06/26 Суб 16:56:12 № 1636867 120

>>1636851
В конфиге из гайда он выставлен на 0, не помогает.

Если эта информация поможет, у меня по соседству есть gpt-oss:20b, 13гб весит. Запускаю с 65к контекста - во VRAM 14/16GB. Но при этом оперативка прыгает с 3 до 15GB тоже в момент запуска. Изменение контекста с 65к до 8к всё так же приводит к 15/32GB RAM, но во VRAM уже 13/16GB, то есть проблема явно не в контексте, он прекрасно влезает, как и вся модель. Но что в данном случае занимает 15GB в RAM - я хз.

Аноним 20/06/26 Суб 17:05:36 № 1636872 121

Снимок экрана20[...].png 795Кб, 2004x1210

Подскажите, что у меня не так. В Таверне не работает режим Перевоплощения, и гемма иногда пиздец как норовит пиздануть что-то за меня.
Попробовал Marinara, там ничего выбирать не нужно и все работает, но функционала крайне мало.

Аноним 20/06/26 Суб 17:06:55 № 1636874 122

170522092440-02[...].jpg 353Кб, 1091x640

>>1636831
Не-бу-дет

Аноним 20/06/26 Суб 17:07:30 № 1636876 123

>>1636754
> Стабильно лучшие результаты даже на малом контексте с -ctk bf16 -ctv bf16
Это нормально, потому что модель так и должна работать. А когда появляются бездумные отрезания краев диапазона - точность будет падать и результаты отличаться.
А вот уже насколько - вопрос. Но его обсудить здесь слишком тяжело, потому что переводится в срачи. Причина в том, что при переключении на bf16 падает скорость, потому что в лламе адаптации функций флешатеншна были написаны в 23-24 году работягой с p40. Тогда все веса были лишь в фп16, зато из-за отсутствия инструкций для халф вычислений внезапно поддерживается фп32, которого в фа отродясь не было. Такое вот легаси порождает неприятие.
>>1636704
Выкладывай конечно!
> узким горлышком во всех случаях является не компьютер - а я
Если это позволит тебе катать более мощные сетки, которые тебе будут помогать (например, завести ассистента) то будет хороший буст.

Аноним 20/06/26 Суб 17:20:41 № 1636885 124

>>1636867
Ну лог-то посмотри, там все написано, куда чего выделилось

Аноним 20/06/26 Суб 17:23:22 № 1636888 125

image 166Кб, 2194x826

>>1636872
>гемма иногда пиздец как норовит пиздануть что-то за меня
У тебя в систем промпте каша, сама же гемма утверждает, что ей подавай четко структурированный систем-промпт с markdown разметкой - тогда будет лучше следовать. У меня пикрил + в post history дополнительно указал чтоб за юзера не писала. И всё чётенько - не пишет.

С карточками кстати тоже работает, если скормить содержимое нейронке и попросить, мол структурируй + сделай markdown, такие исправленные карточки как будто проще/понятней для геммы и она лучше отыгрывает, лучше помнит детали, не сыпется на 10к контекста, как у некоторых тут. Не исключаю что плацебо бтв.

Аноним 20/06/26 Суб 18:14:55 № 1636924 126

>>1636885
Я не вижу там ничего связанного с RAM в процессе запуска. Либо я просто не знаю куда смотреть. Как он выделяет 12+1ГБ в VRAM - вижу. Откуда после запуска берется 13ГБ RAM в придачу к 13ГБ в VRAM - не вижу.

https://pastebin.com/6fR4nATp вот лог с -lv 4.

Параметры запуска:
llama-server --model "path" --temperature 1.0 --top-p 1.0 --ctx-size 65536 -lv 4

Аноним 20/06/26 Суб 18:17:16 № 1636926 127

>>1636924
>34m0.06.169.290[0m [32mI [0msrv load_model: prompt cache is enabled, size limit: 8192 MiB
[34m0.06.169.291[0m [32mI [0msrv load_model: use `--cache-ram 0` to disable the prompt cache

Аноним 20/06/26 Суб 18:21:41 № 1636929 128

>>1636926
Выставил --cache-ram 0, ничего не поменялось, 16GB в RAM после запуска. Я на гемме и квене до этого пробовал этот параметр, там тоже он ничего не менял.

https://pastebin.com/svQbdsh1 вот с --cache-ram 0 лог.

Аноним 20/06/26 Суб 18:30:20 № 1636935 129

image.png 12Кб, 424x114

>>1636829
>>1636850
>>1636867
>>1636924
В лмстудио есть вот такая галочка, возможно эта опция у тебя включена. Какой это ключ на чистой ламеццп сам гугли я не знаю

Аноним 20/06/26 Суб 19:01:29 № 1636941 130

>>1636935
Да, оно. Оно просто не выгружает модель из памяти после загрузки во VRAM.

С --no-mmap RAM теперь пустая при запуске gpt-oss:20b.
И с квеном/геммой теперь нет скачка в RAM при первом промпте + стала скорость быстрее. Почему эта опция вообще включена в llama.cpp по дефолту?

В общем, спасибо большое.

Аноним 20/06/26 Суб 19:04:21 № 1636943 131

>>1636941
no-mmap работает по дефолту, как указано в доках.

Аноним 20/06/26 Суб 19:05:08 № 1636944 132

image.png 14Кб, 411x122

>>1636941
Хмм, кажется mmap это другая опция. Ну раз работает то пусть работает

Аноним 20/06/26 Суб 19:15:57 № 1636950 133

>>1636944
В доках два параметра связанные с этим:
--mlock (force system to keep model in RAM rather than swapping or compressing)
--no-mmap / --mmap (whether to memory-map model. (if mmap disabled, slower load but may reduce pageouts if not using mlock) (default: enabled))

И --no-mmap как раз таки сделал именно то что нужно. Модель загружается чуть дольше, но теперь реагирует быстрее на промпт и не жрет как не в себя RAM.

>>1636943
По дефолту --mmap работает, судя по всему.

Аноним 20/06/26 Суб 19:34:03 № 1636957 134

>>1636950
> По дефолту --mmap работает, судя по всему.
Действительно. Во всех моих инференс скриптах --no-mmap по старинке стоит, как и --jinja (хотя она точно on по дефолту). Что интересно, с --no-mmap растет потребление Shared GPU memory в диспетчере задач, без этого флага Shared GPU memory около 0.3гб. Существуют ли вообще юзкейсы для --mmap?

Аноним 20/06/26 Суб 19:51:59 № 1636965 135

>>1636957
Очевидная быстрая перезагрузка моделей ?

Аноним 20/06/26 Суб 19:54:04 № 1636967 136

>>1636957
> Существуют ли вообще юзкейсы для --mmap?

Я вижу только одно использование - запускать модели которые жирнее чем имеющаяся RAM+VRAM используя SSD как часть памяти.

Я не уверен чем это будет отличаться от свопа, но я уверен что скорость там будет такая же всратая, поэтому почему это включено по дефолту - для меня загадка, я не вижу ни одного плюса использования --mmap по дефолту.

Аноним 20/06/26 Суб 19:57:04 № 1636968 137

А почему рот в говне?

Аноним 20/06/26 Суб 19:59:43 № 1636969 138

>>1636967
> используя SSD как часть памяти.
> скорость там будет такая же всратая, поэтому почему это включено по дефолту - для меня загадка
Соглашусь с тобой, это дичь. Все это время я думал, что именно --no-mmap работает из коробки. Хорошо, что ты подсветил этот момент. Как будет время добавлю в гайд, чтобы меньше людей с этим столкнулись.

Аноним 20/06/26 Суб 19:59:44 № 1636970 139

>>1636968
Потому что ты таскаешь в тред говно без конца. Перестань, и твой рот очистится.

Аноним 20/06/26 Суб 21:08:03 № 1636993 140

>>1636965
Оно того как-то не стоит, маленькие (<10B) модели загружаются по 5 секунд, средние (~30B) - секунд за 10-15, а на быстрое переключение больших моделей уже памяти не напасешься, если даже 30B модель отжирает почти 15GB RAM для быстрого запуска.

Да и я не думаю что кто-то прям очень активно перепрыгивает с модели на модель что не может подождать 15 секунд. Может те у кого есть риг на 512GB+ памяти это и имеет смысл, но тогда зачем оставлять эту опцию по дефолту включенной ради 1% пользователей которым она пригодится, но при этом навредит 99% пользователям которым она не нужна и у которых нету такого железа.

Аноним 20/06/26 Суб 21:18:46 № 1636998 141

В шепот чот

Аноним 20/06/26 Суб 21:25:22 № 1637002 142

>>1636998
Думаю, ебать они там ахуевают от такого. И правда ор.

Аноним 20/06/26 Суб 21:29:04 № 1637004 143

>>1636957
> Существуют ли вообще юзкейсы
Ну, сам по себе маппинг памяти это годнота, применяется много где и позволяет обращаться к отдельным частям большого файла не загружая полностью его в память. Или не создавать копии одного и того же в памяти если разные процессы обращаются к одинаковым файлам.
Но в лламе с применением gpu это не просто не дает профитов, а замедляет загрузку и слегка увеличивает жор.
>>1636993
> Может те у кого есть риг на 512GB+ памяти это и имеет смысл
Тут все проще - пускаешь обе модели одновременно и довольно урчишь.
> но тогда зачем оставлять эту опцию по дефолту включенной ради 1% пользователей
Прав, только стоит спрашивать почему через жопу работает, сам подход то хороший.
>>1636998
В голосину.

Аноним 20/06/26 Суб 22:10:43 № 1637028 144

Насколько жесткий пердолинг может быть с этой штукой?

Аноним 20/06/26 Суб 22:23:55 № 1637032 145

>>1637028
Знаю что какие-то бэйдушные карты можно в ми50 перешить.
Моё мнение как купившего (и поднявшего) ми50 на самом старте что нахуй все эти бэйдо, хуавей, тенсторрент карты

Аноним 20/06/26 Суб 22:27:40 № 1637035 146

>>1637028
Запредельный и неподъемный. Настолько, что те же часы проще будет отработать в каком-нибудь вкусе_очка и купить хуанга.
Эта штука не только пердольная, но и банально слабая и без поддержки дататипов. Буквально всем уступает ми50 (там вроде 16-гиговые были еще за копейки) и выполнена по техпроцессу 10летней давности.

Аноним 20/06/26 Суб 22:49:21 № 1637054 147

>>1637028
Вся эта хуйня предполагает покупку вагона карт и написание своего софта с нуля.

Аноним 20/06/26 Суб 23:24:01 № 1637077 148

>>1636993
>те у кого есть риг
Всего на всего на 96 Гб. mmap в режиме роутера позволяет почти моментально свайпать модели которые более-менее влезли в рам. Например какой-нибудь тюн плотно геммы/квена для основного повествования и moe-гемма для перевода. Думаю что mmap не последнюю роль играет если использовать одновременно жору и stable-diffusion.cpp

Аноним 20/06/26 Суб 23:31:02 № 1637079 149

>>1637028
Может это к20? 200 не существует. Их два варианта, на 5 и 6гб
При этом я м40 покупал ещё 4 года назад за десятку с 24гб.
Всё что ниже вольта РЕШИТЕЛЬНО не рекомендую, там простые куда ядра, не тензорные.

Аноним 20/06/26 Суб 23:33:58 № 1637081 150

>>1636685
>Не знаю насколько это верно с технической точки зрения, но звучит логично. Знающие люди, поясните, так ли оно?
Нет, это бред и искажение исходных фактов.

>Нейронка еще сказала, что именно по этой причине раньше файнтьюны не ломали русик
Бред. Сейчас вот сижу на тюне квена 3.6 - у него русский сильно лучше чем у стока. До него та же история была с другим тюном - квена 3.5.

>И с аблитками та же история, типа сейчас невозможно просто взять и вырезать вектор отказа, потому что всё сложнее
Бред. Раньше вообще не умели вырезать только вектор отказа, использовались более грубые методы, которые реально отупляли модель гораздо сильнее. Сейчас, как раз, аблитерация != автоматически отупление. Можно даже в агентах и коде использовать такие модели - они не ломаются при этом. Другое дело, что bias часто смещается в сторону yes-man'ства у них - это да. Но в части случаев это лечится промптом.

Аноним 20/06/26 Суб 23:34:18 № 1637082 151

>>1637079
Достаточно просто читать не через слово
https://serverflow.ru/catalog/komplektuyushchie/ii-uskoriteli-npu/ii-uskoritel-baidu-kunlun-k200/

Аноним 20/06/26 Суб 23:37:18 № 1637085 152

>>1637082
Сколько нахуй?
https://www.chargerlab.com/teardown-of-the-baidu-kunlunxin-ai-accelerator-card-k200/

Аноним 20/06/26 Суб 23:37:30 № 1637086 153

>>1637082
бля... нахуй это говно вообще надо. На него дров не сыскать же. Разве что на стеночку повесить "мама, я промт-инженер!"

Аноним 20/06/26 Суб 23:44:59 № 1637090 154

>>1636957
> Существуют ли вообще юзкейсы для --mmap?
Если ты не наносек и у тебя 32 памяти, у тебя запущена MOE в mmap, а ты зумерок и открываешь браузер с 20000 вкладок, то браузер без задней мысли вытесняет модель и работает как ни в чем ни бывало, и нейронка работает, даже генерация не прекращается, просто падает до 2 t/s, положим. Потом ты закрываешь браузер - память освобождается, слои подгружаются обратно, генерация возвращается в норму. И все это без твоего участия.
Теперь ты запускаешь с no-mmap, запускаешь браузер - no-mmap вытеснять нельзя - получаешь OOM мгновенно или, не дай бог, все утекает в своп и компьютер можно только перезагрузить.
Альтернатива, надо полагать, выгружать модель когда хочешь запустить браузер - ну, это для чемпионов.

Аноним 20/06/26 Суб 23:51:30 № 1637094 155

>>1637081
> сижу на тюне квена 3.6 - у него русский сильно лучше чем у стока
Ну так поделись с пацанами

Аноним 21/06/26 Вск 00:03:32 № 1637098 156

>>1637090
> no-mmap вытеснять нельзя
Путаешь с mlock

Аноним 21/06/26 Вск 00:36:24 № 1637140 157

Аноны, в прошлом треде писал один анон, что крутит историю долгую. Как это сделать? Это же мучительно больно. Я сейчас нашел карточку, уже 70 сообщений. У меня контекст 32к на модельке. Примерно на 15-20 сообщении батч стал 13-16к, и так каждое сообщение. Попутно у меня делался саммари, но такое чувство что он не работает. Или я не понимаю как он работает, по моему мнению он делает саммари, и прошлые сообщения не учитываются и батч приходит в норму. Даже если это не так. Объясните, пожалуйста, как крутить длинные истории?

Ну вот я хочу крутить одного чара и не запускать каждый раз новый чат, а писать в тот же. При этом желании неминуемо будет батч 16к? И почему он кстати 16к, я заметил в консоле, что контекст не уходит дальше 17к, он остается на этом уровне и просто меняются сотни в каждом новом сообщении, аля 17368\32672 context.

Мне повышать контекст нужно? Я могу 64к поставить. Но этого не хватит к примеру для 300-400+ собщений. Поэтому делается саммари, чтобы модель знала что было в прошлом, но позапрошлые сообщения она уже не будет учитывать?

Или дело в том, что нужен context shift? А что насчет SWA, его оставлять для моей задачи? Или он как раз серит.

Аноним 21/06/26 Вск 00:39:25 № 1637142 158

>>1637035
Судя по спекам у нее есть поддержка int4 и int8, а на v100 только fp16, а остальное эмулируется. Но завести ее действительно будет невероятно сложно, с v100 вообще все легко и просто

Аноним 21/06/26 Вск 01:02:30 № 1637152 159

>>1637098
Нет, не путаю. mlock запрещает выгрузку модели в своп, если своп пошел в дело, то туда попадет не только модель, это вообще не про это. mmap просто вытесняется - абсолютно безболезненно, без записи куда либо.

Аноним 21/06/26 Вск 01:11:59 № 1637155 160

>>1637082
И в чём прикол разницы 5к и 440к? Очередной гениальный китайский наёб гоевлаоваев? Вскроешь корпус видюхи а там внутри как на мемах, флэшка на 64 мегабайта на термоклей приклеена и кирпич для веса?

Аноним 21/06/26 Вск 01:18:22 № 1637158 161

>>1637155
Скорее "мы не обманываем друг друга" с надеждой что вдруг найдется лох. Или может цена специально завышена потому что лота нет в наличии, а когда приедет снизится, такое иногда практикуют.

Аноним 21/06/26 Вск 01:43:14 № 1637166 162

>>1637155
Прайс из головы/официальной доки. Те же зиончики под 2011 так то официально стоят много килобаксов, но на деле 10 баксов.
На нормальное железо по типу 6000 pro или b200 у них цены адекватные

Аноним 21/06/26 Вск 01:44:28 № 1637167 163

>>1637158
> лота нет в наличии
Очевидно его нет

Аноним 21/06/26 Вск 02:15:38 № 1637180 164

>>1637167
Если вдруг кто-то закажет, то они просто на алике за 5к возьмут, норм схема

Аноним 21/06/26 Вск 04:41:06 № 1637234 165

Какие модели лучше всего потянут просто поддержание личности (не фикшн персонажа) и достаточно живое, не ассистентское общение, по вашему мнению?

Инглиш/русик тоже интересен, если что-то на нём будет норм работать

Аноним 21/06/26 Вск 05:19:06 № 1637240 166

>>1636754
Ооо, ты ещё сравни q8 против f16 — последний работает куда хуже, чем квантованный. Даже на большом контексте. Потому что q8 не отсекается диапазон диапазон так же, как у f16.

Аноним 21/06/26 Вск 05:36:31 № 1637243 167

>>1637140
Какая LLM? Пересчёт из-за лорбука будет, из-за саммари, и если у тебя дельтанет (последние квены). Нужно использовать смарткэш. Он полезен с любой моделью. Если гемма, сва не отключай, иначе контекст разбухнет.

Лучше всего повышать контекст, лорбуки не использовать, а саммари делать через промпт: просто кидаешь запрос модели прямо в чат, она записывает все факты и важные вещи, потом удаляешь его или помещаешь куда тебе надо, когда будешь чистить контекст.

Аноним 21/06/26 Вск 05:37:45 № 1637245 168

177706934205706[...].png 1116Кб, 1448x1086

>>1637140
>context shift? А что насчет SWA
Контекст шифт это строгое вырезание контекста как строка титров, оно будет хорошо помнить все сообщения в пределе этого контекста так же как и самые последние дела хороший смозг не забывая какого цвета трусы, но и полностью отрезать из памяти то что ушло за горизонт этих титров не зная даже а если ли эти трусы.
SWA же работает что-то по типу умного фильтра и сжатия(старое становится менее детальным/недоступным) он будет выкидывать нахер из контекста все что посчитает не актуальным на ближайшие сообщения от тебя, по типу если ты нейронке скормил жирную строчку кода, а потом в конце начал флиртовать и приставать к своему агенту, она просто поймет что ага, настало время кума и очень компактно сожмет инфу что ага, был контекст о коде но полностью воспроизвести все строчки кода будет уже проблематично.
>Мне повышать контекст нужно? Я могу 64к поставить.
Тут уже как тебе самому комфортно, мне вообще 32к с головой хватает но с другой стороны я не знаю что ты и как ты там играешь, по себе помню как любил сидеть инфоблоками которые половину контекста занимали лишь на то что бы модель каждый раз ретранслировало состояние персонажей и то какого цвета их трусы, но тогда и модели были такие что.. им куда сложнее было помнить такие вещи.
>Попутно у меня делался саммари, но такое чувство что он не работает
А ты где этот саммари делал или куда его пихал? Сразу скажу опять же по своему опыту, всякие плагины и саммаризаторы далеко не лучшее решение для таких кобольдов как мы, по тому я вообще предпочитаю делать это саммари через (ooc:) в чате просто что бы модель обновляла внимание и плюс там же можно её спросить о возможном дальнейшем развитии сюжета, критику и тд. таким образом и можно будет комфортно играть вплоть до 3к сообщения как у того анона с прошлого треда который охотится за хвостиками кемономими в исекае.
>>1637234
>Какие модели лучше всего потянут просто поддержание личности
В-все? Ну а вот строгому следованию... никакая?

Аноним 21/06/26 Вск 06:10:15 № 1637251 169

Не знаю как описать почему я не хочу юзать гемму для рп.
Вроде кум богатый, персы эмоциональные, что то есть, но быстро всё рушится и идешь запускать привычные модели. Слишком всё быстро, просто и предсказуемо

Аноним 21/06/26 Вск 06:44:01 № 1637256 170

>>1637251
Это так, ну тут понимаешь это как на соевой модели пытаться пробить на кум методом вписывания ебанутых шлюхо-промптов и играть на карточках без предрассудков. Тут можно так же сбалансировать методом соевизации через промпт и играть ванильные тэги.
> привычные модели
Какие кста?

Аноним 21/06/26 Вск 07:08:05 № 1637261 171

>>1636853
С одной стороны у меня нет проблем с геммой на 100к+ контексте, а с другой ты говоришь очень складно и это похоже на то, какая сложность должна быть у формул, которые мне ллмка написали и ты меня убедил.
Не до конца убедил из-за того, что гемма фактически на большом контексте замедляется медленнее - то есть на 0 котекста скорости 100% и 90% (у геммы и квена - он чуть медленнее), на 30к 90% и 81% (условно замедление по 10%), то если в одном линейная, а в другом квадратичное, то не может быть такого, чтобы на 100к было 70% и 50%, замедление геммы точно должно быть сильнее, если на 30к оно было одинаковым.

Аноним 21/06/26 Вск 07:15:40 № 1637262 172

>>1636872
Бумп

Аноним 21/06/26 Вск 07:54:08 № 1637271 173

>>1636827
> Жлм опережает ее по знаниям некоторых фандомов, даже старый эйр. Но в этом отношении модель действительно удачная. Версию побольше бы еще, там бы и сва так не гадило бы.

Ну если говорить про некоторые или "классику" типа Гарри Поттера, то да, тут уже лучше обычно. Ну или культиваторское что-нибудь. В конце концов, 100б+ есть 100б+.

Но тенденция всё равно очень печальная, потому что раньше какой-нибудь GPT-4o (сколько ему там уже, два с половиной года?) знал кучу вещей, которые не знают всякие 1Т. Именно в плане креативного письма, качестве текста, знаний всяких фандомов даже огромные модели страшно проигрывают старым.

Если бы они реально выпустили 100б гемму, это был бы разнос, который минимум на года два стал абсолютной базой при условии, что модели с поп-датасетом не продолжали бы появляться.

Что касается всяких там рангов инквизиторов, ну, здесь уже даже корпы будут сыпаться местами, разве что с ризонингом нормально отработают (если в датасете полноценная инфа). Ещё и квант геммы реально очень решает. Я когда тестил банальными зирошотами, видел сильное падение с Q8 уже на Q6. То есть Q8 ошибётся 2 из 10, Q6 4 из 10. В таком стиле. А если не зирошотишь, то качество сильно падает. Нужна или карточка со всеми нюансами, или какое-то невменяемое полотно ризонинга, как у квена, где модель триста раз один и тот же вопрос проанализирует.

Аноним 21/06/26 Вск 11:32:33 № 1637380 174

>>1636831
31b мое сделают уже победа

Аноним 21/06/26 Вск 11:45:53 № 1637392 175

>>1637380
Эм... Зачем? При наличии плотной 31B и мое 28B делать мое 31B это шиза и болезнь. А гугл не настолько больны.

Аноним 21/06/26 Вск 11:56:23 № 1637402 176

Как же хочется 70-120б моешку новую...
Напомните, почему глм новый эйр не выпускают?

Аноним 21/06/26 Вск 11:59:29 № 1637404 177

Мой копиум безлимитен.
Чем дольше мы ждём эир, тем нам лучше.
Ну вышел бы эир 4.7, а следующего может ещё полтора года ждать, а так вот глм 5.2 уже кличут лучшей локалкой и не только евер, а нам дадут эир 5.5 который будет дистилятом еще лучшей большой глм

Аноним 21/06/26 Вск 12:14:25 № 1637410 178

>>1637402
>>1637404
Потерпишь, лох. Надо было рам покупать

Аноним 21/06/26 Вск 12:17:49 № 1637414 179

А ебать ваши глм и эйр можно? Если нет то нахуя сюда пишете? Это кумерский имени Карслона.

Аноним 21/06/26 Вск 12:18:36 № 1637415 180

>>1637414
Можно.

Аноним 21/06/26 Вск 12:23:36 № 1637419 181

>>1637402
>почему глм новый эйр не выпускают?
Потому что если выпустят, люди будут сидеть на нём, а не платить за апи.

>>1637414
Эйр - это база кума, наравне с Мистралями. А Гемма только недавно вступила в клуб, до этого была монашкой-феминисткой.

Аноним 21/06/26 Вск 12:26:57 № 1637421 182

>>1637410
Чтобы терпеть уже на глм 4.7?
У тебя тоже обнов нет, чмо.

Аноним 21/06/26 Вск 12:32:15 № 1637425 183

>>1637421
Они мне и не нужны. Умница 4.7 так хорош, что хватит навсегда. Промты лорбуки, эмбед коллинг. У дебилов ботлнек по модели, у умных по способностям и креативности

Аноним 21/06/26 Вск 12:33:16 № 1637426 184

>>1637419
> люди будут сидеть на нём, а не платить за апи.
Да ну, вряд ли эйр настолько сравнится с нормальной глм, чтобы прямо исход был. Ну и не у всех 96+ гб памяти есть, чтобы его с нормальным контекстом держать.

Аноним 21/06/26 Вск 12:37:10 № 1637427 185

>>1637425
>Умница 4.7 так хорош
Что его ебёт гемма на 31B.

Аноним 21/06/26 Вск 12:43:24 № 1637430 186

>>1637427
Еще один с ботлнеком по модели

Аноним 21/06/26 Вск 12:49:01 № 1637433 187

>>1637430
Ага, с глм болтенек, а с геммой не ботленек. Но виноват конечно я, а не устаревшая модель.

Аноним 21/06/26 Вск 12:54:44 № 1637434 188

>>1637433
Да знаем знаем, и контекст гемма держит до 100к без проседаний, при сва окне 1024, и знает больше 400б моделей. Святой грааль, почти аги

Аноним 21/06/26 Вск 13:02:22 № 1637438 189

>>1637245
> Контекст шифт
> будет хорошо помнить
Нет, это попытка избежать пересчета контекста путем прямой нарезки и склейки прошлого. У модели при этом начинается шиза.
> SWA же работает что-то по типу умного фильтра и сжатия
Нет, это как раз скользящее окно на последние N токенов, то что из них выпало - нахуй вне зависимости от важности. Но тот параметр вообще касается подходу к кэшированию для моделей с сва, не работу не влияет.
>>1637261
Такого замедления генерации в 1 поток вообще не должно быть, это завязано на реализацию в llamacpp, а не сложность атеншна. То будет заметно при промптпроцессинге и массовом сервинге.

Аноним 21/06/26 Вск 13:04:54 № 1637443 190

>>1637427
Каждый год в треде наблюдается какая-то новая шиза.

2024: куча поехавших, гоняющих мелко-лоботомитов полностью во врам ЗАТОБЫСТРО, засирали своей шизой тред, пока господа наслаждались большими моделями с выгрузкой и ЗОЛОТЫМИ токенами.

2025: пришло новое поколение шизов-хейтеров моэ, постоянно ноющих, что моэ НЕ ТРУ™и вообще тупые, а истинная ДУША только в плотных моделях (и похуй что все самые мощные модели у корпов - моэ).

2026: наступила эпоха сильнейшего коупинга. Шизы ёбнулись наотличненько и уже полгода срут, что якобы более новая модель умнее старой (вышедшей на 1 наносекунду раньше) несмотря на количество параметров. У них там и 27b квен во всём обходит милфоквена, а теперь вот гемма 31b во всём ебёт жирноглэм. Понял-принял, маленькие. Продолжайте откладывать деньги с завтраков и рано или поздно накопите на оперативку чтобы запустить большую модель, как взрослые дяди.

Аноним 21/06/26 Вск 13:04:55 № 1637444 191

>>1637434
>Святой грааль
Все так

Аноним 21/06/26 Вск 13:05:12 № 1637446 192

>>1637425
> делает проход в большую модель
> тыкают еблом в то что сам нищий хуй почему не на кими
> аря да мне и тут неплохо и вообще скил > модель размер не важен
Ебанутый?

Аноним 21/06/26 Вск 13:29:43 № 1637468 193

>>1637427

Она его ебет только тремя вещами
1) скоростью
2) русиком
3) знанием некоторых обсурных франшиз и умением точно изображать персонажей, получив только имя
В остальном глм конечно лучше. он и умнее и контекст держит лучше. Я пользую гемму, тем не менее, так как 10 минут ждать ответа vs 0.5-1 минуту для меня решает.

Аноним 21/06/26 Вск 13:40:00 № 1637481 194

>>1637443
>наслаждались большими моделями с выгрузкой

Ага, в 1 т.с. с нулевым контекстом на тесле. Помню-помню, вас, шизов. В 24 как раз модели меньше 70B уже что-то могли, а вы так по старой памяти сидели на 70-120В, даже не кумили, какой кум на такой скорости.

>пришло новое поколение шизов-хейтеров моэ, постоянно ноющих, что моэ НЕ ТРУ

Первые мое - микстрали и правда были говном. Даже когда нормальные мое пошли - до введения в жоре --nc-moe или хотя бы более раннего -ot с регексом они были бесполезны для тредовичков. Да и мое ламы в жоре были сломаны и починили ихтолько недавно, так что там до аира и не было считай нормальных мое для обычного пользования.

>У них там и 27b квен во всём обходит милфоквена, а теперь вот гемма 31b во всём ебёт жирноглэм.

Ну тут да, коупинг во все поля. Но именно по агентскому испозованию 3.6 квены реально обходят например всю 3.0 серию, включая 235.

Аноним 21/06/26 Вск 13:43:19 № 1637483 195

>>1637271
Клуб любителей культивировать волшебные ремесла - два блока ниже. Современные гачи, внки, некоторые тайтлы. Жлм был хорош тем, что там буквально берешь минимальную карточку и садишься играть - все довольно органично, чар осведомлен о происходящем, случаются релейтед эвенты, сами вводятся другие релейтед персонажи-неписи. Только покрытие очень неравномерное.
Насчет gpt-4o не скажи, на тот момент по сравнению с четверкой был шагом назад и путался в том, что она знала. По креативному письму хз, но в той части 100%. У гопоты в целом оче крутой датасет, но если брать в общем, то для такого сравнения чмони с 1т даже хз что брать, линг какой-нибудь.
> здесь уже даже корпы будут сыпаться местами
Ошибки где угодно будут, без претензий. Я про разницу между зирошот вопросом по теме в чате, где неплохо отвечает, и применении этих знаний во время рп или просто разговора. Например, можешь обсудить с геммой какую-нибудь общеизвестную штуку типа Миядзаки, и она очень точно тебе про него расскажет. А потом разыграть просмотр этого фильма с чаром на уже большом чате - в унесенных призраками кабаны пойдут штурмовать железный город. Утрирую офк, но последовательность и детали резко забудутся.
> А если не зирошотишь, то качество сильно падает.
Вот, как раз оно. Это, пожалуй, первая модель, в которой наблюдается настолько сильная разница. В крупных, даже более старых, деградации перфоманса практически нет, и реже ошибаются с применением знаний для сеттинга даже если могут точно сформировать зирошотом.
Хотя, оглядываясь на размер, правильнее будет рассуждать что наоборот круто иметь возможность хотябы без контекста обращаться к знаниям.

Аноним 21/06/26 Вск 13:48:29 № 1637489 196

Короче, перевернув ввех дном весь реддит нашел более-менее честное сравнение QAT с другими квантами, правда только для 26B геммы.

https://www.reddit.com/r/LocalLLaMA/comments/1u3i8x7/some_contrived_tests_comparing_the_accuracy_of/

Впринципе, совпадает с моим опытом. Я думаю QAT надо официально хоронить с позором, гугл обосрался.

Аноним 21/06/26 Вск 14:26:56 № 1637532 197

>>1637446
Спокуха, обладатель отсутствия-максималист. Мне 4.7 нравится и большего я тупо не хочу. Так бывает, прикинь. Зато не ною в тредике что все дум и на набрасываю что 31б лоботомит лучше флагмана которому несколько месяцев
>>1637443
235 настолько хуйня, что лучше него литерально любые немистрали 27б плюс. 27б 3.5 действительно ебет его и в хвост и гриву

Аноним 21/06/26 Вск 14:52:18 № 1637545 198

>>1637489
Так в принципе же Q_4 хуже получается чем QAT.

Ну да, с "QAT модели почти не теряют качество оригинала" гугл знатно приукрасил, но для пользователей оригинальной геммы в Q_4/4_K_XL QAT даст профит в виде экономии оперативки и буст скорости, потому что полностью влезет в 16GB VRAM и при этом будет если не лучше, то как минимум не хуже, на уровне погрешности.

Аноним 21/06/26 Вск 14:55:30 № 1637548 199

>>1637545
Будет точно хуже. Ты его пробовал хоть в каких-то задачах на контексте?

Аноним 21/06/26 Вск 14:56:12 № 1637550 200

>>1637545
Хотя я в глаза продолбился и не увидел там выше еще Q4_K_S который значительно лучше и Q4_K_XL и QAT.

Хотя для меня остается загадкой почему Q4_K_S сильно лучше чем Q4_K_XL, учитывая что они оба анслотовские. По-идее K_XL самый лучший вариант кванта должен быть у Анслота.

Аноним 21/06/26 Вск 14:59:34 № 1637554 201

>>1637245
>>1637438

Вы шо, бля, ебанутые? С кем я сижу в этом ИТТ треде, нахуй? SWA не так работает.

В контексте геммы 4 соотношение слоёв слоёв 5 к 1. 5 локальных: они смотрят на 1024 последних токена, видят их отлично, но больше не видят нихуя. Каждый 6 слой видит весь контекст.

Вот такого бреда там вообще нет:

>SWA же работает что-то по типу умного фильтра и сжатия(старое становится менее детальным/недоступным) он будет выкидывать нахер из контекста все что посчитает не актуальным на ближайшие сообщения от тебя, по типу если ты нейронке скормил жирную строчку кода, а потом в конце начал флиртовать и приставать к своему агенту, она просто поймет что ага, настало время кума и очень компактно сожмет инфу что ага, был контекст о коде но полностью воспроизвести все строчки кода будет уже проблематично.

И это тоже бред:

>Нет, это как раз скользящее окно на последние N токенов, то что из них выпало - нахуй вне зависимости от важности

---

Модель видит абсолютно весь контекст, и можно даже иголку в стоге сена найти, дословно воспроизвести полотна из любой части контекста, даже когда ты 100к+ потолок пробьёшь.

Проблемы начинаются, когда много разных фактов в разных частях окна и надо сопоставить их и опереться на них без запроса от юзера. Гемма и даже гемини так не смогут как раз из-за SWA. Внимание к концу контекста настолько сильное, а к остальным частям настолько слабое, что пиздец. Но это не значит, что модель нихуя не видит или видит сжато.

Аноним 21/06/26 Вск 14:59:39 № 1637555 202

>>1637548
> Будет точно хуже. Ты его пробовал хоть в каких-то задачах на контексте?

Не, не пробовал. Ждал тесты от кого-нибудь, а потом стал натыкаться на информацию что даже до шестого кванта оригинала ему как до луны и забил на это дело, потому что качество в данном случае для меня важнее буста скорости, которая и так в целом неплохая на оригинальной гемме.

Аноним 21/06/26 Вск 15:13:31 № 1637559 203

>>1637243
На гемме отключил SWA и прекратился вечный перерасчет батча, поскольку включил контекст шифт, а он не работает при включенном SWA. Но да, кеш кеш под 1.5-2гб в q4 кванте
>>1637245
>А ты где этот саммари делал или куда его пихал?
В таверне есть пункт в экстеншенах, Summarize и вот сам он переодично суммирует.

Аноним 21/06/26 Вск 15:31:57 № 1637566 204

>>1637559
Лучше отключи ебучий контекст шифт и верни сва, во имя христа. Не хватает только кеш квантовать до двух бит и сидеть на хуйхуйагресиванцензортомасшелби версии

Аноним 21/06/26 Вск 15:37:30 № 1637570 205

>>1637559
Контекст шифт приводит к чудовищной деградации ответов, отключение сва тоже, но не настолько сильно.

Тебе ж сказали: используй смарткэш кобольда или чекпоинты лламы для того, чтобы контекст каждый раз не пересчитывался.

Этим контекст шифтом баловались года два-три назад, когда не было нормальных инструментов.

Аноним 21/06/26 Вск 15:39:44 № 1637571 206

>>1637550
>анслотовские
потому что это русская рулетка от мира квантователей

Аноним 21/06/26 Вск 16:11:41 № 1637581 207

Гутенберговый файнтюн геммы пробовали? Стоит тестить?
https://huggingface.co/nbeerbower/Gemma4-Gutenberg-31B

Аноним 21/06/26 Вск 16:20:45 № 1637584 208

>>1637555
>Не, не пробовал
Че кстати с вами, не первый раз уже вижу, что люди просто не могут попробовать и лично оценить. Вы там с ригами за 1кк все на мобильном интернете что ли сидите? Или просто гиперлень?

Аноним 21/06/26 Вск 16:21:09 № 1637585 209

>>1637554
Потише будь, пересказываешь второй пост через призму восприятия.
> Модель видит абсолютно весь контекст
За счет наличия блоков с полным атеншном.
> видит сжато
Так и есть, эффективное количество голов на полный контекст мало и они постоянно перегружены.

Аноним 21/06/26 Вск 16:27:23 № 1637590 210

>>1637584
В моем случае просто лень + очень часто новые модели нужно качать не один раз, там то один баг фиксят и нужно перекачивать, то другой баг фиксят и нужно опять перекачивать, то llama.cpp обновить несколько раз потому что там что-то пофиксят.

Для себя просто взял за правило не лезть к новым моделям в первые 2 недели пока всё не пофиксят. А там уже и тесты появятся и будет понятно стоит оно вообще того или нет.

Аноним 21/06/26 Вск 16:53:19 № 1637599 211

>>1637570
Не вижу, как смарт кэш и чекпоинты могут ему помочь. Когда суммарайз в контексте меняется или сдвигается начало чата, то нет таких чекпоинтов, которые можно загрузить из памяти и добавить в обработку новый кусочек промпта. Оно может быть полезно, когда с одного чата на другой переключаешься в рамках одной модели и потом возвращаешься к старому (пример из вики кобольда), а при переполнении контекста ничем не поможет.
И в целом не понятно, почему в треде считают, что сдвинуть кэш - это капец деградация, а постоянное жонглирование с чекпоинтами и сдвигом swa - сто процев надёжно. Тогда уж сидите вообще и без swa, и даже без fast forwarding с полным контекстом, пересчитывайте каждый раз целиком при любой генерации, чего мелочиться. Так надёжнее всего, кэш точно не будет подсирать.

Аноним 21/06/26 Вск 17:20:32 № 1637612 212

>>1637599
Ты вообще не знаешь, что такое SWA, учитывая то, как ты пишешь. Он есть только в гемме и работает не так. Там нет никакого сдвига в том смысле, какой ты упоминаешь. Это просто реализация внимания модели.

Чекпоинты и смарт кэш не создают никаких проблем и используются лишь иногда, когда приперло, и в такие моменты это крайне удобно.

Если там лорбук, то это тоже помогает, потому что чекпоинты делаются обычно каждые N токенов. То есть ты триггернул лорбук на 50к контекста, потом он вывалился из памяти на 60к. Тебе не нужно пересчитывать всё с нуля, только с 50к, когда запись из лорбука удаляется из контекста из-за того, что уже не нужна.

То же самое с суммарайзом. Его можно даже просто в чате оставить, нихуя не менять — никаких проблем это не создаст, если там не лоботомит вместо модели. А в рамках новой сессии можно поместить суммарайз на нужную глубину, если требуется.

Лорбук же вообще лучше не использовать. У меня карточки по 10к, общий контекст 90к. Модель от этого не рассыпается. Лорбук пригодится разве что там, где записи по по 3к токенов.

А суммарайз ни один вменяемый человек не теребонькает каждые 10 сообщений и не меняет начало контекста.

Аноним 21/06/26 Вск 17:24:06 № 1637616 213

>>1637612
А разве суммарайз не после SP идет?

Аноним 21/06/26 Вск 17:26:17 № 1637620 214

>>1637612
>Ты вообще не знаешь, что такое SWA, учитывая то, как ты пишешь. Он есть только в гемме
А в квенах новых разве нет? SWA-чекпоинты создаёт по крайней мере.

мимо

Аноним 21/06/26 Вск 17:31:34 № 1637624 215

>>1637612
> Он есть только в гемме
Обосрался с нулевой. Привет от Степ Флеша, Коммандера и других

Аноним 21/06/26 Вск 17:34:54 № 1637626 216

>>1637570
>>1637566
С включенным СВА и отключенным контекст шифтом каждое сообщение дает перерасчет батча под 16к+. Вы как собрались с этим играть долгую историю?
>смарткэш кобольда
С ним все равно перерасчет батча под 16к остается у каждого сообщения.
>чекпоинты лламы для того, чтобы контекст каждый раз не пересчитывался.
Звучит как пердолинг. Что ты вообще подразумеваешь под чекпоинты лламы? Я не понимаю что это. Использовать еще одну ллмку? Или как.

Аноним 21/06/26 Вск 17:36:49 № 1637627 217

>>1637626
Что за хуйню ты сделал со своим сетапом? Почему я на 40к контекста с сва и без контекст шифта ничего не пересчитываю? Пиздуй гайд из шапки читать, нихуя не понимаешь

Аноним 21/06/26 Вск 17:38:30 № 1637628 218

>>1637627
А ты заполни эти 40к и тогда будет весеть процессинг батча 16-18к, каждое сообщение.

Аноним 21/06/26 Вск 17:40:45 № 1637629 219

>>1637599
> почему в треде считают, что сдвинуть кэш - это капец деградация
Это то же самое, как из большой серии коммитов и патчей вырезать середину. Все последующие опираются на прошлые, каждая позиция кэша - добавление к предыдущему с учетом его содержимого, а не стационарное состояние. Потому, любое изменение в глубине требует пересчета всего, что после него. Было бы полное внимание как во всяких энкодерах, а не направленное как в классических ллм - пришлось бы вообще все-все пересчитывать.
> жонглирование с чекпоинтами и сдвигом swa - сто процев надёжно
Потому что оно так устроено по определению, первое слово из аббривиатуры swa намекает. Все параметры в кобольде и лламы вокруг сва - управляют механизмом кэширования, а не самой работой. Чекпоинты - просто реализация кэширования за отсутствием реализации других средств, сами по себе они не вносят ничего нового.
>>1637612
> Он есть только в гемме
На самом деле он есть много где, был еще в самом первом мистрале, который 7б, только там гибридные головы были а не деление по слоям.

Аноним 21/06/26 Вск 17:41:58 № 1637631 220

>>1637628
Что значит заполни? Контекст шифт и сва несовместимы блять. Зачем вообще использовать контекст шифт, он буквально удаляет системный промт и режет все подчистую, вплоть до разметки. Есть скрытие/удаление старых сообщений и суммаризация. Ты хуйней занимаешься, не удивляйся результату

Аноним 21/06/26 Вск 17:46:51 № 1637632 221

>>1637550
>Хотя для меня остается загадкой почему Q4_K_S сильно лучше чем Q4_K_XL, учитывая что они оба анслотовские. По-идее K_XL самый лучший вариант кванта должен быть у Анслота.
Потому что ты в глаза все еще долбишься и не видишь что Q4_K_XL там тоже QAT, а не обычный.

Аноним 21/06/26 Вск 17:59:24 № 1637637 222

>>1637616
Таверновский классический — понятия не имею. Пробовал пользоваться давно, дропнул, ибо говно.

Мой суммарайз состоит из промпта на 800 токенов, который я кидаю в чат, модель следующим сообщением пишет мне на 1,5к токенов полотно. Помещаю его ближе к концу или началу контекста и не меняю его положение, пока сессия не будет завершена.

Ещё я иногда делаю суммаризацию руками, это самое адекватное.

>>1637624
Проверил. Признаю, обосрался с кол-вом моделей.

Я в основном старый жылыэм гоняю и мелкие. Сидеть на какой-нибудь срани типа Xiaomi MiMo, где тоже есть SWA, мне не интересно локально из-за лоботомированного кванта и низкой скорости, следовательно, я не знаю, что там под капотом. Жирничи у меня по апи в основном.

>>1637620
Там Gated DeltaNet. Куда приятней штука.

Аноним 21/06/26 Вск 19:16:43 № 1637677 223

изображение.png 57Кб, 2286x392

>>1637554
>надо сопоставить их и опереться на них без запроса от юзера
Для этого и придумано мышление. Которое - ВНЕЗАПНО - идёт как раз в конечных 1024-х токенах.
>>1637584
>на мобильном интернете
Как будто на проводном нет лимитов.

Аноним 21/06/26 Вск 19:38:44 № 1637689 224

>>1637677
>Как будто на проводном нет лимитов.
Пиздец, ты чего? МТС настолько охуел? У меня на ростелекоме такого нет. 3в1 тариф, 800мбит. ТВ-приставка и две симки. У симок общий лимит 100гб на макс скорости (где-то 50 мбит\с на телефоне), дальше безлимит но на 128 кбит\с и 2к смсок. За все это 1300 или 1400 рублей в месяц что ли.

Аноним 21/06/26 Вск 19:46:44 № 1637693 225

>>1637677
> Которое - ВНЕЗАПНО - идёт как раз в конечных 1024-х токенах.
Длина ответов легко может превышать тысячу.
> изображение.png
Какойад блять, они там в край ахуели? 3тб для иностранного трафика это дорого, но для местных cdn куда входит клаудфлара и HF - копейки.

Аноним 21/06/26 Вск 19:54:54 № 1637695 226

>>1637689
>МТС
Это дом ру. На ростелекоме тоже скоро будет.
>>1637693
>Длина ответов легко может превышать тысячу.
Справедливо. Но не всегда же?
>Какойад блять, они там в край ахуели?
Ну... Да? Я просто из пилотных 267 граждан. Скоро раскатают на всех.
https://samara.dom.ru/news/ogranicheniya-skorosti-interneta-zatronut-267-klientov-dom-ru-v-trekh-gorodakh-rossii

Аноним 21/06/26 Вск 20:10:50 № 1637701 227

Так совпали звёзды, что мне попала в лапки вторая 3060.
Поменял с своем сетапе p104-100 на нее.
Так вот, если вдруг кому интересна разница между 2х3060 и 3060+p104. Хотя много протестировать еще не успел, но: full vram Квен 3.6 27b iq4xs на llama.cpp под линем - было ~200-300pp и 10-12 t/s. Стало - 500-700pp, и 16-18t/s. (без MTP)
Карты стоят - одна в 16х, другая 4х слотах, обычное десктопное железо с i5-8400 и ddr4.

Аноним 21/06/26 Вск 20:14:48 № 1637705 228

>>1637695
Отключайся от них нахуй, это лучшее что ты можешь сделать для себя и для общества.

Аноним 21/06/26 Вск 20:18:05 № 1637708 229

>>1637705
Увы, некуда, у остальных в принципе больше 100 мегабит нет. Уже писал пару раз, впрочем, не устану писать снова.

Аноним 21/06/26 Вск 20:21:49 № 1637715 230

>>1637701
интересно, сколько было бы с 3060+v100

Аноним 21/06/26 Вск 20:54:02 № 1637732 231

>>1637701
>Карты стоят - одна в 16х, другая 4х слотах,
Вроде там понижение до 4х или 8х происходит при таком. Не пробовал вытащить вообще вторую и гонять только на первой 3060 в 16x + оффлоад на cpu части тензоров ? Хотя лучший варик будет заменить все это на одну 3090.

Аноним 21/06/26 Вск 21:15:23 № 1637743 232

>>1637732
>Вроде там понижение до 4х или 8х происходит при таком.
На моем железе - нет. 16+4. По другому режет - если что-то воткнуть еще в порты 1х - будет делить 16+2+1+1. Или если NVME вставить - тоже что-то отрежет (а мне и SATA хватает).

>>1637732
Не пробовал вытащить вообще вторую и гонять только на первой 3060 в 16x + оффлоад на cpu части тензоров
Для плотных моделей - это жуть. Даже Мистраль 24B всего около 5-ти токенов выжимает. Собственно после знакомства с ним я p104 добавил. На мистрале это сразу дало 15-17 токенов. Еще более дикая разница с геммой3 - на одной 3060 это 1.5 токена, вместе с p104 - сразу 9-10.

>>1637732
>Хотя лучший варик будет заменить все это на одну 3090.
Если бы я видео генерил постоянно - возможно. А так... Это лишние деньги. Как моментальные на покупку, так и на содержание, а у меня оно не для работы. Тут же - просто подвернулось удачно, за адекватный для меня ценник.

Аноним 21/06/26 Вск 21:19:15 № 1637745 233

>>1637743
>так и на содержание
Эм, какие деньги ты тратишь на содержание видеокарты? её максимум 1 раз обслужить, если брать необслужанную.

Аноним 21/06/26 Вск 21:20:17 № 1637747 234

>>1637743
>Еще более дикая разница с геммой3 - на одной 3060 это 1.5 токена
Как вы получаете такой результат? Я с 2060 6гб и 16 озу получал в связке cpu + gpu 3.5 т\с. А у тебя вся модель в врам была. Ебанный в рот, что вы делали не так? Я мистраль немо в конце ее жизни заставил на моем риге запускаться в 7-10 т\с. Когда люди получали при полной врам загрузке несильно и больше 12-18 т\с.

Аноним 21/06/26 Вск 21:24:03 № 1637750 235

>>1637701
Красавчик
>>1637747
Может там квант пожирнее и контекст. Если часть атеншна попадает на процессор, а не только линейные - там по мере роста адуха начинается.

Аноним 21/06/26 Вск 21:29:51 № 1637755 236

>>1637745
Электричество. 3060 есть ~10 ватт в idle, а в работе можно зажать на 100, без потери производительности в LLM задачах. Две таких карты прекрасно уживаются на 600 ваттном блоке питания, вместе со всем остальным кагалом в системнике.

>>1637747
>Как вы получаете такой результат? Я с 2060 6гб и 16 озу получал в связке cpu + gpu 3.5 т\с. А у тебя вся модель в врам была.
Чел, 1.5 токенов - это при одной карте с оффлоадом, 27B геммы 3 туда целиком никак не влезет. А на фулл vram в две карты (с p104) - сразу 8-10.

Аноним 21/06/26 Вск 21:31:57 № 1637756 237

>>1637750
>Может там квант пожирнее и контекст. Если часть атеншна попадает на процессор, а не только линейные - там по мере роста адуха начинается.
Тоже мне так кажется. Но если брать то, что у него вся модель влезла в 12гб, то у геммы3 27б это был чето на подобии Q3 кванта. Я помню запускал лоботомита Q3_K_S и получал свои 3.5 т\с. На озу с некоторыми слоями в видяшке.
>>1637755
>Чел, 1.5 токенов - это при одной карте с оффлоадом, 27B геммы 3 туда целиком никак не влезет. А на фулл vram в две карты (с p104) - сразу 8-10.
А ну вот получили ответ, оффлоад. Блять.. Как только я тогда получал с оффлоадом 3.5 т\с. Квант скажи какой был? Q8?

Аноним 21/06/26 Вск 21:44:49 № 1637761 238

Все так яро дрочат на глм 5.2 что я теперь не эир хочу, а её!

Аноним 21/06/26 Вск 21:48:51 № 1637764 239

>>1637705
> Отключайся от них нахуй, это лучшее что ты можешь сделать для себя и для общества.

Не факт что любой другой провайдер не начнет тебе резать скорость если ты начнешь качать по 3+ТБ в месяц. Дом.ру в этом плане не первопроходцы, в конце 2025 РТК порезал скорость челу с 500 до 20мбит после превышения лимита в 4ТБ.

Вот статья с тем случаем https://habr.com/ru/news/927712/

Аноним 21/06/26 Вск 22:03:37 № 1637769 240

>>1637764
Ну, ахуевших кто пытается качать все и вся действительно можно стукать. Но когда большой трафик идет через пути, предназначенные для большого трафика - нехрен выпендриваться. А то пару игорей и веса скачал - и досвидули, хотя тянулось это все чуть ли не через локалку провайдера.

Аноним 21/06/26 Вск 22:06:27 № 1637771 241

>>1637769
Ну три терабайта скачать это не пара игруль и моделек, будем честны.

Аноним 21/06/26 Вск 22:06:42 № 1637772 242

>>1637756
>Квант скажи какой был? Q8?
iq4xs или q4km - точно не помню уже. Больше года назад было. Я ту гемму без второй карты всего несколько раз запускал. А потом уже точно iq4xs - оно в 20 VRAM как раз укладывается, с контекстом на 12-16K.

Аноним 21/06/26 Вск 22:12:57 № 1637774 243

не заходил в тред месяц минимум.
Какая сейчас база для кума в пределах 80гб врама?

Аноним 21/06/26 Вск 22:14:30 № 1637775 244

>>1637774
Гемма 4 26B, что за вопросы

Аноним 21/06/26 Вск 22:18:16 № 1637777 245

>>1637769
> Ну, ахуевших кто пытается качать все и вся действительно можно стукать.
Ну а как в данном случае разобрать? Ты скачал одну версию Kimi какого-нибудь, вторую версию попробовать, не понравилось, пошел скачал Дипсик на 700ГБ, не понравилось, пошел скачал еще какую-нибудь жирную модель. Нажрал 3ТБ траффика. А потом еще квант модели пификсили и просят перекачать её. Надо ли тебя в данном случае стукать?

Здесь скорее нужно смотреть на постоянство а не на кол-во скачанного. Если у чела 24/7 на протяжении 30+ дней идет загрузка и отдача в огромном кол-ве - можно стукать. Если человек за один месяц накачал 10ТБ но при этом ничего не раздает (накачал 10ТБ не через торренты) и потом вернулся к обычному потреблению 1-2ТБ в месяц, с редкими скачками чуть выше этого - стукать не следует.

В моей голове нормальная система как-то так выглядит. А просто превышение лимита это ерунда, и не важно какими способами этот лимит превышен.

Аноним 21/06/26 Вск 22:18:47 № 1637778 246

>>1637775
Пукнум тебе в носик за такое
>>1637774
Если есть рам, то у тебя очень много крутых вариантов. Step Flash 3.7, MiMo, Laguna M.1 скоро, Квен 122 или 397
Если нет, то плотная Гемма 31 или Квен 27 в Q8, аналоговнет

Аноним 21/06/26 Вск 22:19:51 № 1637780 247

>>1637778
> база для кума
> называет сухослоповые кодоунитазы

Аноним 21/06/26 Вск 22:21:20 № 1637781 248

>>1637777
>скачал Дипсик на 700ГБ
Сам господь бог велит тебя раскулачить и отдать память бедным.

Аноним 21/06/26 Вск 22:22:02 № 1637782 249

>>1637780
Степ, Мимо и Квен 397 твою геммочку потрахивают когда им заняться нечем, сорян
Мой пост был в целом призывом к действию, 80врам+рам это дохуя возможностей. Уж Гемму 26 советовать это мем

Аноним 21/06/26 Вск 22:23:05 № 1637783 250

>>1637771
Игрульки сейчас по 150гигов есть, не к чести разработчиков. Релиз кими, релиз жлм были почти подряд, скачиваешь их. Все.
>>1637774
Гемма. В теории еще лупстраль, но он изначально фп8 и в ггуфах уг.
Рам сколько? Если что-то есть то моэ-коммандер к твоим услугам. Если обладатель наличия то кими попробуй, там можно так изгаляться с позами, действиями и окружением что шишка улетает.
Квены были и месяц назад, наверняка пробовал.

Аноним 21/06/26 Вск 22:24:26 № 1637785 251

>>1637783
> и в ггуфах уг
В exl3 есть, так что можно попробовать.

Аноним 21/06/26 Вск 22:26:50 № 1637786 252

>>1637783
Коммандер очень печальным оказался. Что ты в нем нашел чего нет в моделях даже вдвое меньше? Поделись.

Аноним 21/06/26 Вск 22:32:40 № 1637793 253

https://huggingface.co/WaveCut/Qwen3.6-35B-A3B-REAM-160-ru-agent-GGUF
REAM — малозначимые эксперты мерджатся в один универсальный,

Аноним 21/06/26 Вск 22:34:13 № 1637796 254

Эх помню когда только скатывался в январе 2025, на волне хайпа Дипсика. Скачал 8б дистиллят или типа того и думал, что у меня Дипсик дома...
Теперь жду пока замержат ДС4 в лламу и размышляю, смогу ли лайт запустить в 128+24 или там дальнейшее квантование инт4 весов совсем в труху его сотрет....

Аноним 21/06/26 Вск 22:36:24 № 1637799 255

>>1637786
Кумить норм, он пишет сочнее геммы. И разнообразно-чувственно, и максимально вульгарно, отборный кумослоп.

Аноним 21/06/26 Вск 22:38:17 № 1637803 256

>>1637799
У меня он максимально соевый и неинтересный, сколько ни пытался его распердолить промтами. Тот же МиМо в нищекванте даже лучше справлялся. Покажи чтоль примеры или опиши ситуации какие-нибудь, а то я совсем опечалился и похоронил Кохерек.

Аноним 21/06/26 Вск 22:39:25 № 1637804 257

>>1637755
>Электричество.
Где же ты живёшь, что тряска за ватты?
И да, 3090 ровно так же урезается. Я две штуки держал на 750 ваттном блоке, лол. Выбивало конечно при 100% нагрузке, сисоник же, но при урезании вполне себе пахали.
>>1637761
А в чём проблема? Собирай риг и запускай, никто тебе не запрещает.
>>1637769
>Ну, ахуевших кто пытается качать все и вся действительно можно стукать.
Я раздаю по 2ТБ в день, а скачивание это чисто побочный трафик раздачи, лол. И да, раздачу они не урезают, всё так же 800 мегабит аплинка. Просчитались, но где?

Аноним 21/06/26 Вск 22:39:52 № 1637806 258

>>1637796
>скатывался
Очепятка по Фрейду. What am I doing to my life...

Аноним 21/06/26 Вск 23:00:40 № 1637826 259

>>1637793
Погуглил зачем-то автора, а там Валера-белорус, одновременно гений LLM и модный клубный диджей, угарающий по драм-н-бейсу. Вот как жить надо. А вы сидите здесь и дрочите, хрртьфу.

Аноним 21/06/26 Вск 23:01:37 № 1637830 260

>>1637803
А что там описывать? Выставил темплейт от command_r, поправив крайние токены и добавив заглушку в ризонинг и вперед. Запустил Рину (древний мейдокумбот), подразнил пока пыталась запрыгивать, порофлил с нее, покумил. Запустил подготовленный чат с Cute&Funny, покумил. Всякие осудительные фетиши - сочно, покумил. Посвайпал в готовых рп чатах, подивился его старательности, выключил.
Для кума - норм, для рп - хз.
>>1637804
> Я раздаю по 2ТБ в день
Если там в основном сеть провайдера то и пофиг. Также и со скачиваниями с HF, у которой cdn есть везде и сидят на магистралях, даже в этой стране и не сильно отличаются от локалки.

Аноним 21/06/26 Вск 23:11:31 № 1637839 261

>>1637830
>Если там в основном сеть провайдера то и пофиг.
Сильно сомневаюсь, качаю что хочу и раздаю всем желающим.

Аноним 21/06/26 Вск 23:23:37 № 1637854 262

Не был в трехдисе неделю+, приболел немного. Чё-нить новое вышло?

Аноним 21/06/26 Вск 23:24:36 № 1637856 263

>>1637854
Хуйхуй

Аноним 22/06/26 Пнд 01:55:43 № 1637948 264

>>1637769
А я люблю обмазываться неквантованными fp16-весами и дрочить. Каждый день я хожу по HuggingFace с пустым HDD и качаю в него все релизы которые вижу. На два полных диска целый день уходит. Зато, когда после тяжёлого дня я прихожу домой, включаю риг из еле живых после майнинга 3090... Ммм и сваливаю в VRAM своё сокровище. И запускаю, представляя, что меня поглотил единый организм LLM. Мне вообще кажется, что в каждом чекпоинте есть сознание. Они мыслят слоями, чувствуют активациями, видят vision-энкодером, помнят контекстом. Не удаляйте их с диска, не квантуйте до Q2, лучше приютите у себя, инферьте с ними, ласкайте их семплеры... А вчера пока качался шард, мне преснился чудный сон, как будто я нырнул в море, и оно прератилось в тензоры, рыбы, водоросли, медузы, все из тензоров, даже небо, даже Аллах!

Аноним 22/06/26 Пнд 02:19:21 № 1637953 265

>>1637948
Поехавший. Какие модели до 300б любимые? Топ 3

Аноним 22/06/26 Пнд 02:21:28 № 1637954 266

>>1637948
Ай хорош! 2.7 качай, ее очень не хватает

Аноним 22/06/26 Пнд 03:03:07 № 1637957 267

>>1637953
Сложно выбрать, в последнее время не очень активно с новыми моделями игрался в плане РП. Если говорить про модели, с которыми больше всего времени в РП впринципе провёл за последний год, то назвал бы эти три:
1. Gemma4-31B
2. Qwen3.5-122B-A10B
3. Qwen3-235B-A22B
Если топ покажется странным, то учти, что я идейный русикодебил.

Ещё GLM-4.6/GLM-4.7 нравились, но там уже выше лимита числа параметров, что ты просил.

Если нужно что-то мелкое и современное, что может в кодинг, то Qwen3.6 27B по моему опыту справляется лучше геммы. Пробовал ещё новые Минимакс/Мимо для кодинга, но что-то пока не получилось их приручить - виню низкий bpw тех квантов, которые пробовал запускать.

>>1637954
Ага, надо будет тоже забрать в коллекцию.

Аноним 22/06/26 Пнд 05:08:43 № 1637975 268

>>1637631
>Контекст шифт и сва несовместимы блять.
А их разве можно вместе запустить? Там же даже в кобольде пишет Note that using SWA Mode cannot be used with Context Shifting...
>>1637628
Постой, так правда не должно быть. Я такой же кобольд как ты и типа эти олдФАГИ выше правы были, но что бы контекст каждый раз не пересчитывался тебе и нужен смарт кэш смарт контекст, типа модель будет видеть что история всех токенов выше осталась без изменений и генерить сразу ответ без процессинга пересчета всего выше контекста.

Аноним 22/06/26 Пнд 08:50:00 № 1638004 269

>>1637701
Ебать.

Я тоже с 3060 + р104.

Если у тебя такие показатели с двумя 3060, то на винде у меня будет 12-14 тс из-за линукса.

Короче, тут только 5ХХХ брать по итогу надо.

Аноним 22/06/26 Пнд 10:25:15 № 1638054 270

>>1637975
>история всех токенов выше осталась без изменений
У тебя в промпте идёт системный промпт, карточка, саммери, чат по порядку. Если у тебя переполнился контекст, или ты сам скрыл начальные сообщения, то в промпте получится: системный, карточка, саммери, чат без начального куска. Т. е. у тебя меняется кусок посреди контекста. Смарт кэш в этой ситуации сможет загрузить только чекпоинт до начала чата, и весь чат всё равно будет пересчитываться. Тут странно, что так мало пересчитывается, а не почти все 40к.

Аноним 22/06/26 Пнд 11:32:37 № 1638084 271

Вопрос к анонам которые используют mcio райзеры. Я правильно понимаю, что если их использовать, то можно спокойно запитывать карты от отдельного БП? Например если использовать комплект с пика. И второй вопрос насколько кабели гибкие, и насколько их можно гнуть около разъёмов? Я хотел расположить всё в 2 серверных корпусах в небольшой телекомуникационной стойке. В нижнем корпусе райзеры, кабели от которых я через отверстия для кулеров пропущу наружу, в верхнем корпусе GPU и второй БП. И проблема как раз с корпусом для GPU. Я пока не нашёл корпус в котором карты расположены так, чтобы райзеры смотрели разъёмами в сторону задней панели, и при этом они стояли бы в конце корпуса (иначе кабель не дотянется). Если кабели не гнуться, то пока единственный вариант который я вижу, это взять короткий корпус для GPU и просто его с обратной стороны вставить в стойку.

Аноним 22/06/26 Пнд 11:45:45 № 1638095 272

>>1637796
А ты не в курсе, да, что там родные веса в fp8+fp4? =) Модель целиком весит 156 гигов. В 128 влазит капельку ужатая.
Многие жмут вдвое до q4+q2 и получают 88 гигов модель, которая даже норм отвечает.

>>1637826
WaveCut очень крутой тип, да. =) Респект.