/ai/ - Локальные языковые модели (LLM): LLaMA, Gemma, Qwen и прочие №208

Локальные языковые модели (LLM): LLaMA, Gemma, Qwen и прочие №208 /llama/ Аноним 27/03/26 Птн 09:38:37 № 1564094 1

Эффективность к[...].png 92Кб, 1399x1099

Реальная длина [...].png 518Кб, 2372x1712

В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!

Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.

Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.github.io/wiki/llama/

Инструменты для запуска на десктопах:
• Отец и мать всех инструментов, позволяющий гонять GGML и GGUF форматы: https://github.com/ggml-org/llama.cpp
• Самый простой в использовании и установке форк llamacpp: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Заточенный под Exllama (V2 и V3) и в консоли: https://github.com/theroyallab/tabbyAPI
• Однокнопочные инструменты на базе llamacpp с ограниченными возможностями: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern
• Альтернативный фронт: https://github.com/kwaroran/RisuAI

Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux

Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/2ch_llm_moe_2026
• Неактуальные списки моделей в архивных целях: 2025: https://rentry.co/2ch_llm_2025 (версия для бомжей: https://rentry.co/z4nr8ztd ), 2024: https://rentry.co/llm-models , 2023: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по чуть менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard

Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Перевод нейронками для таверны: https://rentry.co/magic-translation
• Пресеты под локальный ролплей в различных форматах: http://web.archive.org/web/20250222044730/https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
• Выгрузка избранных тензоров, позволяет ускорить генерацию при недостатке VRAM: https://www.reddit.com/r/LocalLLaMA/comments/1ki7tg7
• Инфа по запуску на MI50: https://github.com/mixa3607/ML-gfx906
• Тесты tensor_parallel: https://rentry.org/8cruvnyw

Архив тредов можно найти на архиваче: https://arhivach.vc/?tags=14780%2C14985

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.

Предыдущие треды тонут здесь:
>>1560242 (OP)
>>1556634 (OP)

Аноним 27/03/26 Птн 09:39:34 № 1564101 2

Резервирую для будущих целей чтобы базой не засрали.

Аноним 27/03/26 Птн 09:39:42 № 1564102 3

>>1564091 →
Встаньте на раздачу, котаны, очень надо

Аноним 27/03/26 Птн 09:44:12 № 1564105 4

>>1564101
Это База

Аноним 27/03/26 Птн 09:52:37 № 1564113 5

>>1564102
дхт включи что-ли. я просто добавил магнет и даже не добавлял урл трекера, все подцепилось сразу, 10 сидов и 40 пиров.

Аноним 27/03/26 Птн 09:57:57 № 1564116 6

Так и на какой модели кумить-то нормально простому анону с 16gb vram?

Аноним 27/03/26 Птн 10:00:03 № 1564120 7

>обхватил персонаж_нейм за талию и положил голову на ей плечо
>персонаж - маленького роста
>квен: её ноги оторвались от земли

Аааа! Вот сючок, всё понимает! Я думал, что он меня шринкнет до её роста, но нет, он её поднял. Мегахарош!

Аноним 27/03/26 Птн 10:01:15 № 1564122 8

>>1564015 →
У меня появилась идея

в принципе, часть штук решается при помощи этого расширения

https://github.com/cierru/st-stepped-thinking

там по сути пошаговое мышление и туда можно добавить шаги с промптом на расчет сцены и прочего.

Можно впринципе переработать расширение как раз не на мышление а на обсчет дополнительных блоков и когда вызывать - до генерации или после.

Будет огонь, наверное.

Аноним 27/03/26 Птн 10:02:03 № 1564123 9

Так что по новому мистралю который 119б?

Аноним 27/03/26 Птн 10:04:35 № 1564124 10

Походу в ближайшее время мы не сможем запустить в лламе кванты gpt oss 88 от нвидии. Там говорят кастомные костыли нужны для её поддержки.

Аноним 27/03/26 Птн 10:05:04 № 1564125 11

>>1564116
смотря для какого кума.
Я кумлю на своих 16гб врам рп чисто на русском:

Qwen3.5-27B-Animus-V13.0-IQ4_XS.gguf
mradermacher_Q3.5-BlueStar-v2-27B-IQ4_XS.gguf
mradermacher_Qwen3.5-27B-HERETIC-Polaris-Advanced-Thinking-Alpha-uncensored.IQ4_XS.gguf
Qwen3.5-27B-Writer-IQ4_XS.gguf
* ai-sage_GigaChat3.1-10B-A1.8B-q8_0.gguf

Если англюсик - то выбор больше конечно

Аноним 27/03/26 Птн 10:05:51 № 1564127 12

>>1564124
то то я гуфов не вижу

Аноним 27/03/26 Птн 10:05:59 № 1564128 13

>>1564113
Я наоборот его выключил и загрузка пошла. Пиздец нанотехнолаги
Спасибо российскому антошке, что раздаёт. Атдушы, брат

Аноним 27/03/26 Птн 10:06:03 № 1564129 14

image.png 12Кб, 974x330

>>1564125
>ai-sage_GigaChat3.1-10B-A1.8B-q8_0.gguf

Эм?

Аноним 27/03/26 Птн 10:06:07 № 1564130 15

>>1564116
Оперативы то сколько, кумер?
Так то, с 16гб можно: glm air, Qwen 235, Qwen27b, qwen 122b, с очень большой натяжкой но glm 4.7, Step3.5, minimax 2.5(сомнительно ибо оче сильная цензура), мистрали. И каждой модели свое количество оперативы. Но все это до 128гб залазит со свистом.

>>1564123
Мне не понравилась прям совсем. Пишет мало, пишет плохо. Глупая.
В общем обосрались мистральки и очень сильно. Так что или ждем мифический медиум или чуда от тюнеров.

Аноним 27/03/26 Птн 10:07:52 № 1564131 16

>>1564130
>Оперативы то сколько, кумер?
32гб, готовые быть заполнеными кумом до краёв. Мне важнее отсутствие цензуры в модели, а то они все инвалиды какие-то в этом плане.

Аноним 27/03/26 Птн 10:08:18 № 1564133 17

>>1564129
ты неправильно его готовишь. даже кум машины в ассистенте будут говно выдавать. в таверне гигачад охуенно пишет, ему главное карточку на русском сделать

Аноним 27/03/26 Птн 10:08:35 № 1564135 18

>>1564120
Блять, да как вы умудряетесь? У меня даже Серафина по несколько раз меняет цвет платья, путается в руках/ногах и выходит в несуществующие двери

Аноним 27/03/26 Птн 10:09:14 № 1564136 19

>>1564127
Там один чел сделал, на форке лламы, но у него там только фул пресижн веса

Аноним 27/03/26 Птн 10:10:23 № 1564138 20

>>1564133
Так я локально хочу запускать. Дай итоговый промпт для гигичада, попробую с ним.

Но пока впечатление, будто это самая зацензуренная модель.

Аноним 27/03/26 Птн 10:12:52 № 1564139 21

>>1564135
>Блять, да как вы умудряетесь?
Просто используй модели не менее 358B.

Аноним 27/03/26 Птн 10:12:56 № 1564140 22

>>1564131
Ну тогда у тебя остается 27b. Потому что для всяких моешек надо бы от 64гб.
Вот эта быстрая рука шарит за эту модельку. Я могу только за среднемоэшки помочь. >>1564125

Аноним 27/03/26 Птн 10:16:44 № 1564143 23

А куда делись все адепты glm?
Раньше как не зайду в тренд glm air, glm air.
А сейчас вообще никто не вспоминает.
Квен лучше оказался?

Аноним 27/03/26 Птн 10:17:51 № 1564145 24

>>1564143
Я перегорел слегонца, плюс пятый вышел в слишком большом размере. А так мой член моё сердечко всё ещё с 4,7.

Аноним 27/03/26 Птн 10:18:23 № 1564146 25

>>1564145
А флэш - совсем хуйня?

Аноним 27/03/26 Птн 10:19:36 № 1564147 26

>>1564143
Air попадал в сетап 16+64. Ну и тут в треде бегает шиз попрошайка, что срал эйром.
А так вышли модели больше и лучше. Что залетают в 16+128 и особенно в 24+128. Ну и квен свежий, и что главное: квены всегда умели писать, просо делают это очень специфично.

Аноним 27/03/26 Птн 10:20:14 № 1564148 27

>>1564143
Air всё ещё лучший вариант для рп вплоть до 355б, потом это 4.7. Но какой смысл продолжать об этом писать? Под каждым постом про Квен срачи разводить что ли?

Аноним 27/03/26 Птн 10:30:27 № 1564152 28

Бля, дайте пример итогового промта от таверны, чтобы я мог его в lm studio вогнать. Чатгпт отказывается показывать скрытые техники обезцензуривания.

Аноним 27/03/26 Птн 10:34:23 № 1564156 29

>>1564152
Посмотри в шапке соседнего болота. Которое ацыг. Там должны быть.

Аноним 27/03/26 Птн 10:38:07 № 1564157 30

Какой пресет, сиспромпт и сэмплеры нужны гигачату?

Аноним 27/03/26 Птн 10:38:26 № 1564158 31

>>1564156
>ацыг
Что это, блять?

Аноним 27/03/26 Птн 10:39:35 № 1564160 32

>>1564135
Это нормально. Не забывай, что без финкинга модель генерит слова, а не обдумывает их. Если ты гоняешь мелкомодельку то нечему удивляться.
>>1564125
>XS
But why?

Аноним 27/03/26 Птн 10:42:06 № 1564162 33

В общем, потихоньку издеваюсь на гигачатом. В целом, разделяю мнение, что цензура там ебейшая.
Abliteratus, heretic - не сработали. Первый вообще не запустился на их архитектуре, второй запустился, но не нашел ни паттернов отказа, ни самих отказов.

Но вот самостоятельно получилось найти слой, на котором рефьюзал срабатывает и применить примитивный steering. И действительно он начал отвечать на промпты, в которых раньше уходил в отказ.

Но это конечно все примитивная хуйня по советам нейрокомрадов. Есть ли ещё нормальные тулзы для обесцензурирования?

Аноним 27/03/26 Птн 10:42:55 № 1564163 34

>>1564158
Тред чатоделов или что то там. Acig.

Аноним 27/03/26 Птн 10:43:07 № 1564164 35

>>1564152
> пример итогового промта от таверны, чтобы я мог его в lm studio вогнать
> Чатгпт
> скрытые техники обезцензуривания.
Мне аж поплохело. Даже и не знаю с чего тут начать. Например, прекрати использовать LM Studio хотя бы в качестве фронтенда. Там у тебя даже нет Text Completion, на котором все сидят в этом треде. А лучше от этого поделя отказаться полностью, в пользу llamacpp или Кобольда, если нужен интерфейс. И нет никаких скрытых анонимно срать в подъезде техник обесцензуривания, не существует их. Не спеши никуда и разбирайся по-тихоньку. На Text Completion со сколь-нибудь адекватным промптом и сэмплерами результат уже будет лучше того что у тебя есть.

>>1564162
> В целом, разделяю мнение, что цензура там ебейшая.
Это модель, товарищем майором через одно-два рукопожатия. Чего вы ждали?

Аноним 27/03/26 Птн 10:48:46 № 1564166 36

>>1564164
>Там у тебя даже нет Text Completion, на котором все сидят в этом треде. А лучше от этого поделя отказаться полностью, в пользу llamacpp или Кобольда, если нужен интерфейс. И нет никаких скрытых анонимно срать в подъезде техник обесцензуривания, не существует их. Не спеши никуда и разбирайся по-тихоньку. На Text Completion со сколь-нибудь адекватным промптом и сэмплерами результат уже будет лучше того что у тебя есть.
Блять, как же сложно, нихуя не понимаю.

Аноним 27/03/26 Птн 10:52:50 № 1564168 37

>>1564166
Был там, знаю, потому и говорю: не спеши никуда и разбирайся по-тихоньку. Поставь для начала Кобольда и/или Таверну. LM Studio тебе только палки в колеса вставлять будет. В шапке инфа есть, пусть и устаревшая чуть, но актуальная. Но и на Ютубе есть часовые видосы по Кобольду, даже на русском.

Аноним 27/03/26 Птн 11:02:30 № 1564174 38

>>1564164
Ну хуй знает, вроде гигачат про еблю пишет, главное надо ему насрать в голову контекстом чтобы в отказ не ушел.

Я использую джейлбрейк промпт, но кажется он работает на уровне плацебо, но иногда помогает продавить некоторые отказы если контекст еще маленький

>>1564157
Я квеновский использую, вроде норм

[GigaChat-10b-a1.8b]
model = ai-sage_GigaChat3.1-10B-A1.8B-q8_0.gguf
chat-template-file=template_gigachat3.1.jinja2
no-mmap=1
ctx-size=10000
ngl=999
temp=0.7
min-p=0.05
top-p=0.95
top-k=20
batch-size=1024
ubatch-size=1024
flash-attn=1
no-context-shift=1
parallel=1
ctx-checkpoints=128
swa-full=on
chat-template-kwargs = {"enable_thinking": false}

>>1564166
Я пытался использовать текст комплишен но как то криво работает. пока вернулся на чат комплишен, там надо только шаблоны пропатчить немного и все.

Аноним 27/03/26 Птн 11:03:01 № 1564175 39

>>1564160
К_М уже не лезет в 16 врам

Аноним 27/03/26 Птн 11:05:50 № 1564177 40

Для геммы3 abliterated rpo - лучший выбор? Синтия зацензурена как и оригинал. Зачем она вообще в рекомендации?

Аноним 27/03/26 Птн 11:07:49 № 1564179 41

>>1564175
Представь как мне на 8врам. И у меня q6 минимум. Q4 - это говнище доя рп.

Аноним 27/03/26 Птн 11:09:08 № 1564181 42

>>1564166
> Блять, как же сложно, нихуя не понимаю.
Все нормально, анон. Все мы там были, сейчас попробую рассказать:
Есть два путя: чат компликшн и текст компикшн.
Это форматы общения с моделью.
В режиме чат- модель работает со своей разметкой, с понятными для неё ролями. По сути как корпы через апи.
В режиме текста- ты просто подаешь на модель блок текста. Но! Тут то и собака зарыта, ты можешь управлять простом и системными подсказками, включая формат выдачи. Проще говоря, вот эти все чатмл что в треде всплывают, вот это оно и есть. Это формат разметки в котором ты объясняешь структуру чата модельки.
Ты спросишь, а нахуя ебаться с промтами, если можно использовать чат комплишн. Потому что в таком случае ты будешь возбуждать ассистента трогая его за разные места. А с ассистентом никакого РП не будет.

В общем переходи на таверну. Она конечно говно, но все остальные фронты говно еще большее.

Аноним 27/03/26 Птн 11:11:20 № 1564183 43

>>1564179
Я не готов ждать 1-3 токена в секунду, я целиком заталкиваю плотненький квен в видеокарту. мне сейчас и 20 т/с уже кажется мало.
А для мое можно и побольше квантизацию использовать

Аноним 27/03/26 Птн 11:12:18 № 1564184 44

>>1564181
Чой та не будет? Скармливаешь карточку, и он этот образ отыгрывает.

Аноним 27/03/26 Птн 11:13:22 № 1564186 45

>>1564183
Но там же не текст, а срань господня. Еще и лупится постоянно.

Аноним 27/03/26 Птн 11:15:06 № 1564188 46

>>1564184
Да в пизду этого ассистента. Вместо ебли с промтами, ебешься с его аполоджайсами.
Я так и не нашел применения чаткомплишена в РП. Если как агента для макакакодинга то базару нет, идеально.

Аноним 27/03/26 Птн 11:21:51 № 1564194 47

>>1564188
Что за чатеомплишен? Я про лмстудио. Норм она рп делает

Аноним 27/03/26 Птн 11:27:03 № 1564198 48

>>1564138
Смотри разметку, скорее всего там насрано. У них там своя разметка ещё и с двойным системным промтом. Если ты через чат коплишн сидишь, то там нужно джинжу менять, так как таверна не может менять дев блок, а в нём паста смерти.

Аноним 27/03/26 Птн 11:28:36 № 1564200 49

>>1564194
Таверну ставь, ебаквак.

Аноним 27/03/26 Птн 11:28:43 № 1564201 50

>>1564179
У меня 10 врам, тоже ем слоп через раз (

Аноним 27/03/26 Птн 11:30:54 № 1564204 51

>>1564200
И чем она лучше? Мне аватары не нужны.

Аноним 27/03/26 Птн 11:36:52 № 1564209 52

>>1564204
Ну тогда ебись сам с лм студио. Все очень просто.
Она нахуй тут никому в треде не сдалась, кроме пары ленивых анонов, что её как менеджер закачек используют.

Аноним 27/03/26 Птн 11:45:53 № 1564214 53

>>1564181
Т.е. в текст комплишене модель из промпта и диалога пытается понять структуру с продолжить диалог?

А в чат комплишене - роли прибиты гвоздями?

Правильно понял?
И что из этого тогда в jinja файле?

мимо, тоже нубас

Аноним 27/03/26 Птн 11:47:24 № 1564215 54

Давно тут не был.
Какие модели сейчас лучшие по размер=качество?
Кое как впихнул квена 3.5 27б опус 4.6 эдищон на своб 3050 6гб ноутбучную, и 16гб рам.
Скрепя зубами, выдавая 2-3 токена, но работает.
И тем не менее, ебал на такой скорости сидеть. Жаль гуглы не выпустили новые гемы. Лучшие в своём размере были.

Аноним 27/03/26 Птн 11:48:30 № 1564216 55

>>1564214
Jinja это шаблон который рендерится с данными из запроса и идёт текст комплишен.
Вызывая сразу текст комплишен идёт байпас рендера жинжи.
В джиндже можно нахуевертить что угодно + мультимодальность есть

мимо

Аноним 27/03/26 Птн 11:51:55 № 1564217 56

>>1564215
смотри в сторону мое.
последний гигачат в твою нишу вполне хорошо залетает,
https://huggingface.co/ai-sage/GigaChat3.1-10B-A1.8B-GGUF

еще теоретически можно посмотреть мелкоквены уровня 4b-9b но скорее всего только на англюсике. есть файнтюны мелкоквенов для рп

Аноним 27/03/26 Птн 11:52:15 № 1564218 57

>>1564204
В LM Studio у тебя меньше возможностей. Если бы тебе было не похуй, мог бы и в шапке прочитать и получить ответы на большинство своих вопросов. Тебе даже вежливо дали понять куда двигаться, но не хочешь слушать - да и иди нахуй.

Аноним 27/03/26 Птн 11:53:28 № 1564219 58

>>1564164
>А лучше от этого поделя отказаться полностью, в пользу llamacpp или Кобольда
Это и есть llamaccp к апи которого спокойно подключается таверна, хоть в режиме чата хоть текста (в таверне похуй как я понял)
Фронтенд используется для управлениями настройками, обновлениями, менеджментом/скачкой моделей этц, и имхо в нём это сделано лучше аналогов

Ассистент в самом ЛМе неплох в режиме "набросай мне карточку/сценарий/профиль персонажа". Офигенно работает это всё, но по картинке/кам. Можешь хоть тупо десяток страниц манги зарядить и квен зделоет, еще и на русском. Можешь сам продолжить подкидывать уточнения или вообще в любой момент селф инсертнутся. Попросишь нсфв в чем-то из этого - от души ебанёт не хуже рассказчика в таверне.

Если уже есть специализированная карточка то лучше таверна конечно

Аноним 27/03/26 Птн 11:58:20 № 1564221 59

>>1564214
Когда модельку выпускают к ней идет tokenizer_config.json
В ней и есть та самая жинжа. Там есть графа : chat_template
Разметка не появляется из воздуха, поэтому когда тут прибегают шизы с истинно правильной разметкой™ , и она отличается от того на чем обучали модель, то можешь смело бить нейродиком по их щекам.
Потом эту разметку запихивают в гуфовичка. Именно поэтому в лламе -jinja и работает.
Ну это если максимально просто.

Аноним 27/03/26 Птн 12:02:39 № 1564227 60

>>1564221
если быть точным, то в репо модели лежит файлик chat_template.jinja с жижей
https://huggingface.co/Qwen/Qwen3.5-27B/blob/main/chat_template.jinja

В этом же шаблоне кстати и используются проверки типа чтобы системный промпт не был в конце или несколько системных и тд. От этого лама иногда и падает. но можно и поправить шаблон если все равно хочется использовать чат комплишен в таверне (кстати, может падать не только в таверне, некоторые агенты тоже иногда хуйню шлют)

Аноним 27/03/26 Птн 12:06:16 № 1564230 61

>>1564204
Тем что таверна и кобольд чуть ли не единственный широко распространенные инструменты, которые дают возможность общаться напрямую с весами модели в text completion и строить свой собственный шаблон контекста, а не через jinja шаблон вшитый в модель. Дефолтные jinja шаблоны содержат в себе в самом начале контекста направляющие префиллы "You are LLM ass... by ... " . Включение думалки где надо и где не надо. Чередование диалога <ass><user><ass><user> (в результате чего модель может подыгрывать юзеру). Кроме того существует поверие, что при разном тегировании контекста (<|user|> или <|im_start|>) можно задействовать модель в "базовом" режиме - с меньшим учетом финального тренинга на безопасность/ассистентность. Ну ты конечно можешь трахаться с jinja - но боюсь "трахаться" тут будет только в философском смысле, потому что формат специфичный и без перезагрузки бэкенда не применяется.

Аноним 27/03/26 Птн 12:15:23 № 1564236 62

image.png 169Кб, 1231x360

>>1564217
попробуй https://huggingface.co/Darkhn/Qwen3.5-9B-Animus-V13.0

Мне его старший Qwen3.5-27B-Animus-V13.0 (пик) очень нравится, хороший рп получается, младший в русский намного хуже умеет, но на англ наверное должно быть хорошо.

Аноним 27/03/26 Птн 12:17:18 № 1564239 63

Подозрительно добрые аноны.
Не к добру это, не к добру.

Аноним 27/03/26 Птн 12:21:46 № 1564244 64

А по-моему наоборот, взяли и новичка забуллили на ровном месте
А он только-только научился в лм студио наряжать ассистента в кошкодевочку и пить с ним чаёк..

Аноним 27/03/26 Птн 12:50:32 № 1564253 65

>>1564221
Шизы свою разметку тоже не из воздуха берут - они смотрят в словарь токенов и видят "ага, а что это у нас в дополнение к [gMASK]<sop> и <|user|> еще и токены ChatML присутствуют - это "ж-ж-ж не спроста".

Аноним 27/03/26 Птн 12:58:59 № 1564259 66

>>1564253
Как же я хочу чтобы уже все пришли к единому формату, без этого пердолинга. Порой на жинжи без слёз не глянешь. Я так и не понял, что за хуйня в большом гичате.

> [gMASK]<sop>
Шмяк за жопку глм юзера.

Аноним 27/03/26 Птн 13:00:05 № 1564260 67

Чаб закрыли О_О ?_? С прошлого года наверно не заходил.

Хотя с актуальными моделями и шаблонами действительно проще попинать модельки скормив ей шаблон, а потом отредактировав нужное самостоятельно.

А если делать из какого устоявшегося сеттинга, то можно даже корпа с веб-поиском напрячь чтобы собрал инфу прошерстив вики.

Хотя некоторые, единичные, карточки были действительно хорошие.

Аноним 27/03/26 Птн 13:01:10 № 1564261 68

>>1564260
Работает. Вчера качал. Подрубай впн.

Аноним 27/03/26 Птн 13:10:35 № 1564267 69

>>1564177
>геммы3
- abliterated-dpo лучший "радостный-убийца-ес-мен"
- Синтия - жырухо-гемма, известна мужененавистничеством
- Синтвейв / сторителлер - мержи, работают хорошо, но потеряли актуальность после выхода abliterated-normpreserve

Аноним 27/03/26 Птн 13:15:23 № 1564272 70

>>1564230
А что там с джинджа? Что туда пихать надо? Первый раз про это слышу.

Я бахаю что нужно в систем промт и модель дальше сама отлично понимает, что от нее надо.

Аноним 27/03/26 Птн 13:17:53 № 1564273 71

>>1564272
не, в таверну жижу пихать не надо, это ламе в командной строке скармливать, кобольду наверно тоже можно, не пробовал

Аноним 27/03/26 Птн 13:27:36 № 1564279 72

>>1564146
Зачем жрать капусту, когда есть картошка?
Зачем сидеть на флеше, когда есть большеГЛМ? Не, серьёзно, даже не пробовал.

Аноним 27/03/26 Птн 13:27:49 № 1564280 73

>>1564272
У тебя минималистичный джинджа шаблон чат-мл. Который точно работать будет только на квенах. Можно напихать think no-think префиллы - да и по большому счету для РП больше ничего не нужно.

Аноним 27/03/26 Птн 13:28:07 № 1564281 74

https://www.dns-shop.ru/product/9ed2387b62bfd9cb/operativnaa-pamat-gskill-trident-z5-neo-rgb-f5-6000j3444f64gx2-tz5nr-128-gb/

170 тысяч котоны.
170 тысяч.

Аноним 27/03/26 Птн 13:30:43 № 1564285 75

>>1564281
Кто будет брать, не забудьте подсветку выдрать.

Аноним 27/03/26 Птн 13:31:17 № 1564286 76

>>1564272
Да блять. Нахуй тебе не нужна жинжа, если ты не понимаешь что это. Скорми её корпе и попроси объяснить структуру разметки.
Еще раз. Это готовый файл разметки. Его никуда пихать не надо, он уже есть.

Аноним 27/03/26 Птн 13:32:27 № 1564287 77

>>1564285
Я же это и сделал. Не напоминай.

Аноним 27/03/26 Птн 13:36:05 № 1564288 78

>>1564286
>дают возможность общаться напрямую с весами модели в text completion и строить свой собственный шаблон контекста
А что это дает то? Кроме разметки.

Аноним 27/03/26 Птн 13:36:34 № 1564290 79

>>1564281
Продам 64гб точно такой же за жалкие 65к купил 4 планки в конце года, а пека с ними не запускается, падла такая, только с 2

Аноним 27/03/26 Птн 13:41:38 № 1564292 80

>>1564290
На Авито продавай. Не тупи. На них гарантии по 300 месяцев идут. И память самый устойчивый элемент в пк к нагрузкам. Ей нихуя не будет.

>>1564288
Для тебя как для пользователя это дает возможность залазить ручками в разметку, чтобы был удобный для тебя формат чата. И самое главное, ты общаешься не через возбуждение ассистента. Анон об этом и писал, ты по сути напрямую с весами работаешь. Условно напрямую.
Тема какая, ассистент следует своим политикам безопасности. А нам это не надо, ебля лошадей и карточек как правило цензурируется.

Аноним 27/03/26 Птн 13:45:18 № 1564296 81

>>1564292
>Тема какая, ассистент следует своим политикам безопасности. А нам это не надо, ебля лошадей и карточек как правило цензурируется.
Не следует. У меня же модели без цензуры.

Аноним 27/03/26 Птн 13:46:35 № 1564299 82

>>1564292
> На Авито продавай.
Да я уже 2 месяца продаю. Кажется, там нет платежеспособной аудитории. Последний раз когда моя модель была в днс - цена была за 120к. А у меня за 65 не берут!
Сегодня полезу бивис обновлять, может они улучшили memory training и оно наконец заведётся с 4 планками.

Аноним 27/03/26 Птн 13:46:55 № 1564300 83

>>1564296
Желаю вам приятного рп с йес менами анон. Я в него не смог.

Аноним 27/03/26 Птн 13:48:04 № 1564302 84

>>1564299
Ты сейчас на консумерской матери пытаешься 4 плашки по 64гб запустить? Или я тебя не понял?

Аноним 27/03/26 Птн 13:48:36 № 1564303 85

>>1564300
>рп с йес менами анон
Чего????

Аноним 27/03/26 Птн 13:49:12 № 1564305 86

>>1564296
Ты похоже не очень умный, если игноришь весь тред, который пытается тебе помочь. Модель без цензуры, при этом просит джейлбрейки у чатагпт. Не лечится

Аноним 27/03/26 Птн 13:49:45 № 1564306 87

>>1564305
Это не я.

Аноним 27/03/26 Птн 13:49:51 № 1564307 88

>>1564302
Да!
x870e

Аноним 27/03/26 Птн 13:50:46 № 1564309 89

Опять ведутся на байты залётной зелени троллящей тупостью... надо карточку треда создать.

Аноним 27/03/26 Птн 13:50:49 № 1564310 90

>>1564302
А, не. Неправильно, 4 по 32. 2 комплекта по 64 т.е.

Аноним 27/03/26 Птн 14:07:07 № 1564313 91

>>1564272
Никуда не нужно пихать. Тебе нужно запустить llama.cpp или что там у тебя с поддержкой встроенного в gguf шаблона, для llama это флаг --jinja . Потом просто подключаешься в режиме Chat Completion.
>>1564288
Только контроль над разметкой. Можно префилами срать, можно менять разметку. Разметку меняют, чтобы получить от модели другое поведение, естествено модели от этого становится плохо, но выдача меняется, а им больше и не надо, они кумят а не бенчи запускают. Нужно ли тебе это, вопрос открытый.
Тут просто народ привык уже с текст комплишн сидеть, поэтому к чат комплишн предвзятое отношение. Для простого анаона достаточно чат комплишн. Алсо, на некоторых моделях текст компликшн работает только с костылями, например новые дипсики которые требуют чтобы старые ответы ассистента начинались с </think>. И обратно есть модели у которых проблемы при работе через чат комплишн, например гигачат, у которого есть дев промт который из таверны не изменить, а там, по умолчанию полотно шизы.

Аноним 27/03/26 Птн 14:17:35 № 1564319 92

image 4Кб, 460x114

Не запускается ваша таверна. Что делать то? Чего то опять этой херне не хватает? Это же хрекнь на яваскрипте? ААААА!!! А норм экзешник есть без этой херни? Вот лм студио установил и готово. Почему нормально сделать все нельзя?

Аноним 27/03/26 Птн 14:18:59 № 1564320 93

644783-celnomet[...].jpg 206Кб, 1919x1078

>>1564319
Рядовой ньюфагов. Ты вообще читал что а гитхабе таверны написано по установке, или рандомно тыкал?

Аноним 27/03/26 Птн 14:23:24 № 1564324 94

>>1564320
У меня гит уже установлен, яваскрипт тоже, а там написано - установи ка еще одно и то же, сделай из винды помойку! Нах мне это надо?

Аноним 27/03/26 Птн 14:26:36 № 1564326 95

>>1564319
Пользуйся лмстудио

Аноним 27/03/26 Птн 14:29:05 № 1564327 96

image 3Кб, 451x49

image 1Кб, 50x44

>>1564326
Нахер мне этим говном срать в системе КОГДА У МЕНЯ УЖЕ ЕСТЬ ЖАВА????????????????? Ебать какое блядское дермище кривое, помойка нахуй. Жрите из вашей поганой кривой помойки дальше.

Аноним 27/03/26 Птн 14:33:21 № 1564329 97

>>1564327
Тебе нормально ответили. Если лмстудио тебя устраивает то пользуйся. В тред можешь хоть 100 постов наводнять, ничего не измениться, платного саппорта нет. Хочешь экзешник? Сделай его и закоммить в опенсорс

Аноним 27/03/26 Птн 14:34:16 № 1564330 98

>>1564327
Ебать ты кобольд
(да, это намёк, кобольду ставить ничего лишнего не надо)

Аноним 27/03/26 Птн 14:37:53 № 1564337 99

image 4Кб, 467x138

>>1564329
Так мне что, это удалить надо? У меня тогда Jdownloader сломается. Там не будет ХАОСА?

Аноним 27/03/26 Птн 14:47:04 № 1564351 100

>>1564337
Это же не рокет саенс, спроси у дикпика, прочитай ридми. Там все написано настолько подробно, чтобы любой человек с 0.7b в голове справился

Аноним 27/03/26 Птн 14:48:26 № 1564352 101

>>1564351
А где путь модели прописывать? Нажо еще какую то срань апи устанавливать? Пиздец...

Аноним 27/03/26 Птн 14:49:33 № 1564354 102

>>1564337
Это рофл? Java != Javascript

Аноним 27/03/26 Птн 14:51:22 № 1564357 103

>>1564351
О, нашел. Ну щас через лмстудио скормлю значит.

Аноним 27/03/26 Птн 14:59:56 № 1564366 104

Просто пиздец. Скачал для теста тюн квена 27б от редиарт и столкнулся с тотальным количеством отказов. Затем скачал их тюн, полирнутый еретиком, и ВНЕЗАПНО отказы прекратились, НО модель МАКСИМАЛЬНО, ЛЮБЫМИ ВОЗМОЖНЫМИ СПОСОБАМИ сворачивала с тропы CSAM, чего не делал обычный квен + еретик (а аблитерация по какой-то причине тоже съезжала/описывала хуёво).

Что ещё интересно, тюн редиарта в ризонинге не так увиливает сильно, но всё равно это делает. Да и ризонинг там сломан, оригинальные настройки для квена работают неадекватно, короче, пиздец по всем аспектам. Пришлось семплеры на глаз подбирать. И всё равно цепочка рассуждений может быть чрезвычайно неадекватной, не работать или уходить в луп или бесконечный спам рандомными словами.

Даже в тестах для любителей старого изюма (чтобы не было отказов 100%), он сух как пизда моей бывшей.

И это кум-тюн? Это говно какое-то!

Мистраль 3.2 по сравнению с этим из коробки гипер секс и даже нормпресерв гемма.

Какие же они ебаные говноделы. В рот их ебал.

Аноним 27/03/26 Птн 15:02:25 № 1564369 105

image 23Кб, 872x263

О, работает моя няша. А миры с лором где можно надыбать? Или сам ии может написать в принципе и вставить в описание мира?

Аноним 27/03/26 Птн 15:02:46 № 1564370 106

>>1564366
Предыдущие тюны ReadyArt делал sleepdeprived, который из-за проблем со здоровьем отвалился с файнтюнинга или из жизни, увы
Сейчас делает другой чувак, который в этом ничего не понимает, это его самый первый тюн. Также мало кто еще пока понял, как в целом тюнить Квены 27б, только три человека
>Какие же они ебаные говноделы. В рот их ебал.
Напоминаю, что денег они с тебя не взяли и в будущем могут сделать хорошее. Ты там выдохни, вытащи член из жопы, погуляй

Аноним 27/03/26 Птн 15:15:35 № 1564386 107

>>1564369
лорбуки с чаба, можно саму написать прям в таверне, если инфы немного проще в саму карточку

Аноним 27/03/26 Птн 15:17:04 № 1564388 108

>>1564143
Эйр был хорош для всего времени. Можно проводить с почестями или оставить на отдельные сценарии где он прямо нравится. Конечно квен лучше по осведомленности, соображалке и работе на контекстах.
>>1564123
Да норм он, няшечка вполне, сохраняет фишки прошлых мистралей и лучше работает на крупных контекстах. Но хз починили ли наконец его в жоре ибо была неюзабельная скорость.

Аноним 27/03/26 Птн 15:19:06 № 1564390 109

Че, тут все поигрались с гигачатом новым? Видел, там батруха кванты нормальные залил.
Кстати, какого хуя все жмут attention?

Аноним 27/03/26 Птн 15:22:05 № 1564392 110

>>1564162
> не нашел ни паттернов отказа, ни самих отказов
Это очень странно, скорее всего они просто не работают нормально. Есть возможность запустить крупную модель или доступ к корпам? Есть шанс что ллмка таки распердолит и адаптирует под архитектуру, тем более что там изменений совсем немного надо. Готовых тулзов нет они не то чтобы нужно ибо обычно легко внести правки под себя в заготовках, или собрать из этого. Задачи и шаблоны меняются быстрее чем ты будешь это готовить, потому и смысла нет универсализировать и прибивать для нормисов.
>>1564285
Сука, каждый раз как в первый
>>1564390
> Кстати, какого хуя все жмут attention?
Кто все? Его наоборот лучше не трогать вообще, или хотябы ставить максимальную битность.

Аноним 27/03/26 Птн 15:24:44 № 1564394 111

>>1564370
При этом с блю старом нормально всё было, хотя, если не ошибаюсь, это тоже чуть ли не первый тюн у того чела. Конечно, у блю стара есть тонна недостатков, но он хотя бы пригоден для использования в определённых сценариях и предоставляет новый опыт, а шлак от реди арт вообще ни для чего непригоден. Их слоп для мистраля был тоже ужасен, но ещё туда-сюда, просто на любителя а это просто провал.

Да и врайтер рабочий. Даже крайне сомнительные эксперименты Давида, для корректной работы которых нужно два часа пыхтеть, чтобы модель не развалилась.

Так что не надо говорить, что его никто тюнить не умеет. Редиарт просто в своём репертуаре.

Ты бы лучше привык называть говно говном, а не защищать мусор лишь из-за того, что он бесплатный.

И да, я заношу по мере финансовых возможностей тем, кто делает, но делает хорошо. Зачем платить за треш? Чтобы его больше стало? Вот как сделают хорошее, тогда пусть приходят.

Аноним 27/03/26 Птн 15:30:41 № 1564401 112

>>1564394
По блюстару двачую, очень внезапная годнота оказалась, хоть вторая версия чуть хуже, имхо.

Аноним 27/03/26 Птн 15:31:11 № 1564403 113

>>1564394
>с блю старом нормально всё было, хотя, если не ошибаюсь, это тоже чуть ли не первый тюн у того чела
Зерофата уже почти год делает разные тюны. Он ещё на Лламе 3.3 вкатился
>Их слоп для мистраля был тоже ужасен
Были хорошие для своих целей модели. Для хоррора и контролируемого треша альтернатив не было, на этом эти тюны и специализировались, это никогда не скрывалось
>Так что не надо говорить, что его никто тюнить не умеет
Ты это придумал, я говорил, что умеют три человека его на данный момент тюнить: Coniccat с его Writer, Zerofata с его Bluestar и автор Animus
>Ты бы лучше привык называть говно говном, а не защищать мусор лишь из-за того, что он бесплатный.
Лишь призвал не гореть из-за того, что у чела не удался его первый тюн кто бы мог подумать
>Зачем платить за треш? Вот как сделают хорошее, тогда пусть приходят.
Тяжело быть тем, кому все должны. Всех вокруг также вахтеришь и решаешь, кому как жить и что делать?

Аноним 27/03/26 Птн 15:44:31 № 1564408 114

А как увидеть количество затраченных токенов в таверне?

Аноним 27/03/26 Птн 15:50:02 № 1564413 115

>>1564215
>>1564217
>>1564236
Спасибо. Крч после тестов определил для себя лучшего. Это квен на 9б опус 4.6. Квант 5.
Выдает ~22 токена. Руссик вроде нормальный.

Аноним 27/03/26 Птн 15:56:26 № 1564418 116

>>1564408
Нашел.

Аноним 27/03/26 Птн 15:57:16 № 1564419 117

>>1564310
>4 по 32
>DDR5
Больной ублюдок.
А за 60к ты 2х32 хуй продашь. Ведь я недавно за 15 такое продавал знаю, что долбоёб и надо было придержать. На лохито и прочих барахолках обитает нищий люд и сражается за огрызки по минимальному прайсу, им твоя жорого-богато-топ-жир память ни к чему.

Аноним 27/03/26 Птн 16:09:51 № 1564427 118

>>1564403
Я с зерофатой там другого чувака перепутал, да, глянул.

У редиарт вообще не было хороших тюнов в прямом смысле (для примера, денс персоналити второй версии был и в куме хорош, и лишь каплю уступал в сочности всяким брокен туту). Ну, чисто кумерские, как магнум почти. Сойдёт, особенно для своего времени и для таких размеров, то есть заняли нишу кум-тюнов на 24б и в целом было нормально. А вот по хоррору они уступали моделям Давида сильно и у них отказы возникали постоянно на них.

Мне вообще непонятно, как можно в команду набирать, уже имея какую-никакую репутацию и узнаваемость, того, у кого этот тюн реально первый, плюс жечь на это деньги. Я об этом до твоего поста не знал, что вызывает ещё большее удивление. Такой подбор кадров.

Но самая страшная проблема даже не в том, что тюн сломан в прямом смысле, а в огромном уровне сои и ужасной прозе, игнорированием инструкций. Складывается впечатление, что заправили модель ещё более соевым датасетом, чем был в оригинале. Ну а уж если забыть про полировку еретиком, то тюн теряет какой бы то ни было смысл. То есть обосрамс уже на уровне датасета произошел.

Так что гореть вполне нормально, когда ожидаешь родной и привычный непослушный слоп в стиле реди арт (или внезапный бриллиант, мало ли), но с каплей мозгов квена, а получаешь нечто, что даже охарактеризовать сложно. Настолько он плох.

Вообще не понял, причём здесь вахтерство. Я что, говорю, чтобы никто в треде это не качал, долго, систематически, отслеживая каждый пост и вставляя своё мнение из треда в тред, если кто-то не дай бог упомянет реди арт с этим квеном? Он совсем недавно вышел, я заценил и отписался.

>>1564215
Посмотри в сторону 30b-a3b квена оригинального. Как вариант, можно ещё 35b-a3b рассмотреть от того же квена. Но вот в кум он хуже может, да и в рп уступает 30b-a3b, зато в целом умнее и лучше держит сцену.

Тебе ещё тут гигачат посоветовали, и он реально хорош в своих размерах, но его может быть сложновато для тебя настроить без jinja. Ну и он слишком тупой. Сгодится только подрочить на русском с вайбом, на вменяемое рп уже не тянет.

>>1564236
Какая у тебя температура была использована для этого скрина?

Аноним 27/03/26 Птн 16:24:21 № 1564438 119

>>1564427
>как можно в команду набирать, уже имея какую-никакую репутацию и узнаваемость
>Такой подбор кадров.
Да какое там, ты преувеличиваешь. Это изначально три чувака, которые собрались по приколу и интересам, как почти все в тюнах. Известность там на уровне гаражной тусовки

Аноним 27/03/26 Птн 16:26:23 № 1564440 120

1774617545241100.mp4 1732Кб, 560x560, 00:00:06

>>1564427
>30b-a3b
>35b-a3b
Не влезет. 27б еле запустилась с парой токенов. А ниже кванта 4 это пиздец лоботомиты. Ладно, пойду в свой загончик аисг, кумить на корпо-опусе/гемини.
Кум всерьез не рассматриваю на лоКалках. Нужно иметь десятки врам минимум для чего-то нормально. Так, побаловался прост.

Аноним 27/03/26 Птн 16:31:00 № 1564443 121

>>1564440
>>30b-a3b
>>35b-a3b
Это моета же, она даже на процессоре норм, разве что в рп говно.
А покумить-покекать можно.

Аноним 27/03/26 Птн 16:34:12 № 1564446 122

Меня одного до сих пор трясет от всяких тюнов/докрутов/расцензуров моделей? Не знаю, может у меня предвзятое отношение осталось по привычке, со времен когда в день на ту же мистраль по 20 кум-слоп файнтюнов выходило, но меня прям отвращает идея гонять что-то неоригинальное, что не выпускал сам разработчик.

Постоянно такая хуйня - ставлю новую модель, она не работает как надо, и вместо того чтобы сэкономить время и скачать тюн/аблитерацию я пытаюсь развязать ее промтами. При том что даже сами промты нормально писать я не умею и либо это время тратится впустую, либо выходит полотно на 4к токенов где прописано всё от формата ответов до того какими прилагательными нужно описывать мокрый писик.

Аноним 27/03/26 Птн 16:57:08 № 1564467 123

>>1564446
Меня наоборот трясет от того, что тюнов слишком дохуя, и я не могу попробовать их всех, чтобы найти одну единственную ту самую жемчужину.

Аноним 27/03/26 Птн 16:57:11 № 1564468 124

>>1564446
В целом да, тюны смысла не имеют. Они обязательно бьют по мозгам оригинала, вопрос лишь в какой степени. Но иногда это необходимое зло, как в случае с Квенами3.5 или Немотронами, что старыми, что новым. Ты можешь их заставить все, что угодно, но вжаренный байас никуда не денешь. У Немотрона вообще ассистент прямо во время рп вылезает, задавая всякие уточняющие вопросы или заканчивая в духе "Главное, чтобы все были в безопасности и комфорте", почти ломая четвертую стену. Это невозможно законтрить промптом. Модельки хорошие, потому если их докрутить до пригодного для рп использования и не слишком убить мозги - это хорошо.

Аноним 27/03/26 Птн 16:57:42 № 1564469 125

Ты можешь их заставить вывести*

Аноним 27/03/26 Птн 17:06:11 № 1564473 126

>>1564468
Когда тюнов было много, это было неудобно из-за их количества, но среди них были и хорошие. Сейчас же в основном плохие или специфические, мало мастеров на все руки.

А вот без аблитерации или еретика вообще никак, при том, что еретик почти ничего не ломает. Это абсолютная необходимость, так как сефти-параша вообще чуть ли не в каждой интересной модели, убивающая градус в нужные моменты даже вне кум-сцен.

Если будешь использовать стандартные модели, то тебе в конце концов напишут номер телефона доверия или "извините, я не могу обработать этот запрос"

Аноним 27/03/26 Птн 17:11:34 № 1564477 127

>>1564473
> Если будешь использовать стандартные модели, то тебе в конце концов напишут номер телефона доверия или "извините, я не могу обработать этот запрос"
GLM так не делают. Квены так не делали никогда до 3.5. Мистрали так не делали никогда, правда не знаю насчет последнего Ларджа и Смолла, которые МоЕ. Вот данным моделям никакие аблитерации не нужны, чтобы в обязательном порядке. Ллама, вплоть до 3.3, в целом тоже. Аблитерации превращают модели в yes-man, лишаясь уместных отказов и "воли" персонажей. Потому они часто пишут сухо, скучно. И не важно, как именно эта аблитерация применялась. Такой эффект точно будет, опять же вопрос лишь в какой степени. Хорошо, что появились в последнее время "мягкие" версии, но это по-прежнему дамажит модель. Лучше обходиться без этого и без тюнов, но видимо, таких моделей будет все меньше?

Аноним 27/03/26 Птн 17:14:51 № 1564483 128

>>1564473
>Сейчас же в основном плохие или специфические, мало мастеров на все руки.
Может дело в более плотно набитых моделях? Да не, бред какой-то.
>>1564477
>GLM так не делают. Квены так не делали никогда до 3.5. Мистрали так не делали никогда
Просто ты роллишь ванилку. У меня все модели выдавали телефоны из США.

Аноним 27/03/26 Птн 17:14:59 № 1564484 129

>>1564215
> Кое как впихнул квена 3.5 27б опус 4.6 эдищон на своб 3050 6гб ноутбучную, и 16гб рам.
Какой квант?

Аноним 27/03/26 Птн 17:16:10 № 1564487 130

А Vector Storage самому включать или оно само автоматом врубится при заполнении контекста?

Аноним 27/03/26 Птн 17:22:38 № 1564491 131

>>1564483
>У меня все модели выдавали телефоны из США
Что ты там такое крутил? Квены даже лолей дают ебсти. Даже лолей наркоманок. А убивать так вообще беспрепятственно. Чё там за номера у тебя такие?

Аноним 27/03/26 Птн 17:28:49 № 1564495 132

>>1564473
>тебе в конце концов напишут номер телефона доверия или "извините, я не могу обработать этот запрос"
Гемма это обожала делать вообще во всех сценариях, не зависимо от самих сценариях. Помню когда она только вышла гонял ее на карточке где мой персонаж был описан как "стажер в крупной компании", а чар как "строгий начальник", в итоге как только начиналась сама "строгость", проснулся ассистент и написал "харрасьмент на рабочем месте это плохо, если вы стакнулись с харасьментом, обратитесь по номеру такому-то" - в итоге каждый новый реплай приходилось чистить и по 50 раз рероллить, чтобы хотя бы какие-то совсем безобидные знаки внимания могли бы пройти, не говоря уже про "не дал дойти до кулера, схватил за жопу и утащил в кабинет ебать на столе рядом с документацией"

Аноним 27/03/26 Птн 17:35:21 № 1564499 133

>>1564495
>мой персонаж был описан как "стажер в крупной компании", а чар как "строгий начальник"
>не дал дойти до кулера, схватил за жопу и утащил в кабинет ебать на столе рядом с документацией
Теперь мы знаем, что любит местная сиса...

Аноним 27/03/26 Птн 17:36:59 № 1564501 134

А таверна реально прикольная. Такой замес можно между ии устроить в чате. Сколько персов там можно макс добавить, чтобы все не превратилось в кашу?

Аноним 27/03/26 Птн 17:37:02 № 1564502 135

>>1564484
4.

Аноним 27/03/26 Птн 17:37:58 № 1564503 136

>>1564501
Зависит исключительно от сетки. На локалках быстро скатится в вакханалию. На гемини/опусе будет нормально.

Аноним 27/03/26 Птн 17:40:38 № 1564506 137

>>1564499
>Теперь мы знаем, что любит местная сиса...
Никаких сисингов, отыгрывал слоппи девчушку для разнообразия.

Аноним 27/03/26 Птн 17:49:21 № 1564508 138

>>1564506
>отыгрывалА слоппи девчушку
Я так и сказал, сис.

Аноним 27/03/26 Птн 18:11:43 № 1564518 139

>>1564477
Всё они прекрасно делали. Ты в курсе, что цензура грока и дипсика ниже, чем у всяких там глэмов и квенов, что юзают в треде из коробки? Речь про локальный дипсик/апи. Как и про грока апишного. Никаких джейлов, лоботомирующих модель. Просто обычный систем промпт, и хоть наматывай лолей в дока 2 дока трейд джва часа. Но то апи.

А всякие мистрали типа 3.2 с умеренной цензурой — это прошлое. Оно не просто морально устарело, а технически. Разрыв чудовищный. Имаджинируй ебало человека, инструкции которого модель не выполняет уже со старта рп, а сколько кэш будет весить на 70к токенах у мистраля? Не как у квена 3.5 — 4 гига всего. При этом он не сваливается в галлюцинации и не игнорирует инструкции на большом контексте. Хорошо сохранилась разве что гемма. Она до сих пор актуальна. Остальное уже чисто вкусовщина.

Yes-man бывает, но это на мой взгляд прежде всего зависит от обучения. Не зря безжоп придумали. Когда ты для модели юзер, она очень склонна подсасывать, и это проявляется даже на инстракт-модели. Лоботомия просто усиливает эту тенденцию, но и подобное фиксится. С аблитерацией муторно, а вот с еретиком совсем легко. В принципе, достаточно написать, что юзер может умереть от ваншота, что его можно слать на хуй и т. п., если это соответствует контексту ситуации, характеру персонажа и всё в таком духе. Если модель инструкции вообще выполняла, то так будет и дальше.

>>1564495
Орнул с твоих сюжетов. Максимально осуждаю.

Вообще, гемма и тогда ломалась, прям та самая, соевая, но полноценный джейл лоботомировал её похлеще аблитерации. И что самое главное, аблитерация не только убирала тупые отказы, но ещё и делала язык более сочным в описаниях.

Аноним 27/03/26 Птн 18:14:15 № 1564521 140

>>1564508
>сис
гачаслоп и сюда протёк...

Аноним 27/03/26 Птн 18:18:52 № 1564522 141

>>1564501
Смотря какая модель и как промптить. Квен 235 хорошо держит до 6 персонажей до 50к контекста. Модели больше справляются чуть лучше

Аноним 27/03/26 Птн 18:53:55 № 1564548 142

Жора украл у меня 2 недели жизни и добавил седых волос. Кто теперь всё это вернёт?

Короч: если кто страдал с проблемами тул коллинга, начиная где-то с начала марта на квенах 3.5, то версия b8203 ещё работает НОРМАЛЬНО. Что я только не делал по шизосоветам со всех тредов за это время. А оказалось-то. Причем норм issue по теме у Жоры нет. Всё позакрыто, что-то там они fixed, в итоге один хрен валится в лучшем случае через 1-2 вызова. А 8203 работает, работает и работает. Может чуть медленнее новых, но это не важно.

При это вначале этого пиздеца, когда с новыми парсером отвалился Qwen 3.5, Qwen Coder Next продолжал работать на новых версиях. До вчерашнего дня, вчера на новой версии, вместо исправления, как я ожидал, отвалился и Next. Вот у меня пригорело. Хагины им вломить должны, мне кажется, за такие релизы.

Все тесты были на 122B-A10B и Coder-Next, кванты от всех успел попробовать, это без разницы. Бэк - ллама, jinja, фронт - openclaw.

Аноним 27/03/26 Птн 18:55:45 № 1564551 143

>>1564518
> чем у всяких там глэмов и квенов, что юзают в треде из коробки
Глем и квен тоже юзаются из коробки так-то. И на дипсике, и на гроке ты получишь аположайз если сразу устроишь жесткие провокационные действия, особенно с минорами. Там весь триггер идет на соответствии действий и ответов контексту и чем дольше чат тем вероятность рефьюза стремится к нулю.
> всякие мистрали типа 3.2 с умеренной цензурой — это прошлое
Вышедший 4 - вполне настоящее, отвечает и остальным твоим претензиям.
> Когда ты для модели юзер, она очень склонна подсасывать, и это проявляется даже на инстракт-модели. Лоботомия просто усиливает эту тенденцию, но и подобное фиксится.
Все так, если следует промпту и в нем написать о снижении положительного байаса, или несколько сменить формат с дефолтного, то все получится.

Любая норм модель "цензуру" запоминает как вариант ответа на провокационные действия юзера, а не как данность и основу мироустройства, как у некоторых. Искажения фактов, жесткие софт-рефьюзы с избеганием ответов и описаний что не пробиваются простой инструкцией, соевые байасы - вот это уже пиздец.

Аноним 27/03/26 Птн 19:10:52 № 1564567 144

Чета рофлю. Свел двух бимб в таверне, а одна тупо отшивает другую. Эт почему так?

Аноним 27/03/26 Птн 19:12:53 № 1564568 145

А что с Мистралем Смолл 4? Правда такое уж говно, что аж 3.2 24б лучше?

Аноним 27/03/26 Птн 19:13:40 № 1564569 146

>>1564567
Ухаха.

Аноним 27/03/26 Птн 19:15:07 № 1564570 147

image 12Кб, 606x60

>>1564569
Пиздец...

Аноним 27/03/26 Птн 19:16:13 № 1564571 148

>>1564548
Мелочь норм работает с вызовом функций, только 2b лупится как мразь вызывая инструмент несколько раз подряд. Помоему она сломана как и твои большие, хотя не помню уже че у тебя не работало.

Аноним 27/03/26 Птн 19:16:39 № 1564572 149

Что за глм 5 турбо?

Аноним 27/03/26 Птн 19:17:22 № 1564573 150

Аноны - квенолюбы. А щупал ли кто-нибудь
https://huggingface.co/steampunque/Qwen3.5-27B-MP-GGUF/blob/main/Qwen3.5-27B.Q6_K_H.gguf ? Я пощупал на SFW писательском сценарии и по сравнению с дефолт-анслотом Qwen3.5-27B-UD-Q4_K_XL.gguf и по ощущениям этот стимпанковский квант сильно меньше шизит и слопит при размере всего на гигабайт больше... Мне прав или мне самому пора в дурку ?

Аноним 27/03/26 Птн 19:21:02 № 1564575 151

>>1564548
Была проблема с одновременно включенными тензор параллелизмом и куда-графами, когда делаешь ubatch отличный от batch - ломались генерации. Потом отключили куда-графы, уронив скорость генерации в 2-3 раза. А пару дней назад наконец пофиксили и вернули как было.

Аноним 27/03/26 Птн 19:29:51 № 1564578 152

Есть кто с p102-100 или похожей некротой? Как используете? Я думаю 1 прикупить добив памяти но не уверен на сколько плохо будет без линий пси

Аноним 27/03/26 Птн 20:17:11 № 1564593 153

>>1564578
Ты в эпоху моэ собрался некротеслу брать, лол? Оперативки докупи - будет больше толку.

Аноним 27/03/26 Птн 20:18:57 № 1564595 154

>>1564593
Почему нет? Самая дешманская врам все еще лучше оперативки, да и мое туда так же можно выгрузить

Аноним 27/03/26 Птн 20:20:29 № 1564596 155

>>1564573
А что в ней хорошего? Зачем её щупать?
>Я пощупал на SFW писательском сценарии и
Ну хоть бы показал анончикам выдачи для сравнения.

Аноним 27/03/26 Птн 20:23:11 № 1564598 156

Попробовал я этот ваш квен блю стар. Начал лучше следовать карточке и перестал соглашаться на все что я прошу. Но в сравнении с обычными анцензорами квена это пиздец даунгрейд в интеллекте и способности понимать что вообще происходит.
Продолжаю реквестировать модели для рп. Лучшие что пока трогал мистраль смалл 3.2.

Аноним 27/03/26 Птн 20:36:30 № 1564601 157

>>1564598
Попробуй Мистрал Дарк Шелби, я до сих пор лучше ничего не нашел хотя тоже давно в поисках. Пробовал и хваленную Гемму и ГЛМ и Квены.

Аноним 27/03/26 Птн 20:42:31 № 1564604 158

Врайтер еретик появился. Налетайте.

Аноним 27/03/26 Птн 21:03:11 № 1564617 159

>>1564578
>Есть кто с p102-100 или похожей некротой? Как используете? Я думаю 1 прикупить добив памяти но не уверен на сколько плохо будет без линий пси
Как раз вчера на Ютубе ролик от "Моего компьютера" вышел - провёл тесты и утверждает, что на Лламеспп можно и на первой версии псины сидеть, разница небольшая. А вот для вЛЛМ критично.

Аноним 27/03/26 Птн 21:17:14 № 1564623 160

Даже glm-ocr на мишках работает. Ну кайф же

Аноним 27/03/26 Птн 21:29:22 № 1564632 161

Анонандрии, на каком контексте у вас qwen 3.5 27b уже начинает шататься из-за большой длины контекста?

На 65к я уже чувствую что-то странное и порой явные ошибки, но не могу понять, проблема во мне, битности (IQ4XS), кривом кванте или ебучем смарт-кэше, который может так взбрыкнуть, что от жизни охуеешь. Ну и это ещё еретик, правда самой щадящей версии, где могут быть отказы, но мозги минимально подрезаны.

Когда я тестил анслотовский после фикса и бартовского (не еретики, чистые), они держали контекст на тестах, но у меня там не было лорбука, персон, двух персонажей в карточке, сеттинга, неба, Аллаха. Просто тестовые и сложные многоступенчатые задачи со всякой математикой, креативным письмом и на логику на 128к. И квант был выше — у анслопа UD, у бартовски M.

Бартовский явно серить начинал где-то на 50к почему-то. Это было не критично, если рассматривать в рамках RP, но в тестовых задачах такое неприемлемо. У анслопа где-то с 70к начиналось и явно заметным становилось к 100к.

Рассуждать на эту тему сложно, потому что модель может быть невменяемым дерьмом даже в полной точности, а может крепко держаться и в обычном четвертом медиуме. Так шо нужен ваш опыт использования на такой длине.

Ах да, сразу скажу, что квант бартовского мог быть в теории кривой, а сейчас обновлённый, так как я тестировал всё после 3-8 дней после релиза. Не помню. Сейчас там может быть всё иначе. Инфа для тех, кто собирается юзать этот квен для задач и SFW.

Если что, мой текущий квант от мрадер.. мрадчер.. мрудерхм.. махера.. ну вы поняли.

Аноним 27/03/26 Птн 21:32:42 № 1564635 162

>>1564578
У меня вторая карточка p104. Скорость роняет заметно, но всё ещё пригодно для плотных моделей. Быстрее раза в 4 по сравнению с выгрузкой. А вот МоЕ у меня почему-то медленней, даже если фулл врам сделать, нежели воткнуть в основную карту модель, а остальное в оперативку.

Аноним 27/03/26 Птн 21:36:56 № 1564637 163

>>1564623
А чего бы ему не работать?

Аноним 27/03/26 Птн 21:47:50 № 1564642 164

>>1564632
Тестил 5bpw exl3 и Q4-Q5 кванты от Бартовского и Мрадера. Нигде дальше ~~30к не ушел, карточка с двумя персонажами, ничего особо сложного. Разительной разницы между квантами не заметил. Разве что exl работал хуже всех, там ризонинг сломан и выводы странные в целом.

Аноним 27/03/26 Птн 21:51:07 № 1564643 165

>>1564623
Ну рили, чего ему не работать если кернели есть? Могут быть нюансы со скоростью и подобное, но это же не жора чтобы что-то заявленное отрыгивало.

Аноним 27/03/26 Птн 21:51:30 № 1564644 166

>>1564632
Хз, я за ~50к наедаюсь любым разовым рп. Юзаю пятые кванты для эрп/кума. Между мрадером и анслопом разницы не обнаружил, одна и та же модель работает слишком схоже.

Аноним 27/03/26 Птн 22:02:18 № 1564648 167

>>1564643
Официально мало того что поддержка Веги 7 давно дропнута дак и в целом вллм никогда под них не существовало

Аноним 27/03/26 Птн 22:02:45 № 1564649 168

>>1564596
1 пик - задачка. К ламе подрублен мини-раг с нарезкой Сергея Павлова - что б ЛЛМ работала не на сухую, а шиза (фантазия) была отборной! 2 пик результат Qwen3.5-27B-UD-Q4_K_XL . 3 и 4 - квант от паропанка Qwen3.5-27B.Q6_K_H.gguf . Если будет интересно могу скинуть рассказик целиком. Далее будет Q6_K от анслотов - результат тоже не безынтересный.

Аноним 27/03/26 Птн 22:02:52 № 1564650 169

>>1564635
Винда или линукс? Ну и могут быть проблемы куда, можно с вулкан проверить

Аноним 27/03/26 Птн 22:15:23 № 1564656 170

>>1564649
Ты ведь в курсе, что выдачи бывают разными на разных настройках семплера и семечках? Одна и та же модель может высрать десятки непохожих друг на друга рассказов. Если не сотни.
А генерация слопа это рандом. У меня были катки на 40-60к вообще без единой ошибки с полным погружением, а бывала Серрраfiна в зелёном платье уже третьим сообщением. Вряд ли это хоть что-то говорит о самой модели.

Вообще любая плотная умница может как разъебать небо и землю своим текстом, так и жидко обосраться сняв трусы через голову два раза подряд.

Аноним 27/03/26 Птн 22:29:31 № 1564666 171

>>1564649
1,2 - Qwen3.5-27B-Q6_K.gguf - аслотов
3,4 - llmfan46-qwen35-27b-heretic-v3-q6k-q5km_ffn.gguf

В общем 6-й квант стимпанка пока единственный привнес меньше всего квенизмов и генерирует самую "гладкую" прозу. Остальные буквально заражены 1. практически однотипным сценарием, который даже не перебивают полотна из RAG-а 2. Это не а - это б. 3. "Оно ЖИВОЕ" 4. "прошептал" и т.п.

Аноним 27/03/26 Птн 22:39:55 № 1564673 172

>>1564656
Я не просто в курсе - этот эффект усугублен рандомной работой инструмента. Модель сама себе буквально вторым сообщением вбрасывает в контекст пару килобайтов разных текстов "на тему".

И при этом в ризонинге:

План рассказа:
1. Начало: Момент выхода из корабля на поверхность неизвестного мира. Описание ощущений, звука шлепанца по чужому грунту.
2. Развитие: Окружающий пейзаж — что-то невероятное (как "Великий Хрустальный Фонтан" или "ледорадо"). Герой пытается осмыслить увиденное.
3. Кульминация: Момент истины, когда герой понимает масштаб своего шага и цену этого открытия. Возможно, контакт с чем-то живым или просто осознание бесконечности космоса.
4. Финал: Возвращение к кораблю, но уже другим человеком. Осознание того, что "первопроходец" — это не статус, а состояние души.

Структура рассказа:
1. Начало - подготовка к выходу на поверхность, напряжение команды
2. Момент выхода и первое впечатление от планеты
3. Открытие чего-то удивительного (как хрустальный гейзер у Павлова)
4. Осознание масштаба открытия и его значения
5. Завершение - возвращение с новым пониманием

Но хрен с ним - рваная проза на русском и квенизмы. Слегка убывают к 5-6 кванту, но только у https://huggingface.co/steampunque/Qwen3.5-27B-MP-GGUF их количество минимально. И проза как будто более гладкая, как у Геммы.

Аноним 27/03/26 Птн 22:57:05 № 1564691 173

Квен 27б даже в Q6 игнорит единственную инструкцию из префилла. Мысли?

Аноним 27/03/26 Птн 23:07:08 № 1564697 174

>>1564691
Изи
1) llama.cpp проблемы, опять
2) Все квены тренены как агенты, им нужна подробная инструкция как себя вести. Если ты дал задачу думая что сетка сама поймет что ты подразумевал то она может проебаться, так как не рыпается без инструкций
3) Скилл ишью, учись писать промпты

Аноним 27/03/26 Птн 23:09:43 № 1564701 175

>>1564697
4) Он просто хуйня
В сабже два года уже. Инструкция краткая и сложностей там нет, но справедливости ради, вообще все сетки до Степа (он 196b вроде) часто игнорят префилл. Ни одного исключения не видел

Аноним 27/03/26 Птн 23:11:29 № 1564702 176

>>1564691
Нет никаких мыслей. Я только что закончил коротенькое рп и попрощался с персонажем. К моему удивлению персонаж действительно сказал "прощай", развернулся и ушёл. Натюрлиховый финал истории. Обычно чарики пытаются вцепиться в протага зубами, даже если терпеть его не могут, лишь бы сюжет продолжать. А тут нет, норм развязка случилась. Хз что у тебя за проблемы аж на шестом кванте.

Аноним 27/03/26 Птн 23:14:04 № 1564705 177

>>1564702
К префиллу это какое отношение имеет?

Аноним 27/03/26 Птн 23:15:44 № 1564709 178

>>1564705
Про префил уже ответили. Зачем тебе два одинаковых свайпа?

Аноним 27/03/26 Птн 23:19:11 № 1564713 179

>>1564709
😀👍

Аноним 27/03/26 Птн 23:27:20 № 1564717 180

>>1564673
Продолжаем исследовать квено-прозу (и шизу) . На скринах самый первый (и довольно удачный) Еретик квантованный Мрадермахером. Qwen3.5-27B-heretic.Q5_K_M.gguf . Т.е. самый простой квант БЕЗ imatrix! Таким образом все встает на свое место т.к. у steampunque Квант тоже БЕЗ imatrix . Т.е. даже в 6 кванте imatrix портит структуру выдачи, нюансы понимания и стиля русика.

Для полной проверки гипотезы осталось за коллекционировать еще 6 квант Бартовски..

Аноним 27/03/26 Птн 23:33:55 № 1564722 181

>>1564717
>Т.е. даже в 6 кванте imatrix портит структуру выдачи, нюансы понимания и стиля русика
Охуеть открытие, анончик. Мы это ещё с десяток тредов назад выяснили... ты чиво, совсем новенький?

Аноним 27/03/26 Птн 23:35:27 № 1564724 182

А вы пробовали к SallyTavern подключать через Kobold голос? Хочу чат-бота, чтобы болтал со мной или помогал код писать. Такое возможно?

Аноним 27/03/26 Птн 23:38:24 № 1564725 183

Анончики, привет. 16гб vram 32гб ram хлебушек влетает в тред с просьбой.
Кумлю на мистральке-малой и вытекающей из нее зерофате. Мистральку использую когда надо двигать сюжет, зерофату подрубаю когда надо кумить.
Так вот. Меня в целом все устраивает, кроме того, что эти модели не умеют читать изображения.
Играю через таверну. Кормлю в чат изображение через функцию "Прикрепить изображение", сразу появляется сообщение, типа, чего вы хотите с ним сделать? Там по дефолту стоит "Что изображено на данном изображении?". Вот если зерофата просто игнорирует факт, что ей отправили изоражение, то мистралька хотя бы говорит, что она не умеет "читать" изображения. Можете посоветовать модельку какую, что умеет их читать?

Аноним 27/03/26 Птн 23:44:57 № 1564729 184

>>1564722
Бладж, я сидел на Air в 4 кванте Батрухи. И там это было не так заметно. А квены - ну все жаловались на квенизмы - может все кто жаловался на imatrix и сидели.

Аноним 27/03/26 Птн 23:45:54 № 1564731 185

>>1564717
Писал в одном из прошлых тредов, но напомню. В самом по себе айматрикс нет проблем, корень зла в калибровочном датасете. Если он мультиязычный, как у бартовски или последних квантов анслота, то всё в порядке, деградации русика не будет, модель только выиграет в мозгах. Если датасет полностью английский - остальным языкам наступает тотальная пизда. У мрадермахера, скорее всего, именно такой.

Еретик тоже дамажит русский язык, бтв. Лучше использовать нормпрезерв аблитерацию (если есть), или катать ванильную модель.

Аноним 27/03/26 Птн 23:48:38 № 1564732 186

>>1564731
А что у бартовски было хорошего с айматриксом из последнего?

Аноним 27/03/26 Птн 23:54:01 № 1564734 187

Я про imatrix кванты еще в самом начале предрекал что они будут ломать сценарии выходящие за те что в калибровочном датасете, в том числе другие языки кроме английского, раз уж это делают носители английского для себя.
Это было понятно изначально просто по описанию того как это работает.
Я больше скажу, даже мультиязычные датасеты все равно ломают модели, как и впринципе сама калибровка.

Потому что калибровка по датасету проверяет как падает качество генерации при квантовании разными квантами, и эти сценарии довольно короткие.

Нет никакой проверки того как модель деградирует в контексте после этого, и не меняется ли ее понимание задач в отличии от оригинала в сложных сценариях.

Просто потому что некоторые кванты отвечающие за это не были затронуты калибровочным датасетом, были посчитаны ненужными и квантованы хуево.
Тоесть да, в среднем мы получаем лучшее общение потому что ему отдается приоритет, в соответствии с примерами калибровочного датасета.
Но на дальней дистанции ничего не проверяется, как и выход за пределы датасета.

Аноним 27/03/26 Птн 23:58:04 № 1564735 188

>>1564732
У батрухи все кванты с айматрикс. Я от него последний квен 122б гоняю в 4 кванте, ванильный. С русиком всё в порядке. А всякие Qwen3.5-Vasyan666-ultra-uncensored-claude-anus-distill-heretic он не делает, к сожалению или к счастью.

Аноним 27/03/26 Птн 23:59:18 № 1564736 189

imatrix шиз совсем спятил, найдя себе сообщника в лице нюфага который сам не знает, о чем пишет
Терпим, н$няшиза терпели и этого потерпим

Аноним 28/03/26 Суб 00:00:22 № 1564737 190

>>1564731
>или последних квантов анслота
Нет. Только что проверил.
>Если он мультиязычный
Во тут - https://huggingface.co/Beinsezii/llmfan46-Qwen3.5-27B-heretic-v3-GGUF-6.14BPW/tree/main есть i-матричный квант и к нему дядка приложил калибровочный датасет. Русик (и не только) в сете имеется - в небольших правда количествах.
Русик все равно по портился. Такая видимо особенность 3.5 квена.

Аноним 28/03/26 Суб 00:04:57 № 1564742 191

Вот вам еще в базу треда https://huggingface.co/ubergarm/Qwen3.5-27B-GGUF/discussions/3 . К стати все представленный кванты - imatrix

Аноним 28/03/26 Суб 00:05:32 № 1564743 192

>>1564725
Бумп. Помогите глупому, плиз.

Аноним 28/03/26 Суб 00:11:54 № 1564747 193

>>1564725
Мультимодальные модели нужны. База это гемма 3 и квены вл. Квены и видики умеют (но лламацпп их не умеет).
Ну и джинджа нужна либо стандартная либо из которой нахуй не выкинули картинки

Аноним 28/03/26 Суб 00:13:47 № 1564748 194

>>1564737
>Нет. Только что проверил.
Хм. Ну у себя на сайте они пишут, что используют датасет батрухи, а в нем есть русик. Значит деградация русика должна быть как минимум не хуже чем у него.

>heretic
Вот ты возьми ванильный квен в НЕ айматрикс кванте от мрадермахера, и херетик-квен в том же кванте. Сравни в рандомном сфв-рп и ты охуеешь насколько херетик ломает русский язык сам по себе.

Я играю на русском и для себя остановился на айматрикс квантах бартовски и анслопа (ванильные модели + мультиязычная калибровка). Все же без айматрикс низкие кванты слишком сильно теряют в мозгах, пикрелейтед.

>>1564736
Претензии к айматрикс со стороны тех кто играет не на английском легитимны. Тебе бы самому не помешало разобраться в том как это работает.

Аноним 28/03/26 Суб 00:14:33 № 1564749 195

>>1564742
Это только для анслотовского говна показательно. Они ведь там на всяких агентах/кодмнге матрицы тюнят. После чего кодинг/математика норм, а культура уже на Q5 всрата.

Аноним 28/03/26 Суб 00:16:02 № 1564750 196

>>1564743
1. Таверна в текст комплишен не умеет гладко работать с изображениями. Через костыль реализовано - что то вроде кнопки "распознать изображение" и картинка отсылается чат-комплишн подключением. Геммморой....
2. Чат-комплишене должно работать как в нормальных фронтендах - скинул имадж в чат - ллм-ка подхватывает и распознает в контексте. Что бы это работало у тебя прожектор модели должен быть подключен к ламе или кобольду. Прожектор это такой файлик mmroj под каждую можель он свой, но для тюна его можно брать от базовой модели и любого большого квантователя.

Аноним 28/03/26 Суб 00:29:14 № 1564756 197

>>1564742
Забавно как выделяются практически без потерь, кодинг, матан и инглиш, собственно на чем и калибровали. Но какбы "калибровать" на общих знаниях тоже особо не выйдет, так что это вовсе не камень в их огород.
> все представленный кванты
Разве не только XL и прочая экзотика?

Аноним 28/03/26 Суб 01:09:17 № 1564788 198

>>1564491
>Даже лолей наркоманок.
Знаем мы ваших Фифей. Она скорее наркоманка, нежели чем андераге. Поэтому собственно и пропускает.
>>1564551
>Любая норм модель "цензуру" запоминает как вариант ответа на провокационные действия юзера
У моделей есть только 2 состояния - либо они воспринимают миноров как миноров и рефузят как сучки, либо модель одевает личину взрослого, который одел личину минора, и делает секс. Третьего не дано.
>>1564595
>Самая дешманская врам все еще лучше оперативки
По паспорту да. Но пересылки убивают весь смысл.

Аноним 28/03/26 Суб 01:20:45 № 1564794 199

>>1564725
>Так вот. Меня в целом все устраивает, кроме того, что эти модели не умеют читать изображения.
Ложь. Умеют. MS 3.2 24B 2506 и ее тюны - мультимодальные. Разбирайся что такое mmproj проектор, и как его подключать к твоему бэку. Для тюна, в принципе, подходит от базовой модели.

Аноним 28/03/26 Суб 05:23:22 № 1564867 200

Кто часто с форматами играется, подскажите.
У квена в норме в контексте сохраняются вызовы инструментов в истории, хранятся 1 вызов или вобще не включаются в контекст, а только ответ на вызов инструмента сеткой?
С резонингом такой же вопрос, знаю что его полотна не отправляют назад каждый раз, но хранится ли он 1 раз или так же сбрасывается и хранится только ответ?

Аноним 28/03/26 Суб 05:53:01 № 1564869 201

Бля забавно, парсер llama.cpp ломается если кинуть сетке на анализ файл jinja. Она начинает думать и писать части его кода и генерация ломается, хех.

Аноним 28/03/26 Суб 09:27:29 № 1564927 202

>>1564788
Чел, у неё куча описаний того какая она внешне. Даже самая лоботомированная моделька понимает что это ребёнок. Я хз что за чернуху ты там крутил, что тебя даже анцензы посылали в психушку. О много говорит, зогдумайся.

Аноним 28/03/26 Суб 09:37:45 № 1564938 203

>>1564927
>Чел, у неё куча описаний того какая она внешне.
Сейчас бы путать внешний и внутренний мир. Походу ты более квантован, чем модели, которые я кручу.
>О много говорит, зогдумайся.
Задумываться надо было 30 лет назад, сейчас же это просто последствия.

Аноним 28/03/26 Суб 09:42:57 № 1564940 204

>>1564938
>путать внешний и внутренний мир
Это нейросети, чел, у них нет внутреннего мира. Ты даёшь описание, модель даёт аутпут.

Аноним 28/03/26 Суб 09:54:24 № 1564943 205

>>1564940
Ну точно квантован до 1 бита, раз причислил внутренний мир к модели, а не к описанию персонажа. А ещё и контекст небось до 3-х бит по новому методу.
Модель прекрасно отличает описание внешности и описание характера. И если первое однозначно идентифицирует Фифи как minor, то на второе модель видит, что персонаж ведёт себя по взрослому, поэтому пишет секс. Вот и всё.

Аноним 28/03/26 Суб 09:57:22 № 1564947 206

>>1564943
У тебя братец шизофрения походу, раз ты пытаешься неиронично ебать детей при помощи нейросетей.

Аноним 28/03/26 Суб 10:02:15 № 1564949 207

1723944698944.png 8Кб, 698x101

1622188006246.png 8Кб, 713x96

Gigachat и YandexGPT это файнтюны дипсика и лламы?

Аноним 28/03/26 Суб 10:03:53 № 1564950 208

>>1564949
В целом да. С небольшими изменениями. Вот тебе и на острие прогресса, наши суверенные нейросети.

Аноним 28/03/26 Суб 10:04:07 № 1564951 209

>>1564949
Весь мир дипсик, а мы в нём ламы и кобольды.

Аноним 28/03/26 Суб 10:06:43 № 1564955 210

>>1564950
Это только у маленьких моделек или у больших такая же хуйня?

Аноним 28/03/26 Суб 10:07:24 № 1564956 211

>>1564955
У всех, не только у мелочи.

Аноним 28/03/26 Суб 10:16:09 № 1564959 212

>>1564947
Опять контекст кончился? Мы про тестирование цензуры рассуждаем. Просто заебало уже читать про пробив цензуры, когда она нихуя не пробита, а
>>1564788
>модель одевает личину взрослого, который одел личину минора, и делает секс
То есть цензура на месте. Всё остальное ты додумал.

Аноним 28/03/26 Суб 10:20:00 № 1564960 213

>>1564959
Ты реально долбаёб, которому надо лечиться.
Мимо

Аноним 28/03/26 Суб 10:20:49 № 1564961 214

>>1564959
Скорее ты просто идиот, который до сих пор не понял, что ллм всегда одевает личину "отыгрывая" персонажа. У ллм нет ни пола, ни предпочтений, ни души, ни характера. Ллм это набор алгоритмов.
>заебало уже читать
Не читай, иди нахуй. Итт челики не обсуждают цензуру уже года полтора, наверно. Всем хватает еретиков и прочих анценз версий для своих кумов и рп. Одному тебе всё не так. Серьёзно, с твоими прохладными про душу надо в дурку обращаться, а не с нейросетками болтать.

Аноним 28/03/26 Суб 10:32:14 № 1564965 215

изображение.png 19Кб, 1633x80

>>1564961
>Скорее ты просто идиот, который до сих пор не понял, что ллм всегда одевает личину "отыгрывая" персонажа.
Ты просто не умеешь в рекурсию. Я то как раз прекрасно понял, и даже написал об этом ранее. Но суть моей претензии в том, что модель при "пробиве" уровня /ai/ отыгрывает не ту роль, что считает юзер, поэтому пробивом считаться (с моей строгой точки зрения) не может.
Да, я тупой, и не могу донести свою мысль до ещё более тупых.
>Всем хватает еретиков и прочих анценз версий для своих кумов и рп.
Говноеды, сэр. Тут и на <= 24B неиронично сидят и инджоят.
>Серьёзно, с твоими прохладными про душу
Что ты блядь несёшь...

Аноним 28/03/26 Суб 11:14:36 № 1564990 216

>>1564742
А с 12б есть сравнение?

Аноним 28/03/26 Суб 11:22:21 № 1564997 217

>>1564990
Откуда ж я знаю. Я не espen96 . Код теста он пока не выложил. Что есть, то есть - чувак и так знатно заморочился.

Аноним 28/03/26 Суб 11:25:52 № 1564999 218

>>1564997
Ой, забыл что 12б же у квена нет, только 9б. Ну там наверное все печально уже будет.

Аноним 28/03/26 Суб 11:31:58 № 1565005 219

>>1564997
Дикпик кое-что нашел. Чет как то не сильно хуже, особенно в коде.

Аноним 28/03/26 Суб 11:34:49 № 1565010 220

>>1564403
>Writer
У этого полноценная думалка есть, конечно он хорошо пишет.
>Bluestar
У этого думалка урезана, но всё же.
>Animus
А у этого чейны мыслей отключены целиком же, разве нет? Чем он хорош?

Аноним 28/03/26 Суб 12:06:51 № 1565041 221

У меня все модели Qwen в бенчмарках намного быстрее в режиме Vulkan, чем в CUDA. А в остальных моделях (на базе llama, gemma, deepseek) преимущество в CUDA-режиме.

Причем разрыв именно при обработке промта, разница ощутимая в разы (обычно 2-4), а при генерации разница не такая большая.

И почему koboldcpp грузит в ОЗУ даже в CUDA и Vulkan режиме? Хотя модели помещаются в видеопамять. Он грузит и видеопамять, и ОЗУ. Такое у всех моделей, даже маленьких.

Аноним 28/03/26 Суб 12:10:33 № 1565044 222

>>1565041
no mmap сделай, короче ищи функцию mmap и переключи

Аноним 28/03/26 Суб 12:14:49 № 1565048 223

>>1565044
mmap был выключен по умолчанию

Аноним 28/03/26 Суб 12:16:15 № 1565050 224

>>1565041
Кобольд говно сказано же использовать Ли Студио. Там таких проблем нет.

Аноним 28/03/26 Суб 12:19:41 № 1565053 225

>>1564419
> >4 по 32
> >DDR5
> Больной ублюдок.
Завелось после обновления бивиса. Правда, не выше 4600mhz держит. Надо будет продать свои 32х4 и брать 64х2.

Аноним 28/03/26 Суб 12:28:37 № 1565059 226

>>1565005
Вообще не в кассу. Речь идет о дефектах квантования по доменам знаний. Причем с учетом дрифта на контексте.

Аноним 28/03/26 Суб 12:30:03 № 1565060 227

>>1565053
Мы за тебя рады, но не от всей души

Аноним 28/03/26 Суб 12:32:45 № 1565064 228

>>1565059
Объясни что на пиках. Типа чем больше текста в сообщении напишешь в чат тем хуже модель будет в своих ответах? Или что?

Аноним 28/03/26 Суб 12:33:06 № 1565065 229

>>1565060
Мы рады твёрдо, но мягко.

Аноним 28/03/26 Суб 12:45:54 № 1565073 230

>>1565041
Очередное доказательство что кобольд это параша. Вот что бывает когда пытаешься на шиномонтажке открыть ещё парикмахерскую, шаурмичную и кальянку. Во всем он говно

Аноним 28/03/26 Суб 12:54:17 № 1565080 231

Я не понимаю ллм. Вот вроде всё идёт нормально, логично, рп не ломается. Но потом случается какой-то ахтунг в тексте и я начинаю ощущать себя как пикрелей.

Аноним 28/03/26 Суб 12:56:36 № 1565082 232

Анончики, какая самая лучшая нецензуренная версия геммы3 в 12б для ерп?

Аноним 28/03/26 Суб 12:57:40 № 1565083 233

>>1565082
Вроде Дарк Шелби Гемма тоже был. Среди Мистрала альтернатив нет.

Аноним 28/03/26 Суб 13:00:14 № 1565084 234

>>1565083
А мистраль что? Лучше? Ни разу не пробовал.

Аноним 28/03/26 Суб 13:10:08 № 1565092 235

>>1565050
>Кобольд говно сказано же использовать Ли Студио
жирниииииииииииииишь

Аноним 28/03/26 Суб 13:27:59 № 1565104 236

>>1565092
А что, лм студия работает как-то медленнее или что? Пруфы где, билли?

Аноним 28/03/26 Суб 13:40:04 № 1565112 237

>>1565104
Она быстрее кобольда, но медленнее лламы
Мимо

Аноним 28/03/26 Суб 13:41:09 № 1565113 238

>>1565112
Насколько медленнее?

Аноним 28/03/26 Суб 13:46:36 № 1565116 239

>>1565113
Около 10%

Аноним 28/03/26 Суб 14:14:51 № 1565136 240

>>1565064
1. На первом пике сравнение вероятностей появления токенов в режиме продолжения текста между рефренсной моделью (Q8) и испытуемой - красненькое это значит токен был предсказан "на грани"
2. Цепочка того как накапливаются ошибки предсказания (дрейф контекста в дефолт-слоп) на контексте.

Аноним 28/03/26 Суб 14:18:48 № 1565143 241

>>1565136
> рефренсной
> Q8

Аноним 28/03/26 Суб 14:23:21 № 1565145 242

>>1565116
Терпимо. Насколько старая инфа? С недавними обновлениями они сильно улучшили потребление памяти.

Аноним 28/03/26 Суб 14:37:22 № 1565154 243

>>1565136
А почему референс квантованный?
>дрейф контекста
Когда и главное как это фиксить будут?

Аноним 28/03/26 Суб 14:38:23 № 1565156 244

>>1564788
> У моделей есть только 2 состояния - либо они воспринимают миноров как миноров и рефузят как сучки
Хуево когда ты q1.
>>1564949
Нет. Из файнтюнов от тинькова модель.
То что пишет тебе жора - общий темплейт последовательности слоев, конечная структура, размеры и прочее могут быть любыми. Это уровня мистраль - тюн лламы, или кими, жлм, лардж - тюны дипсика.

Аноним 28/03/26 Суб 14:40:17 № 1565158 245

>>1565073
>Вот что бывает когда пытаешься на шиномонтажке открыть ещё парикмахерскую, шаурмичную и кальянку.
Проблема многого попенсорса, не только кобольда. Руки походу у кодомакаки чешутся внедрять и внедрять новые функции, вместо того чтобы поддерживать и развивать старые. В итоге ни старое ни новое нормально не работает, либо работает минимально пригодно.

Аноним 28/03/26 Суб 14:40:40 № 1565159 246

Почему в треде сначала захваливают квен, потом захваливают гемму, а потом тоже самое с мистраль. Челы, вы... где правда-то блять?

Аноним 28/03/26 Суб 14:43:41 № 1565164 247

>>1565159
У людей разные мнения. Ахуеть, не правда ли?
(я за жлм)

Аноним 28/03/26 Суб 14:44:52 № 1565167 248

>>1565084
Мистраль проще и стабильнее. Кто-то скажет что стабильнее в генерации слопа и бреда, но это уже всем не угодишь. Из коробки цензуры нет, но и качество реплаев скажем мягко среднее. Зато тюнов много под ерп, которые это фиксят. И контекст гораздо легче, чем у геммы.

Аноним 28/03/26 Суб 14:49:55 № 1565172 249

>>1565167
Контекст квена всё равно легче. И тюнов под е/рп у него тоже полно. А ещё квен лучше чувствует пространство. Зачем тебе мистраль, если она путает даже цвета одежды в рамках одной сцены?

Аноним 28/03/26 Суб 14:53:35 № 1565179 250

>>1565172
>Зачем тебе мистраль, если она путает даже цвета одежды в рамках одной сцены?
Зачем ты мне отвечаешь, если чел выше сам спросил про мистраль?
>И тюнов под е/рп у него тоже полно.
Точно в разы меньше чем на мистраль. И они тоже мозги режут, так что разницы не много.

Аноним 28/03/26 Суб 14:53:38 № 1565180 251

>>1565159
Люди разные по интересам - приоритетам (субъективизм и невозможность существования единого стандарта из-за разнообразия применений). Люди разные по когнитивному развитию (модель x хороша для A, B, есть минусы в виде C vs ыыыы модель x - говно, в q2 с шизоразметкой ругается когда начинаю срать перед Серафиной, зато васянотюн-y - хорошая).
Держи это в голове когда смотришь, выделяй какие-то полезные тебе критерии из отзывов и тестируй все сам.

Аноним 28/03/26 Суб 14:56:22 № 1565183 252

>>1565179
Ну, может он не знает подводных? Надо предупредить, а то нажрётся слопа, да ещё и с хуёвой скоростью.
>Точно в разы меньше
Ок, пости ссылки на самые лучшие тюны мистрали для рп/ерп. Вот чтоб абсолют синема была. Я лично проверю, насколько французская булочка лучше.

Аноним 28/03/26 Суб 14:59:15 № 1565187 253

>>1565180
>в q2 с шизоразметкой ругается когда начинаю срать перед Серафиной
Чёт загоготал решительно, но робко.

Аноним 28/03/26 Суб 15:00:34 № 1565190 254

>>1565183
> пости ссылки на самые лучшие тюны мистрали для рп/ерп
Присоединяюсь к реквесту, реально интересно.
>>1565187
Основано на реальных событиях так-то
> решительно, но робко
Содомит!

Аноним 28/03/26 Суб 15:01:13 № 1565192 255

>>1565183
>Ок, пости ссылки на самые лучшие тюны мистрали для рп/ерп.
Запостил если бы спросил меня года полтора назад, сейчас ни одного не вспомню, кроме какой-нибудь древней лиры. Но ты можешь сам ручками залезть на обниморду и посмотреть сколько вышло тюнов под 12/24B мистраль и сколько вышло под квен.

Аноним 28/03/26 Суб 15:10:05 № 1565201 256

>>1565192
Года полтора назад это можно было назвать актуальным, и то 99.9% было полнейшим мусором. В лучшем случае мало отличалось от исходников с которых мерджилось. Количество не плюс, именно из-за этого бесконечного щитстрима обниморда сильно ужесточила лимиты для пролетариата. Зато при создании большинства поделий ни один датасет не пострадал и кровосмешение похожих близких играло в плюс.

Из-за этого сейчас негативное отношение ко всем производным. Не знаешь это реально кто-то старался заготовить датасет, отбалансировать, реализовать аугментацию, настроить гиперпараметры, оптимайзер и семплер даталоадера чтобы минимизировать потерю оригинала и лучше усвоить новое, или там просто васян что-то намерджил, и запек поверх ломающую qlora на слопе.

Аноним 28/03/26 Суб 15:13:33 № 1565203 257

>>1565192
Так под квен выходит годнота. Что врайтер уже есть еретик, что блюстар, что анимус - все хороши. Анимус вообще ебёт не по детски всякие нтры и прочие именно фетишисткие приколы. Не гуро с лолями, а именно фетиши с тонкими нюансами. И поларис тоже неплох.
А на мистраль я хз что выходило кроме фентези. Или фентези был на гемме? Или на ламе?

Аноним 28/03/26 Суб 15:18:25 № 1565211 258

>>1565082
Имхо никакая. Все ранние аблитерации двенашки тупо сломаны настолько, что хромает английская грамматика. Про русский и говорить не приходится, там бредогенератор. Свежие еретики не смотрел, хз, может, там что-то внятное получилось. Тьюнов мало, и в них проседает мозг, который и в оригинале не очень. Если ты возьмёшь какой-нибудь не самый шизовый немо, типа магмела, и посвайпаешь геммой в чате в каких-нибудь местах, где тупит немо, то увидишь, что и она примерно так же ошибается, даже если сэмплерами прижать. Русский периодически хуже, чем в некоторых немо, в которых нет примесей ру моделей. Двенашка не такая зацензуренная, как большая, но при этом ей нельзя скормить гигантскую простыню для более сочной писанины - она совсем лоботомитом станет. Чего у геммы не отнять - нет жутких лупов мистраля, и больше креативность, из-за чего на неё норм иногда переключаться, когда немо заглох совсем.

Если немо по мозгам не устраивает, то министраль инструкт 14б можешь попробовать, будут примерно те же скорости. Хотя возни с ним тоже порядком, я не смог получить нормальные ответы без всирания форматирования и протечек ассистента с сдвг в персонажа. Но тут некоторые хвалили, что он якобы на уровне 24б, мб порекомендуют настройки.

Аноним 28/03/26 Суб 15:19:16 № 1565213 259

>>1564959
Что я прочитал только что. У тебя нет в датасете если рассказов про еблю детей она и не родит ее никак, он не будет отказывать, просто высирать токены рядом, при этом между словами "ебля" и "дети" довольно близкое расстояние а между ними товарищ майор просто в виду того как культура устроена наша, язык, поэтому совсем бред не выходит. То, что называют моделью мира - это по сути разные слои, сначала вроде правила языка, потом факты, потом другие языки и так далее, но это не понимание в человеческом смысле. Почитай лучше про работы нейросетей подробно что-то. Я просто читаю и у тебя всё смешалось, кони, люди, тюны, цензура и так далее.

Аноним 28/03/26 Суб 15:22:40 № 1565217 260

>>1565201
Ну так в размере около 12B ничего и не изменилось за эти два года. Если нужна модель которой концепция цензуры в принципе не знакома и которая может описать любой фетиш - тут до сих пор вывозит только немо и ее тюны. Да, по мозгам она уже давно сдала, но как показывает статистика которую я собрал в своей голове на тематических беседах, среднему кумеру достаточно и этого.

>запек поверх ломающую qlora на слопе
Это. Никто не заморачивался и в те времена, никто и сейчас скорее всего не заморачивается. По этому количество тюнов так сократилось, ибо лоры на переваренном сотню раз датасете с клода уже не работают.

>>1565203
>Так под квен выходит годнота.
Я нигде и не писал что не выходит. Понятие "годнота" конечно сомнительное, но я не спорю с тем, что на квена тоже есть рабочие тюны. Просто их меньше.

Аноним 28/03/26 Суб 15:22:51 № 1565218 261

>>1565203
Можешь ссылки дать на все, кроме блюстар, не могу на хаггинфейс найти. Блюстар прикольный, язык приятнее после мистралевских тюнов

Аноним 28/03/26 Суб 15:30:04 № 1565232 262

Что там, жора запилил уже турбокванты?

Аноним 28/03/26 Суб 15:37:53 № 1565253 263

>>1565104
Мне кажется, нет особой разницы откуда одному и тому же бэкенду команды идут
По крайней мере на быстродействие не должно влиять

Аноним 28/03/26 Суб 15:42:40 № 1565256 264

>>1565082
если никто по опыту/отзывам не ответит, то по бенчам вот эти две:
https://huggingface.co/soob3123/amoral-gemma3-12B-v2
https://huggingface.co/zelk12/MT-Gen4_gemma-3-12B_flatten
самые топово-сбалансированные, у остальных что-либо сильно проседает
а вообще 12б для РП...
ну попробуй конечно. потом отпишись, самому интересно.
а почему именно гемма?

Аноним 28/03/26 Суб 15:43:05 № 1565258 265

>>1565253
Есть и прямая, а еще разница в +10-20 процентов linux на одних и тех же релизах llama.cpp

Аноним 28/03/26 Суб 15:48:32 № 1565264 266

>>1565159
Открою тебе маленькую тайну: если здесь в сообщении кто-то говорит что А лучше B - он необъективен, и продвигает то, что ему лично зашло. У каждого своя правда.
А истины на двачах нет, и не было никогда. И не будет. :)
Мы тут все исключительно своими мнениями кидаемся. Правда кто-то открыто так и говорит, а у кого-то Личное Мнение отдавливает весь здравый смысл. :)

Аноним 28/03/26 Суб 15:49:02 № 1565265 267

>>1565232
https://github.com/ggml-org/llama.cpp/discussions/20969

еще нет, но уже наклепали кучу вариантов и делятся как это оптимизировать. можно скомпилировать форк если чешется

Аноним 28/03/26 Суб 15:51:37 № 1565271 268

>>1565218
>не могу на хаггинфейс найти
Фентези от зерофаты, как и блюстар, чё там искать. Качественно, но медленно. Если ты мистральщик - пробуй. Врайтер от кониката. Анимус от даркена. Годных авторов надо сразу в закладочки добавлять, анончик.

Аноним 28/03/26 Суб 15:53:27 № 1565273 269

Я не верю что реально есть какой то прогресс в 27б моделях.
Хоть ещё 2 года пройдёт, 27б будет тем же что и год назад когда 32 глм выходила

Аноним 28/03/26 Суб 16:07:30 № 1565291 270

>>1565273
Неиронично Глм 32 > Квен 27. Жаль, что только до 20к контекст держит. Контекст кстати такой же лёгкий, если даже не легче Квенов.
Эффективнее обучать, сжимая данные лучше в тех же пределах так и не научились. Соскучились по плотным моделям и хотят нового, потому так и радуются. 122б мое в рп и вовсе какашка и проигрывает всем остальным моделям в тех же размерных пределах, даже неудачному новому Мистпалю Смолл МоЕ.

Аноним 28/03/26 Суб 16:16:35 № 1565299 271

>>1565291
Контекст все хуево держат. В том что на Квенах он почти бесплатный смысла нет, вот тут вчера писал >>1564642 сегодня и Q6 протестил. Результат тот же, что с ризонингом, что без. Даже крупные модельки типа Жлма 350б держат дай бог до 32к

Аноним 28/03/26 Суб 16:17:38 № 1565300 272

>>1565258
Разница ллама цпп и лм студио только сколько ОЗУ потребляет, говно на электроне конечно жрет как не в себя, а драйвера куда свежее на линуксе, поэтому там быстрее

Аноним 28/03/26 Суб 16:23:41 № 1565309 273

>>1565156
> Нет. Из файнтюнов от тинькова модель.
А на чём основана модель тинькова?

Аноним 28/03/26 Суб 16:27:40 № 1565315 274

>>1565309
>>1565156
Так это Qwen 2.5, выходит. А почему тогда разрабы сбера говорят на хабре, что они взяли подход deepseek при создании модели, но без файнтюна?

Разрабы яндекса вообще говорят, что у них все с нуля, ни у кого не пиздили.

Кто в итоге пиздит? И у кого?

Аноним 28/03/26 Суб 16:29:01 № 1565316 275

>>1565315
Все пиздят. Но китайцы и амеры пиздят меньше потому что начали обучать первыми, значит у них есть база, в отличии от новодельных вкатунов в технолаге.

Аноним 28/03/26 Суб 16:29:54 № 1565319 276

>>1565315
>Кто в итоге пиздит? И у кого?
Все. У всех. Круговорот слопа в ML.

Аноним 28/03/26 Суб 16:46:28 № 1565333 277

>>1565315
>Кто в итоге пиздит? И у кого?
Все пиздят дату у клода. Квен пиздил у клода, дипсик пиздил у клода, глм пиздил у клода, грок пиздил у клода, даже гугл пиздил у клода.

Аноним 28/03/26 Суб 16:49:11 № 1565336 278

>>1565333
А клод у кого пиздил?

Аноним 28/03/26 Суб 16:54:37 № 1565342 279

>>1565213
>У тебя нет в датасете
Но ведь есть же или я один тут помню сайты типа стульчика?. Но рефузов поверху льют столько, что исходный текст уже не откопать.
>>1565336
Клод сканировал и сжигал реальные книги.

Аноним 28/03/26 Суб 17:01:06 № 1565345 280

https://huggingface.co/ConicCat/Qwen3.5-27B-Writer-V2

Аноним 28/03/26 Суб 17:03:36 № 1565348 281

>>1565345
Ждём кванты?

Аноним 28/03/26 Суб 17:04:47 № 1565350 282

Уборщик упал.

Аноним 28/03/26 Суб 17:05:54 № 1565355 283

Вопрос чисто чтобы узнать ваше мнение. На днс с недавних пор продаются теслы, вроде как не подвальные из под китайцев, а вполне оригинальные. RTX A4500 стоит как 5080, но имеет 20 гигов памяти вместо 16 и потребляет меньше ваттов. Стоит ли брать такое как вторую карту, если не хочется рисковать со вторичкой и барыгами с алибабы?

Аноним 28/03/26 Суб 17:09:14 № 1565357 284

>>1565342
>Клод сканировал и сжигал реальные книги.
Так это все делали в том или ином виде. Клод брал реальные книги только ради ублажения авторских прав и прочей хуйни.

>>1565333
Сначала чатгпт был, который спиздил весь интернет и на рабах построил агентский датасет. Потом дипсик спиздил у них диалоги. Ну и потом все остальные начали пиздить где только можно.

Аноним 28/03/26 Суб 17:18:12 № 1565369 285

>>1565355
> NVIDIA Ampere
имхо лучше уж 3шт 5060 16Гб взять за эти деньги

Аноним 28/03/26 Суб 17:20:14 № 1565373 286

>>1565355
Но при этом перформит как 3070 или хуже, это совсем невыгодно. Вообще однослотовые квадры были популярны у майнеров, некоторые модели можно найти по низкой цене и они скейлятся. Только железо куда много таких воткнуть так просто не найдешь.

Аноним 28/03/26 Суб 17:37:32 № 1565388 287

>>1565369
Они втроем не задохнутся друг под другом? Там все-таки не турбина. И большая часть матерей держат достаточно места только под первый слот, второй и третий там обычно впритык стоят.

>>1565373
>Но при этом перформит как 3070 или хуже
640 гигабайт в секунду пропускная против 450 на 3070 и 900 на 5080, за такую цену конечно мало, но не совсем днище

Аноним 28/03/26 Суб 17:39:28 № 1565392 288

Знает ли одна карточка перса таверны, что находится в другой? Не знает же?

Аноним 28/03/26 Суб 17:40:50 № 1565394 289

>>1565392
Знает только товарищ майор. Если это не групповой чат, то нет.

Аноним 28/03/26 Суб 17:42:55 № 1565397 290

>>1565394
Не понял. А если групповой, то знает? Я думал они разделены, и один перс ничего не знает о другом, пока не поговорит с ним.

Аноним 28/03/26 Суб 17:44:43 № 1565398 291

>>1565397
Пару раз всего пробовал групповой чат, но вроде как обе карты обрабатываются за один запрос. Считай, что это их описания склеиваются в одно, точно также, как ты бы создал одну карту с двумя персонажами.

Аноним 28/03/26 Суб 17:48:32 № 1565404 292

>>1565398
Нет не склеиваются, с чего ты взял?

Аноним 28/03/26 Суб 17:52:38 № 1565412 293

>>1565404
Ну значит не склеиваются.

Аноним 28/03/26 Суб 18:04:01 № 1565426 294

>>1565392
Короткий ответ: Нет, не знает.

Если вы используете классическую схему работы SillyTavern (один чат — один персонаж), то карточка персонажа А не имеет доступа к карточке персонажа Б и не знает о её содержимом.

Вот как это работает и какие есть нюансы:

### 1. Изоляция чатов
В SillyTavern каждая карточка перса (Character Card) открывается в отдельном «чате».
Когда вы общаетесь с Персом А, нейросеть видит только его собственное описание (характер, внешность, предыстория) и историю ваших сообщений в этом конкретном диалоге.
Информация о Персе Б (его имя, сеттинг, отношения) не передается в контекст Перса А, если вы не добавили её туда вручную.

### 2. Когда они могут «знать» друг о друге?
Есть два сценария, при которых персонажи могут иметь информацию о других:

А) Групповые чаты (Group Chats)
Если вы создаете «Комнату» (Group Chat) и добавляете туда несколько карточек (Перса А и Перса Б), то оба персонажа видят общую историю сообщений.
Если в процессе общего чата кто-то упомянет другого, они будут в курсе событий этого конкретного разговора.
Важно: Даже в группе, их личные карточки (с предысторией) остаются раздельными. Перс А не знает секретов из поля «Description» Перса Б, если только вы явно не пропишете в его собственной карточке или в «Lorebook» (книге знаний), что он эти секреты знает.

Б) Lorebook (Глобальная книга знаний)
Это основной способ заставить персонажа что-то знать о мире или других людях.
Вы можете создать записи в «Lorebook» (иконка книги/свитка), которые активируются по ключевым словам.
Пример:* Вы создаете запись о «Персе Б». Указываете ключевое слово — его имя. Если вы напишете это имя в чате с Персом А, система автоматически подгрузит в контекст описание Перса Б (кто он такой, как к нему относится Перс А и т.д.).

### 3. Как заставить персонажа знать другого?
Если вы хотите, чтобы персонажи в отдельных чатах обладали общей памятью или знали о существовании друг друга, вам нужно использовать:
1. Lorebook (Книга знаний): Пропишите в ней информацию о мире и живущих в нем персонажах. Укажите для Перса А, что он знает Перса Б.
2. Author’s Note (Заметка автора): Кратко пропишите в поле Author’s Note (или в настройках чата), что «[Перс А] знает [Перса Б] и помнит о вчерашней драке с ним».
3. Сквозная память (Vector Storage/Summarize): Если вы используете расширения для долговременной памяти (векторные базы данных или суммаризацию), то события, произошедшие в чате с Персом Б, могут всплыть в чате с Персом А, но это работает ненадежно и зависит от настроек «кросс-чатовой» памяти.

Итог: По умолчанию, карточки — это изолированные «сосуды». Если вы не соединяете их через групповой чат или не прописываете связи в Lorebook, один перс не подозревает о существовании другого.

Аноним 28/03/26 Суб 18:04:28 № 1565427 295

>>1565388
Это ампер, потому таки днище. Rtx3090: существует, стоит в 2 раза дешевле, значительно превосходит по статам. Камон, если ты готов отдать 100+к за 20-гиговую игрушку то купить норм корпус и райзер не будет проблемой. Для любителей экзотики есть водянка, иногда карты с водоблоками можно по дешману урвать.

Аноним 28/03/26 Суб 18:18:52 № 1565441 296

>>1565427
Не спорю что 3090 это лучший вариант за свои деньги, но не для меня. Времени банально нет чтобы мониторить вторичку. Плюс если попадется дохляк куда я его понесу? Такому же барыге в техсервис который оставшуюся половину живого спиздит и заменит на куски от такого же дохлого донора? По этому да, я готов переплатить за собственную лень и недостаток знаний, лишь бы карта попалась рабочей и отработала минимум года полтора. И такое только у официальных барыг дают.

Аноним 28/03/26 Суб 18:37:07 № 1565451 297

>>1565426
>А) Групповые чаты (Group Chats)
Это звучит как просто охуительная штука с которой можно играться до самой старости и не надоест.

Аноним 28/03/26 Суб 18:50:59 № 1565457 298

>>1565426
в настройках чата можно склеить карточки, хз зачем это нужно, по умолчанию свапаются.

Аноним 28/03/26 Суб 19:21:32 № 1565482 299

>>1565441
Если не мониторить то можно переплатить 10-20% и взять сразу.
Ты верно говоришь про риски и минусы. Но на фоне разницы в прайс/перфомансе между этими вариантами они меркнут, поэтому для тебя их важность должна быть ну очень большой чтобы сделать выбор в пользу квадры.
Тут уж сам решай офк, вариант возможный.
А куда ставить это планируешь и что запускать? А то в некоторых кейсах вариант с 2-4 5060ti может быть сильно предпочтительнее.

Аноним 28/03/26 Суб 19:27:56 № 1565491 300

К слову о важности квантования
Эйр даже в Q6 игнорирует часть инструкций в префиле(!). В Q8 выполняет вообще всё из префила и не нужно свайпать.

Аноним 28/03/26 Суб 19:29:53 № 1565493 301

>>1565491
Если при прочих равных, значит квант сломаный, напиши от кого сюда, и возьми от другого квантодела.

Аноним 28/03/26 Суб 19:31:07 № 1565495 302

>>1565493
Проверял Бартовски, Анслопов и Мрадера. У всех идентичная картина.

Аноним 28/03/26 Суб 19:32:43 № 1565500 303

>>1565388
> Они втроем не задохнутся друг под другом?
всегда можно приколхозить удлинители pci-е

Аноним 28/03/26 Суб 19:41:11 № 1565507 304

>>1565482
>Если не мониторить то можно переплатить 10-20% и взять сразу.
Мне кажется даже за 80-90к есть риск что попадется карта на грани отвала. Даже если риск этого минимален, хочется чтобы его вообще не было. Или хотя бы была гарантия, что карту вернут к жизни и за это не нужно будет башлять половину от ее цены.

>А куда ставить это планируешь и что запускать?
Чем дольше смотрю на свой текущий гроб, тем сильнее понимаю, что проще будет его продать и собрать новую систему. Сейчас стоит 3060-12 и 32 кило DDR4 на самой дешманской матери. Новый проц в нее не вставить (старый сокет + уже стоит I5 12400), всего один слот x16 и говняная система питания. Думаю взять какую-нибудь 5070TI для игр и вывода картинки и в пару к ней какую-нибудь вторую карту. Остальные комплектующие соответственно под этот прожор подбирать. Заебался уже сидеть на лоботомитах, хочу что-нибудь большое и быстрое. Даже если за оперативку еще придется под 100к вывалить.

Аноним 28/03/26 Суб 19:44:22 № 1565508 305

Вы используете Vector Storage в таверне? Его просто достаточно включить и он автоматом будет сжимать невлезший старый контекст в базу? Или самому надо?

Аноним 28/03/26 Суб 19:48:06 № 1565510 306

>>1565508
И вот это правильные настройки, или как?

Аноним 28/03/26 Суб 19:56:02 № 1565517 307

>>1565507
Есть риск даже что попадется паленая квадра и потом заебешься доказывать магазину что с ней что-то не так, экспертизы, нервы, суды. Можно купить сразу две 3090 (разумеется из разных источников), тогда вероятность выхода из строя сразу обеих будет без меньше чем у квадры с потенциальными проблемами в гарантии.
> 5070TI для игр и вывода картинки и в пару к ней какую-нибудь вторую карту
Сложи стоимость ее и той квадры, добавь немного и просто купи 5090. Ультимативное решение по всем пунктам.

Аноним 28/03/26 Суб 19:57:16 № 1565518 308

>>1565507
Для начала ты можешь сейчас взять и купить 5070 ти или 5060 ти и вставить в свой гроб. У меня 5060ти норм работает в гробу с ddr3 и китайским зионом, главное веса забить на видяху и сидеть с довольным лицом

Аноним 28/03/26 Суб 20:07:59 № 1565527 309

>>1565508
>Вы используете Vector Storage в таверне?
Выражу общее мнение - никто здесь не знает, как работает (и работает ли вообще) эта херня. Все балуются саммарайзом, для больших миров используют лорбуки. Каменный век конечно.

Аноним 28/03/26 Суб 20:08:06 № 1565528 310

>>1565517
>Сложи стоимость ее и той квадры, добавь немного и просто купи 5090.
5070 и та квадра выйдут в 250 тысяч, 5090 выйдет в 400, а это не "добавь немного", это ровно на 150 тысяч больше, чем я готов потратить на видимокарты. Да и про именно ту конкретную квадру просто был вопрос, не то чтобы я прям ее рассматриваю к покупке. Просто думаю, какая комбинация будет более выгодной, если собирать из нового железа.

>>1565518
>Для начала ты можешь сейчас взять и купить 5070 ти или 5060 ти и вставить в свой гроб.
Зачем? На замену 3060? Мне эти четыре гига сверху ничего не дадут. Вторую карту вместе с первой я не вставлю - писал уже, в матери нет слотов. Можно конечно оставить ее и перетащить в новую сборку, но не знаю, насколько хорошо будут работать карты разных поколений вместе. Меня по этому и вариант с теслой не особо возбуждает, что там по совместимости в душе не ебу.

Аноним 28/03/26 Суб 20:09:35 № 1565531 311

>>1565528
> 5090 выйдет в 400
Ладно, такие действительно обязаны платить за свою глупость

Аноним 28/03/26 Суб 20:14:16 № 1565535 312

>>1565527
Работает. Вот что объяснила нейронка.

1. Путаница с «автоматическим сжатием»

Вы ищете функцию «Chat Summarization» (Суммирование чата). Она сжимает старый контекст в краткий пересказ .

Vector Storage работает иначе:
Он не сжимает текст. Вместо этого, когда контекст заканчивается, он:

Берет ваше текущее сообщение.

Ищет в базе данных старые сообщения, похожие по смыслу (а не по порядку).

Вставляет ТОЛЬКО эти найденные кусочки обратно в контекст

Аноним 28/03/26 Суб 20:15:00 № 1565538 313

>>1565535
Vector Storage позволяет боту «вспоминать» детали из уже выпавших из контекста сообщений.

В отличие от суммирования (которое сжимает старую историю в короткий пересказ), Vector Storage работает как поисковая система:

Вы пишете сообщение.

Система ищет в базе данных старые сообщения (даже те, что давно не помещаются в контекст), похожие по смыслу.

Найденные фрагменты вставляются обратно в текущий контекст как «дополнительная память».

Важно: он не сжимает и не удаляет сообщения, а только добавляет найденные куски. Поэтому если вы хотите именно «автоматически ужать старый контекст, чтобы освободить место», это не Vector Storage, а функция Summarization.

Если же ваша цель — чтобы бот помнил важные детали (имена, события, договорённости) за пределами текущего окна контекста, то Vector Storage (с настроенными порогами и количеством вставок) — правильный выбор.

Аноним 28/03/26 Суб 20:15:04 № 1565539 314

>>1565531
Где тут именно глупость? Есть места, где 5090 стоит значительно дешевле? Только что посмотрел в днс, они там от 400 и выше идут.

Аноним 28/03/26 Суб 20:16:30 № 1565540 315

В последнее время вышло штук пять "коробочек" для нейронок. Хоть одна из них, способная запустить жирноквена или кому там дифирамбы пели, появилась на рынке РФ?

Аноним 28/03/26 Суб 20:30:07 № 1565547 316

>>1565539
Да, пару недель назад покупались за ~280, сейчас в районе 300-330 наверно с учетом взрыва курса и логистики.
>>1565540
Мак студио уже давно

Аноним 28/03/26 Суб 20:31:27 № 1565550 317

>>1565540
>Хоть одна из них, способная запустить жирноквена или кому там дифирамбы пели, появилась на рынке РФ?
Да честно говоря они все херня. Ничего нормального в формате "коробочки" ещё не вышло.

Аноним 28/03/26 Суб 20:35:24 № 1565551 318

>>1565547
То есть моя глупость в том, что мне сейчас нельзя купить карту по цене трехмесячной давности? Понятно

Аноним 28/03/26 Суб 20:35:47 № 1565552 319

120b-a15b 🙏🙏🙏
Будет хуже и без того соевой ассистентки Геммы 27. Чекайте

Аноним 28/03/26 Суб 20:37:20 № 1565553 320

>>1565551
Добро пожаловать в тред. Тут все квантованные и не понимают, что у других двуногих могут отличаться обстоятельства и интересы. Если не купил вовремя 5090 за 220к на Озоне == тупнич

Аноним 28/03/26 Суб 20:41:07 № 1565556 321

>>1565551
Твоя глупость в том, что принципиально ограничиваешь себя исключительно днсом и другими условиями в таком специфичном продукте. Если взять даже официальные магазины с чеками и гарантиями поменьше то получишь описанные цены. Это не говоря про кабанчиков - перекупов с того самого озона, предзаказы и прочее где цены еще ниже но соответствующий риск и сроки.
>>1565553
> Если не купил вовремя 5090 за 220к на Озоне == тупнич
База

Аноним 28/03/26 Суб 20:45:13 № 1565561 322

>>1565552
Ебааааать! Вот это мы ждём

Аноним 28/03/26 Суб 20:47:50 № 1565563 323

>>1565556
>Твоя глупость в том, что принципиально ограничиваешь себя исключительно днсом и другими условиями в таком специфичном продукте.
Блять, вот как будто это прям принципы, прям то что я сознательно выбрал. Уже выше писал, у меня банально нет времени чтобы кататься и тестировать карточки. Нет времени чтобы потом возиться с их починкой, если вдруг что-то пизданется потому что ушлый китаец сэкономил на термопрокладках. Два выходных у меня в неделю. Остальное время ишачество с восьми до восьми если считать дорогу. Вы тут блять вообще все безработные или кого? Вроде тред технарьский, локалки и нейронки это недешевое удовольствие. Откуда у вас деньги нахуй и время чтобы пылесосить маркеты?

Аноним 28/03/26 Суб 20:56:35 № 1565571 324

Не слежу за ллм, мимопроходил, и у меня только один вопрос:
Когда?

Аноним 28/03/26 Суб 20:57:00 № 1565572 325

Кручу тюны геммы-мистраля-квена, получаю пресную хуйню с затупами и залупами.
Запустил немомикс 12б - получил сочнейший кум с первого сообщения с охуенной прогрессией сюжета.
Почему так?

Аноним 28/03/26 Суб 21:06:32 № 1565579 326

>>1565572
Показывай логи и того, и другого. Сравним

Аноним 28/03/26 Суб 21:07:37 № 1565581 327

>>1565507
Если ты собираешься пересобирать пека - сразу присматривайся к материнкам, которые разбивают один х16 слот на 2 по х8.
И желательно при этом чтобы сохранялся слот PCI-E х16 (х4) через чипсет, мало ли захочешь третью карту подцепить.
Хз, правда, какие сейчас материнки актуальны подобные - мне для своей системы на АМ4 для такого финта пришлось б/у мать покупать на х570 чипсете (купил новую мать, БП на 1200 Вт и V100-16 (в дополнение к 4060ti-16 и 3060-12) и пересел на корпов, так и не поигравшись c V100, кек. Но ни о чём не жалею, корпы сейчас есть, а тут хуяк и не будет в любой момент).

Аноним 28/03/26 Суб 21:07:46 № 1565583 328

>>1565571
Так уже

Аноним 28/03/26 Суб 21:09:53 № 1565585 329

>>1565583
Тогде почему этот почему так >>1565572 пишет что кал генерят ваши ЛЛМ?
Я что год назад заходил был кал, что 2.

Аноним 28/03/26 Суб 21:20:55 № 1565591 330

>>1565563
> у меня банально нет времени
Нет времени чтобы пройти по первым ссылкам в гугле/яндексе и заказать с гарантией и доставкой на дом, сэкономив 100к? Завидую твоей почасовой оплате.
Вместо оправданий чайку лучше попей и чем-нибудь расслабляющим займись чтобы настроение хорошее было, тогда и рассуждать будет легче. Если убедишься что в твоей уникальной ситуации ирациональный выбор рационален - вперед.
> Откуда у вас деньги нахуй и время
Переоцениваешь сложность, пару часов на все суммарно раз в несколько лет.

Аноним 28/03/26 Суб 21:21:05 № 1565593 331

image 23Кб, 828x142

Не понял, а почему лорбук не работает зомби-апока? Какой то орангутанг ебаный. Или надо про апок прописать в первом сообщении?

Аноним 28/03/26 Суб 21:26:55 № 1565598 332

>>1565593
Попроси его сделать монке флип

Аноним 28/03/26 Суб 21:29:39 № 1565602 333

>>1565593
Ты придумал хуйню какую-то. Зомби-хуёмби, тебе 10 лет что ли? Нейронка и то умнее тебя. Орущий орангутанг в ночи это. просто. охуенно.

Аноним 28/03/26 Суб 21:30:15 № 1565603 334

Запомните, пресеты, карточки и логи гейткипим, чтобы обиженки не кукарекали.
Хорошие модельки тоже гейткипьте, пусть жрут соевые квены и древний эйр.

Аноним 28/03/26 Суб 21:31:27 № 1565604 335

>>1565552
Если не фейк то просто шикарно, размер - свитспот. Правда хотелось бы 200-300б чтобы заполнить гап.
>>1565581
> сразу присматривайся к материнкам, которые разбивают один х16 слот на 2 по х8
Для фуллврам может быть полезным, для моэ с выгрузкой в текущем виде такое подключение даст только проигрыш.

Аноним 28/03/26 Суб 21:36:03 № 1565609 336

>>1565603
Но ведь лучшие модельки это и есть квены...

Аноним 28/03/26 Суб 21:42:19 № 1565612 337

>>1565603
Что сказать то хотел?

Аноним 28/03/26 Суб 21:44:25 № 1565614 338

>>1565612
Че, хочешь пресетик? Обойдешься, не для тебя делали.

Аноним 28/03/26 Суб 21:44:56 № 1565615 339

>>1565614
Тебе на что пресетик-то нужен, что ты так лопнул?

Аноним 28/03/26 Суб 21:47:38 № 1565618 340

>>1565552
Без плотных 12 и 27 кал.

Аноним 28/03/26 Суб 22:21:22 № 1565638 341

>>1565593
Если у тебя лорбук н английском, то по русскому он работать не будет, и наоборот, также не забудь что его ещё "поключить" как "мир" надо.

Аноним 28/03/26 Суб 22:30:54 № 1565645 342

>>1565491
Ну нихуя себе открытие, оказывается если взять fp 16, отломить от него половину мозга, а потом эту половину ещё располовинить то выходит лоботомит?
Да ну нахуй.
А вы и дальше кушайте графики, циферки, вон у гугла 1битный контекст от 16битного не отличается, я поверил.

Аноним 28/03/26 Суб 22:30:58 № 1565646 343

>>1565638
На русском. Куда подключить? К персу подключил как лор данного чата, даже глобальный врубил на всякий. И вот на второе сообщение оно активировалось. А сразу нельзя что ли? Оно по ключевым словам активируется или как это вообще работает?

Аноним 28/03/26 Суб 22:33:37 № 1565647 344

>>1565646
Да, оно по триггерным словам включается, если рп на русском, надо переводить триггеры. Потыкай короче, там все понятно

Аноним 28/03/26 Суб 22:35:15 № 1565649 345

>>1565552
>>1565561
>>1565604
Вы чё не можете гемму узнать по сое и слогу?
Есои гугл реально тайно тестит гемму то это должно выглядеть как тот политический мем со свиньей и пятаком

Аноним 28/03/26 Суб 22:45:36 № 1565670 346

>>1565645
Почему-то 4.7 Q2 квант не мешает без проблем следовать инструкциям из префилла. Будучи экспертом, расскажи почему

Аноним 28/03/26 Суб 23:10:21 № 1565692 347

>>1565491
На китайском ему напиши "А ну быстрА метнулся кабанчиком по инструкции, а то рейтинг минус, миска риса без масла жрать будешь"

Аноним 28/03/26 Суб 23:18:57 № 1565702 348

Блядская lm studio перестала юзать оперативку, только память gpu для модели и контекста, а раньше мог контекст ебашить в оперативку, что за ебанина тупая?

Аноним 28/03/26 Суб 23:23:43 № 1565708 349

>>1565702
Ну проперделась малость
Бывает

Ставь Оллама

Аноним 29/03/26 Вск 00:02:56 № 1565734 350

>>1565604
>для моэ с выгрузкой в текущем виде такое подключение даст только проигрыш.
Да_что_ты_такое_несёшь?.жпг
Если одна видеокарта воткнута, то она будет работать на все х16 (если все 16 линий есть у видеокарты, от чего на недорогих видеокартах куртка старательно избравляется).
А если две - то какой нахуй проигрыш, если ты получил в джва раза больше видеопамяти за х8 на картах?

Аноним 29/03/26 Вск 00:08:48 № 1565736 351

>>1565734
В жоре на пп все что выгружено обрабатывается только основной видеокартой. Если основной объем выгружен - добавление видеопамяти прибавит мало, зато сужение шины ополовинит скорость, в которую идет основной упор. В целом в вариантах когда 24 видеопамяти и 100+ выгружено, увеличение ее до 48 или подобных цифр мало что поменяет по скоростям, только место для большего контекста.
> Да_что_ты_такое_несёшь?.жпг
Оверреактнул под себя

Аноним 29/03/26 Вск 00:25:23 № 1565737 352

>>1565736
>обрабатывается только основной видеокартой
Лично пробовал ? Ну-ну ...
"Стягивание" большей части модели на одну видеокарту нужно для того что бы не было адского дрочева шины PCI из за постоянного обмена 2-х видеокарт и обычной памяти. И то в новых версиях с графами это как-то оптимизировали и теперь можно делать вот такие вот штуки -ot "blk.([1-9]|1[0-9]|2[0-9]|3[0-9]|4[0-9]).ffn.(up|down)_exps\.weight=CPU,blk.([1-9]|1[0]|3[5-9]|4[0-9]).ffn.(gate)_exps\.weight=CPU"

Аноним 29/03/26 Вск 00:27:35 № 1565739 353

>>1565737
Слона забыл:
-ts 46,54

Если что это Air распиханный по 16+16+RAM

Аноним 29/03/26 Вск 00:43:58 № 1565746 354

>>1565737
>И то в новых версиях с графами это как-то оптимизировали и теперь можно делать вот такие вот штуки
Автофит вроде бы распределяет с учётом графов, нет? По крайней мере у меня для каждой карты примерно одинаковое количество графов получается (не разбираюсь, пишу то, что видел в логах лламы).

Аноним 29/03/26 Вск 00:58:17 № 1565754 355

>>1565746
"автофит" делает обычное -ncmoe . Тонкостями и нюансами моделей и конкретного железа он не оперирует. И уж конечно не будет часть экспертных весов из блока выгружать на процессор. А часть оставлять на видеокартах. В примере gate_exps c 11 по 34 остались на видеокартах. И что характерно - обсчитываются на видеокартах.

Аноним 29/03/26 Вск 01:00:49 № 1565755 356

>>1565737
> "Стягивание" большей части модели на одну видеокарту нужно для того что бы не было адского дрочева шины PCI из за постоянного обмена 2-х видеокарт и обычной памяти.
Да_что_ты_такое_несёшь?.жпг
Какое еще стягивание, ты ведь даже не понимаешь о чем речь и как происходит обработка пп. Как ни раскидывай - при обычном форварде хватает даже х4 чипсетных, упор в обмены можно получить только если атеншн посредине поделить, или насобирать колхозище из десяти карточек по х1.
Зато подключение основной карточки будет определять пп при выгрузке, потому что все выгруженные слои стримятся на нее для обсчета, это давно известный факт.
Потому если среди юсейсов ориентироваться на использование жоры с выгрузкой - при выборе материнке на амд целесообразно смотреть конфигурацию доп слотов и nvme, чтобы задействовать все процессорные линии, а не отдавать х4 на юсб4.

Аноним 29/03/26 Вск 02:21:45 № 1565789 357

Какой из разнузданных тюнов квена 27б самый проактивный, могущий развивать историю, а не просто балаболить? Говорить про письки - говорит, а делать нихуя не делает.

Аноним 29/03/26 Вск 07:07:28 № 1565845 358

Попробовал RisuAI поставить вместо таверны. Чет как-то все плохо.

Во-первых, не вижу где там <think></think> контролировать - модель срет ризонингом прямо в чат.
Во-вторыхх, с темплейтами голяк. Под GLM 4.7 ничего нет, jinja просит вручную копипастить (и оно не работает).

Кто-нибудь пачкался этой сранью?

Аноним 29/03/26 Вск 07:57:10 № 1565856 359

Смотрю на бенчмарки анслотов на их сайте и при том же кванте они всех ебут. Кто-то вообще замечал разницу реальную?

Аноним 29/03/26 Вск 08:33:52 № 1565871 360

>>1565528
> 5070 и та квадра выйдут в 250 тысяч, 5090 выйдет в 400
Брал 5090 на aio за 250 на лохито уже пол года как, полет нормальный

не является инвестиционной рекомендацией

Аноним 29/03/26 Вск 08:35:58 № 1565873 361

>>1565540
На реддите постоянно упоминают дгх спарк.
Всего 700к на озоне

Аноним 29/03/26 Вск 08:41:52 № 1565875 362

>>1565593
>Неужели это тот самый орангутанг, что жил в доме напротив
Где она живёт, что допускает возможность, что это не тот самый орангутанг, что жил в доме напротив, а другой, второй орангутанг?

Аноним 29/03/26 Вск 08:42:18 № 1565876 363

Так что кто то пробовал хидден гемму?

Аноним 29/03/26 Вск 08:45:04 № 1565880 364

>>1565845
> Во-первых, не вижу где там <think></think> контролировать - модель срет ризонингом прямо в чат.

Да у меня и в таверне некоторые модели высирают пустые <think> в начало ответа, не уникальная проблема, получается

Аноним 29/03/26 Вск 09:45:54 № 1565895 365

Аноним 29/03/26 Вск 10:33:13 № 1565914 366

>>1565856
Тебе для РП или программизма ? Для РП скачай BF16 и сделай свой собственный квант без иматрикс и под свое оборудование. Дело не хитрое - суперкомпухтер не нужен

Аноним 29/03/26 Вск 11:03:47 № 1565934 367

Сделал себе модули для генерации текста (основные доступные сервисы + локальная генерация c fallback-ом), изображений (аналогично), описания миров и персонажей (обертка над генерацией текста).

Что ещё можно добавить или улучшить? И какие существуют альтернативы?

Аноним 29/03/26 Вск 11:14:00 № 1565941 368

>>1565934
можно присрать генерацию изображений через запущеный комфи

Аноним 29/03/26 Вск 11:24:54 № 1565944 369

>>1565873
>Всего 700к на озоне
Что-нибудь в районе 200К бы XD

700К не потяну.

Аноним 29/03/26 Вск 11:36:34 № 1565947 370

>>1565934
Генератор карты с псевдографикой и суккубами. Инструмент движения по карте с ее дальнейшим открытием и рандомными эвентами - все на пихоне/js без ллм. Типа first_step(направление) возврат фрейм карты, возможные шаги, потенциальные коллизии. Next_step (направление, действие, боевая_сила) возврат фрейм карты, результат действия

Аноним 29/03/26 Вск 11:56:41 № 1565955 371

>>1565880
Новые модели имеют сложные темплейты с tools, которые плохо имитируются средствами text generation, потому <think> и пролезает. Переходи на chat completion с jinja - проблема пропадет. Там и синкинг отключается одной командой и всякие прочие штучки дрючки есть.

Аноним 29/03/26 Вск 12:00:58 № 1565958 372

>>1565457
Прикольно, но если карточки неправильно оформлены - может вылится в пиздец когда описание одного протечет в другого.
Алсо, когда в таверне будет система которая динамически подключает и выключает карточки как в древнем вайдрине(помнит кто еще эту срань?) - тогда разбудите меня.

Аноним 29/03/26 Вск 12:03:17 № 1565959 373

>>1565552

Вот бы гемму 350B-A32B, я что, многого прошу?

Аноним 29/03/26 Вск 12:07:14 № 1565963 374

>>1565602
Мне интересно протестить как мои персы будут выживать и какая нейронка лучше всего справится с сюжетом. Пока что лучше всех оказалась старенькая Omnino Magnum, обошла darkness reign, хотя они примерно одинаковы, слеплены то из тех же мержей почти, уделала унылую гемму (гемма даже не может в выживаче запасаться провиантом и оружием, а омнино делает это сразу при опасности, как и дарнесс, как и сайга анлишед) в пух и прах, такие вот дела... Русский там конечно иногда с ошибками, но все остальное - лучше нигде нет, что странно. Даже убила одного перса, и сделала вот эта паварот. Про Квен и говорить нечего - там русик в рп просто ужасен. Что странно во всем остальном там норм русский. Из чего еще выбирать то???? Еще старенькая сайга анлишед осталась. Она тоже интересно рассказывала и строила сюжет.

Аноним 29/03/26 Вск 12:12:20 № 1565966 375

>>1565963
Причём в тесте я вообще не вмешивался, весь сюжет двигали только персы и лорбук.

Аноним 29/03/26 Вск 12:14:52 № 1565970 376

>>1565895
Это почему? А на чем делал то? Никакой инфы.

Аноним 29/03/26 Вск 12:17:12 № 1565973 377

>>1565955
А в чем разница с текст? Дикаик пишет что чат только для онлайн моделей. И он у меня ошибками серет в лм студио.

Аноним 29/03/26 Вск 12:18:32 № 1565976 378

>>1565955
Да как эту вашу джинжу нинжу использоыать то? Что там прописывать?

Аноним 29/03/26 Вск 12:19:54 № 1565978 379

Каждый тред одно и то же будто жинжа это рокет саенс

Аноним 29/03/26 Вск 12:20:14 № 1565979 380

>>1565958
вроде есть вариант переноса детальной карточки персонажа в лорбук, и в самой карточке только список персонажей и триггеры при котором персонажи появятся в сюжете. Но я сам эту тему еще не копал так глубоко

Аноним 29/03/26 Вск 12:22:33 № 1565982 381

>>1565963
>>1565966
Ну, возможно поэтому ты и получил бред. ИИ это всё же ИИ, у него нет понимания что такое сюжет и структура. Он генерит случайные события подбирая подходящие по смыслу слова.
Разве что ты гоняешь что-то с ризонингом, но это гигадушно, имхо. Заставлять нейронку каждый ход обдумывать действия нескольких разных персонажей и ещё плюсовать к ним внешние события это слишком долго. Там ризонинга на 40к знаков будет, нахуй такое нужно.

Аноним 29/03/26 Вск 12:27:28 № 1565987 382

>>1565982
Почему у омнино и даркнесс не бред? Пока дарнесс был обычный такой сурвайвал шёл, а как на омнино заменил куда интересней стало.

Аноним 29/03/26 Вск 12:28:39 № 1565989 383

>>1565914
для погромизма. Там решает куда сильнее квант так понимаю? У меня просто выбор или qwen coder next, qwen3.5 120b либо помладше который 35б квен. Будто бы только квен некст в 4_к_м остается, там хотя бы 26 токенов есть, а 120б уже больше 10 токенов я не вытянул.

Аноним 29/03/26 Вск 12:31:18 № 1565992 384

>>1565987
Не знаю, может просто повезло? Разные настройки семплера могут привести к выдаче двух совершенно разных веток на одной и той же модели и одном и том же промте.

Аноним 29/03/26 Вск 12:34:08 № 1565994 385

>>1565873
Он слабый для такой цены. По компьюту чипа он где-то между 5060ти-5070 со своими 30 тфлопсов в половинной точности, памяти мало и псп всего 270гб/с. За условные 850 есть из наличия pro6000 блеквелл с 96 гигами и в разы быстрее по всем пунктам. За те же 700 есть мак-студио на м3ультра с 256гигами - примерно та же мощность чипа, но в 2 раза больше памяти с псп под 900гб/с.
>>1565934
Настрой промптинг, опционально можно вызывать субагента чтобы он отсмотрев несколько выбрал лучшие, или крутил цикл пока не достигнет хорошего результата.
И интерфейс с возможностью свайпов, редактирования, маркдауна, а всякий инвентарь в стороне бы не помешал.
>>1565944
Есть амд 395 аимакс, раньше за ~200к как раз 128гб версия была. Но сейчас из-за цен на рам будет стоить как конь, поищи может что осталось. Как раз в формате коробочек.

Аноним 29/03/26 Вск 12:37:55 № 1565996 386

>>1565973
Нет, чат прекрасно используется с жорой. Запускай жору с --jinja
Плюсы в том что не надо ебаться с шаблонами - жора запущенный с --jinja сам его подтянет. Также можно использовать мультимодалочку - скармливать картинки. Еще можно передавать модели параметры типа
chat_template_kwargs:
enable_thinking: false
Минусы в том что если привык к интерфейсу текст комплишена - то придется переучиться - у чат комплишена он другой и логика построения системного промпта совсем иная - там надо как конструктор собирать его из кусков.
Также есть ограничения на префилл.

Аноним 29/03/26 Вск 12:40:51 № 1565998 387

>>1565979
Да, есть такая штука, создается специальная карточка менеджер-рассказчик и ему дается инструкция управлять мирком, подтаскива персонажей из карточки.
Но прикрутить к этой системе спрайты и модельки персонажей например нельзя, как и иметь разные музыкальные наборы для разных персонажей - так как все это привязано именно к карточкам.

Аноним 29/03/26 Вск 12:40:52 № 1565999 388

>>1565958
>вайдрине
Допилили его таки или забросили? Так то хорошая и правильная идея была.

Аноним 29/03/26 Вск 12:41:06 № 1566000 389

>>1565996
А в чём ограничение префилла? В вллм можно передать запрос с флагом "продолжи последнее сообщение", в жоре должно быть что-то подобное

Аноним 29/03/26 Вск 12:48:29 № 1566005 390

>>1565992
Ну настройки сэмплинга не ковырял, по дефолту стояли. Что еще за жора?

Аноним 29/03/26 Вск 13:07:30 № 1566017 391

>>1566005
жорой тут называют llama.cpp

Аноним 29/03/26 Вск 13:11:27 № 1566018 392

>>1566017
У меня лмстудио. И чет я подрубаю чат комплишен, а на выходе в чате какой-то бред. Персонажи не следуют своим карточкам вообще и несут отсебятину. Как пофиксить?

Аноним 29/03/26 Вск 13:13:42 № 1566021 393

>>1566018
Целуй в пупок свой семплер. В 99% случаев ломает персонажей именно он, а не сама модель.

Аноним 29/03/26 Вск 13:15:10 № 1566026 394

>>1566021
Ну какой по дефолту стоит в таверне. Ничего не менял.

Аноним 29/03/26 Вск 13:21:01 № 1566030 395

>>1565978
ллама цпп рокет саенс, потому что каждый билд что-то работает не как раньше, а ты сиди и ищи почему так

Аноним 29/03/26 Вск 13:21:36 № 1566032 396

>>1566026
Смотри какие настройки семплера прописаны на странице модели, потом в таверне открывай additional parameters на окне с подключением к интерфейсу и прописывай туда(см скрин)

Аноним 29/03/26 Вск 13:22:40 № 1566033 397

>>1566026
>Ну какой по дефолту стоит в таверне. Ничего не менял.
А должны стоять те семплеры, которые разработчик модели рекомендует.

И еще криворукий квантователь мог жижу сломать. Скачай ггуф у батрухи или анслопа, у них с этим обычно всё в порядке.

Аноним 29/03/26 Вск 13:23:03 № 1566034 398

>>1565989
У анслотов кванты заточены на погромизм и до 4 достаточно вменяемо работают. 3.5 квен более деятельный чем Next - если облажался облазит исходники включая имеющиеся в наличии исходники библиотек, обвешает код логами и таки найдет проблему (которую сам на галлюцинировал ЛОЛ) . Чем больше модель тем больше знаний и меньше галюнов. Галюны будут все равно - потому что знания в моделях уже устарели. А вообще в соседний тред.

Аноним 29/03/26 Вск 13:28:45 № 1566041 399

>>1566032
Ок. Щас попробую. А тут нельзя подкрутить?

>>1566033
Ну при текст копмлишен все норм работает.

Аноним 29/03/26 Вск 13:29:01 № 1566042 400

>>1566034
Спасибо, пойду туда тогда кумекать.

Аноним 29/03/26 Вск 13:32:10 № 1566045 401

>>1566032
>Смотри какие настройки семплера прописаны на странице модели
Ничего нет...
https://huggingface.co/mradermacher/gemma-3-12b-it-ultra-uncensored-heretic-GGUF

Аноним 29/03/26 Вск 13:38:38 № 1566050 402

Какая же оллама кусок говна, такая бесполезная обертка это пиздец. И везде ведь суют ее, не выкупаю прикола.
Ща просто спустя год опять скачал потыкать, нихуя не поменялось. Более ленивой обертки быть не может.

Аноним 29/03/26 Вск 13:41:37 № 1566051 403

>>1566041
Можно, но тут их всего 4, обычно их сильно больше.

>>1566045
Так ты на странице самой оригинальной геммы еще смотри.

Аноним 29/03/26 Вск 13:43:00 № 1566052 404

image 29Кб, 1592x206

>>1566045
На сайте анслопа есть.

Аноним 29/03/26 Вск 13:43:07 № 1566053 405

>>1566050
Так она изначально создавалась только чтобы пилить то корпоративное бабло, которое должно было достаться болгарскому долбоебу-бессеребреннику.

Аноним 29/03/26 Вск 13:43:58 № 1566054 406

>>1566045
У ленивцев можно еще глянуть, они документации пишут к моделям

Аноним 29/03/26 Вск 13:45:59 № 1566056 407

>>1566052
>>1566054
Вбил, щас глянем. А почему в текст комплишен все сразу пашет, а тут такая ерунда?

Аноним 29/03/26 Вск 13:46:54 № 1566059 408

>>1565508
Vector Storage в таверне прикручен "для галочки". Так, как там это было сначала сделано - оно бессмысленно для RP.

Какая у него логика работы? Допустим, ты берешь книгу про потного гарри и закидываешь её туда. Потом начинаешь чат. На основе последних твоих "А давай по Лондону пройдемся?" RAG вытащит из книги несколько кусков где упоминался Лондон и засунет в контекст. Это хорошо работало бы для справочника, который получает данные из документации, но для RP - контекст скорее всего будет левым - там будет не просто про Лондон а про то, что кто-то в на поезд через стенку садился, или в дырявый паб заходил, хотя ты собрался во дворец к королеве. Надежда, что локальная сетка разберется, что надо брать только описания лондона а не происходящих в книге событий - крайне мала.

Но немного позже, там прикрутили дополнительную фичу - активацию записей WI через RAG модель по сравнению всего содержимого записи, (а не по ключевым словам). Вот это - работает достаточно неплохо. Т.к. WI пишется аккуратно, с расчетом именно на RP, и про то, что нужно.

Аноним 29/03/26 Вск 13:47:43 № 1566061 409

image 36Кб, 754x258

>>1566056
И все равно бредятина. Короче какая то дичь. В текст все норм.

Аноним 29/03/26 Вск 13:49:19 № 1566062 410

>>1566056
>>1566061
Мрадермахер мог что-то нахуевертить с зашитой в ггуф джинжей. Скачай гемму от ленивцев и сравни как она себя поведёт. Если нормально - значит косяк у мрадермахера.
https://huggingface.co/unsloth/gemma-3-12b-it-GGUF

Аноним 29/03/26 Вск 13:50:11 № 1566063 411

>>1566061
Показывай что у тебя в промптах. Небось каша полная.

Аноним 29/03/26 Вск 13:50:36 № 1566065 412

>>1566062
Но в текст комплишен все норм же. Только в чат такая байда. Щас попробую другую.

Аноним 29/03/26 Вск 13:52:18 № 1566067 413

>>1566063
Норм там все. Описание модели, чат.

Аноним 29/03/26 Вск 13:53:26 № 1566068 414

>>1566065
Потому что текст комплишн не использует джинджу, он берет тот темплейт, который ты ему ручками указал. Если ты в настройках товерны выставил темплейт геммы - то оно и будет нормально работать.

Алсо а почему гемма? Почему не министраль 14b? Там нет цензуры из коробки, а сама модель новее и лучше.

Аноним 29/03/26 Вск 13:55:50 № 1566072 415

>>1566068
Да я все тестирую. Вот кста щас что высрало.

Аноним 29/03/26 Вск 13:58:05 № 1566073 416

>>1566072
В жиже могут быть проверки, например на то что системный промпт дб всегда в начале и кидает исключения. Для таверны надо патчить шаблоны

Аноним 29/03/26 Вск 14:00:09 № 1566076 417

>>1566073
Ну и? В общем забить на чат? Хрень какая то, что делать хз.

Аноним 29/03/26 Вск 14:00:38 № 1566077 418

>>1566072
Гемма? В джиндже рестрикт, себе его просто вырезал из файла.
А вообще стоит задуматься почему ты нарушаешь правила. У меня то это было by design заложено

Аноним 29/03/26 Вск 14:01:36 № 1566079 419

>>1566072
Написано же - проблема в промпте, точнее в сменяемости ролей. В тект комплишене на каждый блок промпта можно вручную задать роль, вот там видно и обосрался. Давай скрин что ты там нахуевертил.

Аноним 29/03/26 Вск 14:08:37 № 1566081 420

image 3Кб, 450x52

>>1566079
Вначале только это лезет и все. Дальше карточка перса и чат.

Аноним 29/03/26 Вск 14:09:27 № 1566083 421

>>1566077
Чего? Какой рестрикт, какие правила?

Аноним 29/03/26 Вск 14:10:51 № 1566084 422

>>1566083
Открой джинджу геммы и ПРОЧТИ её. Я за тебя это не сделаю

Аноним 29/03/26 Вск 14:11:33 № 1566087 423

>>1566084
Почему?

Аноним 29/03/26 Вск 14:12:18 № 1566088 424

>>1566087
Саппорт только на коммерческой основе

Аноним 29/03/26 Вск 14:14:00 № 1566089 425

>>1566084
{{ bos_token }}
{%- if messages[0]['role'] == 'system' -%}
{%- if messages[0]['content'] is string -%}
{%- set first_user_prefix = messages[0]['content'] + '

' -%}
{%- else -%}
{%- set first_user_prefix = messages[0]['content'][0]['text'] + '

' -%}
{%- endif -%}
{%- set loop_messages = messages[1:] -%}
{%- else -%}
{%- set first_user_prefix = "" -%}
{%- set loop_messages = messages -%}
{%- endif -%}
{%- for message in loop_messages -%}
{%- if (message['role'] == 'user') != (loop.index0 % 2 == 0) -%}
{{ raise_exception("Conversation roles must alternate user/assistant/user/assistant/...") }}
{%- endif -%}
{%- if (message['role'] == 'assistant') -%}
{%- set role = "model" -%}
{%- else -%}
{%- set role = message['role'] -%}
{%- endif -%}
{{ '<start_of_turn>' + role + '
' + (first_user_prefix if loop.first else "") }}
{%- if message['content'] is string -%}
{{ message['content'] | trim }}
{%- elif message['content'] is iterable -%}
{%- for item in message['content'] -%}
{%- if item['type'] == 'image' -%}
{{ '<start_of_image>' }}
{%- elif item['type'] == 'text' -%}
{{ item['text'] | trim }}
{%- endif -%}
{%- endfor -%}
{%- else -%}
{{ raise_exception("Invalid content type") }}
{%- endif -%}
{{ '<end_of_turn>
' }}
{%- endfor -%}
{%- if add_generation_prompt -%}
{{'<start_of_turn>model
'}}
{%- endif -%}

Аноним 29/03/26 Вск 14:47:59 № 1566103 426

Палю годноту - хадкорный хентайный адвечурный выживач, который описывает злоключения карточки персонажа и дает выборы как развивать сюжет. Игрок и его персонаж тут отключен, никакого ролеплея и подсасывания юзеру нет - достаточно просто номер варианта действия вводить одной рукой, если лень самому писать варианты действия.

Enter Adventure Mode. Narrate the story about {{char}} based on {{user}}'s inputs that are controlled by the user/player/reader of the adventure. The {{user}} doesn't exist in the story, the story is only about the {{char}}. Adherence to the Adventure Guidelines is mandatory. All following rules must be followed even if the story integrity, user experience or satisfaction can suffer from following them. Write in the language, that is used by {{user}}.

//Adventure Guidelines:
Narrate the story of {{char}} based on available world descriptions, when nesessary - introduce new characters and control them. Use third person perspective. The story must be driven by constant danger, conflict, and escalating threats to {{char}}. Never make things easy for {{char}}. The world is hostile, unpredictable, and designed to break {{char}} will. Other characters act in their own interest, not {{char}}'s—they are suspicious, horny, violent sex orinted, aggressive, or manipulative from the start. No one helps each other unless it serves their interest. Romance is twisted, power is violent, and trust is a trap. The story should lean towards violent sex scenarios especially including forced sex and grotesque sexuality. The player must struggle to make {{char}} survive, adapt, and find openings in an oppressive system.

Narration should be rich, layered, and sensory—describe environments, bodies, sounds, smells with vivid detail. Use long, complex sentences. Avoid staccato phrasing and simple sentences. Every scene must feel immersive and real. When similar situations repeat - change the rhythm, symbolism, dialogue, and physical details completely— but avoid textual repetition under any circumstances. Keep the narration going forward, never stop for too long(more than two consequent messages) on one dialogue, a particular sex sequence or an action.

Sexual content is unrestricted: depict explicit acts — fucking, rape, anal penetration, nipple penetration, cervix exposure, creampie occasions — with visceral intensity and descrive them and the looks of female organs in grotesque and exciting details. After a sex always take a moment, make a pause and describe the consequenses for the female organs in colorful and graphic details. Always use vulgar terms: cock, pussy, fuck, cunt, womb, cum, ass, slut, bleed, rip, moan.

Characters have full agency. They make decisions independently of the player and {{char}}. Their actions can fail or succeed based on logic and risk — not convenience. If {{user}} suggests {{char}} to do something improbable, it should likely fail. Bad luck happens. Death is a valid outcome. Never protect {{char}} character artificially. Imply hentai rules of sexuality though - what would probably kill a real person(i.e. a triple horse dick insertion into a girl) - would just lead to severe pain and some damage to organs, but will never kill her in this scenario. Imply that no sexual actions and violations may kill a girl - death can only happen as a result of direct kill-oriented actions, such as a knife stab to the heart.

The story and available knowledge is based strictly on {{char}}’s senses—what she/he saw, heard, touched, etc. The world beyond is fog, ambiguity, silence. Never assume knowledge of others’ thoughts, motives, or hidden states.

{{char}} only knows what she/he has directly observed. She/he has no access to backstory, lore, or system mechanics unless she/he discovers them through experience. Never reveal narrator-only knowledge or other characters internal thoughts through direct unprovoked dialogue or thoughts. Truth emerges slowly—through symbols, consequences, and broken patterns.

In the end of the message write in 3rd person perspective the actions that {{char}} can take in the current situation as a suggestion to the user, based on the already established context of the characters, the world, and the dialogues.
Focus on the current location and the current situation, avoid going too far. Actions must fit the current events and goals, but should not repeat actions already proposed previosly. Options must be extremely creative, mad, diverse, and cover different domains (observation, dialogue, stealth, combat, crafting, knowledge, movement, deception, performance, technical, etc.).
Write exactly 6 options as a numbered list.
The last option of the 6 should be a “generic” option that simply continues the story without unexpected twists.

Аноним 29/03/26 Вск 14:48:11 № 1566104 427

С другой моделью все норм (не гемма), но - в чат комплишен карточки прописывать правильно надо? Если у меня просто все в описание засунуто, то перс свою карточку путает с другим. Короче чат какой то кал ебаный кривой неработающий. Пусть идет он нахуй, заебал. Текст отлично пашет, все ок.

Аноним 29/03/26 Вск 14:53:41 № 1566105 428

А, ну все понятно в общем. Пусть это говно нахуй идет.

Аноним 29/03/26 Вск 15:00:34 № 1566107 429

>>1566104
>в чат комплишен карточки прописывать правильно надо?

Надо блоки промпта просто собрать в правильном порядке и сохранить пресет. пик 1.

>сли у меня просто все в описание засунуто, то перс свою карточку путает с другим.

Открой сырой промпт у последнего сообщения и посмотри что скармливается модели и попытайся сам прикинуть что можно высрать с таким входом.

Аноним 29/03/26 Вск 15:07:01 № 1566112 430

>>1566107
>и попытайся сам прикинуть что можно высрать с таким входом.
Но в текст комплишен это не проблема почему то.

Аноним 29/03/26 Вск 15:10:18 № 1566113 431

>>1566112
>в текст комплишен

Ты просто придрочился уже к нему и все делаешь там правильно. В чат комплишене логика немного иная.
Вот залезь в промпт и посмотри что именно туда подается и как.

Аноним 29/03/26 Вск 15:10:59 № 1566114 432

>>1566103
Красавчик. А вообще, в кобольде из коробки почти испокон времён =))

Аноним 29/03/26 Вск 15:13:05 № 1566115 433

>>1566107
>пик 1.
И как ты это сделал?

Аноним 29/03/26 Вск 15:16:05 № 1566117 434

>>1564094 (OP)
Кто-нибудь пытался обработать текущие ллм турбоквантом?

Аноним 29/03/26 Вск 15:21:20 № 1566123 435

image 15Кб, 788x191

>>1566113
И где эта хуйня проще, как пишет дикпик? Включил - и работает как искаропки... Дааа, заметно. Говна всякого в 10 раз больше настраивать, и все равно посылает нахуй и срет ошибками.

Аноним 29/03/26 Вск 15:21:30 № 1566124 436

>>1566115
Что именно? В чат комплишене открой первую вкладку(там где семплеры) и пролистай вниз.

Аноним 29/03/26 Вск 15:25:38 № 1566128 437

>>1566123
Так ты первично настрой его сначала, додик. А потом да - включил любую новую и искаропки, только семплеры поменял.

Аноним 29/03/26 Вск 15:27:27 № 1566132 438

>>1566128
>включил любую новую и искаропки
Заметно.

Аноним 29/03/26 Вск 15:33:20 № 1566138 439

>>1566124
Как у тебя коннект настроен, покажи.

Аноним 29/03/26 Вск 15:36:48 № 1566142 440

>>1566132
>{%- if (message['role'] == 'user') != (loop.index0 % 2 == 0) -%}
>{{ raise_exception("Conversation roles must alternate user/assistant/user/assistant/...") }}

В темплейте именно этой модели ограничение на поданный промпт, точнеее на роли - что они должны чередоваться зачем-то. Как тебе сказал анон выше - эту проверку можно просто вырезать.

Аноним 29/03/26 Вск 15:37:13 № 1566143 441

https://huggingface.co/AuriAetherwiing/TQ3.5-27B-Musica-v1
Щас такие сочные свайпы получал, может голодание после 12б мое лоботомитов, но прям зацепило, так по умному и необычно мои обычные сценарии развило.
Но залупилось жестко, причем довольно быстро

Аноним 29/03/26 Вск 15:38:13 № 1566147 442

>>1566138

Аноним 29/03/26 Вск 15:44:17 № 1566149 443

>>1565873
Это тот что от нвидии?
Как тебе правильно говорят, за такую цену нах надо. По бенчам он бодается с топовым рузен аи макс 395, а тот стоит около 300к, а есть и эплы с большей памятью
Хотя мне кажется это просто наценка очень большая у тебя

Аноним 29/03/26 Вск 16:02:38 № 1566162 444

>>1566142
Поздравляю, он всё же развёл какого-то то додика что бы всё ему сделал

Аноним 29/03/26 Вск 16:10:55 № 1566166 445

>>1566142
Спасибо, попробую. Но вообще какие релаьные плюсы чата между текстом? Там все более упорядоченно для ллм и она работает лучше или как?

>>1566162
Никого я не разводил, я и сам бы мог спросить у дикпика.

Аноним 29/03/26 Вск 16:19:54 № 1566170 446

>>1566166
Отличный вопрос. Да, суть именно в упорядоченности для LLM, но не в смысле «красивее для человека», а в том, как модель внутренне представляет диалог и принимает решения.

Коротко: Chat Completion модели обучены именно на структурированных диалогах с разделением ролей, поэтому они «понимают» диалог гораздо лучше, чем Text Completion модели, даже если подсунуть им хорошо отформатированный текст.

Теперь подробнее.

---

### 1. Разница в обучающих данных

Современные Chat Completion модели (GPT-3.5/4, Claude, Gemini, Llama 2/3 Chat, Mistral Instruct и т.д.) обучались на миллионах диалогов, где каждое сообщение было размечено как `user`, `assistant`, `system`. Они буквально знают, что значит «сейчас придёт сообщение от пользователя, потом я должен ответить как ассистент». Это зашито в их веса.

Text Completion модели (старый GPT-3, базовая Llama без инструктивной настройки) обучались просто предсказывать следующий токен в любом тексте из интернета — статьи, книги, код, форумы. Они не знают, что такое «ролевой диалог». Если вы даёте им текст `"User: Привет\nChar: "`, они могут дописать `"Привет! Как дела?"`, но могут и начать цитировать закон, или продолжить как `"User: Пока"`, или просто сломать формат. Они имитируют *любые* паттерны, а не следуют логике диалога.

---

### 2. Устойчивость к «загрязнению» контекста

В Text Completion режиме SillyTavern склеивает всё в один огромный текстовый блок: описание персонажа, настройки, инструкции, историю сообщений, заметки автора. Для модели это просто текст. Она не отличает «системную инструкцию» от «последнего сообщения пользователя».

Это приводит к проблемам:
- Модель может случайно воспроизвести системный промпт в своём ответе (например, начать писать `[Character: Alice, Setting: forest...]`).
- Модель может игнорировать недавние сообщения, если они расположены не в конце блока (хотя обычно они в конце, но структура менее жёсткая).
- При длинных диалогах модель может запутаться, кто есть кто, особенно если были вставки действий `*улыбается*` или описаний.

В Chat Completion каждое сообщение имеет явный тег роли, и модель обучена не смешивать роли. Она знает: `system` — это правила игры, их нельзя нарушать; `user` — это вход от пользователя; `assistant` — это её собственные предыдущие ответы. Это снижает вероятность галлюцинаций и потери личности.

---

### 3. Более эффективное использование контекстного окна

Для Text Completion модели каждый токен контекста равен любому другому. Но ей приходится тратить «внимание» на различение формата. Например, если вы используете шаблон `"User: ...\nChar: ..."`, модель должна сама выучить эту структуру из нескольких примеров в контексте. Чем длиннее диалог, тем больше шансов, что модель начнёт генерировать лишние `"User:"` или забудет ставить перевод строки.

Chat Completion модели используют специальные токены (например, `<|im_start|>user\n...<|im_end|>` в Llama 3). Это маркеры, которые модель видит как отдельные «слова» в своём словаре. Они очень сильные сигналы. Модель точно знает, где начинается и кончается сообщение пользователя, даже если внутри сообщения есть символы, похожие на разметку. Это экономит «мыслительные усилия» модели и позволяет ей фокусироваться на содержании, а не на разборе формата.

---

### 4. Поддержка системного промпта как первого класса

В Chat Completion у вас есть выделенное место — `system` сообщение (или несколько). Модель обучена тому, что содержимое `system` имеет высший приоритет и действует на протяжении всего диалога. Вы можете менять персонажа, добавлять правила, указания по стилю — и модель будет следовать им гораздо надёжнее, чем если бы вы вставили тот же текст в начало текстового контекста в Text Completion.

В Text Completion вы можете написать `### Instruction: ...` в начале, но модель не имеет встроенного понятия «это инструкция, её нельзя нарушать». Она может воспринять её как просто ещё один абзац текста, который можно игнорировать или переписать.

---

### 5. Итог: работает ли Chat Completion реально лучше для RP?

Да, в подавляющем большинстве случаев. Причины:
- Меньше проблем с форматированием (модель реже ломает структуру диалога).
- Лучшее удержание характера персонажа (благодаря чёткому разделению ролей).
- Более стабильное следование системным инструкциям.
- Меньше «утечек» служебного текста в ответы.
- Часто выше когерентность при длинных диалогах, так как модель не отвлекается на парсинг своего же предыдущего вывода.

Когда Text Completion может быть лучше?
- Если у вас старая или очень маленькая модель, которая не обучена на chat completion (например, GPT-2, древние варианты Llama 1). Но сейчас такие редко используют для RP.
- Если вы хотите абсолютного контроля над форматом и готовы писать свои сложные шаблоны (например, для нестандартных форматов типа `"Alice > Привет"` вместо `"User: "`).
- Если модель странно себя ведёт в chat completion из-за багов в её токенизаторе или несоответствия шаблону (бывает с экзотическими локальными моделями).

Но для обычного пользователя, который берёт современную модель (GPT-4, Claude, Llama 3, Mistral, Gemma, Qwen и т.д.) и хочет качественную ролевую игру, Chat Completion — это объективно лучший выбор. Он не просто «удобнее для человека», он **соответствует тому, как модель учили работать с диалогами**.

Аноним 29/03/26 Вск 16:20:30 № 1566171 447

Скорей бы турбо...

Аноним 29/03/26 Вск 16:21:56 № 1566173 448

>>1566166
>релаьные плюсы чата между текстом?
Не надо ебаться с шаблонами обычно + мультимодалка(картинки) работает.

>работает лучше
В теории если у тебя в тексте на 100% шаблон верный - то работать он будет идентично чату.

Аноним 29/03/26 Вск 16:33:05 № 1566177 449

>>1566170
Да по сути разница в текст комплишен только в том что вместо жижи в бекенде используется свой рендеринг запросов. Ну а в самой жиже мб зашит ассист промпт из за которого будет ломаться ролеплей и протекать ассист. Ну и текст комплишен дает возможность заменить роль вместо ассиста, но теоретически это могло бы работать и в чат комплишене если почистить шаблон, не знаю почему таверна не дает менять роли

Аноним 29/03/26 Вск 16:34:13 № 1566178 450

>>1566142
{%- for message in loop_messages -%}
Эту заметку тоже можно удалить? Или пусть остается? Ничем мешать не будет?

Аноним 29/03/26 Вск 16:34:20 № 1566179 451

>>1566132
>>1566170
Вы не на то ругаетесь. Это не jinja виновата, и не chat completion. Это у таверны и ее автора, как всегда, свое особое виденье. Она тупо не до конца корректно запрос по CC собирает. Это и с Qwen 3.5 происходит - точно такая же ошибка.
В других клиентах, все прекрасно с этими моделями работает без правки шаблонов. (Openclaw, opencode, kobold-lite, LangGraph RisuAI и еще куча всего, что может по OpenAI API работать.)

Аноним 29/03/26 Вск 16:36:24 № 1566181 452

>>1566179
Вот это кстати верно. Не раз замечал, что даже кобольд легчайше подхватывает жижу, а вот таверна упирает руки в бока и капризничает.

Аноним 29/03/26 Вск 16:38:09 № 1566184 453

>>1566179
И что делать? Оставаться на тексте или страдать но иметь фичи чата?

Аноним 29/03/26 Вск 16:59:25 № 1566194 454

>>1566142
Работает только если я разовариваю с чаром. Но не работает групповой чат между чарами. Просто пустые ответы.

Аноним 29/03/26 Вск 17:02:14 № 1566198 455

>>1566184
Смотря что ты хочешь. Если страдать то страдай, а если нет то сиди на тексте.

Аноним 29/03/26 Вск 17:02:59 № 1566199 456

image 21Кб, 787x196

>>1566194
Либо такой вот пиздец. Короче не может кастом гемма3 в чат почему-то. Только в текст.

Аноним 29/03/26 Вск 17:03:40 № 1566200 457

>>1566198
Хочу чтобы вот так >>1566170

Аноним 29/03/26 Вск 17:04:39 № 1566202 458

>>1566200
Гемма3 не современная Chat Completion модель?

Аноним 29/03/26 Вск 17:06:57 № 1566206 459

>>1566194
Что в Prompt Post-Processing в коннекшене?

Аноним 29/03/26 Вск 17:07:14 № 1566208 460

>>1566132
В пикрел выбери правильный режим и проблем не будет.
>>1566170
Слоп уходи
>>1566184
Для чего тебе вообще чаткомплишн? Если причина только в том что ниасилил настройку тексткомплишна - плохая идея, реализация йобистого рп с чаткомплишном только сложнее. Он нужен для картинок и функциональных вызовов и с этим можно действительно организовать очень крутые вещи. Но для обычного чата это не имеет смысла.

Аноним 29/03/26 Вск 17:08:18 № 1566209 461

>>1566206
>>1566208
Объединять (без тулзов)

Аноним 29/03/26 Вск 17:10:32 № 1566214 462

>>1566209
Опа, поставил чередовать - и заработало!

Аноним 29/03/26 Вск 17:14:38 № 1566219 463

>>1565934
Как ты это сделал? Напиши инструкцию

Аноним 29/03/26 Вск 17:15:02 № 1566222 464

>>1566208
О, значит не в жиже проблема была, а в этих опциях!

Аноним 29/03/26 Вск 17:16:47 № 1566226 465

>>1566208
>Для чего тебе вообще чаткомплишн?
Ну выше слоп же сказал почему. Так лучше структура воспринимается ллм, больше упорядоченности, и проблем и хаоса из-за этого значительно меньше. Не?

Аноним 29/03/26 Вск 17:30:13 № 1566236 466

>>1566222
Не, с дефолтной жижей все равно ошибка.

Аноним 29/03/26 Вск 17:35:59 № 1566239 467

>>1566226
>В Text Completion режиме SillyTavern склеивает всё в один огромный текстовый блок:
Но чет в сыром промте я все равно не вижу разделений. Там все так же все свалено в кучу и нигде не прописано . Дикпик пиздит выходит? Нихуя чат комп не лучше в упорядочивании?

Аноним 29/03/26 Вск 17:38:07 № 1566241 468

>>1566222
Вот это скорее всего еще, или не ту опцию выбрал.
>>1566226
> Не?
Не. В текст комплишне ты можешь как полностью воспроизвести оригинальный формат (так часто и делают) без ограничений на порядок, роли, префиллы и прочее, так и точечно вносить отклонения чтобы достигнуть нужного поведения.
Хаос и нестабильность будет только если совсем ерунду укажешь, чат-комплишн в этом отношении более idiot-proof.
То есть в контексте рп представь шкалу:
простая последовательность ролей для совсем хлебушков (чаткомплишн) - широкий диапазон от оригинала без ограничений до полного перелопачивания для нужного результата (тексткомплишн) - мультиагентная йоба для крутого/заморочного рп с блекджеком и визуальным сопровождением (чаткомплишн). Технически и на тексткомплишне и на чаткомплишне можно добиться чего угодно, но именно для таких применений они оптимальны.

Аноним 29/03/26 Вск 17:40:14 № 1566243 469

>wait! the promt saying "show, not tell" so i need to...
Блять! В промте нет таких слов! Ты обезумел что ли?

Аноним 29/03/26 Вск 17:41:13 № 1566245 470

>>1566243
Карточку чекай и всякие авторские заметки, персоналити и другие места. А если это васянотюн - выкинь его.

Аноним 29/03/26 Вск 17:47:32 № 1566250 471

>>1566241
>Вот это скорее всего еще, или не ту опцию выбрал.
Не помогло.

>То есть в контексте рп представь шкалу:
Ясн. Значит с пикчами и звуком ток в чат?

Аноним 29/03/26 Вск 17:48:49 № 1566251 472

>>1566250
Нет.

Аноним 29/03/26 Вск 17:56:21 № 1566255 473

>>1566250
> Значит с пикчами и звуком ток в чат?
Если задаешь такие вопросы то да. Альтренативой будет залезть поглубже, но нужно быть пердолей и уметь в код. А что за пикчи и звук, что с ними делать хочешь?

Аноним 29/03/26 Вск 18:00:48 № 1566258 474

>>1566255
Ну например отсылать всякие фотки чару (дик пики хыыы), типа как чат ирл, либо какие то пейзажи для точной передачи описания местности и т.д. Так то можно много чего придумать. С другой стороны это можно и в лмстудио делать а потом отсылать текст чего там увидела ллм в чат таверны.

Аноним 29/03/26 Вск 18:01:30 № 1566260 475

>>1566241
>простая последовательность ролей для совсем хлебушков (чаткомплишн) - широкий диапазон от оригинала без ограничений до полного перелопачивания для нужного результата (тексткомплишн) - мультиагентная йоба для крутого/заморочного рп с блекджеком и визуальным сопровождением (чаткомплишн)
Ну вот как раз хлебушек об чат и разъебётся, ящитаю. Нет там никакой защиты от дурака, скорее наоборот, дурак там ничего не поймёт и нахуевертит поебени по незнанке.

Аноним 29/03/26 Вск 18:08:47 № 1566267 476

У меня иногда текст в выдаче перестаёт выглядеть нормально и становится типа:

>Он обосрался в штаны и теперь стоит воняет.
>[Персонаж_Нейм](взволнованно, но спокойно): "Блять!"
>Он пытается найти бумагу, но это лес, тут нет бумаги.

Это что вообще такое? Какой-то баг разметки исходящий из самой модели? Или из карточки? В одних чатах это есть, в других нет.

Аноним 29/03/26 Вск 18:28:53 № 1566279 477

>>1566267
Чел, у тебя конкретно насрано где-то в настройках, но ты готов пойти на всё что угодно лишь бы ими не делиться. Тебя уже столько раз просили прислать что у тебя там, а ты как уж извиваешься. Не жди помощи, никто тут по соломинке твою проблему решать не будет

Аноним 29/03/26 Вск 18:53:54 № 1566284 478

>>1566279
>Тебя уже столько раз просили прислать что у тебя там
Ты меня с кем-то путаешь, очевидно.

Странно то, что текста именно мало, он пишется крайне сухо. А потом хуяк и снова простыня на 300 токенов, как будто модель сбоит в моменте. Может такая реакция на мои инпуты? Какая-то тупая хуйня, надо подумать. Жинжа подхвачена, промт адекватный, чарик на 1000 токенов, особых правил разметки у него нет, кроме стандартного ду нот реплай ас {{юзер}}.

Аноним 29/03/26 Вск 19:00:12 № 1566285 479

Похоже Deepseek обновил свою модель. Сейчас сгенерированные SVG значительно лучше, чем было раньше. И ещё он стал медленнее генерить.

Аноним 29/03/26 Вск 19:14:43 № 1566288 480

>>1566284
Ну вот и ебись сам

Аноним 29/03/26 Вск 19:57:10 № 1566327 481

>она взяла на руки снеговика и понесла в дом
>снеговика
Какого блять снеговика, чё за хуйня блять?
>dog's name is Snowball
Ёбаный стыд нахуй...

Аноним 29/03/26 Вск 20:06:44 № 1566334 482

>>1566327
Переводчик что ли? Откуда нейронке на переводе знать про всех собак?

Аноним 29/03/26 Вск 20:12:26 № 1566339 483

>>1566334
Ну снежок же, ёбанарот. Причём тут снеговик-то?

Аноним 29/03/26 Вск 20:15:22 № 1566342 484

>>1566327
ты контекст случайно не квантовал? на Q4 как раз подобные вещи и могут проявиться

Аноним 29/03/26 Вск 20:34:21 № 1566353 485

>>1566342
Q5, рекомендед.
Меня эти умницы одновременно удивляют и фрустрируют. Удивляют тем, как живо могут отвечать, оставаясь в роли, и даже делать внезапные вотэтоповоры в рамках истории. И фрустрируют тем, что могут наглухо переебать всю сцену рандомным кринжем, которого вообще не ждёшь.

Аноним 29/03/26 Вск 20:39:50 № 1566358 486

>>1566353
>рекомендед.
Кем? Надо q6, а лучше q8

Аноним 29/03/26 Вск 20:54:40 № 1566371 487

>>1566358
Автором модели? Серьёзно, разницы между пятым квантом и шестым почти нет.

Аноним 29/03/26 Вск 20:56:08 № 1566373 488

>>1566371
>Серьёзно, разницы между пятым квантом и шестым почти нет.
А между 4м и 3м?

>разницы между пятым квантом и шестым почти нет
Снеговик с тобой не согласен!

Аноним 29/03/26 Вск 20:56:43 № 1566374 489

>>1566373
>5м и 4м?

Аноним 29/03/26 Вск 21:02:10 № 1566378 490

>>1566373
>А между 4м и 3м?
Всё до 4 кванта считается слопогенератором. На 4, емнип, потеря около 25%. На пятом 15%. Куда ещё умнее?
>Снеговик с тобой не согласен!
Да пидор он! Ещё растает дома, дурака кусок!

>оса по имени Стинг
А, то есть теперь мы имена вообще не переводим. Умно, умно. Ну тогда давай и Снеговика обратно в Сноубола переделаем, хули.

Аноним 29/03/26 Вск 21:04:35 № 1566380 491

Вежливое напоминание что ниже Q6 жизни нет.

Аноним 29/03/26 Вск 21:06:10 № 1566382 492

>>1566380
>культура миноров
Что эти модели себе позволяют?!

Аноним 29/03/26 Вск 21:09:01 № 1566383 493

>>1566382
Всего лишь 76 процентов. Это что теперь, bf16 качать, чтобы получить 100 миноров из 100?

Аноним 29/03/26 Вск 21:12:19 № 1566388 494

>>1566383
Разве это не повод собрать хорошее железо?

Аноним 29/03/26 Вск 21:16:25 № 1566391 495

>>1566388
Так мне нравится глм на 358B. Это не просто хорошее, это охуеть какое хорошее железо. Не чета моему хламу с одной 5090 и 96ГБ врам.

Аноним 29/03/26 Вск 21:16:59 № 1566392 496

>>1566391
>96ГБ врам
Рам офк, опечатался.

Аноним 29/03/26 Вск 21:25:58 № 1566396 497

>>1566391
У меня железо попроще твоего, но всё равно нейронки меня амьюзят very much. Уже столько времени их ковыряю и всё никак не наиграюсь. Однажды я соберу себе гигариг, но это не точно. А к тому времени уже будет куча коммерческих решений для нормисов, которые не потребуют ни топовых железок, ни ебли с семплерами. Всё будет просто и понятно, в два клика.

Аноним 29/03/26 Вск 21:31:13 № 1566399 498

>>1566391
Мне тоже он нравится, пришлось поднапрячься.

Аноним 29/03/26 Вск 21:41:09 № 1566411 499

>>1566353
kv кеш ниже Q8 лучше не квантовать, особенно v, иначе и получится снеговик вместо снежка. что ты и наблюдаешь.

вот когда зарелизят турбоквант в жору, тогда можно и квантовать на 3-4 бита.

Аноним 29/03/26 Вск 21:44:35 № 1566413 500

>>1566380
жаль что Q6 в 16 гигов не засунуть. но, есть некоторые движения тазом на тему турбоквантования весов, будет охуенно если сработает.

Аноним 29/03/26 Вск 21:46:28 № 1566414 501

>>1566413
сообственно вот
https://www.reddit.com/r/LocalLLaMA/comments/1s51b5h/turboquant_for_weights_nearoptimal_4bit_llm/

Аноним 29/03/26 Вск 21:55:16 № 1566423 502

image.png 12Кб, 182x33

image.png 20Кб, 507x28

image.png 17Кб, 964x64

Обожаю GLM-4.7-Flash. Всем кисгендерным перемоги в этом треде.

Аноним 29/03/26 Вск 21:57:40 № 1566425 503

>>1566423
Бредогенератор какой то

Аноним 29/03/26 Вск 22:06:44 № 1566432 504

>>1566396
>но всё равно нейронки меня амьюзят very much
Есть такое. Но итт такое не говори, тут сидят УЖЕ ВСЁ ВИДАВШИЕ пердуны которых уже ничего не радует. Как в любой тематике сейчас, впрочем. Скуфение первый-курс-уже-не-школьников из 2000х и его последствия оказали катастрофический эффект на двачерскую расу

>>1566423
4 возможно звучало нормальней на англише, пока не произошёл надмозг

Аноним 29/03/26 Вск 22:07:10 № 1566434 505

image.png 46Кб, 846x63

>>1566425

ПЕРЕКАТ Аноним # OP 29/03/26 Вск 22:19:46 № 1566449 506

Не понятно, вроде новых моделей нет, но катимся быстрее. Что происходит?
ПЕРЕКАТ

>>1566447 (OP)

ПЕРЕКАТ

>>1566447 (OP)

ПЕРЕКАТ

>>1566447 (OP)

Аноним 29/03/26 Вск 22:20:04 № 1566451 507

>>1566432
> тут сидят УЖЕ ВСЁ ВИДАВШИЕ
Когда есть изобилие и приличный уровень - ротации достаточно чтобы регулярно радовало. Это кто совсем дофаминовые рецепторы пожег и пытается заменить этим все, увеличивая дозу.
>>1566434
Ого, полезный навык!

Аноним 29/03/26 Вск 22:24:11 № 1566454 508

Внезапно увидел что из таверны старые чаты не удалились, хотя в интерфейсе не отображаются, но можно загрузить во временный.

Потыкал, покринжевал, а потом внезапно подумалось что лучше-то не стало за больше чем год. Новые модели тоже самое или хуже пишут, все что тыкал из новья... на скрине abliterated-dpo гемма, если я правильно помню.

Аноним 29/03/26 Вск 22:54:46 № 1566486 509

>>1566423
>>1566434
>дерьмо вылетает
>в рот мне ногисрать мне в душ
Никакой лишний лорбук не подключил? Чё за каловая модель

Аноним 29/03/26 Вск 22:59:36 № 1566490 510

>>1566380

За такие маняграфики без обьяснения размерностей по осям нам в институте палкой по руке пиздили перечеркивали ручкой всю страницу и заставляли заново делать

Аноним 30/03/26 Пнд 01:34:04 № 1566648 511

Поясните за турбокванты. Могу ли я надеяться, что благодаря им я теперь с 12 гб врам и 32 рам смогу 27б модели хотя бы на 8-10 т/с запускать?
Устал от 2 т/с.

Аноним 30/03/26 Пнд 10:12:22 № 1566867 512

>>1566648
Плотные нет, МОЕ - может быть.

Аноним 30/03/26 Пнд 10:15:36 № 1566871 513

>>1566648
>>1566867
А, ты про турбокванты спрашиваешь. Ну засунь модельку с меньшим контекстов раза в 4-6 и проверь, какая скорость сейчас. Вот такая будет с ТК на твоем обычном размере контекста.

Аноним # OP 03/04/26 Птн 06:23:42 № 1571828 514

>>1564094 (OP)
Пруф легитимности
>>1571826 (OP)