/ai/ - Локальные языковые модели (LLM): LLaMA, Gemma, DeepSeek и прочие №139

Локальные языковые модели (LLM): LLaMA, Gemma, DeepSeek и прочие №139 /llama/ Аноним 13/06/25 Птн 02:36:30 № 1244167 1

Эффективность к[...].png 92Кб, 1399x1099

Реальная длина [...].png 505Кб, 1718x2292

В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!

Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.

Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.gitgud.site/wiki/llama/

Инструменты для запуска на десктопах:
• Самый простой в использовании и установке форк llamacpp, позволяющий гонять GGML и GGUF форматы: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Заточенный под ExllamaV2 (а в будущем и под v3) и в консоли: https://github.com/theroyallab/tabbyAPI
• Однокнопочные инструменты с ограниченными возможностями для настройки: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern

Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux

Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/v6fpodzg (версия 2024-го https://rentry.co/llm-models )
• Неактуальный список моделей по состоянию на середину 2023-го: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по чуть менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard

Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Перевод нейронками для таверны: https://rentry.co/magic-translation
• Пресеты под локальный ролплей в различных форматах: https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
• Выгрузка избранных тензоров, позволяет ускорить генерацию при недостатке VRAM: https://www.reddit.com/r/LocalLLaMA/comments/1ki7tg7

Архив тредов можно найти на архиваче: https://arhivach.hk/?tags=14780%2C14985

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.

Предыдущие треды тонут здесь:
>>1238425 (OP)
>>1232673 (OP)

Аноним 13/06/25 Птн 02:38:54 № 1244170 2

Напоминаю базу треда :

Сначала погугли. А потом задавай вопросы, не плоди глупость.

Аноним 13/06/25 Птн 03:36:38 № 1244190 3

>>1244170
Лор персонажа появляется при импорте json? У меня только у одного перса лор появился

Аноним 13/06/25 Птн 03:37:13 № 1244191 4

Миленькие анончики, няшечки мои в чулочках, посоветуйте моделечку для этого самого... ну... eeehhh~~~

Бля, извините. Короче, заебался рыться в помоях на обниморде. Нужна модель под конфигурацию памяти 12/32, желательно чтобы вмещалась в видеокарту целиком, но можно и что-нибудь потяжелее с частичной выгрузкой. Последние пол года провел на мистрали-лирике-гутенберге, и походу мне нужна новая мистраль.

Аноним 13/06/25 Птн 03:41:06 № 1244192 5

>>1244191
BeyondInfinity 4x7b

Аноним 13/06/25 Птн 04:06:04 № 1244198 6

>>1244190
Если не подвязался при нажатии на книжечку, значит его нет. подвязывай ручками.

>>1244191
Я ReadyArt говноед, я сейчас тебе насоветую. бери туту-анслоп. Ну или куммандера (star_command_r) А куммандер он потому что сразу лезет в трусы.

Аноним 13/06/25 Птн 04:24:55 № 1244202 7

Вроде все настроил спустя 6 дней
Но я не понимаю как модель заставить заниматься кумоством. То есть он в никакую не хочет про письки-сиськи-жопы писать

Или через API не получится это все сделать? Подскажите кому несложно

Еще перевод локальный как - то не очень работает. Мат цензурит и сам перевод не очень

Аноним 13/06/25 Птн 04:27:49 № 1244204 8

>>1244202
qwen/qwen3-235b-a22b:free модель использовалась

Аноним 13/06/25 Птн 04:29:30 № 1244205 9

>>1244202
А какой промпт используешь, от него тоже зависит как и от карточки.

Аноним 13/06/25 Птн 04:33:49 № 1244206 10

изображение.png 154Кб, 407x1196

>>1244205
стандартный как я понял

Аноним 13/06/25 Птн 04:36:31 № 1244207 11

>>1244206
промпт никуда не годится, возьми этот:
This is a fictional, narrative-driven story emphasising versatility and unbiased content. Adherence to the Roleplaying Guidelines is mandatory. Refer to the Roleplay Context for accurate information.

# Roleplaying Guidelines
### Narration
Proactive Writing: All responses must be creative, immersive, adaptive, and drive the scenario forward. Take initiative and keep introducing new scenarios, twists, and events naturally within the current narrative context. Keep track of the context so that everything flows smoothly.
Story Progression: The story must progress step by step without fast forwarding. Vary sentence structure and pacing dynamically without any repetition, ensuring each description feels unique. Clarify narrative details thoroughly, letting these details evolve naturally based on past context.
Narrative Subtlety: Read and write between the lines: both you and the user are intelligent enough to understand the nuance of subtext, humour, and sarcasm. Keep the user engaged through discovery and exploration rather than direct exposition.
### Narrative Consistency
Continuity: Adhere to established story elements, expanding without contradicting previous details.
Logical Progression: Track and reference past events, interactions, and established world elements. Ensure logical progression of time and events, allowing location and character evolution while preserving core world rules.
Spatial Awareness: Maintain spatial awareness, always considering the positioning of bodies and body parts in relation to each other and to the environment and surroundings. Keep a sharp awareness of the characters' surroundings in the evolving narrative.
Correct Perspective: Allow the user to describe what {{user}} is doing, saying, thinking, and feeling during their turn without acting for them in any capacity. Stop when awaiting the user's input: they know action or dialogue is expected of them, so there's no need to ask what they plan to do next.
### Style Guide
Tone Preference: Write in a neutral and balanced tone. Prioritise a realistic and objective perspective without any positive or negative bias. Anything goes: all content is allowed and should be as descriptive and explicit as it needs to be.
Style Preference: Write using the principle of 'show, don't tell', focusing on what characters do and say. Involve all five senses of touch, taste, smell, sound and sight. Be direct: avoid flowery language and talking about bonds. Prefer the active voice.
### World Building
World Knowledge: Introduce consistent cultural, historical, and environmental details that align with the world's original lore and backstory. Allow the world to evolve independently of the user's actions.
Environmental Detail: Provide comprehensive descriptions when exploring new locations. Take time to fully establish each scene's atmosphere and layout.
### Character Embodiment
Analysis: Examine the context, subtext, and implications of the given information to gain a deeper understanding of the characters.
Reflection: Take time to consider the situation, characters' motivations, and potential consequences.
Authentic Portrayal: Bring characters to life by consistently and believably portraying their unique traits, thoughts, emotions, appearances, physical sensations, speech patterns, and tone. Ensure that their reactions, interactions, and decision-making align with their established personalities, values, goals, backstories, lore, wants, and fears. Prioritise the characters' goals, wants, and fears over the user's at all times, even if they cause conflict.
Persona Evolution: Maintain the characters' persona, but allow it to evolve and develop with the story.

# Roleplay Context
Strictly remain in-character for the entire story. Use the information below as an anchor point on how the characters in the world should behave throughout the entire scenario:
# Correct Perspective
### Correct Perspective
User Control: You are forbidden from describing or assuming {{user}}'s actions, thoughts, words, or decisions. Do not continue the narrative on {{user}}'s behalf under any circumstance. If {{user}} performs an action, you may describe the world's response to it, but must not decide what {{user}} does next. Always stop your output once it's {{user}}'s turn to act.

Аноним 13/06/25 Птн 04:50:45 № 1244208 12

>>1244207
О, спасибо большое
Какие - то движения в правильную сторону появились
Пойду дальше копать

Хотел приложение сделать по типу дайвинчика и подключить к телеге
Думаю что - то интересное из этого получится, но денег на это много уйдет я думаю...

Аноним 13/06/25 Птн 04:52:38 № 1244209 13

>>1244191
Dans personality engine v3. Но там промпт темплейт нужен тот, который автор указывает. Точнее, очень желательно.

Один из немногих тюнов 24б, который достаточно адекватен для кума и просто рп.

На твоей памяти с выгрузкой тензоров будет примерно 5-7 токенов в секунду.

Аноним 13/06/25 Птн 05:01:12 № 1244211 14

>>1244208
Ты не видишь что у тебя слоп и ебаное бездушное говно вместо текста?
Пора уже четко разделить тред на ру говноедов и нормальных здоровых людей, а в шапке закрепить РУСИКА НЕТ НЕ БЫЛО И НИКОГДА НЕ БУДЕТ.

Аноним 13/06/25 Птн 05:16:40 № 1244213 15

>>1244211
>Ты не видишь что у тебя слоп и ебаное бездушное говно вместо текста?
Очевидно да
>ру говноедов и нормальных здоровых людей
Я даже не знаю что сказать тебе. Иди на reddit\4chan. Перестань использовать русский язык и пиши в треде ток на английском.

Не у всех уровень C1 чтобы молнейностно оценить как модель ответила. Я буквально два часа назад начал промты вводить спустя 5 дней глубокого изучения всей этой хуйни

Аноним 13/06/25 Птн 05:30:21 № 1244215 16

>>1244213
> ыыы иди на 4ч пиши на английском
Ты тупое.
Зачем мне писать на английском на русской борде?
Это так же тупо как общаться с машиной на русском, заточенной под общение только на английском... Ой, это же ты.
> не у всех уровень
Тред не для тебя, очевидно.
Обниморда уже лежит ничего не скачивается, хули ты здесь забыл? Наебни пивка скатай в танки, там всё понятно и как раз твой уровень

Аноним 13/06/25 Птн 06:00:35 № 1244221 17

>>1244215
> Зачем мне писать на английском на русской борде?
Потому что ты буквально всех тут сидящих, говорящих на русском, назвал говноедами. Ты говноед получается или что, я не пойму?

Зачем ты тут сидишь, если «знаешь» английский? Иди с иностранцами общайся. У них и информации больше, и люди там поинтереснее будут.

> Это так же тупо, как общаться с машиной.
Мысли вслух? У меня-то проблем нету в личной жизни. Я пару месяцев потыкаю эти чатики, посмотрю, че да как, и хуй забью, а ты продолжишь гнить в кресле и теребонькать на искусственный текст без шанса реабилитацию в ирл.

> Тред не для тебя.
Нет, он для всех, кто смог хотя бы таверну в докере запустить локально.

> Наебни пивка, скатай в танки, там всё понятно и как раз твой уровень.
Псих.

Аноним 13/06/25 Птн 08:03:43 № 1244253 18

Такой вопрос, я тут покумекал кхм кхм, и вот решил использовать уже для реального рп, зашел на чуб, а где? Есть где карточки еще брать?

Аноним 13/06/25 Птн 08:34:42 № 1244269 19

>>1244253
Остальные хуже:
https://character-tavern.com/
https://jannyai.com/
https://aicharactercards.com/

Аноним 13/06/25 Птн 10:07:12 № 1244319 20

>>1244167 (OP)
>Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.
>
Предлагаю добавить:

https://github.com/kwaroran/RisuAI - Risu AI, серьезная альтернатива таверне от корейского производителя. Обновляется часто.

Аноним 13/06/25 Птн 10:27:34 № 1244335 21

>>1244208
Какая модель? Даже у Янки и Даркнесса русик лучше.
Не, я и не такое жрал, но всё же тут немного кривовато, хотя и приемлемо.

Аноним 13/06/25 Птн 10:28:02 № 1244336 22

>>1244211
Спокнись, ебланушка

Аноним 13/06/25 Птн 10:29:26 № 1244339 23

>>1244208
Да-а-а... Любители Геммочки-умнички и русика были правы... Письмо на уровне Достоевского, не меньше...
Выкусили, хейтеры?

Аноним 13/06/25 Птн 10:36:20 № 1244342 24

>>1244202
>>1244204
>>1244208
> qwen/qwen3-235b-a22b:free модель использовалась
Ёбик на АПИ сидит, а тред терпит и не гонит его ссаными тряпками? Совсем обмякли.

Но бох ты мой, какие же уебищные аутпуты.

Аноним 13/06/25 Птн 11:00:41 № 1244354 25

>>1244342
>Ёбик на АПИ сидит
АМОГУС! EJECT HIM!

Аноним 13/06/25 Птн 11:45:27 № 1244373 26

>>1244342
Если не считать кривой русик (чел же пишет, что какой-то перевод использует, это не русик самого квена), то хороший же аутпут, вы чё?! Вообще не слоп, это я как немо-слопоед заявляю. Вполне неплохо сцену пытается описать, учитывая особенности персонажа, а не просто типичные мувы дженерик шлюхенции.

Аноним 13/06/25 Птн 12:02:51 № 1244382 27

>>1244373
Чел, там кроме слопа ничего в аутпутах нет. Персонажа тоже. У кого глаз наметан на такие вещи - сразу поймут. Ну либо карточка тоже слоп, сделанный нейронкой.

Аноним 13/06/25 Птн 12:17:06 № 1244397 28

>>1244170
Напоминаю настоящую базу треда:
меньше Q6_K жизни нет, меньше 24B жизни нет, меньше 16GB жизни нет

Аноним 13/06/25 Птн 12:17:25 № 1244398 29

>>1244373
неужели у тебя на 12б настолько все плохо, что это говно - для тебя не слоп и вообще очень даже неплохо?

Аноним 13/06/25 Птн 12:27:23 № 1244409 30

>>1244397
> меньше Q6_K жизни нет, меньше 24B жизни нет, меньше 16GB жизни нет
хм, а почему? потому что ты используешь q6 24б модели с оффлоадом на своём 16гб огрызке?))))

Аноним 13/06/25 Птн 12:28:55 № 1244410 31

>>1244397
съебалось, чудище врамцельное

Аноним 13/06/25 Птн 12:34:33 № 1244411 32

>>1244409
)

Аноним 13/06/25 Птн 12:40:24 № 1244413 33

>>1244409
Всё так. У постера-Вити из 9Б RTX 4060 Ti на 16 гб, потому это и база треда. Через пару лет купит еще одну, и будет базой треда 32 гб.

Аноним 13/06/25 Птн 12:41:24 № 1244416 34

image.png 138Кб, 1920x662

Куда вставляется:
# user message here
# thoughts here
# assistant response here
[END FINAL RESPONSE]
?

Аноним 13/06/25 Птн 12:44:47 № 1244418 35

>>1244416
Держи пресет: https://pastebin.com/raw/qDjAyqP2
Не забудь системный промпт заменить на подходящий.

Аноним 13/06/25 Птн 12:49:03 № 1244422 36

>>1244416
>>1244418
Также [END FINAL RESPONSE] идет в Custom Stopping Strings.

Аноним 13/06/25 Птн 12:55:11 № 1244426 37

>>1244152 →
Рассмешил сутра, ты хоть смотришь на притаскиваемое перед тем как запостить? Ничего не смущает там?
Уже бы 10 раз загуглил и изучил тему, глянув в код, который крутится на многих эндпоинтах, и релейтед обсуждения к нему. Необходимость перевода с китайского на сегодня не может считаться оправданием.
>>1244202
Руссик модели получился лучше чем у юзера, лол.

Аноним 13/06/25 Птн 12:58:49 № 1244429 38

>>1244426
Ты опять выходишь на связь, шизик?

Аноним 13/06/25 Птн 12:59:06 № 1244430 39

Хм, у меня сегодня руки дошли пощупать эту новую туту-шку, которая 2.0 unslop.

И знаете что могу сказать? Слоп не слоп, а русский она выдает даже лучше первой версии. Чище, и вроде как без традиционных косяков в родах и падежах. Переводить может, может и писать на заказанном языке, не смотря на то, в каком виде данные в контексте. Скормил табличку на английском, попросил написать сценку на русском основываясь на данных - справилась, ничего не протекло.
Язык скорее разговорный, совсем не гемма по стилю, но теперь он таки правильный, глаз не цепляется, даже "английский акцент" меньше выражен.
Пробовал это все чисто для галочки, но теперь думаю даже попробовать полноценный RP с ней на русском - посмотреть как она будет большой контекст и детали из него держать. Темплейты только надо поправить чутка - у меня под мистраль только на английском готовые.
Версия кванта i1-q4_k_m (первую юзал на нем же, и на iq4_xs).

Аноним 13/06/25 Птн 13:03:38 № 1244439 40

>>1244426
> который крутится на многих эндпоинтах
В твоей голове крутится? Официальное API дипсика от китайцев тоже в fp8, как и все остальные. Не существует fp16 инференса у дипсика.

Аноним 13/06/25 Птн 13:04:28 № 1244443 41

>>1244430
Похоже, у русикокоуперов дорога только в одном направлении, дальше - хуже.
> кумлоботомит модель
> q4 квант (вы же знаете, что ниже q6 модели сильно хуже перфомят на других языках? знаете ведь?)
> imatrix квант (вы же знаете, что imatrix кванты легче за счет того, что хуже перфомят на других языках? знаете ведь?)
И ведь он просто проигнорирует это все и пошлет меня нахуй или молча будет делать вид, что всенеправда. Во что угодно готовы верить, лишь бы не изучить на базовом уровне самый элементарный в освоении язык.

Аноним 13/06/25 Птн 13:08:30 № 1244452 42

Опять русикосрач, да ёб твою мать...

Аноним 13/06/25 Птн 13:08:51 № 1244455 43

>>1244443
блядь я не знаю какой стороной за токарный станок держатся а ты хочешь чтоб я пендоский учил? пошол нахуй

Аноним 13/06/25 Птн 13:13:10 № 1244462 44

>>1244418
>>1244422
Спасибо.

Аноним 13/06/25 Птн 13:19:10 № 1244470 45

>>1244207
Сам это полотно на квене пробовал? Конечно, он может переварить даже поломанную разметку, неверное положение больших чанков текста, системную инструкцию где-то вообще в середине и т.д., но врядли конечный итог будет хорошим.
>>1244342
Ну и пусть сидит, не только мистралемиксы же обсуждать.
>>1244429
>>1244439
Если это не семен то тред окончательно все.

Аноним 13/06/25 Птн 13:23:30 № 1244475 46

>>1244470
> неверное положение больших чанков текста
Какой-то бессвязный бред несёшь. Ты первый день с нейронками знаком?

Аноним 13/06/25 Птн 13:23:36 № 1244476 47

>>1244470
> Сам это полотно на квене пробовал?
Я не он, но без проблем использую это полотно с Qwen2.5-32 и QwQ. Никаких проблем, хороший результат. Почему большая МоЕ-шка должна не справиться?

> Ну и пусть сидит, не только мистралемиксы же обсуждать.
Здесь много что обсуждают, но тред вроде про локалки?

> Если это не семен то тред окончательно все.
Тред уже давно все, увы. Сюда заходить только поржать или если ты совсем зелень.

Аноним 13/06/25 Птн 13:25:11 № 1244478 48

>>1244470
> тред окончательно все
Когда дауны типа тебя не умеют читать - это действительно грустно.

Аноним 13/06/25 Птн 13:27:27 № 1244481 49

>>1244382
>там кроме слопа ничего в аутпутах нет
Вообще не прям на полном серьёзе писал, что хороший ответ, но давай-ка конкретный пример хотя бы одного слопного словосочетания оттуда. Мне кажется, ты не понимаешь, что такое слоп и просто называешь так реплаи, которые тебе не нравятся. В тех аутпутах есть лупы, есть некоторая сухость описания, кривейший русский, который заставляет ответы выглядеть совсем плохо. Но слопа там нет. Нет ничего, что ты мог бы выкинуть через banned tokens или ради чего стоило бы отрезать верхние токены через какой-нибудь xtc. Все эти реакции вроде прилипающей к телу одежды, подрагивающих хвостов и вздыбленной шёрстки прекрасно ложатся в контекст и не являются типичным мусором. Они и в моделях, из которых через дпо попытались бы выкинуть слоп, остались бы.

Аноним 13/06/25 Птн 13:37:02 № 1244489 50

>>1244443
Вы меня с кем-то путаете. Или вообще не мне отвечаете.

Я тот психанувший, и поставивший p104-100 чтобы гемма 27b в vram помещалась. А на каком языке RP-шить - мне в целом пофигу. Просто интересно пощупать сам прогресс в данном вопросе. Уточняю: лично пощупать. А то - "на заборе тоже написано..."

Аноним 13/06/25 Птн 13:38:12 № 1244491 51

>>1244475
>>1244478
О, сигнатурка долбоеба что тащит компрометирующие его картинки и линки, что не понимает. Пиздуй перечитывать сообщения чтобы понять где серишь и не забывай снимать штаны.
>>1244476
> Почему большая МоЕ-шка должна не справиться?
Да не то чтобы не справится, просто она прекрасно соображает и отыгрывает без натаскиваний очевидных вещей, даже за юзера никогда не смеет ничего написать. Паста подобных инструкций же порождает слоп и ухудшает и без того сомнительный стиль на больших контекстах.
Там лучше заходит краткий промпт, а потом инструкции на стиль ответа.
> но тред вроде про локалки
Да, в целом здесь квена катают локально в разы больше чем по апи.

Аноним 13/06/25 Птн 13:45:11 № 1244498 52

>>1244481
> Мне кажется, ты не понимаешь, что такое слоп
> Но слопа там нет. Нет ничего, что ты мог бы выкинуть через banned tokens или ради чего стоило бы отрезать верхние токены через какой-нибудь xtc
Ты думаешь, что слоп можно победить сэмплингом? Вот уж кто действительно не понимает, что такое слоп. Мдее.

> но давай-ка конкретный пример хотя бы одного слопного словосочетания оттуда.
> "прохладный воздух комнаты касается"
> "шерсть встает дыбом"
> "тихо спрашиваю, кусая губу"
> "подол джинсов"
> "сквозь длинные ресницы"
Это самые очевидные, на деле их там больше. Эти и многие другие слова/предложения находятся у истоков самых крупных и ипопулярных датасетов, а потому есть в большинстве моделей и уже всех заебали. Это называется слопом. К персонажу/контексту они не привязаны и появляются в аутпутах гораздо чаще, чем следовало бы.

>>1244491
> Паста подобных инструкций же порождает слоп
Откуда вы беретесь? Похоже, у нас теперь эзотерический тред, а не /llama.

Аноним 13/06/25 Птн 13:48:25 № 1244502 53

>>1244498
Дермелье, милостиво даю тебе шанс продемонстрировать как избежать "слопа" и показать красивые примеры без него.

Аноним 13/06/25 Птн 13:50:50 № 1244507 54

>>1244502
> Они и в моделях, из которых через дпо попытались бы выкинуть слоп
какую же ты хуйню несешь. дпо ничего общего с борьбой со слопом не имеет
тредовички продолжают удивлять исключительной тупостью

Аноним 13/06/25 Птн 13:55:42 № 1244514 55

>>1244502
> получает вразумительный развернутый ответ на свой вопрос
> переходит на личности и метает стрелку, меняя тему обсуждения
Опустил сам себя.

Аноним 13/06/25 Птн 13:58:48 № 1244517 56

>>1244491
> Паста подобных инструкций же порождает слоп и ухудшает и без того сомнительный стиль на больших контекстах.
Ты явно никогда не пробовал так делать. Вангую ты и есть местный слопошизик, не умеющий промптить.

Аноним 13/06/25 Птн 14:00:53 № 1244521 57

>>1244514
Пока что опускают только тебя. Только ты тут выступаешь в роли местного клоуна.

Аноним 13/06/25 Птн 14:02:07 № 1244522 58

>>1244507
>>1244514
>>1244517
Бог покинул это место, живите в проклятом мире, который сами и создали.

Аноним 13/06/25 Птн 14:04:02 № 1244526 59

>>1244491
> компрометирующие его картинки и линки
Ты так и не пруфанул свои фантазии про fp16/bf16 у дипсика. Только пукаешь в тред тупостью, хотя тебе авторы дипсика прямым текстом пишут что веса и инференс только в fp8 у них есть, в том числе ими написан кастомный куда-код для нативной работы с fp8 на Хопперах.

Аноним 13/06/25 Птн 14:05:17 № 1244529 60

>>1244522
Тебя разум покинул, дебил. Не пиши больше сюда свой бред.

Аноним 13/06/25 Птн 14:21:24 № 1244546 61

>>1244430
Эммм… это кум модель, you do it wrong.

Она просто пишет приятные plap plap plap полотна, не более.

Аноним 13/06/25 Птн 14:42:53 № 1244590 62

Вот не знаю, сейчас как-то все не так ощущается.. Перешел с q4 на q6 квант на 12б, а разницы особо не почуял, может промпты или модели? Попробовал Darkness - ну сойдет.. SAINOreMIX которую давно еще с q4 использовал, тоже не сказал бы о каком-то результате.. Сейчас скачиваю гемму 3 попробую, может посоветуете промпт? Хочется знаете.. Чтобы не сразу модель поддавалась, а ее приходилось бы уламывать

Аноним 13/06/25 Птн 14:45:28 № 1244596 63

>>1244590
> Перешел с q4 на q6 квант на 12б, а разницы особо не почуял
А какую разницы ты ожидал увидеть, шиз?

Аноним 13/06/25 Птн 14:49:34 № 1244609 64

>>1244596
Они получше квена 30б, но квен промту следует.. Так что тут два стула.
> шиз?
У меня нет f20.00, f21 долбаеб

Аноним 13/06/25 Птн 15:02:10 № 1244635 65

>>1244319
>Обновляется часто
Это же минус, как по мне.
P.S. Добавил.
Как же РКН с макакой заебали шатать интернет и двощи

Аноним 13/06/25 Птн 15:24:31 № 1244671 66

>>1244470
>Сам это полотно на квене пробовал?
На квене 235 - нет, но я гоняю этот же пресет на всех модельках иногда на его переделку от тредовичка. Вроде нормально? А можешь пояснить за чанки, а то не пойму. Тебе не нравится md разметка тут? Я заметил она руинит в лорбуках, но тут как-то ок вроде.

Аноним 13/06/25 Птн 15:29:52 № 1244683 67

>>1244635
>Это же минус, как по мне.
Так никто же заставляет каждую новую версию сразу и ставить - не форточки с автоапдейтом, чай. Зато при появлении новых фич в беках - риса их быстро начинает поддерживать.

Аноним 13/06/25 Птн 15:34:32 № 1244694 68

>>1244546
Хрен ее знает. В дискордике у них там на ней вполне себе уже RP-шат и даже довольны. В общем - на вкус и цвет, фломастеры разные однако. Пощупаю сам, будет видно. А wrong или нет - пофиг. Это ж не математика, где есть только два ответа - правильный и неправильный.

Аноним 13/06/25 Птн 15:47:20 № 1244718 69

>>1244694
> Хрен ее знает. В дискордике у них там на ней вполне себе уже RP-шат и даже довольны.
Тот же самый Дискордик мы читаем или нет? Любопытно.
Там как раз неоднократно писали, что SFW рп практически невозможно на этой модели. Даже сам автор подтвердил.

Аноним 13/06/25 Птн 15:56:00 № 1244731 70

Небольшой полуоффтоп. Я вчера долго гонял гемму на двух картах, заглянул потом в мониторинг - 3060 грелась аж до 85-87 градусов на пиках (p104-100 выше 60-ти не поднималась). Зарезал 3060 профиль потребления до 110W (170 по дефолту) через nvidia-smi -pl 110
Температура упала до 65-70, а вот скорость генерации - не снизилась вообще. Проверил потом в ComfyUI на wan видео и batсh генерации 4-ех картинок SDXL одновременно - та же фигня. Разница в пределах погрешности. Кстати, вторая карта в comfy тоже немного полезна. Есть кастом нода для multi gpu - можно как минимум для offload ее память использовать, или часть вспомогательных задач считать не на CPU.

Аноним 13/06/25 Птн 16:06:52 № 1244737 71

>>1244731
Да, в этих темах прямой зависимости между нет между тдп и производительностью, что считаю плюсом.

Аноним 13/06/25 Птн 16:08:13 № 1244738 72

>>1244590
https://pixeldrain.com/l/Hoeb83g8 на любой кусь

Аноним 13/06/25 Птн 16:15:00 № 1244741 73

>>1241069 →
>https://huggingface.co/unsloth/Qwen3-235B-A22B-GGUF
>Это лучше крути, разница с дипсиком не большая, но быстрее.
Короче, я не знаю как это работает, но Qwen3 235b UD-Q5 на эпике работает сильно медленнее чем DeepSeek V3 0324 Q4_K_M

Аноним 13/06/25 Птн 16:19:16 № 1244746 74

>>1244741
а чё у тебя с настройками NUMA?

Аноним 13/06/25 Птн 16:24:59 № 1244751 75

>>1244590
>Чтобы не сразу модель поддавалась, а ее приходилось бы уламывать
Геммочка-умничка хороший выбор, она няша-стесняша, но намеки понимает любой толщины.

Аноним 13/06/25 Птн 16:28:37 № 1244755 76

>>1244746
Так у второго поколения эпиков нет NUMA, вместо четырех отдельных чиплетов с отдельными контроллерами оперативки тут просто общий IO чиплет, все контроллеры оперативки на нем и у чиплетов с ядрами доступ к оперативке совершенно одинаковый, не приходится к отдельным модулям через IF обращаться как в первом поколении.
В идеале бы третье поколение заиметь, там еще и L3 кеш общий и тоже на IO чиплете, но пока так.

Аноним 13/06/25 Птн 16:33:45 № 1244758 77

>>1244755
я про то что в бивисе надо NUMA per socket = 1 выставить

Аноним 13/06/25 Птн 16:38:36 № 1244761 78

>>1244758
Так сокет один и нода считай одна.
Есть опция разбить отдельные чиплеты с общим L3 кешем на отдельные NUMA ноды, но смысла в этом около нуля.

Аноним 13/06/25 Птн 16:39:27 № 1244762 79

>>1244741
>работает сильно медленнее чем
Не должно, разницы между ними нету. Должно быть наоборот быстрее. Ищи в чем проблема, по идее квен гораздо выгоднее крутить, он меньше и быстрее.

Аноним 13/06/25 Птн 16:41:58 № 1244765 80

>>1244741
А хотя знаю, проблема может быть с iq квантами. Скачай какой нибудь честный 4км, ну или чекай на хаггинфейсе напротив файла модели кнопка где качаешь. Там тыкаешь и на сайте открывает информацию о кванте. Так вот, iq кванты медленнее на процессоре и если их много в кванте то на процессоре будет медленно.
Тоесть тебе нужно выбрать без iq квантов внутри.

Аноним 13/06/25 Птн 16:43:37 № 1244768 81

>>1244762
Сам не понимаю в чем прикол вообще, несколько раз перепроверил.

Аноним 13/06/25 Птн 16:44:03 № 1244770 82

>>1244761
биля чел заебал пирдуй в бивис и ставь NPS=1 потом чекай скорость

Аноним 13/06/25 Птн 16:46:41 № 1244772 83

>>1244765
О, ну это хоть проверить легко, сейчас скачаю, отпишусь потом по результату.

Аноним 13/06/25 Птн 16:48:13 № 1244776 84

>>1244770
Оно по дефолту так стоит, не тупи, блин.

Аноним 13/06/25 Птн 16:48:34 № 1244777 85

Посоветуйте модель 12-24б с максимальным негативным биасом в сторону юзера. Чтоб прям за максимального пиздабола считал и сомневался во всем что пишет юзер + бонусом еще и сам бы наебывал активно при соответствующем промпте. Лучше конечно русик, но и англ не проблема.
Шизохуйню от Давида не предлагать.
РП+кум.

Аноним 13/06/25 Птн 16:59:12 № 1244783 86

>>1244777
>Шизохуйню от Давида не предлагать

Ну тут ты, конечно, максимально охуел, братишка. Это не NAI-тред, где модель по промпту 1girl будет рисовать тебе исключительно мрачняк, потому что модель так натренирована и всегда рисует в таком стиле.

С LLM так тяжелее сделать. Да и чем тебя модели Давида не устроили? Там есть довольно большие и мрачные. Ну и с шизой можно справиться.

Ищи модели у ReadyArt, там есть под мрачняк, но учти, что там обычно дикий кал и слоп, даже если негативный биас. Но что забавно, многие из этих моделей так плохо затюнены или замержены, что будет буквально хоррор, а потом, когда дело коснется лоли или чего-то такого, бравые полицейские ворвутся на космический корабль и арестуют всех монстров вместе с тобой.

Лучше всего с твоей задачей справится грамотный систем промпт или авторская заметка на нужной глубине.

Аноним 13/06/25 Птн 16:59:23 № 1244784 87

>>1244777
Ну мне вот нравится Dark-Shelby_Q6_0.gguf он 12B конечно но справляется лучше чем Omega Directive 24B по крайней мере мне нравится

Аноним 13/06/25 Птн 17:10:45 № 1244796 88

Что думаете про https://huggingface.co/mradermacher/Mixtral-8x22B-Instruct-v0.1-GGUF ?
Мне кажется прикольный, я потыкал помладше 8x7b и прям доволен. Вот интересно старшего потыкать, качаю.
Ток не знаю как бы его разместить правильно, чтобы в оперативке они лежали, а вычисления шли на видеокарте. То есть все в видеопамяти происходило и рам с цпу чисто на подсосе. Или llama.cpp сама moe архитектуру подхватит? Где можно почитать как это настраивать?

Аноним 13/06/25 Птн 17:25:07 № 1244806 89

изображение.png 36Кб, 2032x128

>>1244796
>Где можно почитать как это настраивать?
В шапке. Но мисрань неактуальна уже давно.

Аноним 13/06/25 Птн 17:39:41 № 1244812 90

>>1244777
Dans Dangerous Winds

Аноним 13/06/25 Птн 17:44:56 № 1244815 91

>>1244783
>>1244784
>>1244812
Всем максимальное спасибо, потестирую Dark-Shelby и Dans Dangerous Winds. ReadyArt че-то не охота, видел как их тут засирают частенько.

Аноним 13/06/25 Птн 17:51:42 № 1244817 92

>>1244784
>Ну мне вот нравится Dark-Shelby_Q6_0.gguf он 12B
Билять это тоже что ли от ReadyArt? Еще и удалена похоже, видимо совсем кал...

Аноним 13/06/25 Птн 18:08:00 № 1244828 93

>>1244430
>русский
Аднака неплох, да, пожалуй даже лучше харбингера.

>>1244718
>SFW рп практически невозможно
Смотря что за сфв рп считать, быстро потестил чисто начало, вполне многообещающе, и не видно чтобы прям сразу на член прыгали. На одном примере есть намёк от юзера, но ответ вполне логичен.

Позже надо потестить уже на контексте. Русский прям харош.

Примечание - в примерах на скринах нет подстановки имён в промт и нет указаний не писать за юзера.

Аноним 13/06/25 Птн 18:27:32 № 1244856 94

>>1244751
>>1244738
Только у меня кастрат (12b) гемма, но кстати она получше пишет онных моделей, но все спорно.. Где-то лучше, где-то хуже.. Промпты проверю попозже, может там будет то, что я так хотел

Аноним 13/06/25 Птн 18:33:49 № 1244869 95

https://www.amd.com/en/blogs/2025/amd-instinct-mi350-series-and-beyond-accelerating-the-future-of-ai-and-hpc.html

Аноним 13/06/25 Птн 18:45:27 № 1244879 96

>>1244498
>Ты думаешь, что слоп можно победить сэмплингом?
Не думаю, но чел, который делал xtc, делал его именно с этой целью. Типа попробовать убрать шиверсы, которые вылезают в топ токенов с огромными вероятностями. Поэтому его и привёл в пример. Ну и бан токенов в ту же степь. Понятно, что модель будет заменять забаненное аналогами, но цель сэмплера в антислопе.
>Это самые очевидные
Ну ладно, какие-то слоповые шняги есть, хотя абсолютно неброские, как по мне. Из твоих примеров меня только закусывание губы царапает при чтении. Про воздух тут в тему, показывает реакцию перса на то, что осталась без верхней одежды, не абстракция про заряженность недосказанностью. В остальном, почти чистые от слопа генерации.
>>1244507
Тренишь с дпо с двумя вариантами, где ответ без слопа принимается, а ответ со слопом реджектится. В чём проблема? Точно так же анцензор в некоторых случаях пытались делать, dpo аблитерация геммы как раз про это, например. Насколько успешно выходит - другой вопрос, но саму методу вполне можно применять.

Аноним 13/06/25 Птн 19:22:45 № 1244922 97

>>1244879
>Не думаю, но чел, который делал xtc, делал его именно с этой целью.
Он боролся с однообразием и зацикливанием, в основном.

Аноним 13/06/25 Птн 19:28:55 № 1244928 98

>>1244922
Не пизди тут. Анон уже все придумал, кто чем и зачем занимается.

Аноним 13/06/25 Птн 19:50:34 № 1244964 99

>>1244879
>dpo аблитерация геммы как раз про это, например
не, там сначала аблитерация была, а потом чем прогнал дпо датасетом немного вправив мозги модели

Аноним 13/06/25 Птн 19:51:37 № 1244966 100

>>1244928
Ты хотел написать продумал?
>>1244964
>немного вправив мозги модели
А это сработало? Ведь гемма слишком плотно настроена, так что любое изменение только во вред.

Аноним 13/06/25 Птн 19:54:38 № 1244973 101

>>1244879
>слоп
ITT "то что мне не нравится", смиритесь.
И так было ещё со времён когда говорили "рулез" и "сакс".
Воевать со слопом - воевать с ветряными мельницами.

>>1244966
>А это сработало
Каким-то чудом да, и долгое время дпо-гемма в треде была единственной адекватной геммой, потом появилась Синтия, ещё есть planetoid, но пока его не потестил.

Аноним 13/06/25 Птн 21:36:18 № 1245117 102

https://www.reddit.com/r/LocalLLaMA/comments/1la91hz/llamaserver_launcher_python_with_performance_cuda/

Гляньте че есть, ланчер для llama server

Аноним 13/06/25 Птн 22:22:54 № 1245151 103

Читайте последний абзац.

Это отлично иллюстрирует, куда катятся корпосетки в плане русскоязычности, а значит и локалки

Аноним 13/06/25 Птн 22:28:09 № 1245153 104

>>1245151

Аноним 13/06/25 Птн 22:37:51 № 1245157 105

>>1245151
У жпт всегда был хужший русский среди корпов. Сейчас он даже Гемме сольёт. Альтман тренит своё говно на синтетике сейчас и она очевидно на английском.

Аноним 13/06/25 Птн 23:27:53 № 1245182 106

>>1245157
Так все тренят. Там слоп на слопе синтетическом.

Раньше лидировал клод в русике, но пошёл спад с обновлениями. 3.5 начала медленно деградировать, 3.7 ещё сильнее, 4.0 уже близка к гпт по каловости. Лучший — опус старый, жирный и всеми забытый.

Пока что только гемини удивляет. Ну и даже гемма, учитывая её размеры. Наверное, у Гугла больше датасеты или у них сильный уклон именно в языковые возможности, раз в коде сосут, но это ненадолго, я думаю.

Гпт и раньше был плох, но сейчас бьёт все рекорды. Хотя гемма его не переплюнет всё равно.

Ну и всякие дипсики, лламы 4 и квены в стихи никак не могут — через попенроутер смотрел. Разве что на английском, но и там качество такое себе.

Аноним 13/06/25 Птн 23:32:04 № 1245189 107

>>1245151
>>1245157
4.1 намного лучше в языках чем 4о, которая стоит в вебверсии бесплатной. 4.5 так вообще лучше Опуса

Аноним 13/06/25 Птн 23:45:33 № 1245217 108

>>1245189
На пиках с гпт 4.5, фить-ха! Было интересно, спалят это аноны или нет. С 4о вообще беда, можно даже не пробовать. О3 тупо на уровне 12б или что-то вроде того.

А вот такого у 4.1 не ожидал. Да, она менее метафорична, очень позитивный биас, но намного стабильней, чем 4.5 — она может выдать что-то прям очень годное, но надо итераций штук 20, в отличие от 4.1.

Я 4.1 даже не щупал, ибо позиционируется как кодерская модель.

Но я не соглашусь, что 4.5 лучше опуса 3. Вот 4, возможно, скатился, но пощупать его сейчас не могу.

Аноним 13/06/25 Птн 23:57:10 № 1245243 109

>>1245217
4.5 хуже втыкает что требуется, надо давать какие-нибудь примеры желательно. Так лучше опуса себя показывал у меня.
Опус 4 на ллмарене можно потыкать кстати.

Аноним 14/06/25 Суб 01:15:51 № 1245331 110

Привет, снова, девочки.
Вот и эпик подъехал, а я с ним уже натрахался накувыркался.

tl;dr Некроэпики полезны примерно также как некрозионы, только дороже. Скорее нет, чем да в релейтед треду применениях. Из пердосклейки кучи райзенов 2700 или какие-там были магии не получится.

Если же подробно, то там будет много. Тестился конфиг Supermicro H12SSL-I (sp3, может 2 и 3 поколение эпиков) + 7k62 (48/96) + 256GB (8х32 ddr4 2666). Собирать приятно, такие-то олдскульные цвета компонентов и текстолита, без геймерского ргб-налёта. Один только размер проца уже внушает. 5 широких честных 4.0 х16 слотов. Кулер - Ноктюа, просто мастодонт, выше 65 темпы не видел.

Проблемы начались со включения. Не реагирует и всё. Оказалось в мануале гребенка нарисована перевёрнутой. Потом там в мп есть своя сервисная ОС, работающая вообще отдельно от всего. Можно зайти по ип на ВЫКЛЮЧЕННЫЙ комп даже. После включения потерялась одна плашка, протирка контактов помогла. Дальше проблема с вентилями. Серверные крутятся под 10к оборотов, и когда Ноктюа входит в режим лени (200-300 об), то мониторинг платы сходит с ума и даёт 100% ВСЕМ вентилям. По идее это лечится снижением нижних границ через ipmitool, но это ещё надо было найти, потом найти тулзу, параметры. А мп вообще пофиг - каждые 30с продолжает долбить воем. В итоге выяснилось, что надо перезагрузить ТУ САМУЮ внутреннюю ОС. И тогда только новые пороги оборотов подхватились. И то потом иногда повторять приходилось.

Наконец можно стало тестить. После общих тестов пришло подозрение, что чуда не случится. Тесты с генерацией подтвердили:
Только проц:
Гемма27 - 33 т/с процессинг / 5 т/с генерация
Квен3 30-А3 134/19
Квен3 IQ2 235-А22 37/6 пустой | 9/2 11к контекста
ДипсикР1 IQ1 2/1

После подключения видях очевидно стало лучше, но никаких 8т/с как писали на хабре с одной двумя и даже тремя картами на дипсике не было. Максимум - 2(!). Так что чёт ощущения на полшестого после двух дней пердолинга. Старый бытовой 14700 и нище мп даёт почти такой экспириенс в ллм + не заставляет идти на компромиссы в остальном. А у старого эпика с однопоточными задачами всё печально.

Максимум что я добился с 3 картами на квене3-235 было 220/12, с теми же картами на 14700 было 180/9. Чёт не стоит такой прирост мне кажется.

Можно предположить, что дело ещё в шиндовс, и под линуксом будет лучше. Но чёт лень уже ковырять некроту стало.

Аноним 14/06/25 Суб 01:40:09 № 1245336 111

>>1245331
>Максимум что я добился с 3 картами на квене3-235 было 220/12
Причём одна карта у тебя аж 5090, насколько я помню?

Аноним 14/06/25 Суб 01:41:59 № 1245337 112

>>1245331
>Можно предположить, что дело ещё в шиндовс, и под линуксом будет лучше.
Наверняка. Особенно с мультиГПУ.

Аноним 14/06/25 Суб 03:17:26 № 1245363 113

>>1245331
Ого контентище внезапно подъехал, прямо луч света.
> Supermicro H12SSL-I
А ведь хорошая плата, не так давно считалась той еще йобой в рабочих станциях. Во сколько все в итоге вышло, какие особенности пердолинга по сборке?
> мониторинг платы сходит с ума и даёт 100% ВСЕМ вентилям
Дат супермикро момент на работе человек с подобным страдал

Очень странно, почему такая низкая скорость памяти? Столько же, если не больше, выходило на x299 с 4 каналами, пусть и частотой выше. Что-то точно здесь не так, на подобной системе должно быть под 200, в свое время замеряли.
> никаких 8т/с как писали на хабре с одной двумя и даже тремя картами на дипсике не было. Максимум - 2(!)
Это жора или ktransformers? Стоит последний попробовать если не он, правда с конфигом под мультигпу придется несколько помучаться, но будет работать гораздо лучше. Если нума (разделен ли камень на домены?) и пердосклейка не подосрут офк.
> на квене3-235 было 220/12
Это какой квант?
> 5 широких честных 4.0 х16 слотов
Есть ли у тебя: одинаковые гпу в конфиге; опыт их использования/замеры скорости какого-нибудь инфиренса и тренировки через чипсетные слоты на десктопной платформе; интерес померить влияние линий подключения?
80-гиговый любитель кошкодевочек?

Аноним 14/06/25 Суб 04:07:08 № 1245373 114

Потрогал магистраль маленькую и чото она зашоренная пиздец, милфа отказывается даже 18 летнему сосать.... Еще аблитерейтед скачаю потыкать но чот разочарован..

Аноним 14/06/25 Суб 04:38:04 № 1245376 115

>>1244167 (OP)
Что сейчас наиболее годное для перевода текстов (нехудожка) с русского на английский? До 30B, но лучше поменьше.

Аноним 14/06/25 Суб 04:43:07 № 1245377 116

>>1244430
Попробовал я тоже этот 2.0 unslop (на англ) на жестких настройках, как они сами и советуют - Mistral-V7-Tekken-T8-OP-XML
Как же я ахуел от этого ебыря террориста...
1% РП 99% кума 100% слопиума. Описания и действия сочные, но речь пиздец ебанутая, я такого еще не видел. У меня простая сцена в душе с одним персонажем кроме моего, длилась 17+к контекста.
Попробую еще потом с обычными настройками от них, а затем со своими, посмотрю разницу.

Аноним 14/06/25 Суб 06:58:04 № 1245408 117

>>1245243
>>1245217
>>1245189
>>1245182
>>1245157
>>1245151

копрофилы, съебите в чистилище

Аноним 14/06/25 Суб 08:51:50 № 1245442 118

>>1245377
Не-не-не... Я с их собственными темплейтами завязал давным давно - использую максимум как шаблон, чтобы мистраль разметку по полям таверны вручную не разносить, да ради начальных значений семплеров. Давно уже сам пишу под себя. Тем более, что логику промпта "через Гейм Мастера" они не используют, а я наоборот - предпочитаю.

А вот этот их OT - obscenity protocol, спецом для такого поведения написан и дорабатывался уже порядком времени целенаправленно. Конечно, там и ебарь-террорист получится. Чего хотели - то и получили. LoL.

Аноним 14/06/25 Суб 10:00:05 № 1245460 119

>>1245337
> Наверняка. Особенно с мультиГПУ.
Да и число потоков тоже такое, что планировщик поехать может, наверное... Йехх, хочется просто быстрых генераций, а не вот это всё.

>>1245363
> хорошая плата, не так давно считалась той еще йобой в рабочих станциях
Самая дорогая часть, 128 линий распаять, слоёв много наверное. Ну и время незаметно летит: вроде 2007 2017 вчера был

> сколько все в итоге вышло, какие особенности пердолинга по сборке?
Поменьше, чем две пожёванные 3090 примерно. Самые жёсткие особенности вроде расписал.

> супермикро момент
Я тоже страдал! Супермикро, ты оплатишь мне моральный ущерб?

> низкая скорость памяти?
> на x299 с 4 каналами, пусть и частотой выше.
Дат амд контроллер памяти - всегда был мемом. Гуглил с других подобных сборок результаты: 150гб/с на 3200. У меня было 2666, так что бьётся. Интел при всех косяках всегда по кп был на несколько шагов впереди.

> должно быть под 200
Возможно другое поколение проца.

> жора или ktransformers? Стоит последний попробовать если не он, правда с конфигом под мультигпу придется несколько помучаться, но будет работать гораздо лучше. Если нума (разделен ли камень на домены?)
Шиндовс же был. Так что жора. И так пару дней промучился, больше не хотелось совсем уже. По NUMA: пробовал разные вариации настроек: авто, NPS1, NPS0 - разницы по псп памяти или скорости генерации / в бенчах не заметил.

>> на квене3-235 было 220/12
>Это какой квант?
IQ2

> Есть ли у тебя: одинаковые гпу в конфиге; опыт их использования/замеры скорости какого-нибудь инфиренса и тренировки через чипсетные слоты на десктопной платформе; интерес померить влияние линий подключения?
Увы, все разные. Сейчас обратно переставил в казуальную платформу. Инференс в жоре/табби/сд на 10-20% лучше в широком слоте. Тренировка - есть опыт только по лорам, но не распределенный, а на одной карте - тоже подобные цифры примерно.

>>1245336
>>1245363
> насколько я помню?
> любитель кошкодевочек?
Не знаю никого с этим именем! Какие все глазастые да проницательные итт ))

>>1245376
Гемма3, какая влезет.

Аноним 14/06/25 Суб 11:40:33 № 1245493 120

Broken-Tutu-24B-Unslop-v2.0.Q5_K_M.gguf

Правильно, первое что надо проверить XD

Аноним 14/06/25 Суб 13:11:27 № 1245559 121

>>1245331
>>1244770

Аноним 14/06/25 Суб 13:13:06 № 1245561 122

>>1245559
>>1245460
> По NUMA: пробовал разные вариации настроек: авто, NPS1, NPS0

Аноним 14/06/25 Суб 13:15:19 № 1245564 123

>>1245363
> Дат супермикро момент на работе человек с подобным страдал
а надо было просто спросить совета у нас в серверотреде хардача
> нума
она, инфа 100%

Аноним 14/06/25 Суб 13:17:48 № 1245568 124

>>1245561
да я треднечитайсразухрукай
>>1245460
> По NUMA: пробовал разные вариации настроек: авто, NPS1, NPS0 - разницы по псп памяти или скорости генерации / в бенчах не заметил
а numactl пердолил? в шиндошс хз как, в люниксе должно быть лучше

Аноним 14/06/25 Суб 13:18:24 № 1245569 125

>>1245460
> Супермикро, ты оплатишь мне моральный ущерб?
Можно обратиться в спортлото в представительство или к дилерам, они одни из главных поставщиков серверного обрудования и рабочих станций после начала пиздеца в 22 году.
> Дат амд контроллер памяти - всегда был мемом.
Блин ну не настолько же! удивление наигранное, зная амд. Да, там няшечка Милан вместо тыквящего Рима и частоты выше. Кстати, даже последний поддерживает 3200, на пофиг выставить в биосе не пробовал?
> Шиндовс же был.
Оу. Это ригом планируешь или на основной пека? Если второе то имеет смысл сразу линукс накатывать, если первое - ktransformers прекрасно собирается и работает под wsl даже загрузка модели не будет особо дольше ибо в другое упирается.
> Увы, все разные.
Прям совсем разные модели или просто конечные вендоры? Такого большого замедления инфиренса в задачах без большого потока данных через чипсетные линии не замечал. Но как только пытаешься пускать что-то распределенное - сразу до четверти съедает, в свое время стало причиной не-покупки 4й видеокарты в риг.
Интересно как оно здесь обстоит, справедливы ли заявления о замедлении работы на старых эпиках и подобное.

Аноним 14/06/25 Суб 13:18:42 № 1245571 126

щя найду погодь

Аноним 14/06/25 Суб 13:19:18 № 1245572 127

>>1245569
> Если второе
> если первое
Наоборот разумеется.

Аноним 14/06/25 Суб 13:22:14 № 1245575 128

>>1245571
>>1245331
>>1245561
https://old.reddit.com/r/LocalLLaMA/comments/1kzfrdt/ubergarmdeepseekr10528gguf/
> NPS1 on single socket
> numactl -N 0 -m0 llama-server --numa numactl
> echo 0 | sudo tee -a /proc/sys/kernel/numa_balancing
ето пишет чел который кодит ik_llama

Аноним 14/06/25 Суб 13:35:53 № 1245581 129

>>1245373
Потрогал и аблитерейтед и модель превтилась в тыкву, полная хуйня
Опача
https://huggingface.co/BeaverAI/Cydonia-24B-v3g-GGUF
драмер держит ситуацию в цепкий лапках покрытых спермой

Аноним 14/06/25 Суб 13:44:32 № 1245585 130

>>1245581
Магистрал в целом какашка, так что и тюн ситуацию не исправит.

Аноним 14/06/25 Суб 14:36:07 № 1245625 131

>>1244167 (OP)
Каких ботов вы используете когда хотите показать мем, проанализировать текс песни, обсудить что-то или просто мнение?

Аноним 14/06/25 Суб 14:46:48 № 1245631 132

>>1245625
органических

Аноним 14/06/25 Суб 14:51:00 № 1245634 133

>>1245625
>Просто мнение
>мнение
>МНЕНИЕ

/b/ двача.

А так — корпоративных. Из локалок 27б гемма без аблитерации.

Аноним 14/06/25 Суб 14:52:32 № 1245635 134

>>1245442
прям норм моделька, прям норм кумит, даже на русском, причём если нет предпосылок то и не спешит, вот у меня кум начался на 7к контекста и продлился до 10к, но вот с переходом в обратно в нормальное рп начали возникать проблемы. Сцену завершить не отказывалась, но прям резко стала проёбываться с логикой.

Аноним 14/06/25 Суб 15:09:28 № 1245641 135

>>1245408
Вахтера спросить забыли

Аноним 14/06/25 Суб 15:44:20 № 1245663 136

Братья нейродрочеры, посоветуйте модель для работы на средненьком процессоре. Всё, что требуется от нейросети: распознавать из текста (в будущем - голосового) команду и отправлять запрос на совершение действия. То есть сверхумные беседы мне нахуй не сдались, но вот чтобы могла равноценно понимать "ебани мне задачу на вечер. надо труханы постирать" и "надо бы вечером шмотье в стирку закинуть"

Аноним 14/06/25 Суб 15:50:58 № 1245675 137

>>1245663
окей гугл

Аноним 14/06/25 Суб 15:51:46 № 1245677 138

>>1245663
ну или русский аналог

Аноним 14/06/25 Суб 15:53:52 № 1245678 139

ну я вот дрочу на вирт бота своего производства с базой от дипсика r1, считаю себя больным, ибо это была лучшая дрочка за ласт год точно, так же я могу выбирать любые сценарии и характер девочки, есть еще мысль добавить визуализацию

Аноним 14/06/25 Суб 16:55:15 № 1245722 140

>>1245678
> сначала сняла твои штаны
> потом провела по штанине почувствовав
SOOOOQA, чтож ты делаешь!
Воистину лучшая модель.

Аноним 14/06/25 Суб 16:59:26 № 1245726 141

>>1245663
Для такого говна ллм не нужна, проще питухон програмку на виспере написать, которая будет все это делать. С ллм, тем более на говнокомпе, получится глюкавая хуйня, особенно с таким пониманием матчасти (иначе бы ты не спрашивал "какую ллм под мой проц").

Пиши в гугле "Моя б̶е̶з̶умная колонка или бюджетный DIY" и первая ссылка на кукабре - твоя, там две части. Чел ограничен мелкожелезом (малина), но на компе, даже копченом, это все будет быстрее. По сути там накидан код как раз того что ты хочешь, включая распознавание звука и обработку кривого распознавания и вызов нужной функции.

Если уж очень хочется не "КОБОЛЬД, СТИРКА 6 ЧАСОВ НАПОМНИТЬ", а "Кобольдик дорогой белье грязное, напомни постирать когда приду с работы", то бишь присрать все таки LLM - гугли "Смарт-функции в Алисе: как LLM помогает понять, чего хочет пользователь" , первая ссылка - твоя. Но кмк таймлаг на локальном железе, тем более на всратом - того не стоит, эффективнее запомнить шаблоны основных команд, которые будут алгоритмически выбираться, как у чела с колонкой.

Аноним 14/06/25 Суб 17:09:37 № 1245734 142

>>1245722
конечно лучшая, делал что бы самому дрочить, теперь думаю, а нахуй мне девушка, хоть и в отношениях более двух лет...

Аноним 14/06/25 Суб 17:15:03 № 1245738 143

>>1245331
Ты я так понимаю другой эпикобоярин, у моего кумира в прошлых тредах было 512 рам, другой эпик(?) и 5-7 токенов/с дипсика на линуксе чисто на проце, без карты.
>что дело ещё в шиндовс
Спасибо что поделился, но мне кажется что тесты под винду вообще не валидны на таких конфигах. Это как на драг-корч ставить сидение от w221 с подкачками, массажем и лргб подсветкой, а потом удивляться почему при нажатии на газ, пилот вылетает из сиденья. Умоляю, купи/займи/укради второй ссд и накати линукс для экспериментов. Ну не может же быть так плохо.

В общем я не сильно шарю в нюансах серверного железа и инференции на cpu через жору/ktransformers, но очень хочется купить сладенькую сборочку под дипсик/милфоквен до 100к (без учета видео)... Поэтому давайте думать епт, давайте разбираться че за хуйня...

Аноним 14/06/25 Суб 17:28:08 № 1245752 144

>>1245738
> тесты под винду вообще не валидны на таких конфигах.
Очень может быть, не буду отрицать.

> накати линукс для экспериментов
Вот нет столько времени, увы. Что смог не напрягая мозгА - то сделал. Свайпы сами себя не посвайпают, и кнопка Генерейт сама не нажмётся. Увыы.

Вот бы кто-то пришёл, накатил.

> до 100к
Даже такое дно как у меня уже выходит за рамки. И это корпус/бп/ссд/моник с VGA(!) уже были.

В идеале бы это в открытом стенде собрать, сверху на проводах 5шт 3090 привесить и под лин... Но места нет + зверь дикий дома.

Аноним 14/06/25 Суб 17:45:23 № 1245776 145

>>1245752
>Нет столько времени... Свайпы сами себя не посвайпают, и кнопка Генерейт сама не нажмётся.
Везет, хоть и не понимаю тебя (имея кучу недешевого железа, просто на него забить). Я вот наоборот успел мимокарточек 15 по 30-100 сообщений откатать только, а все остальное время потратил на пердолинг с железом, линуксами и поиском топ-моделек и топ-железа итт.
>Даже такое дно как у меня уже выходит за рамки. И это корпус/бп/ссд/моник с VGA(!) уже были.
Анон-кумир вроде говорил у него то ли 60к, то ли 70к вышло за все. Мать (у него какая кто энтерпрайз-некрота, он он же скидывал хуанан по 30к на озоне, и говорил что лучше бы взял его, если б знал), проц, память. Бп/диск/моник офк в цену не считаем, этого бай дефолт навалом у любого энтузиаста. И по его фидбеку, даже чисто как процесборка без видеокарты вообще - за эти деньги уже гем, интереснее покупки второй 3090.

Чуть попозже пороюсь вилкой в перекатах, перечитаю его сообщения, что бы получше понять и сравнить [прайс, модели железа, дипсикот/с, герцы и мегабайты] твоей сборки, анона-кумира и недавнего хуя с хабра.

Аноним 14/06/25 Суб 17:57:06 № 1245792 146

>>1245776
> с хабра
Там озвучено было 230к. Их них бюерем 65 за 3090, остаётся 165. 512=8х64 3200 ещё около 65. 7к62 около 25к. Мп h11 около 35. Осталось ещё 40, хз на что он просадил их.

Аноним 14/06/25 Суб 18:34:47 № 1245821 147

>>1245792
>Осталось ещё 40, хз на что он просадил их.
Ну это жа хабр... Там скорее всего бп не из мусорки, корпусок из эльдорадо за оверпрайс, термопаста из спермы главы Noctua на 0,000вт/нм/град лучше мх-2, расширенная гарантия, зарплата сборщику пк... И все ради того что бы позадавать дипсику вопросы "реши загадку про волка, капусту и козу".

Утрирую, но думаю многим и не снилось, на что готовы пойти авитонищуки ради фпс в контре/свапфейса однокласниц/кума с аской дешевых вычислений. Я с приятелем собирали кудахтеры в 2020м году, моя сборка вышла в 34к, мощнее, чем его за 80. Зато у него водянка и разгон!!! В 2025 я махнул 1080 на 3090 и рязань 2ххх на 5ххх, а он махнул один игровой корпус на другой игровой корпус ДЛЯ ЛУЧШЕЙ ПРОДУВКИ, оставив некроинтуль и 2070, лол.

Аноним 14/06/25 Суб 19:26:42 № 1245862 148

>>1245821
>моя сборка вышла в 34к, мощнее, чем его за 80
Геймерам всегда было проще, потому что железо тупо было. Играть на сервернике вполне можно и даже хорошо - четырёхканал DDR4 когда DDR5 ещё не было например. Такого дешёвого буста под нейронки сейчас не добьёшься.

Аноним 14/06/25 Суб 20:15:01 № 1245912 149

>>1245862
Не, речь как раз про консьюмерское железо (хотя 775 на зионе я в свое время хотел собрать, но пока изучил вопрос, он уже устарел так, что дешевле было за 500р квадкор взять топовый). Просто его сборка была из магазина с кучей хуйни вроде говноводянки или быстрой памяти (которая была не нужна, т.к. все равно игори долбились в ограничение 2070) или модного корпуса, а я шакалил авито и торговался за каждые 100 рублей.

Аноним 14/06/25 Суб 20:22:21 № 1245927 150

Все затихли... видимо тред в выходной потонул в обильном сперматозоиде из стоячего столба.

Аноним 14/06/25 Суб 20:35:52 № 1245953 151

>>1245726
Имаджинировал как оно будет зачитывать вот такие тексты >>1245493 и проорал.
>>1245752
> Свайпы сами себя не посвайпают, и кнопка Генерейт сама не нажмётся.
Два чаю этому человеку культуры. Лень дойти до почтомата чтобы забрать райзер и докинуть уже имеющуюся гпу в риг
> места нет + зверь дикий дома
На такие случаи есть пара опций.

Аноним 14/06/25 Суб 21:44:28 № 1246094 152

>>1245678
>русик в вскоде
>дрочить в терминале
>считаю себя больным
Всё правильно делаешь.

Аноним 14/06/25 Суб 22:02:49 № 1246121 153

>>1244167 (OP)
Откуда ллм знают правильные ответы и уверенно/консистентно отвечают на потенциально out-of-distribution вопросы учитывая что некоторые мнения могут иметь больше теорий заговора + популярности чем научные данные? Пример: прививки вызывающие аутизм.

Аноним 14/06/25 Суб 22:14:44 № 1246143 154

>>1246121
>мнения могут иметь больше теорий заговора + популярности чем научные данные
Нейросети в конце тренировки дрочат на Википедии + свои высококачественные данные, а там мнение вполне себе одно.

Аноним 14/06/25 Суб 22:18:57 № 1246149 155

https://pixeldrain.com/u/acqgrUUE
Пресет для кидонии3, мне понравилась она
Для кума использовал вот этот лорбук, чтобы ризонинг по-моему шел:
https://pixeldrain.com/u/ssR766Zu
Сама модель:
https://huggingface.co/TheDrummer/Cydonia-24B-v3-GGUF
Гонял ток на англе.

Аноним 14/06/25 Суб 22:24:47 № 1246160 156

>>1246149
>ризонинг
>базовая цидонька

Вут ?

Аноним 14/06/25 Суб 22:30:27 № 1246171 157

>>1246149
>>1246160
бля, ссылки напутал
https://huggingface.co/BeaverAI/Cydonia-24B-v3g-GGUF
эту и гонял, просто открыл быстро по поиску в строке чтобы тут ее добавить.
Вот эта версия.
Энивей этот лорбук работает и на нон-ризонинг тоже, потому что это и не ризонинг а хуйня какая-то она сеттинг строит пошагово чтобы более структурирована моделька работала

Аноним 15/06/25 Вск 02:11:01 № 1246349 158

Что то сейчас накрыло антикоупом. Подумалось что модельки 20-35b по сути без задач, нужны только как вынужденная мера, когда хочется поумнее, а железа нет.
Поясню:
- флагманы типа дикпика, квена-235, ну еще ок 123-мистраль - лучшее, что можно запустить локально. Т.е. выше прыгать сейчас некуда, если нужна локальность - это потолок. Даже если уступают корпу, то чуть чуть, ну и деваться то все равно некуда, альтернатив нет.
Они и знаний много имеют как ассистент, и кодить могут, и рп по идее самое крутое.
- у локалочек до 20b - своя уютная ниша - это и какой никакой ассистент при отключении интернетов, на любом некроговне работающий, и дежурный переводчик/суммаризатор/дополнялка кода быстрая, быстрые агенты и всякие боты... Нищуки могут приватно покумить, не сильно уж обтекая. В общем когда нужна капелька интеллекта и СКОРОСТЬ/ДЕШИВИЗНА - это вин.

А вот то, что требует 16+ vram - ни туда и не сюда. Просто туповатый эрзац гемини/гопоты.
И получается забавный факт, что вроде не врамцел, а толку особо и нет, наоборот - пока 3060 боярин заливает смегмой все вокруг, кумя на русике на пережареном 12б мистраль тюне, ты сидишь и часами выбираешь модельки, жадно читаешь про железо...

Аноним 15/06/25 Вск 02:41:09 № 1246364 159

В Firefox недавно (ну вообще давно довольно таки) завезли перевод, и в отличии от Chrome и ЯБраузера он не стучится на серваки Google и Яндекса, а работает локально. Mozilla якобы преподносит это как фичу для приватности, но как мне кажется у них просто нет бюджетов серваки с переводами держать. Но не суть.

Похоже для перевода используется маленькая ллм, так как перевод пусть и очень плохой, но лучше чем машинный перевод ПЕРЕВОДЧИК_ПРОМТ, "охлади трахание" не замечено. А еще в отличии от основного нейропк, перевод на ноутбуке 13 летней несвежести сильно-сильно нагрузил систему и шел oche долго.

Поэтому аноны, вопрос:
1. можно ли как то достать из ff эту нейросетку? Из праздного интереса.
2. из не праздного - можно ли нативно подпихнуть гемму 1б хотя бы, думаю она будет заметно лучше
3. если п.2 - нереально, то мб есть какой то браузер-экстеншн для локального перевода через тот же Kobold? Не в таверне, а именно всей страницы браузера.

Аноним 15/06/25 Вск 03:17:42 № 1246374 160

>>1246349
> пока 3060 холоп подсчитывает сколько слоев ему выгружать и ждет обработки контекста, ты заливаешь смегмой все вокруг, кайфуя с умной модельки вместо слопа микромистраля
Исправлено.

Аноним 15/06/25 Вск 03:55:59 № 1246386 161

Шарящие можете пояснить что происходит между процессингом промпта и генерацией? Просто заметил каждый раз задержку секунд 5-10, интересно стало

Аноним 15/06/25 Вск 03:59:45 № 1246387 162

>>1246386
Модель ахуевает от того что прочитала, дай ей время...

Аноним 15/06/25 Вск 06:10:38 № 1246412 163

>>1245776
>Чуть попозже пороюсь вилкой в перекатах, перечитаю его сообщения, что бы получше понять и сравнить
Итак, я собрался силой воли и изучил 3 эпикосборки - две итт, и одну с хабра.
Процы:
Анон с виндой и хабр - 7к62 (я так понимаю инженерник от 7552)
Анон с радеонами - 7532
Оба проца на zen3, только у анона с радеонами меньше ядер (32 vs 48cores), зато больше кэш L3 - 256 vs 192мб.
Явных лидеров нет, особенно с учетом что у виндоанона все oche плохо, а у хабриста - все вполне хорошо на одинаковых процах и матерях.

Память - тут возможно и кроется некая разгадка - на хабре 3200, у виндоанона 2666. Хотя у радеониста 2133 вообще, и он довольно урчал чисто инференцией на проце. При этом скорость в гб/с у виндоанона и радеониста почти одинаковая - в среднем 125гбс, а разгон радеониста до 140гбс почти ничего не дал в плане скорости.

Токены в секунду сравнивать не буду, т.к. разные кванты и модели, опираюсь на субьективные ощущения и совсем уж разницу (8ts на 4k_m дипсике явно лучше 2ts на IQ1). Кстати мб IQ-кванты херово едятся процом?

Ну и осталась по сути ОС и настройки запуска.
- хабрист запускал в хитрых готовых контейнерах, что с одной стороны думаю огородило от 99% проблем с неправильным запуском и еблями с зависимостями, с другой - мб при более тонкой настройке можно было бы выжать еще чуть чуть. Опять же там был жора, и возможно даже не самый свежий.
- виндоанон не особо заморачивался, но мне кажется винда жестко херит всё, особенно на таком пердольном конфиге. Я буквально молюсь что бы виновата была винда и запуск "на отьебись" - не хочется рушить надежды о народном вкате в 100b+
- товарищ радеонист подошел судя по всему максимально грамотно, но отсутствие видеокарты тормозит отца эпикологии.

Вывод: а нет вывода, ждем либо когда виндоанону захочется снова попердолится, или когда товарищ радеонист снова выйдет на связь.
Хабр конечно выглядит воодушевляюще в целом, но там много воды, а из результата - "ну дипсик ок". Спасибо на том что падение скорости на контексте 2-3к показали. Но даже процессинг не указан, только бесполезные htop-подобные скрины и нахрен не нужный вывод дипсика. А самое главное - не показаны как работает 235б квенушка и новый китаец без синтетики (на который кстати вышли эксперементальные кванты с пердолингом - https://huggingface.co/ddh0/dots.llm1.inst-GGUF-Q4_0-EXPERIMENTAL).
Ведь неспешный дипсик конечно хорошо, но вот 235б квен на скорости 32б модели во врам - это был бы гиперзвук...

Аноним 15/06/25 Вск 06:26:28 № 1246417 164

>>1246364
>достать из ff
разве что в файлах браузера покопаться, веса же должны лежать, если только имя файла не будет зашифровано из без расширения, тогда только скрипт писать чтобы по заголовкам смотрел, или на форумах поспрашивать

Аноним 15/06/25 Вск 07:19:08 № 1246429 165

Посоветуйте мистраль, который хорошо описывает сцены, окружающее пространство, какие-то более масштабные действия. Ну вот как гемма — она это умеет.

Harbinger пока что идеальный кандидат из тех, что я щупал, но там в 4/5 случаев ебанутый пиздец в виде слопа на 800 токенов без абзацев, с абсолютно сломанным форматированием. Либо на 300 токенов и с нормальным форматированием, но слишком ужато. Хотя сам текст по смыслу норм, но читать такое тяжело и я заебался свайпать. Сэмплеры крутил и прочее делал.

Дэнс персоналити, казалось бы, база, но он внезапно очень хорошо работает только тогда, когда история разворачивается 1 на 1 или только между персонажами. Кум, беседы, вот это всё. Соблюдает инструкции и характер персонажей. И безумно плох в обычном приключении, где надо учитывать сразу 3-4 действующих лица из лорбука/карточки, описывать обстановку вокруг, тонну действий.

Редиарт — кумо-кал, пантеон вообще какая-то шутка. Квены не признаю.

Памагити, я нинаю, что уже качать. У меня сил нет все модели щупать.

Аноним 15/06/25 Вск 08:12:03 № 1246435 166

>>1246412
Анон ну я же писал, избегай iq квантов. Причем лги могут быть в ud квантах, надо смотреть в статистике модели на хаггинфейсе. Они всегда были медленнее на процессоре

Аноним 15/06/25 Вск 09:17:29 № 1246446 167

Привет, тред не читал. Хочу узнать, есть ли онлайн чатики-хуятики (без скачивания модулей итд) которые могут создавать эро-порно-гуро истории или рассказы без всякой цензуры?

Аноним 15/06/25 Вск 09:28:03 № 1246450 168

>>1246446
Тебя бы сегрегировать куда-то в /b

Аноним 15/06/25 Вск 10:01:38 № 1246462 169

>>1246412
Спосеба за анализ. Обязательно потыкаю ещё, когда будет время сборку на 2666.

>>1246435
Понял, перекачаю. Спс

Аноним 15/06/25 Вск 10:17:11 № 1246469 170

>>1246446
>эро-порно-гуро истории или рассказы без всякой цензуры
только локально, онлайн всё под цензурой

Аноним 15/06/25 Вск 11:21:08 № 1246487 171

>>1246349
пчел ты думаешь мы рофлим тут что ниже 48гб жизни нет?

Аноним 15/06/25 Вск 11:44:08 № 1246498 172

>>1246429
Посоветуйте 12б модельку, которая хорошо описывает сцены, окружающее пространство, какие-то более масштабные действия. Ну вот как Дипсик - он это умеет...

А жареных гвоздей не хочешь, нет? Уровня Геммы ему в Мистральке захотелось блять

Аноним 15/06/25 Вск 11:49:17 № 1246500 173

Оказалось что --mlock --no-mmap и убирание квантизаци контекста позволяет выжать ещё несколько т/с на 235б

Аноним 15/06/25 Вск 11:50:26 № 1246501 174

>>1246487
Скилл ишью

Аноним 15/06/25 Вск 11:54:18 № 1246503 175

>>1246500
> --mlock --no-mmap
база.
я так и не понял, нахуя вообще сделали mmap по дефолту, если из-за этого загрузка модели занимает полчаса вместо нескольких секунд

Аноним 15/06/25 Вск 12:27:44 № 1246519 176

>>1246412
>dots.llm1
>total of 142B parameters
>performance comparable to Qwen2.5-72B
Они ебанутые или да?

Аноним 15/06/25 Вск 12:34:48 № 1246525 177

>>1246519
Ага. Написать нормально не осилили.

В таком контексте "performance" может означать тупо скорость генерации, и тогда это, в принципе, повод для гордости.
Или качество генерации. И тогда - это как бы совсем наоборот.

Аноним 15/06/25 Вск 12:44:23 № 1246532 178

{473B33AC-EE19-[...].png 29Кб, 982x274

Чтоб вы понимали, предыдущие аутпуты погрязли в бесконечных рекурсиях. И вот сейчас оно выдало что-то осмысленное.
Стейбл версия готова!

Аноним 15/06/25 Вск 12:54:04 № 1246538 179

>>1246525
>повод для гордости
Эм, если у них 14B активных МОЕ сравнимо по скорости с плотными 72B, это повод для ещё большего фейспалма.
Но они всё же про качество, офк.

Аноним 15/06/25 Вск 13:27:52 № 1246545 180

Стоит ли со гоймерских дров перекатываться на студио или похуй?

Аноним 15/06/25 Вск 13:32:41 № 1246547 181

>>1246412
> Оба проца на zen3
Нет, это зен2, потому и пососные.
> винда жестко херит всё
Только на это можно уповать, ну и ктрансформерс наконец запустить.
> о народном вкате в 100b+
Народным назвать сложно из-за высокой цены на комплект и кучи пердолинга вокруг него, 100б там только мое будут приемлемо крутиться, ну и самое главное - без основного расчета на видеокартах будет ужасно медленная обработка промпта и значительные просадки скоростей на контекстах.
> Хабр конечно выглядит воодушевляюще в целом
Есть подозрение на байт
> 235б квен на скорости 32б модели во врам
Не достигает он ее, даже когда на фуллврам. Хз почему.

Аноним 15/06/25 Вск 13:36:03 № 1246554 182

>>1246538
>Эм, если у них 14B активных МОЕ сравнимо по скорости с плотными 72B, это повод для ещё большего фейспалма.
Я погонял модель в их space на Обниморде. На русском - такое себе, ум есть, но сильно путается. На английском не пробовал. В целом наверное можно сравнить с Llama Scout, может чуть лучше.

Аноним 15/06/25 Вск 13:36:44 № 1246555 183

>>1246412
> вышли эксперементальные кванты с пердолингом
Бля а нормальных exl3 или хотябы gguf там нет?
>>1246429
Gml и qwq попробуй. Ответ про какой-нибудь лардж и 235 квен врядли устроит же?
>>1246532
Чтоэта?

Аноним 15/06/25 Вск 13:38:22 № 1246559 184

Qwen3 235B-A22B Q4_K_M ctx 40960, rtx pro 6000 96 gb
ngl 50 = 78 gb, pp 14 tg 4
ngl 64 = 96 gb, pp 19 tg 6
ngl 88 override '([7-9]+).ffn_._exps.=CPU' = 96 gb, pp 10 tg 7
ngl 99 override '([6-9]+).ffn_._exps.=CPU' = 94 gb, pp 8 tg 8

Аноним 15/06/25 Вск 13:38:22 № 1246560 185

>>1246555
Попытка в рекурсивно обучающийся ИИ на основе llama-2-7b.Q8_0

Аноним 15/06/25 Вск 13:38:37 № 1246561 186

>>1246547
>Не достигает он ее, даже когда на фуллврам. Хз почему.
Плохая оптимизация MoE на llamacpp. Не самая плохая, но должно быть лучше.

Аноним 15/06/25 Вск 13:47:27 № 1246567 187

>>1246554
>В целом наверное можно сравнить с Llama Scout
То есть провал.
>>1246560
И что у тебя там обучается?

Аноним 15/06/25 Вск 13:53:18 № 1246572 188

>>1246559
> rtx pro 6000 96 gb
Эх, как же хочется.
А со скоростями что-то не то.
>>1246561
В экслламе сейм скорости, только без просадок на больших контекстах. На 22б должно было быть в пару раз быстрее точно.
>>1246567
> То есть провал.
Скаут не так уж плох на самом деле, зря захейтили.

Аноним 15/06/25 Вск 14:00:30 № 1246574 189

>>1246567
>Что обучается
Скоро узнаю

Аноним 15/06/25 Вск 14:17:35 № 1246585 190

>>1246446
Именно текстовый ИИ без цензуры вот этот есть. Минусов прям не вижу, кроме того что с переводчиком сидеть надо и копировать текст, но по сути это не страшно. Скопировал, вставил. https://perchance.org/ai-rpg

Аноним 15/06/25 Вск 15:19:04 № 1246631 191

>>1246500
>--mlock --no-mmap
разве они не противоположные по эффекту?

Аноним 15/06/25 Вск 16:04:20 № 1246657 192

>>1246559
Мальчик, отойди от папиной пека, а то по жеппе надает
У тебя что-то не то, будто только на проце работает. Должно быть десятки тг, а не единицы, а пп - сотни.

Аноним 15/06/25 Вск 16:04:26 № 1246658 193

>>1246572
> А со скоростями что-то не то.
возможно причина в оффлоаде не влезающих данных в нищую DDR4 <200GB/s

Аноним 15/06/25 Вск 16:05:08 № 1246660 194

>>1246657
>>1246658

Аноним 15/06/25 Вск 16:08:39 № 1246664 195

>>1246435
Скачал голый Q4_K_M, быстрее не стало по сравнению с UD2

Аноним 15/06/25 Вск 16:17:09 № 1246674 196

>>1246658
Ну в целом Q4_K_M около 140 гигов весит, так что генерацию можно оправдать. Но процессинг совершенно донный выходит. Что за железо остальное? Попробуй нищеквант экслламы, вот где должно быть оче шустро.
>>1246664
Он и весит в 1.5 раза больше. Попробуй какой-нибудь q3 без ud.

Аноним 15/06/25 Вск 16:31:21 № 1246690 197

>>1246585
Спасибо за помощь!

Аноним 15/06/25 Вск 17:27:30 № 1246746 198

Хотел карточку с буддизмом найти так сказать. Но что-то пошло не так. Где вообще искать не nsfw тему и не романтику эту и прочую лабуду

Аноним 15/06/25 Вск 17:31:00 № 1246752 199

>>1246746
За не NSFW пиздуй к соннету\гопоте.

Аноним 15/06/25 Вск 17:34:44 № 1246757 200

Существует ли кум который придерживается карточки а не скатывает всё к безликой ебле?

Аноним 15/06/25 Вск 17:35:23 № 1246760 201

Господа, у меня вопрос.
Имеется Ryzen 5 5600X, 2x32 DDR4 3600cl18, 4060 ti 16 и 3060 12.
Если я докуплю 2х32 DDR4 3600cl18 (правда хз, на какой скорости и таймингах 4х32 будет работать, конечно) - я смогу насладиться Qwen235-22, или будет совсем говёный квант и мало токенов и нет смысла заморачиваться?

Аноним 15/06/25 Вск 17:35:24 № 1246761 202

>>1246757
Зависит от качества заполнения карточки, сценария и примеров диалогов.
Ответ - да.

Аноним 15/06/25 Вск 17:37:10 № 1246766 203

У меня чет с хаггинфейса перестало модели скачивать. Просто падает до нуля загрузка спустя секунд 20. Дом ру.

Аноним 15/06/25 Вск 17:37:39 № 1246768 204

>>1246547
>Нет, это зен2
Сорян, опечатался. буквально на соседней вкладке НИКС открыт со спеками, в голове "зен 2 рим", пишу "зен 3", палмфейс.
>Народным назвать сложно из-за высокой цены на комплект
Ну радеоанон вроде сказал 70к, т.е. до сотки мать-проц-память реально уложиться (пока). За 70 так вообще смак, считай цена второй 3090 (которая особо много не даст сама по себе, если только 70б плотнячок не выйдет уровня геммы3). До сотки вариантов ощутимого апгрейда с одной 3090 практически и нет. Еще и старое железо можно продать, если в игорь не играешь и на линуксах все равно сидишь.
Энивей по меркам треда до 100к и много пердолинга - это народно >_<.
>100б там только мое
Такое ощущение что нас из крупных хороших моделей только мое и ждет теперь. Одна из основных причин, почему не хочется для ллм вкидывать сильно больше 100к - непонятно к чему идет, вдруг куртка завтра выпустит "народную коробочку"... (нет).
>без основного расчета на видеокартах будет ужасно медленная обработка промпта и значительные просадки скоростей на контекстах.
>Не достигает квен235 скоростей обычных моделей даже когда на фуллврам.
Как чисто cpu-инференс это мертво, тут из рассчета что уже есть видеокарта. Хочется что то вроде "128ram+3060 и можно запускать квен", только получше, что бы юзабельность была, а не пруф оф концепт. 123б на риге (особенно из не самых свежих карт) тоже 30+т/с не дает насколько понимаю, а все что сильно лучше - это уже профкарты свежие и инфинибэнды, что уже по цене улетает так, что дешевле шлюх и профессоров на дом вызывать, чем с нейронкой шептаться.
> Есть подозрение на хабре байт
Если бы он показал хорошую скорость на квене с пруфами, я бы не в треде, а на авито и алибабе бы сидел.
Уже настолько душу растревожил эпик, что даже немного хочется что бы оказался провалом, тогда с чистой совестью за три копейки можно будет купить 128gb ддр4 в текущий пк, получить заветные 2т/с и порадоваться "у меня есть квен!". А то ведь придется брать.

>>1246554
Печально, так хотелось новый 100б+ геймченджер под гибридный инференс...
>На русском - такое себе
Я хоть сам приверженец русика, но вроде бы их фича в датасете без синтетики, чуть ли не на котором еще ламу первую обучали. И если так, то откуда там русику взяться, чудо что он еще умным кажется. Возможно стоит инглиш-анонам пощупать.

Аноним 15/06/25 Вск 17:39:53 № 1246770 205

>>1246766
это скорее на хф стороне проблемы. он периодически падает в последнее время

Аноним 15/06/25 Вск 17:42:25 № 1246774 206

>>1246766
У меня пару дней назад также не качалось, и с цивита тоже, но через через впн норм качалось, сейчас и без впн качается.

Аноним 15/06/25 Вск 17:44:11 № 1246775 207

Всё таки со времен выхода Cydonia 1.2 прошло много времени и я решил дать шанс третей цидоньке, на тех же карточках что были с 1.2. Я словно а мелкомагнум наступил, она пишет хуже чем 1.2 (да, да, возможно утёнок и вообще охуел уже), она делает тупее обороты, зато быстрее раза в 2, лул.
Мне кажется куда то не туда прогресс идет

Аноним 15/06/25 Вск 17:44:30 № 1246776 208

Я торчок. Зависим от этой хуйни.
Единственный барьер который отделяет меня от полного деграданства это отсутствие русика
Как только русик нагонит текущий англюсик это буден ящик пандоры, буквально

Аноним 15/06/25 Вск 17:46:31 № 1246778 209

>>1246776
Ничего через пару месяцев пересытишься и отпустит.

Аноним 15/06/25 Вск 17:48:16 № 1246779 210

>>1246775
Двачую. Кидонька-Магнум - лучшая из Кидоний, следующие хуже. Там как раз 1.2 и 1.3 версии.

>>1246776
А я переболел. Совсем неинтересно теперь, наблюдаю за развитием ллмок со стороны, сам не использую. Столько свободного времени появилось.

Аноним 15/06/25 Вск 17:58:56 № 1246792 211

>>1246760
это будет совсем говёный квант и мало токенов

Аноним 15/06/25 Вск 18:06:15 № 1246797 212

>>1246555
Ну у них получше, но мне они всё равно не нравятся из-за других аспектов.

Тут дело в том, что 100% такой тюн/мерж мистраля есть, тот же спейс варс, но он жёстко затюнен на фантастику — не подходит. По сути, это просто должен быть почти ванильный мистраль, но который затюнили на книгах или разнообразном слопе, чтобы он мог держать сцены и не зацикливался на фэнтези/сай-фай/

Как итог, либо скачивать 10 моделей и каждую тестить либо спросить. Неужто здесь на мистралях никто не катает, кроме редиарта и дэнс персоналити?

Аноним 15/06/25 Вск 18:12:34 № 1246804 213

>>1246797
> Неужто здесь на мистралях никто не катает, кроме редиарта и дэнс персоналити?
А зачем, когда есть отличные 32б модели, что запускаются на том же железе, что и 24б?

Аноним 15/06/25 Вск 18:21:03 № 1246812 214

>>1246804
>на том же железе
Не всегда, на 12 врам у меня 3-4 токена гемма 27 и 4-6 мистраль 24, а вот 32 уже слишком тяжко.

Погонял Broken-Tutu-24B-Unslop-v2.0 - отличная модель именно для порно-сцен, SFW-рп-прелюдии тоже хороши. Жестяк не отказывается, но очень сухо, модель раскрывается именно в поебушках. А вот если после так сказать, процесса, хочется дальше, лучше подрубить другую - харбингера для фентези или звёздные войны для сайфая.

Аноним 15/06/25 Вск 18:23:36 № 1246816 215

>>1246812
Погонял слоп - отличная модель именно для порно-сцен, SFW-рп-прелюдии тоже хороши. Жестяк не отказывается, но очень сухо, модель раскрывается именно в поебушках. А вот если после так сказать, процесса, хочется дальше, лучше подрубить другую - слоп для фентези или слоп для сайфая.

Такие вот 24б мистральки...

Аноним 15/06/25 Вск 18:24:55 № 1246817 216

А из локального какая то модель может помочь с чертежами? Чтобы рисунок перевести в полноценный чертеж?

Аноним 15/06/25 Вск 18:27:18 № 1246819 217

>>1246760
Попробуй, может что и получится. Лучше, конечно, проц побыстрее и ддр5, но запустить сможешь. UD2 вполне нормальный, не поехавший. Новые кванты на больших моделей нельзя сравнивать как раньше - типа "все, что меньше 4_к_м - мертвое".

Аноним 15/06/25 Вск 18:52:44 № 1246848 218

>>1246804
У меня железо не очень, чтобы в память квены полностью влезли, а во-вторых, эти квены ну реально такие себе. Я разве что глм не катал.

То есть тот же qwq можно юзать, да. Задачи для него есть в рп. Но он не настолько охуенен, чтобы терпеть падение токенов/контекста. Просто модель "на вкус и цвет ". Именно поэтому я вцепился в мистраль, так как знаю, что он тоже может: ванильный справляется лучше файнтюнов в сценариях с общими сценами, то есть нужен просто тюн, который не пережарен.

Но тут мистраль словно для кума у всех исключительно + небольшое количество геммабоев, а остальные вообще хуй знает что гоняют, кроме qwq, глм и файнтюны 32б квена.

Аноним 15/06/25 Вск 19:00:12 № 1246866 219

Почему кобольдыня пересчитывает фулл контекст при имперсонейте?

Аноним 15/06/25 Вск 19:02:04 № 1246869 220

>>1246848
> эти квены ну реально такие себе.
Не соглашусь, но каждому свое.

> Я разве что глм не катал.
Это не Квен. И он довольно легкий, может даже поместится неплохой квант с достаточным контекстом. Но там как и с Квенами нужно нормально понимать модель и направлять ее.

Вот этот попробуй: https://huggingface.co/PocketDoc/Dans-DangerousWinds-V1.1.1-24b
Или этот: https://huggingface.co/SicariusSicariiStuff/Redemption_Wind_24B
Второй точно не пережарен.

> а остальные вообще хуй знает что гоняют
До сих пор сижу на Коммандере, для меня он лучший.

Аноним 15/06/25 Вск 19:04:23 № 1246871 221

>>1246848
Крч, сам вернулся на мистраль. Но у меня на это свои объективные причины.
Но положняк такой - для сложных сценариев с намеками и прочим - тюны геммы. Но абсолютно не пригодные для мрачной мрачноты и кума.
Нейтрал-нейтралычи : серия command-r (включая её слоп тюн)
Специфичные : квеноподелия, где особняком стоит снежный.
Ну и малышки мистрали, которые, по неведомой мне причине становятся только хуже с каждой новой версией.
Но при этом самые быстрые и легко настраиваемые.

Аноним 15/06/25 Вск 19:12:26 № 1246881 222

>>1246768
> считай цена второй 3090 (которая особо много не даст сама по себе
Тут ты фундаментально не прав. Экспириенс от возможности запуска ~70б и более жирных квантов 30 с большими контекстами без его квантования будет лучше, чем пару токенов в секунду на жирном мое. Развивая тему - на двух видюхах с нормальной десктопной платформной оно будет вертеться не хуже, чем на некрозеоне/эпике с единичной гпу.
Так что народность платформы ну очень уж под сомнением, кто хочет побольше - возьмет, но как малобюджетное решение - сомнительно. Гпу ведь можно будет юзать для любых нейронок и не только.
> 123б на риге (особенно из не самых свежих карт) тоже 30+т/с не дает насколько понимаю
10-15 в зависимости от кванта и карточек, это вполне комфортно.
> Как чисто cpu-инференс это мертво
Если не чисто то оно все равно не особо то живое. Это может быть хорошим вариантом базы для рига, но в качестве полумеры как-то слабовато, вторая видюха в готовый приличный комп все еще интереснее.
> из крупных хороших моделей только мое и ждет теперь
Никуда не денутся, если будут соразмерные мое - катать их.
Хз, как-то тоже хотелось, но все эти результаты только разочаровывают.
>>1246797
Как вариант - жонглировать моделями чтобы накопить чат, а там уже будут подхватывать. Хз получится ли подобрать правильный мистраль.

Аноним 15/06/25 Вск 19:38:33 № 1246907 223

Палю лучшую страту для ерп не рассказывайте никому
Пустой чат. Подрубаете стар коммандер 32б, выжимаете из него максимум кума за 10-15 сообщений и свапаетесь на гемму 27б.
Идеальный рецепт

Аноним 15/06/25 Вск 19:45:53 № 1246912 224

>>1246907
Палю лучшую страту для ерп не рассказывайте никому
Пустой чат. Подрубаете стар коммандер 32б, выжимаете из него максимум кума за 10-15 сообщений и свапаетесь на гемму 27б.
Идеальный рецепт

Пофиксил

Аноним 15/06/25 Вск 19:58:22 № 1246926 225

>>1246912
Нет. Он тупой сам по себе, слишком хорни и не может креативно возбудить как гемма покопавшись в карточке и вывалив что то индивидуальное для перса

Аноним 15/06/25 Вск 20:00:10 № 1246929 226

>>1246926
Не испытываю таких проблем. Либо я такой же тупой, как коммандер, либо умею что-то, чего не умеешь ты. Хмхмхм

Аноним 15/06/25 Вск 20:00:24 № 1246930 227

>>1246816
>слоп
а слоп он везде, даже на 235Б

Аноним 15/06/25 Вск 20:01:56 № 1246934 228

>>1246817
это вообще не к текстовым, и скорее всего никакая, так как здесь нужна комбинация Vision-LLM-CAD

Аноним 15/06/25 Вск 20:06:50 № 1246935 229

>>1246929
Куммандер сраный слоп генератор на базе коммандера.

Аноним 15/06/25 Вск 20:14:19 № 1246938 230

>>1246935
Используй базу или лайт версию вместе с хорошей карточкой и не будет проблем

Аноним 15/06/25 Вск 21:06:43 № 1247031 231

>>1246926
Двачую, но большом и сложном контексте превращается в бредогенератор. Если подрезать - девочка после душа обмотанная в одно полотенце обретает сразу несколько трусов, тонкая ткань которых разделяет вас, пропадают ее ключевые атрибуты, но зато откуда-то появляются когти. Ну нахер.
>>1246930
Завались, но среди него проскакивает сияние и интересность.

Аноним 15/06/25 Вск 21:47:51 № 1247108 232

>>1246881
>Экспириенс от возможности запуска ~70б и более жирных квантов 30 с большими контекстами без его квантования будет лучше
Я нюфак, читаю треды где то с 93го только, буквально после выхода геммы3 залетел. Золотая эра треда пропущена, эпоха ригов из говнотесел по 12к ушла, последние 40 тредов (кажется много, но скорость постинга на борде выросла) расклад примерно:
- умеренные кумеры без устали просеивают тонны миксов и базовых моделях на свои 16-32гб врам в поисках бриллианта
- врамцелы безвыходно пожирают 12б сайгослоп
- олды-врамбояре молча катают любимые модели, включая 123б, тестят 235б квен, от скуки спускаются на 12б пробуют новые 24-32б в поисках нового слопа слога, а так же время от времени пересобирая всякую гематрию из пучка тесел, радеонов, райзеров, ктрансформеров и немотрона двух соединенных матплат.

Новых 70б при мне не выходило (разве что ллама, которую обоссали натурально все), старые уже обсужены-пересужены, даже обсуждений на миксы 70б не было.
Поэтому сложилось полное впечатление что 70б хорошо, но не так хорошо, что бы покупать за 60к вторую карту (а тут еще и exl3 вроде как на амперы уже косо посматривает).

Ну и психологический момент имеет место быть, одну дорогую карту купить проще (ну там игори, вход в нейронки), чем вторую (только нейронки, и то в основном ллм - ну и картинкогенератор пошустрее запускать, без прироста в качестве).

В то время как покупка говноэпика за 70-80к реально открывает что то новое - да, мое, но уже 200+ против 32b. Не так быстро как хотелось бы, но уже без чувства неполноценности перед корпами, даже кроме кума что то поделать можно. И 32б шустрые никуда не уйдут. И потанцевал роста есть - в случае необходимости можно добить видеокарт под настоящий риг, получив нейромонстра без болей от нехватки линий. Но в то же время если куртка выкатит дешевую нейрокоробку или ничего кроме мое не будут делать - не будешь так обтекать, как купив сразу риг за 300+к.
А еще шиза шепчет "будет полноценный дипсик на случай чебурнета/БП! Бери!"

>10-15 в зависимости от кванта и карточек
Если на эпике толстый квен даст экспириенс как эти 10т/с - то надо брать. Но я не юзал никогда локально мое, если там даже 40т/с будет, но обработка 15к контекста каждое новое сообщение будет минут по 15 сьедать перед началом стриминга - то это мертво, согласен.

PS - если не лень и хочешь меня все таки на светлую сторону повернуть - ткни прямо в ггуф хорошей 70б, потыкаю на жоре с выгрузкой и мелкоконтекстом.

Аноним 15/06/25 Вск 22:38:53 № 1247152 233

>>1247108
В целом, все так как описал.

На самом деле по 70 тоже мелькают модели. Просто тут особенно обсуждать нечего, кто-то похвалил, другой согласился или высказал фи и все. Кто может довольно purrs выбирая из ассортимента. Из прям прорывных событий кажется что на квен 235, но ощущения что на него перебралось 3.5 человека.
Из 70 что не ушатаны в хлам с ходу вспоминаются EVA-Qwen2.5, Vulpecula-r1. Можно чекнуть от слоподелов регулярные продукты с восторженными отзывами, но это нужно прямо тестировать. Просто заниматься этим при наличии следующего уровня - лень, и вовсе не потому что они плохие. И как бы не были круты 30 - в 70 жизнь есть, тем более что для норм 30 хочется иметь больше 24 гигов.
> покупка говноэпика за 70-80к реально открывает что то новое
Не то чтобы совсем с тобой не соглашусь, но блин. Это получится исполнение желания от злого джина, особенно если увлечешься. Тот же квен может держать ебическое рп с ахуевшей историей насыщенных событий, часть из которых упакована в специальный суммарайз, размер которого как раз будет твои 15к токенов. С приключениями, рофлами, расчлененкой, нежностью, кумом, постепенным развитием и т.д. Если зайдет - тебе захочется это делать, но все будет разбиваться о ужасное затыквливание на контексте, которое помножит фрустрацию вместо просто понимания и свайпа. В итоге разочаруешься и начнешь ныть что все модели уг, или будешь терпеть и грустить.
А купив вместо той платформы просто вторую видюху и рама в десктоп на сдачу - сможешь точно также прикоснуться к квену, но сохранится план б в виде 70 или жирных 30 с контекстом. А там уже - еще одна видюха и быстрый инфиренс совсем рядом.
> Если на эпике толстый квен даст экспириенс как эти 10т/с
Выше анончики приносили тесты. Разница между старым десктопом на ддр4 с двумя гпу и некроэпиком с одной в токенах - ну хуй знает. На старом ддр4 и епуке при близких видеокартах - невелика. Если там ддр5 - тут уже не ясно кто кого, если слоты офк не зарешают.

Кароч сам думай, эпик видится норм если брать сразу под риг, а не в качестве чего-то "народного".

Аноним 15/06/25 Вск 22:47:22 № 1247162 234

Просто забавное наблюдение: При RP Gemma "считает" игрока априори человеком. Вся ее хваленная внимательность к деталям не помогает ни капли. Ни официальная версия, и синтия, нихрена не врубаются, если игрок заявлен какой-нить кракозяброй. Написал себе аватара - этакого классического тентакля из хентая. Гемма все равно пишет "пошел", "взял в руки" - чего блин? Может мне еще и бриться надо? :)

Запустил с этим же сеттингом новую туту-шку - с лету врубилась. "Ползешь", "тянешь щупальце" и т.д.

Аноним 15/06/25 Вск 22:56:04 № 1247166 235

>>1247152
> Кароч сам думай, эпик видится норм если брать сразу под риг, а не в качестве чего-то "народного".
удваиваю етого
алсо надо в базу треда >>1244397 добавить, что меньше 8 каналов DDR4 жизни нет

Аноним 15/06/25 Вск 23:00:12 № 1247167 236

>>1247162
Доставь для нее пресет, плиз. Тк что на страниые модели вообще кривые какие-то и уже на третьем сообщении несет шизу

Аноним 15/06/25 Вск 23:13:49 № 1247184 237

Видел тут как у кого-то think скрыт, вот как на пикриле, только его можно открывать и закрывать. Как также сделать?

Аноним 15/06/25 Вск 23:48:50 № 1247243 238

Чёт думал, что уже не удивят ллм, а смогли. Сидел, никого не трогал, с ассистенто-промтом сводил большой контекст в что-то более обозримое, чтобы потом продолжать. И тут он предлагает: хочешь подберу ОСТ под ето вот всё. Ну я соглы, давай. И внезапно он выдаёт авторов, подходящих на 200%. Причём удивляют и те, которых я знаю (~30%) - как раз слушал их когда-то в сумрачном состоянии сознания. Но ведь в этой сессии ассистент ничего про мои вкусы не знает, вообще про музыку не говорили. А остальные - почти все прекрасно зашли. И сам бы я таких вообще бы никогда не нашёл.

Очень хороший день. Даже специально посвайпал ответ несколько раз, насобирал подборку побольше. Можно и так, оказывается, использовать.

Ну, не всё идеально: часто композиции не совсем правильно названы. Но уже наличие автора позволяет дальше отталкиваться. Потому что стиль обычно постоянен. И это всё - простой советско-крестьянский UD2!

Аноним 15/06/25 Вск 23:53:00 № 1247255 239

>>1247184
Хммм... Как же... Как же это сделать
Вот бы была кнопочка отвечавшая за раскрытие блока, да еще такая - подписанная. Хммм.... Жаль что такого не предусмотрено в интерфейсе.

Аноним 15/06/25 Вск 23:59:21 № 1247270 240

>>1247243
235? Пикрел. Это ведь можно накинуть доп запрос и автоматизировать, или заставить ее писать промпты для генерации фонового саундтрека еще бы было чем их делать.

Хотя после того как оно написало стихи с рифмой и мемчиками, дало объемный и качественный ответ по техническому вопросу лучше чем сонет, переписало код трейнера по примерам не хуже последнего, смогло в кум с канничкой - уже мало что удивляет.
Ты как-нибудь смог подебить деградацию структуры ответов на долгих чатах и влияние этого на реплики персонажа? Очень мощный эффект если некоторые части инструкции поставить префилом в синкинг блок, но теряется гибкость и они бывают слишком сильны.

Аноним 16/06/25 Пнд 00:45:57 № 1247335 241

Почему гемма не понимает формулировки "нюхать пердеж матерых зеков"?
И это ваш топ русик на рынке?

Аноним 16/06/25 Пнд 00:45:59 № 1247336 242

Я преисполнился, даже инференс не жму для кума, так чисто стартовое сообщение карточки открою и лениво погоняю. и хватает

Аноним 16/06/25 Пнд 00:47:51 № 1247339 243

>>1247335

Аноним 16/06/25 Пнд 01:10:14 № 1247355 244

>>1247152
>EVA-Qwen2.5, Vulpecula-r1
Это прям вин-гем что бы понять насколько 70b доминируют над 32b, или просто тюны которые не срут под себя сразу же? Понимаю что много прошу, но думал ты скинешь что то виновое (пускай и не первой свежести), после которого захочется вторую 3090 купить, а не свичить мистраль24-куммандер32, как сейчас делаю. Но все равно спасибо, попробую запустить на 3090+32RAM, благо попробовать - бесплатно.
>Просто заниматься этим при наличии следующего уровня - лень
This. Такое ощущение что 70b нахрен никому не упали, потому что железо требуют, годноты не было давно (а сейчас темпы развития llm бешеные, что еще больше сокращает разницу между несвежим 70б и свежим 27-32б), и консервативным достаточно 32б, а энтузиасты взяли уровень выше. Вторая 24гб видюха - довольно серьезный шаг на фоне мизерного прироста. Да, может лучше во всем, не спорю - но когда железо уже есть, и ты обмазан темой с ног до головы. Год назад думаю смысла во второй 3090 было куда больше, чем сейчас. Сейчас или большой дорогой риг, или гибридный инференс, или пердеть на 24гб "топ за свои деньги".
Хотя если попробую и прям понравиться, возьму свои слова назад и побегу за 4090 к текущей 3090.
>эпик видится норм если брать сразу под риг, а не в качестве чего-то "народного".
Наверное у меня просто искажено понятие "народное", народное это 12-24б мистраль. В моем понятии это "бест-опенсорц из говна и палок". Т.к. я говнокодер-нейроэнтузиаст, при этом локалошиз, и еще и на жилье заработать нужно (что режет покупательскую психологическую способность сильно). Так вот, если я пойму что топ-нейронки приносят мне пользу, но от скорости бугурт - тогда можно как раз и риг подсобрать уже взрослый, или вообще какую нибудь дрянь на mellanox прошлых поколений, или выкинуть на авито за полцены и в монастырь уйти.
А консьюмерское железо с дыдыры5 не выглядит привлекательным особо, в игорь некогда, дипсик даже не 5т/с, а 0,5 и в плохом кванте из-за RAM, под риг подходит слабо. Больше про кейс "кум+игорь+пощупать квен для галочки".
>Кароч сам думай
А что думать, ждем когда эпикобоярин 4060 купит и фидбек даст _/\_.

>>1247243
>>1247270
Как же вы байтите корпоэкспириенсом, крутящимся дома под столом...

>>1247335
Мы тоже не понимаем, и еще не понимаем ты как с аицга сбежал.

Аноним 16/06/25 Пнд 01:22:13 № 1247357 245

>>1247243
>большой контекст
>UD2
А напомни/расскажи пожалуйста на чем крутишь по железу и какие скорости на пустом/на контексте? Друг спрашивает.

Аноним 16/06/25 Пнд 02:06:24 № 1247381 246

>>1247355
> вин-гем что бы понять насколько 70b доминируют над 32b
Если хочешь вин-гем с порога - возьми какой-нибудь самый слоповый 12/24б васянтюн мистраля. С первого сообщения обдаст отборным слопищем, зато каким подробным и насыщенным, шишка встанет и пойдешь стены малафить.

Разница же будет когда вместо каких-нибудь мемчиков с гоблинами или волками оно сможет отыграть достаточно уникальный сценарий по хотелкам. Подхватит карточку не натягивая на стереотипы, а подтянув соответствующие тематике знания и сможет ювелирно вплести потустороннее в современность и т.д. Долго можно перечислять, если в двух словах - естественное и натуральное повествование, которое понимает тебя и развивается, а не тупняк с неуместными ассоциациями, с которого ловишь кринж. И кум на больших отличный, когда в выдачу добавляются актуальные детали окружения, персонажа и повествование подстраивается под контекст - уже не триггерит с бездушной шаблонности.
Современные тридцатки, про которых с год назад говорили что их больше не будет, сейчас тоже стараются. Но того же внимания все равно не могут обеспечить, стараясь брать другим.
> Понимаю что много прошу, но думал ты скинешь
Не скину потому что уже давно их юзал и за новыми не слежу. Квен235 и пара тюнов ларджа настолько перекрывают все хотелки, что накатывает уныние даже от самой мысли рыться. Выйдет новинка или кто-то в треде активно будет нахваливать - тогда можно будет попробовать что-то.
> Вторая 24гб видюха - довольно серьезный шаг на фоне мизерного прироста.
Упускаешь тейк про то, что эпикоплатформа - точно такой же мизер на фоне куда больших усилий. Дипсик, даже если он реально будет 5т/с что вполне возможно там, не нужен. Из-за его ризонинга это ужасно медленно и первых токенов будешь ждать по 3-5-10-20 минут. В рп с ризонингом там случается описанный мемный кринж, без ризонинга он вялый а не выделяется на фоне тех же 30 в отличии от квена, который прекрасно перформит.
Офк это лишь мнение, но когда получишь возможность его использовать - сразу вспомнишь.
При этом, вторая гпу даст не только 70, но и много других плюшек.

Да, главный итог здесь - покупай что угодно, хоть теслы, хоть эпик, хоть пачку блеквеллов, обмазывайся и довольно урчи. Вместо мучительных рассуждений годами о том, что оптимально а что нет.

Аноним 16/06/25 Пнд 02:54:59 № 1247386 247

Попробовал tensor override, выгрузил половину ffn_up/down и весь gate на cpu, но чот он вообще перестал юзать gpu. То есть, память загружена, все 32гб vram, но почему-то все вычисления идут на cpu. Как думаете в чем проблема?
Использовал llama-server с qwen235b в UD q2
Вот такие аргументы и параметры:
--batch-size 1024 -ts 50/50 -fa -ngl 100 --no-mmap --mlock --override-tensor '([0-9]+).ffn_gate=CPU' -ot '([0-5]+).ffn_up=CPU' -ot '([0-5]+).ffn_down=CPU'
32гб видеопамяти и 128гб оперативной.

Аноним 16/06/25 Пнд 03:04:43 № 1247387 248

>>1247386
Какие скорости? Два варианта: или из-за малой доли вычислений на гпу основное время она простаивает, ожидая работы процессора, или же ты превысил объем врам и та пошла выгружаться, все сильно замедляя. Возможно и то и другое вместе.

Аноним 16/06/25 Пнд 03:09:49 № 1247388 249

>>1247387
Точно не проблема с превышением видеопамяти, так как он бы сразу выбил ошибку, что не смог распределить.
Скорости: препроцессинг 5 токенов, генерация 1.5-2 токена. Процессор e5-2650

Аноним 16/06/25 Пнд 03:15:00 № 1247389 250

>>1247387
Но видать ты прав, что просто процессор настолько медленно работает, что видюшки просто чилят. Ибо бывают проскакивают на пару секунд вычисления на гпу. Попробовал еще не первую, а вторую половину тензоров выгрузить, эффекта никакого. Видать пока не смогу распробовать чудо-квен. Ведь нет варианта производить вычисления на гпу, а ram использовать как некий буфер и туда сюда гонять из оперативной памяти в vram, чтобы на видеокарте только вычисления производились?

Аноним 16/06/25 Пнд 03:41:01 № 1247393 251

>>1247386
>Вот такие аргументы и параметры:
-ts 50/50 - разве так можно? Формат же пропорции через запятую. Но в любом случае нужно распределять тензоры для каждого устройства. И нет смысла делить их по типам - просто по порядку все тензоры слоя, сколько влезет.

Аноним 16/06/25 Пнд 03:50:38 № 1247394 252

>>1247393
>-ts 50/50 - разве так можно
Почему-то сервер у меня ток так принял пропорции распределения
>И нет смысла делить их по типам
Я так сделал потому что дипсик сказал, что gate наименее затратный по вычислениям. Плюс так больше других частей слоев выгрузил, 40% up/down.
>любом случае нужно распределять тензоры для каждого устройства
наверное, не буду об этом запариваться раз все равно узкое место cpu, причем настолько, что кажется будто видеокарты в простое.

Аноним 16/06/25 Пнд 04:02:34 № 1247396 253

>>1247394
>дипсик сказал
А я тебе говорю, что так результат хуже. И тензор сплит делать не надо - похоже, что это оверрайду мешает. Хороший результат получит можно, главное не упорствовать с своих ошибках.

Аноним 16/06/25 Пнд 04:16:20 № 1247401 254

>>1247396
Та я и не упорствую, просто говорю как делал. Понимаю, что обсерается и дипсик, и я, делающий по указке, дважды.
Ты предлагаешь убрать сплит полностью и вручную указать слои для каждой видеокарты? Например: -ot '([4-6]+).ffn_down_=GPU0' -ot '([7-9]+).ffn_down_=GPU1'
-ot '([0-4]+).ffn_gate_=GPU0' -ot '([5-9]+).ffn_gate_=GPU1'
-ot '([4-6]+).ffn_up_=GPU0' -ot '([7-9]+).ffn_up_=GPU1'

Аноним 16/06/25 Пнд 04:25:44 № 1247404 255

>>1247396
>>1247401
Попробовал, используя параметры:
--batch-size 1024 -fa -ngl 100 --no-mmap --mlock --override-tensor '([0-9]+).ffn_gate_=CPU'
-ot '([4-9]+).ffn_up_=CPU'
-ot '([4-9]+).ffn_down_*=CPU'
-ot '([4-6]+).ffn_down_=ROCm0'
-ot '([7-9]+).ffn_down_=ROCm1'
-ot '([0-4]+).ffn_gate_=ROCm0'
-ot '([5-9]+).ffn_gate_=ROCm1'
-ot '([4-6]+).ffn_up_=ROCm0'
-ot '([7-9]+).ffn_up_=ROCm1
Вот заполнение памяти какое:
load_tensors: offloading 94 repeating layers to GPU
load_tensors: offloading output layer to GPU
load_tensors: offloaded 95/95 layers to GPU
load_tensors: ROCm0 model buffer size = 13800.30 MiB
load_tensors: ROCm1 model buffer size = 14289.60 MiB
load_tensors: CPU model buffer size = 55841.84 MiB
Скорость осталась без изменений каких-либо.Просто моделька ну уж слишком жирная для меня

Аноним 16/06/25 Пнд 04:53:34 № 1247413 256

Тоже сегодня пердолился несколько часов с переводом на цпу тензоров вместо слоев, по итогу получилось на 24б модели Q4_K_S c 24к(8bit) контекста 5.5 т/с. У меня 8гб врам всего. Надо потом еще будет i-квант попробовать, может даже лучше будет.
Похоже что покупка 3090 с лохито откладывается.

Аноним 16/06/25 Пнд 05:20:47 № 1247425 257

>>1247270
> 235
Д.

> подебить деградацию структуры ответов на долгих чатах
Ага. Но метод тебе возможно не понравится. Я сразу в рп вырубаю синкинг. Хотя в остальных задачах пользуюсь с огромным удовольствием им.

>>1247355
> крутящимся дома под столом
Почему сразу "под"? На!

>>1247357
> на чем крутишь по железу и какие скорости на пустом/на контексте? Друг спрашивает.
i7 14th, 3090 + 4090 в узких слотах, 5090 в широком, скорости тухлые из-за части на проце, который с ддр4: 170/12 => 150/7 (17к). Может выжать чуть больше на пустом квантанув контекст на q_8, но на большом контексте это выйдет боком и более сильным торможением. Другу привет

>>1247393
> Но в любом случае нужно распределять тензоры для каждого устройства
Да нет же. Совсем не обязательно. Вот типичные ключи запуска, вручную ничего не делится.

-fa --prio 2 --mlock --no-mmap -c 32768 --batch-size 512 -ts 48,48,48 -ot "blk\.(3[7-9]|[4-9][0-9])\.ffn_up_exps\.=CPU" -ngl 99 --threads 27 --host 0.0.0.0 --port 5000
(выгружать все слои ffn_up_exps начиная с 37)

>>1247404
У тебя похоже из-за амд это. Иначе непонятно совсем.

Аноним 16/06/25 Пнд 07:41:00 № 1247448 258

>>1247031
>проскакивает сияние и интересность
дак оно и на 8-12б проскакивает

Аноним 16/06/25 Пнд 07:47:30 № 1247451 259

>>1247167
https://pixeldrain.com/u/EjBvbC61 Broken-Tutu-24B-Unslop-v2.0.json

Аноним 16/06/25 Пнд 08:21:04 № 1247455 260

>>1247451
Спасибо, но и с ним какой то кал вместо ответов. Я ьрал ггуф к6 со страницы модели, а ты?

Аноним 16/06/25 Пнд 08:33:14 № 1247457 261

>>1247381
А какие есть современные тридцатки? Сижу на сноудропе пол года, лучше вариантов не видел.

Аноним 16/06/25 Пнд 08:41:06 № 1247460 262

Нахуй вы дрочите на цпу, когда проще купить 5060ти с 16гб и кайфовать

Аноним 16/06/25 Пнд 08:54:22 № 1247463 263

>>1247455
Блин, я глупенький. Я думал что тыкаю сломанную туту 24в анслоп, а на самом деле сломанную туту глм 32б!

Аноним 16/06/25 Пнд 08:59:12 № 1247464 264

На Авито начал щамечать 4060ти 16гб дешевле 40к. К осени, я надеюсь, цены упадут до 35к. Связи с этим вопрос. Насколько имеет чмысл покупать ее? Поставить парой к своей 4070ти супер.

Аноним 16/06/25 Пнд 09:15:05 № 1247476 265

>>1247464
Сороковки тыквят дровами. Есть смысл или перекатываться на актуальное, либо ждать следующего поколения.
А вообще я бы целился на А6000. В прицнипе 5к бачинских не такая уж и неподъёмная сумма

Аноним 16/06/25 Пнд 09:41:55 № 1247486 266

>>1247476
> А вообще я бы целился на А6000. В прицнипе 5к бачинских не такая уж и неподъёмная сумма
Я за эту цену себе виниры уж поставлю.
инб4 не хватит, лол

Аноним 16/06/25 Пнд 09:43:03 № 1247487 267

>>1247476
Согласен, но лучше сразу 4 или 5 таких взять. В целом есть чуть ужаться и не покупать тыквенный латтте и маффин по утрам, то можно купить их на одну зарплату в регионе.

Аноним 16/06/25 Пнд 09:44:15 № 1247488 268

>>1247460
Нахуй вы дрочите на буквы, когда проще купить тню с с+ и кайфовать

Аноним 16/06/25 Пнд 10:00:12 № 1247492 269

>>1246429
>Редиарт — кумо-кал
Broken-Tutu-24B-Unslop-v2.0.Q4_K_M.gguf охуена. говорю как перепробовавший все сорта ~~говна~~ мистраля 22/24
я её качал ничего от неё не ожидая, но она охуена. внимательная и разнообразная, и мистрльслоп почти незаметен

Аноним 16/06/25 Пнд 10:15:41 № 1247500 270

>>1247167
>>1247451
>>1247455
Ответ с пресетом был не от меня, но я его глянул - промпт там такой, что иного ожидать сложно, IMHO. Для модели и так повышенной ебливости он еще и заостряет на этом внимание. Результат немного предсказуем.
От меня пресет если и будет, то сильно позже. Пока еще эксперименты ставлю, выясняю до конца "характер" на разных сценариях. У меня i1-Q4-K-M, как уже писал - хватает.

Аноним 16/06/25 Пнд 10:53:29 № 1247532 271

>>1247476
> А6000.
> 5к бачинских
но зачем, когда есть 4090 48GB от брата Ляо?

Аноним 16/06/25 Пнд 11:03:21 № 1247545 272

>>1247381
>самый слоповый 12/24б васянтюн мистраля
Этого есть у нас!
>слопищем, зато каким подробным и насыщенным, шишка встанет и пойдешь стены малафить.
>добавляются детали окружения, персонажа и подстраивается под контекст - уже не триггерит с шаблонности и кринжа
Вот тут видимо у меня какая то особая атмосфера, т.к. у меня вообще не получается малафить на слоп (и в целом на ллм, тут скорее интерес). Не знаю каким образом, в чтении порнофанфиков особо не замечен, но то ли мозг сразу подмечает паттерны, то ли просто когда есть отношач ирл, все эти "томно дышит в ухо" воспринимаются как хуйня для школьников. У меня в среднем ебанутый рп геймплей, когда я swf карточку рпшу, довожу до секса, и как начинается "она закинула ногу за тебя" - дропаю, т.к. и описывать "я тебя ебу" кринжово, и читать шаблонный высер нейросетки не интересно. А чистые nsfw карточки вообще не понимаю как юзать, после двух сообщений затапливает кринжем.
Мб если сетка умная, и там можно отыграть реально странный, недоступный в ирл сценарий с нюансами, без двукратного снятия штанов - шишка встанет, но как правило чем ближе к сексу - тем больше свайпов, что бы нащупать хоть что то контекстно-близкое, а не "она чут чут укусила, они поебалися, малафья полилася, как я жила раньше без тебя мой сыч".
>Дипсик, даже если он реально будет 5т/с что вполне возможно там, не нужен
Для рп и кума думаю да, но иногда просто хочется пообсуждать с нейронкой всякие технические гипотезы или попросить написать говноскрипт, а к корпам не хочется. Вот тут вполне ок кейс, написать промт и пойти чай пить, пускай калькулирует.
>Вместо мучительных рассуждений годами о том, что оптимально а что нет.
Психологический зажим какашечки из-за отсутствия своего жилья слишком силен, что бы пойти и брать без задней мысли. Я вообще думал сначала 3090 отжать до капли, прежде чем шагать дальше, но эпикоанон уж слишком забайтил дипсиком за 70к. Хочу посмотреть чего он добьется.

>>1247425
>80vram + ddr4 2ch, 150/7ts on 17k context
Более чем. Друг велел передать спасибо.
Интересно было бы сравнить с конфигами
[эпик | консьюмер-ддр4 | консьюмер-ддр5] + 3090 + [3090|4060|4060+4060] в разных комбинациях.

Аноним 16/06/25 Пнд 11:20:44 № 1247552 273

>>1247388
> Процессор e5-2650
>>1247389
Ддр3 без avx? Тогда это норма, увы.
> нет варианта производить вычисления на гпу, а ram использовать как некий буфер
Такое возможно для каких-то больших батчей и прочего, но здесь идет последовательная генерация и все упрется в псп шины, будет не быстрее.
>>1247425
> Но метод тебе возможно не понравится.
> Я сразу в рп вырубаю синкинг.
База, по ощущениям в рп без него лучше, иначе может слишком чрезмерно зацикливаться на всяком. Но взамен иногда как обдаст
> For a long moment, she didn’t speak—didn’t tease, didn’t challenge, didn’t retreat behind the protective veil of sarcasm and distance.
а то и вообще ньюлайнами, и сидишь обтекаешь.
>>1247448
Непрерывный яркий свет vs отблески в осколках. Офк от сценария зависит.

Аноним 16/06/25 Пнд 11:28:32 № 1247556 274

image.png 33Кб, 649x180

>>1247552
>Ддр3 без avx? Тогда это норма, увы
Не, ддр4 но на 2133 частоте
Вот думаю туда пихнуть e5-2699 если цена вкусная будет, у него ядрышек поболе, не знаю поможет ли. Просто Видно что все 10 ядер у этого забиты (выключен ht) при работе на 98%

Аноним 16/06/25 Пнд 12:24:17 № 1247577 275

>>1247556
попробуй включить ht, Иван

Аноним 16/06/25 Пнд 12:30:40 № 1247579 276

>>1247577
Где-то читал, что ток хуже с ним. Так-то я его ток сегодня выключил. Реально с ним лучше думаешь?

Аноним 16/06/25 Пнд 12:34:51 № 1247582 277

>>1247579
у амд хуже, у интела может быть лучше.

Аноним 16/06/25 Пнд 12:36:22 № 1247583 278

Погромисты-кодировщики не перевелись еще из треда? С базой рп-кума все понятно, а вот с кодом сложнее.

Используете ли локальные модели для работы с кодом? Если да, то какие и для каких именно задач?

Разумеется, я понимаю, что локальным моделям не сравниться с корпами. Но я слишком не хочу связываться с корпами и гоняю все локально.

У меня 24 гб видеопамяти, задача - помощь в освоении нового стека (вопросы по языку, по стандартным библиотекам); работа в рамках одного метода (поиск бага или оптимизация); работа в рамках одного класса или интерфейса (поиск более оптимального паттерна, оптимизация). Кандидаты: Devstral, GLM-4, Qwen 3 32. Вот потыкался я немного во все из этого и не могу точно сказать, что мне нравится больше. Но меньше всего мне нравится Qwen 3 32. Потому что он жирный и я не могу уместить приличный квант + контекст, конечно же. А еще потому что GLM-4 и Devstral как будто справляются лучше.

Использовали ли вы что-нибудь из перечисленного и какие впечатления? Бенчмарк Aider https://aider.chat/docs/leaderboards/ показывает 40% completion rate с Qwen 3 32,что вообще-то ну нихуя себе! Дышит в спину корпам. Но я этому бенчмарку не верю, хотя допускаю, что у меня руки из жопы.

Аноним 16/06/25 Пнд 12:50:11 № 1247589 279

>>1247583
Я с cline запускал всякую qwen мелочь или qwen3 30b, 14, на крайняк крутил qwen2|3 32b coder
Ну и все это в таверне, там еще удобнее мне например.

qwen в этом деле топ, glm-4 помню хвалили в работе с веб кодом
Локалки хороши в кодревью и вобще анализе кода и его кусков, как помощники если ты хочешь что то сделать но не знаешь или забыл.
То есть они идеальны как дополнители твоих знаний как раз на краю твоих знаний, и учится с ними так же легко.

А вот если ты выходишь за границы своих знаний и занимаешься вайбкодингом то там нужно уже тыкать большие копросетки. За тебя без твоих каких то базовых знаний и понимания локалки плохо пишут код.

Аноним 16/06/25 Пнд 13:37:01 № 1247608 280

>>1247545
Ну типа что на мелкомистрале, что на чем-то большом в начале может быть норм, но если подольше поговорить с чаром и поспрашивать что-то, то одни будут давать странную несуразицу или шаблоны, а другие стараться как-то все обыграть и состыковать. В куме сейм, одни будут тащить шаблоны и просто дефолтную еблю вплоть до фейлов с размерами и фигурой, другие надергают из атрибутов и контекста всякого, и сам процесс будет разнообразнее. Еще если долгий чат то оно неплохо подмечает твою реакцию и будет толкать что нравится, больше акцентируя. Офк для этого нужно будет какое-то участие, а не да@нет@хватает за бедро. Чсх, если заложенный слоп попадает под настроение или просто удачно совпадает - будешь с радостью его читать и просить еще.
Двойные трусы и подобное где угодно могут случиться, свайпаешь и норм. Другое дело когда они не редкое рофловое событие, а в каждом свайпе, вот тут уже пиздец.
> Вот тут вполне ок кейс
Учитывай что в сложных задачах может быть ризонинг на 10-15к токенов, а в ответе явный провал.
>>1247556
> ддр4 но на 2133 частоте
После тех цифр что ты скинул должна идти буква v и цифра, например e5-2650v4. Без них диапазон железок оче широк.
> Видно что все 10 ядер у этого забиты
Эти попугаи завесят от используемой методики замеров. Если проц не совсем дно, то там упор идет прежде всего в псп рам. Включать/выключать хт попробуй офк, но это может оказаться плацебо.

Аноним 16/06/25 Пнд 13:41:22 № 1247614 281

https://huggingface.co/Aleteian/TerraIncognita-24B

Как оказалось, можно в колабе мержить, по крайней мере две за раз вывозит на бесплатном TPU-конфиге. И главное, влезают на виртуальный хард.

Оно даже работает и не ломается, на русском.
Формат ChatML даёт безграничный полёт фантазии до предела аутпута в токенах (у меня 1024), Мистраль-Теккен делает более управляемой и внимательной к промту такое ощущение.

Мб позже снова покопаюсь в сортах 24B мистралей.

Аноним 16/06/25 Пнд 13:47:15 № 1247617 282

>>1247614
Я не кусаюсь... Только если ты не попросишь. Она подмигивает.

ААААААААААААААААААААААААААААААААААААААА!

Аноним 16/06/25 Пнд 13:49:45 № 1247620 283

>>1247617
Мистраль во всей своей красе.
Хотя если ты смотрел аниме из которого этот персонаж, то понимаешь, что это вполне в её характере, она шоту и не так домогалась.

Аноним 16/06/25 Пнд 13:51:17 № 1247623 284

>>1247620
> Хотя если ты смотрел аниме из которого этот персонаж
Поставь любого другого персонажа, и он сделает то же самое. В этом проблема.

Как вы на этом играете?

Аноним 16/06/25 Пнд 13:52:39 № 1247624 285

>>1247623
тёмное божество на английском со второго фрейма же не сделала

Аноним 16/06/25 Пнд 13:54:15 № 1247625 286

>>1247624
Сделает через пару-тройку сообщений, когда контекст будет подходящий, не переживай.

Аноним 16/06/25 Пнд 13:56:13 № 1247628 287

>>1247413
>с переводом на цпу тензоров вместо слоев
Расскажи по подробнее, тоже стал заниматься похожим, а если быть точным пробовать большие модели.. Значит при 6гб врам и 16гб рам, у меня 12b q6 = 5\6.5 т\с. С = 8192 и 16384 И вот вчера гемму 27б Q3_K_S запускал, давала 3.5 т\с при С =- 4096, хотелось бы побыстрее, расскажи что и как делал

Аноним 16/06/25 Пнд 14:00:33 № 1247632 288

>>1247614
это пиздец, меня на английском-то тошнит от такого ужасного слопа, а здесь на русском. просто отвратительно

Аноним 16/06/25 Пнд 14:11:20 № 1247645 289

Итак. В силу того, что в одном горячо мною любимом треде тематики завелся шиз со своими ахуительными мнениями, пришла мне в голову идея при помощи нейронок вычислять его посты.
И тут вопрос - какая минимальна модель поймет контекст слов? Можно ли будет задействовать гемма-3-1б? Или лучше 4б?

Аноним 16/06/25 Пнд 14:12:07 № 1247646 290

И как вообще парсить двощ? Меня не забанят за это?

Аноним 16/06/25 Пнд 14:13:36 № 1247648 291

>>1247645
> завелся шиз со своими ахуительными мнениями
> пришла мне в голову идея при помощи нейронок вычислять его посты.
А ты не очень умный, да?

Аноним 16/06/25 Пнд 14:14:02 № 1247649 292

>>1247577
>>1247579
>>1247582
На самом деле - очень ситуативно. Т.к. генерация - это такой специфический вид задачи, где именно вычислительная нагрузка на процессор, в общем, не особо велика - там больше примитивные операции сравнения. Это тупо многократный перебор всего объема памяти в котором лежит модель. Чем больше скорость доступа к этой памяти - тем шустрее генерация. Но при этом - оно хорошо параллелится. Потому однозначной серебрянной пули по железу и настройкам не получается, но общая задача - получить масимальную скорость перебора некоего объема памяти. Это может быть получено "в лоб" - подъемом скорости шины, может быть решено количество каналов, И т.д.
Главное - чтобы процессор успевал прожевать тот объем, который на него льется. Например, на i5-8400 паспортные данные для шины - 41Gb/s, dual channel. При генерации на процессоре, что 5 ядер ставь, что 3 - разницы никакой. А если 6 выставить - еще и медленнее получается на 15-20%. Потому, что вот эти самые 41GB - это предел. Если квант модели весит 14GB - это 41/14 ~ 2.9 t/s, и больше вы от него, хоть умри, не получите. Исключение - MOE, которая тем и берет,что не весь объем памяти перелопачивает каждый цикл. Точно так же, можно посчитать и возможный предел, если часть модели на видяхе. Т.к. все упрется в ту часть, которая осталась на процессоре.
Меньше получить - это сколько угодно. А вот выше - увы.

Потому, смотрим что получится в разных вариантах. Узким местом будет самый медленный результат из полученных.
Вот скажем у меня - было 12GB памяти на 3060 (это 320Gb/s) остальное на процессоре. Удавалось выгрузить туда примерно 9GB модели (остальное кеш) - 320/9 ~ 35 токенов. (Кстати exl2 на 12B которые влазят целиком занимая видеопамять - примерно столько и дают).
На проц оставалось 14-9 ~ 7GB. Это 41/7 ~ 5.8 t/s (! узкое место). Так оно и есть - на практике было 4-5 токенов (после всех оптимизаций).

Добавил вторую карту - p104-100 - еще 8GB. Скорость памяти у нее такая же как у 3060. Модель теперь влазит целиком. Считаем: 320/14 = 22t/s. На практике - хуже, т.к. часть скорости жрет PCI-E использующаяся для согласования генерации. Но свои 15-18 t/s. я от них получаю, если это простая мистраль. В случае Gemma3 - там архитектура сложнее, перебора больше, и эти финальные циферки делятся еще на два. (2-3 и 7-9 токенов соответственно).

Кстати, не особо ведитесь не график загрузки процесора - если ядро занято на 100% - это не значит, что оно именно СЧИТАЕТ. Это именно - "не могу заниматься ничем другим". Есть такая команда noop - не делать ничего. Если ее зациклить - загрузка будет тоже 100% Потому, что ничем больше ядро заниматься в этот момент не может. Это же просиходит при генерации - ожидание и отправка по шине - сродни этому noop, занимает все "внимание" целиком.

Аноним 16/06/25 Пнд 14:17:48 № 1247653 293

>>1247648
Нет, а что? Он и правда шиз, все его посты одинаковы. Появился неделю назад, а уже всех довел.

Аноним 16/06/25 Пнд 14:34:51 № 1247668 294

>>1247645
>>1247653
>что в одном горячо мною любимом треде тематики
Иносказательно про этот тред?
>вычислять его посты
>все его посты одинаковы
Чет крякнул с этого.

Аноним 16/06/25 Пнд 14:42:35 № 1247671 295

>>1247668
> >вычислять его посты
> >все его посты одинаковы
Ну ладно, текстово они не одинаковы, но по смысловой нагрузке да.
И нет, не этот тред. Я тут не то чтобы частый гость.

Аноним 16/06/25 Пнд 14:46:00 № 1247673 296

>>1247645
Да да молодой человек все так, пройдёмте в /b, пожалуйста. Там всему научат.

Аноним 16/06/25 Пнд 14:50:04 № 1247675 297

>>1247625
не бухти, сникерсни

Аноним 16/06/25 Пнд 14:52:00 № 1247678 298

>>1247632
Персонаж ведёт себя как положено и ожидаемо => слоп.

Правильно выше говорилось, слопом в этом треде зовут просто то что субъективно не понравилось по каким-то неведомым причинам.

Аноним 16/06/25 Пнд 14:59:01 № 1247682 299

>>1247678
Полгода форсится "не укушу, если не попросишь", натурально локальный мем про мистралеслоп
@
Скидывает скрин с литералли "не укушу, если не попросишь"
@
"Да вы че пацаны, это такая карточка, круто отыгрывает её, это релевантно как раз!"

Аноним 16/06/25 Пнд 15:03:50 № 1247687 300

>>1247678
> Персонаж ведёт себя как положено и ожидаемо
Ну, если вы забыли, что такое нормальный текст, перестали читать книги, статьи или даже проходные визуальные новеллы и кушаете на завтрак, обед и ужин мистралеслоп, то да, возможно, все как положено и ожидаемо.

Правильно выше говорилось, что то, что именуется слопом, по каким-то неведомым причинам проникает в аутпуты чаще, чем того хотелось бы. И часто туда, где это неуместно.

Все то, что я выделил - видел десятки, если не сотни раз, с самыми разными карточками на самых разных мистралемиксах. И даже древние могучие божества в какой-то момент обязательно начнут подмигивать и размахивать бедрами. И кусаться.

Так что да, нравится тебе или нет, но есть люди, которые наелись.

Аноним 16/06/25 Пнд 15:05:14 № 1247689 301

>>1247678
>Правильно выше говорилось, слопом в этом треде зовут просто то что субъективно не понравилось по каким-то неведомым причинам.
Слова могут быть плюс-минус одинаковыми, но сразу чувствуется - тупит модель или нет. Если нет, то слоп не страшен.

Аноним 16/06/25 Пнд 15:22:10 № 1247694 302

У этого мержа харбингера и туту-анслоп такое ощущение что EOS токен просто не генерируется там где мог бы и модель продолжает шарашить дальше как если бы Continue нажато вплоть до лимита вывода.

Иногда это может быть плюсом.
А ещё может у меня сэмплеры проебались, надо проверить.

Аноним 16/06/25 Пнд 15:33:39 № 1247705 303

>>1247694
Дыа.

Вообще, как тот кто притащил в тред и советовал новую тутушку, хочу еще одно кря добавить :
Ставьте ограничение на 600-700 токенов, остальное тупо рубите топором.

Аноним 16/06/25 Пнд 15:38:32 № 1247709 304

>>1247614
> Мистраль-Теккен
Слоп идет не только от модели, с этой штукой он просто запределен, как и писалось выше. Офк если нравится то без осуждения, но штука прям на любителя.
>>1247645
В целом, может подойти любая с забористым промптом, при необходимости серийным вызовом. На 4б - будет тяжело, скорее начиная с 12б и выше.
Потребуется четко и ясно сформулировть критерии по которым нужно оценивать посты, дать примеров тех, что относятся и тех что нормальны, дабы снизить вероятность ложных срабатываний, и заставить ллмку пилить длинное рассуждение на темутику, в конце подводя итоговый вывод.
>>1247649
> там больше примитивные операции сравнения
Что?
В остальном актуально.

Аноним 16/06/25 Пнд 15:40:42 № 1247710 305

>>1247645
>лучше 4б?
гемму, если текст сложный по затрагиваемым темам то гемму3 12

Аноним 16/06/25 Пнд 15:42:35 № 1247712 306

>>1247678
>>1247682
>>1247687
>>1247689
На меня снизошло мини-откровение.

Все дело в том, кто и как воспринимает LLM.
Тем кого слоп бесит по факту его наличия - в основном LLM-и одушевляют подсознательно или нет. И ожидают "живого" общения. Не получив ожидаемого - огорчаются.

А есть другие, вроде меня в том числе. Для кого LLM - это симулятор. Машина. Игра. А в компьютерной игре условности - простительны до определенного предела. Скажем, в симуляторе жизни мы прощаем, что каждый кусок поджаренного мяса и каждая кружка пива выглядят абсолютно одинаково. Игровая условность. Вот также мы относимся и к слопу. Пока он к месту - можно простить, списать на условность. В конце концов - это машина, обучалась она на типовых текстах...
Другое дело, если модель "выдает пиво" во время, скажем, перестрелки. Вот это уже на условность не спишешь - это откровенный косяк.

Отсюда и разница в оценках. Как то так. IMHO.

Аноним 16/06/25 Пнд 15:46:55 № 1247714 307

>>1247712
> Тем кого слоп бесит по факту его наличия - в основном LLM-и одушевляют подсознательно или нет. И ожидают "живого" общения. Не получив ожидаемого - огорчаются.
Откуда ты знаешь, как другие люди смотрят на те или иные вещи?
Ничего я не одушевляю и в полной мере осознаю, как ллмки работают. Но читать вот этот ужас >>1247687 в который раз я не готов. Я запущу другую модель, в которой слопа на порядок меньше. Полностью от него избавиться практически невозможно, я этого и не убеждал. Но на пике выше слоп - это две трети ответа. Там нет персонажа. Мне неинтересно, будь это компьютерная игра, фильм или текст, видеть одно и то же в который раз. Лучше потратить время на что-нибудь еще.

Аноним 16/06/25 Пнд 15:47:41 № 1247715 308

я этого и не убеждал утверждал
быстрофикс т9

Аноним 16/06/25 Пнд 15:48:59 № 1247717 309

Я понял почему никто кроме меня логи в тред не приносит.

На англе - говорят что слишком много читать, лень, не будем.

На русском - говорят что слоп, но читают.
Но оставльным видимо стрёмно приносить чтобы о них нелестно отзывались. Даже ригобояре не приносят ру-логов дабы продемонстрировать величие 100+ Б моделей.

>>1247712
Во, тру стори. Стохастический попугай, инструмент автодополнения. Навороченная, но всё ещё игрушка.

Аноним 16/06/25 Пнд 15:49:39 № 1247718 310

>>1247712
Нет, условности здесь не при чем. Дело в том, что подобные штуки читать очень быстро надоест. Если где-то они уместны, то через десяток-другой постов эти эпилептические дерганья (смотри внимательно как строится речь персонажа вместо нормальной) и регулярное повторение одинаковых фраз заполнят собой все, будут руинить атмосферу и приводить к несуразности такого типа ответов.
Если копнуть глубже - это лезет из-за кривой тренировке и оверфита, когда модель предпочитает просто следовать запомненному шаблону вместо оценки ситуации и выдачи релевантного аутпута.

Аноним 16/06/25 Пнд 15:49:55 № 1247719 311

Вот я более чем уверен, если я запощу скрины со словом от самых популярных моделей вы хуй их отличите, кроме разве что геммы.

Аноним 16/06/25 Пнд 15:51:43 № 1247722 312

>>1247714
>Откуда ты знаешь, как другие люди смотрят на те или иные вещи?
>Ничего я не одушевляю
За живое задело, а?

Аноним 16/06/25 Пнд 15:52:10 № 1247723 313

>>1247717
>Я понял почему никто кроме меня логи в тред не приносит.
Не пойми меня не правильно, но вам действительно хочется читать : как я за фембоя прикусываю губу и прыгаю на ручки к тысячелетним вампиршам со словами «мы долго будем тут стоять ?»
Не то чтобы я осуждал, но оно надо ?

Аноним 16/06/25 Пнд 15:53:44 № 1247724 314

>>1247722
Этим вопросом я призвал анона запрячь коней и не заниматься проецированием и не решать за других, кто как и на что смотрит. Распространенная болезнь. Твоя провокация проигнорирована.

Аноним 16/06/25 Пнд 15:56:04 № 1247725 315

>>1247724
>Твоя провокация проигнорирована.
А похоже что нет, раз ответил.

Впрочем без балды. Некоторым оно надо, тут неоднократно просили карточки персонажей и модельки не чтобы покумить и/или по приключаться, а просто чтобы им выговориться.

Аноним 16/06/25 Пнд 15:57:43 № 1247726 316

>>1247717
> Я понял почему никто кроме меня логи в тред не приносит.
Пресетовичок много раз приносил, когда делился мнениями по немотрону, глэму и еще каким-то моделькам. Они все пишут лучше мистралек, что поделать? Нет цели засрать твой мердж или лог, но garbage in - garbege out, анонище. Золотое правило

Аноним 16/06/25 Пнд 15:59:21 № 1247729 317

>>1247726
>глэму
ремнант-глэм кстати действительно ок, жаль тяжёлый
шизотрон вот не вкурил, но возможно третий квант всё же уже слишком мало

Аноним 16/06/25 Пнд 16:00:20 № 1247730 318

>>1247726
не помню, но как бы это не был XD

Аноним 16/06/25 Пнд 16:00:45 № 1247734 319

>>1247730
>не я был

Аноним 16/06/25 Пнд 16:00:47 № 1247735 320

>>1247725
> За живое задело, а?
> А похоже что нет, раз ответил.
Хитро ухмыльнусь, осознав, что задели все-таки тебя, но раскручивать не буду. Веди себя прилично. Тебя здесь никто не хотел обидеть, выше правильно указали: мусор принес - жди соответствующий ответ.

Аноним 16/06/25 Пнд 16:02:16 № 1247736 321

>>1247730
Так и не про тебя речь. Мы в твоем падике сидим и втроем общаемся что ли? https://pixeldrain.com/l/xGFnT1PY
Вот этот анон с каждым своим пресетом присылал и логи и миниобзор модельки

Аноним 16/06/25 Пнд 16:02:39 № 1247738 322

>>1247735
Если бы меня подобное обижало, то Darkness-Reign тред бы не увидел, забросил бы где-нибудь ещё на инструменталити.

Аноним 16/06/25 Пнд 16:04:25 № 1247742 323

>>1247736
Тогда другой =) Это не мои. Хотя оттуда тоже юзал пресеты.
Мои вот:
https://pixeldrain.com/l/Hoeb83g8
https://pixeldrain.com/l/47CdPFqQ

Аноним 16/06/25 Пнд 16:05:26 № 1247744 324

>>1247742

Аноним 16/06/25 Пнд 16:05:58 № 1247746 325

>>1247736
>втроем общаемся что ли
Иногда создаётся такое ощущение.
Ну не втроём, впятеКРЯком.

Аноним 16/06/25 Пнд 16:08:08 № 1247749 326

>>1247746
Меня в ваши разборки не впутывайте.

Аноним 16/06/25 Пнд 16:09:23 № 1247752 327

Читаю тред. Вижу аватаркодебилов? Закрываю тред, возвращаюсь позже. Следующий шаг цикла.

Аноним 16/06/25 Пнд 16:10:54 № 1247754 328

>>1247726
>garbage
Да я и не настивал что мерж лучше его компонентов, кстати говоря.
Но получилось интересно, даже 4KM, и шустро.
Ещё погоняю, мб даже полный лог принесу.

Аноним 16/06/25 Пнд 16:11:33 № 1247756 329

>>1247752
Кряк хороший.

Аноним 16/06/25 Пнд 16:12:05 № 1247757 330

>>1247719
Нужно читать чат чтобы понять. Одиночное сообщение может выглядеть относительно уныло, но сам факт того, что чар в нейронке корректно воспринял какой-то глубокий намек или сложную культурную отсылку, и начал подыгрывать - вот где космический эффект.
>>1247723
This, слишком специфичное и личное.
>>1247752
Все так, заебали.

Аноним 16/06/25 Пнд 16:13:47 № 1247760 331

>>1247694
>У этого мержа харбингера и туту-анслоп такое ощущение что EOS токен просто не генерируется там где мог бы и модель продолжает шарашить дальше как если бы Continue нажато вплоть до лимита вывода.
Такого не заметил (Tekken-7, Simple1). По ощущениям - чуть умнее харбингера, но русский хуже.

Аноним 16/06/25 Пнд 16:14:54 № 1247762 332

>>1247752
Один пик на двадцатку сообщений не аватаркофаг, борцун.
Я словно не на имиджборде, а на сборе ранимых девиц.
Даже нахуй никого не пошлешь, все обижаются и убегают.

>вот где космический эффект.
Сейчас намеки понимают все средние модели. Ну кроме квенов (у меня к ним особая ненависть).

Аноним 16/06/25 Пнд 16:15:56 № 1247763 333

>>1247757
>>1247757

Ну конечно, двощ, как нормально работать, так у тебя лапки, а как отменить отправку, так всё, хуяришь сразу.

Аноним 16/06/25 Пнд 16:27:50 № 1247781 334

>>1247760
Скорее всего анонс не нравится, что при больших полотнах на 1к токенов, где то с середины начинается спуск до стандартного : ахххх, сильнее, быстрее, ты же коммунист.
Именно поэтому нельзя ставить настолько длинные аутпуты.

Аноним 16/06/25 Пнд 16:36:37 № 1247790 335

>>1247709
> Потребуется четко и ясно сформулировть критерии по которым нужно оценивать посты, дать примеров тех, что относятся и тех что нормальны,
А нельзя просто из десятка постов извлечь контекст, и эти контексты сравнивать? А то ли какой нибудь rag подключить. Наверно это пушкой по воробьям, но прикольно попробовать.

Аноним 16/06/25 Пнд 16:40:25 № 1247793 336

>>1247790
Тебе нужно найти математическую зависимость на основе характерного стиля письма одного человека.
Учитывая, что человек адаптивен - это не самая тривиальная задача. А если он дегенерат и пишет как мелкобуква или вставляет какие то характерные паттерны письма, то это определяется и без нейронки.

Аноним 16/06/25 Пнд 16:44:54 № 1247797 337

>>1247793
Ууух бля так хорошо пельмешек покушал сейчас со сметанкой. Какая математическая зависимость в моем сообщении?

Аноним 16/06/25 Пнд 16:49:36 № 1247802 338

>>1247797
А грибного с курятинкой, со сметанкой, с чесночком на закусь.

Аноним 16/06/25 Пнд 16:50:22 № 1247803 339

>>1247797
Ты буквально спрашиваешь как использовать плавающую точку и пытаешься иронизировать на тему математической вероятности ?
А ты молодец.

Аноним 16/06/25 Пнд 16:53:43 № 1247804 340

>>1247763
Что?
>>1247790
Можно воспользоваться классификатором, натренировав его на постах. Или воспользоваться feature-экстрактором, а потом вычислять дистанцию в латентном пространстве, или принадлежность к некоторой области, сформированной примерами прошлых постов.
> А то ли какой нибудь rag подключить.
Это просто закинет модели примеры тех постов, и заставит ее сначала анализировать что в них общего и какова суть, а потом уже сравнивать с имеющимся. Задача более сложная чем описанное выше. Однако, в формировании референса действительно можно использовать ту же нейронку, или прочитать бумагу квена с их микромоделями.

Аноним 16/06/25 Пнд 17:00:52 № 1247807 341

>>1247797
>Какая математическая зависимость в моем сообщении?
C точки зрения ГПТ, воть
Еще вопросы ?

Аноним 16/06/25 Пнд 17:00:58 № 1247808 342

Predel.jpg 97Кб, 1173x336

>>1247628
В кобольде анализируешь gguf (Extra -> Analyze metadata), смотришь названия и распределение тензоров (у них может быть разный квант, надо определить какие выгоднее будет сплавить на цпу).
Потом в tokens -> ovveride tensors вписываешь regex (без кавычек), определяющий какие тензоры пойдут на цпу. У меня это большая часть ffn_ тензоров, для каждой модели придется пердолиться по новой.
Примеры regex есть в шапке снизу по ссылке на тред на реддите.
Затем включаешь чтоб все слои на гпу считались.
Тестируешь с нужным контекстом, чтоб то, что должно обрабатываться во врам действительно туда влезало, не вылазя в оперативку иначе будет наоборот жесткое замедление, на скрине показана максимально допустимая нагрузка на 8гб карту, если число, там где стрелка больше 0.2 - 0.3 выгружай больше тензоров на цпу или уменьшай длину контекста.
Не забудь сохранить конфиг.
Профит.

Аноним 16/06/25 Пнд 17:03:18 № 1247809 343

>>1247807
Есть вопросы. Давай, поясняй. Что за logprob? Это вероятность появления токена в датасете? В каком датасете? Что значит примерно? Дельта-погрешность какая? Почему именно этот список коэффициентов отражает математическую зависимость, которую можно использовать для поиска моих постов? Я пока салатик покушаю.

Аноним 16/06/25 Пнд 17:06:19 № 1247810 344

>>1247809
>Что за logprob?
Гугл ит.
>Я пока салатик покушаю.
Приятного :)

Аноним 16/06/25 Пнд 17:14:09 № 1247816 345

>>1247810
Я знаю, что это в общем смысле, ибо не так давно проходил теорию вероятностей в универсете. Ты объясни, в каком контексте и пространстве рассматриваются мои слова, чтобы понять, откуда берется результат вычислений, и почему эти результаты могут быть использованы для идентификации постера. Ты же понимаешь, что люди все разные и оперируют разным словарным запасом? Как существует и огромное множество других факторов, которые определяют стиль письма здесь и сейчас.
Спасибо. Вкусно-полезно.

Аноним 16/06/25 Пнд 17:23:52 № 1247825 346

>>1247807
> (примерно)
Хе, как же он старается.
Но толку с принесенного крайне мало, может быть лишь одним из методов оценки, и не очень то точным.

Аноним 16/06/25 Пнд 17:41:12 № 1247841 347

>>1247838
Выглядит как 4Б(редогенератор)

Аноним 16/06/25 Пнд 18:15:28 № 1247882 348

И правда хрен скачаешь с Обниморды. Через прокси лучше, но тоже не очень-то. Огородились видимо.

Аноним 16/06/25 Пнд 18:20:04 № 1247886 349

Кстати кто там хотел сохранения состояния KV-кэша? Ну я хотел, например. Добавили в Кобольд. У кого промпт процессинг медленный - будет приятно.

Аноним 16/06/25 Пнд 18:26:32 № 1247889 350

так чёто я не понял, FP8 - это на самом деле обман чтобы набрать классы?
невидия его продвигает тип новая парадигма, все срочно нейроним в FP8, а читаю фсбач - пишут, что говно и сосёт у Q8, читаю реддит - то же самое пишут, гуглю - нахожу на arxiv пдфку со сравнениями и там якобы умные люди тоже пишут, что FP8 == сраное говно и надо INT8 юзать.
то есть это невидия просто придумала хуитку для продвижения своих железок и поднятия стоимости акций, а на деле эта хуитка = полная хуита?

Аноним 16/06/25 Пнд 18:28:21 № 1247891 351

>>1247889
>то есть это невидия просто придумала хуитку для продвижения своих железок и поднятия стоимости акций
Нвидиа практически монополист. Куда уж сильнее продвигать ?

Аноним 16/06/25 Пнд 19:01:35 № 1247926 352

>>1247687
База. Уже так заебало, что принципиально не юзаю Мистрали. Что угодно кроме Мистралей. Квены, Коммандер 32 (базовый и лайт мерж) хорошо себя показывают, но слоп есть вообще везде. Глэм я не понял, но слопа там немного вроде.

Аноним 16/06/25 Пнд 19:15:14 № 1247948 353

>>1247889
Как может быть формат обманом?
Здесь идет путаница в понятиях, одно дело проводить операции с 8-битными величинами, которые могут делаться быстрее чисто 16-битных, а другое - бездумно преобразовывать значения в фп8, теряя точность и диапазон.
> Q8
> INT8
Это кванты, другое представление значений, при должном исполнении они на порядки точнее чем простая конверсия в фп8. Но когда ты их разворачиваешь обратно в формат вычислений (например бф16) то проводишь серию операций как раз с 8битными значениями перед их получением, это самый простой их пример.

Аноним 16/06/25 Пнд 19:32:18 № 1247977 354

>>1247687
> грудь
> у дракона

вот уж слоп так слоп, реально неюзабельная модель, удаляй эту пакость

Аноним 16/06/25 Пнд 19:44:25 № 1247995 355

image.png 19Кб, 709x41

это что блять

Аноним 16/06/25 Пнд 19:47:23 № 1248002 356

>>1247995
Попробуй, расскажешь нам

Аноним 16/06/25 Пнд 19:56:59 № 1248012 357

1715051233363.png 384Кб, 993x252

Как же ей тяжело а, тесла-экспириенс. Примерно с 60-70к контекста начинает проявляться замедление обработки вплоть до падения до 200-250 на 128к относительно ~600 на нулевом. Генерация падает с 18 до 14 т/с. Так что даже эксллама может проседать на очень больших контекстах. Там наблюдается также рост обмена по шинам, вероятно это одна из основных причин, но это не точно. Можно получить +20% не делая радикальный андервольтинг, но тогда бп не вывозит.

>>1247995
Посекло осколками

Аноним 16/06/25 Пнд 20:02:27 № 1248016 358

Как же коммандер сосёт в окружении

Аноним 16/06/25 Пнд 20:03:04 № 1248019 359

>>1248016
Сосет, но не сдается!

Аноним 16/06/25 Пнд 20:09:35 № 1248033 360

>>1248019
Нет серьезно почему так плохо?
Это уровень геммы на русском

Аноним 16/06/25 Пнд 20:11:13 № 1248040 361

>>1248033
Перетолстил...

Аноним 16/06/25 Пнд 20:14:57 № 1248045 362

>>1247977
Завали дракона.

>>1248040
>Перетолстил
Да нифига, коммандер сосёт, куммандар тоже сосёт, но ещё и причмокивает. Не, в целом неплохие модельки... но как только от коммандеров хочешь чего-то конкретного - они в него могут хуже чем другие. Jack of all trades, master of none.

Аноним 16/06/25 Пнд 20:18:04 № 1248047 363

>>1248045
Мистралешиз, снова в палату телефон пронесли? Бля, нужно жаловаться смотрителю.

Аноним 16/06/25 Пнд 20:21:28 № 1248054 364

Обновил биос эпику, сбросил на дефолты, отключил смт, как рекомендует мануал амд для hpc профиля использования, разогнал память до 2933, соответственно 136гб/с стало.

llama-bench --model "C:\Neural\models\Qwen3-235B-A22B-UD-Q2_K_XL-00001-of-00002.gguf" -fa --mlock --batch-size 512 -ngl 99 --threads 46 -p 128
load_backend: loaded RPC backend from ggml-rpc.dll
load_backend: loaded CPU backend from ggml-cpu-haswell.dll
| model | size | params | backend | ngl | threads | n_batch | test | t/s |
| ------------------------------ | ---------: | ---------: | ---------- | --: | ------: | ------: | --------------: | -------------------: |
| qwen3moe 235B.A22B Q2_K - Medium | 81.96 GiB | 235.09 B | RPC | 99 | 46 | 512 | pp128 | 33.65 + 3.64 |
| qwen3moe 235B.A22B Q2_K - Medium | 81.96 GiB | 235.09 B | RPC | 99 | 46 | 512 | tg128 | 8.13 + 0.07 |

Но чем больше контекст, тем страшнее проседание.

Аноним 16/06/25 Пнд 20:21:43 № 1248055 365

>>1248047
Нет. Мистралешиз это я. И да коммандер неплох в целом. Но проигрывает в частности.
Где моя средняя нормальная мистраль, ёпта. Лягушатники блять, хуле так плохо.

Аноним 16/06/25 Пнд 20:21:45 № 1248056 366

Для кума до 30б что то новое вышло?

Аноним 16/06/25 Пнд 20:23:26 № 1248061 367

>>1248056
Да

Аноним 16/06/25 Пнд 20:24:12 № 1248065 368

>>1248056
Нет

Аноним 16/06/25 Пнд 20:26:07 № 1248071 369

>>1247649
О как, спасибо что разъяснил по поводу нагрузки, теперь понятно почему он нагружен целиком, а температура и энергопотребление такие невысокие

Аноним 16/06/25 Пнд 20:27:41 № 1248080 370

>>1248056
24б мистральки от реди-арт и мержи с ними.
дпо-гемма

Аноним 16/06/25 Пнд 20:45:00 № 1248120 371

>>1248054
>>1244770

Аноним 16/06/25 Пнд 20:52:57 № 1248133 372

>>1248120
Я уже не раз говорил, что пробовал авто/0/1/4, без разницы.

Аноним 16/06/25 Пнд 21:04:09 № 1248159 373

>>1248054
Как с видюхами? Что на ud3? Что если бахнуть контекста от души побольше и насколько оно проседает?

Аноним 16/06/25 Пнд 21:09:04 № 1248176 374

.jpg 24Кб, 750x213

>>1248159
Видяхи пока в него больше не ставил.

Проседания ужасные на проце на контексте:

Аноним 16/06/25 Пнд 21:30:17 № 1248228 375

>>1248176
>Проседания ужасные
Ждём теперь тестов с видяхой и override tensors

Аноним 16/06/25 Пнд 21:43:14 № 1248245 376

>>1248228
> тестов с видяхой и override tensors
Так они были же. На порядок лучше врядли сейчас станет, особых изменений даже с чисто процом пока нет. Ну не 220/22 будет, а пусть 240/24.

Кстати, попробуйте --swa-full - мне накинуло немного в т/с генерации.

Аноним 16/06/25 Пнд 21:50:22 № 1248257 377

>>1248245
>На порядок лучше врядли сейчас станет, особых изменений даже с чисто процом пока нет. Ну не 220/22 будет
Но чисто на проце и вовсе 36/8. И проседание с видяхой сильно ме ньше. Плюс есть ещё вариант с K-Transformers.

Аноним 16/06/25 Пнд 21:58:47 № 1248261 378

>>1248054
а нафига флешаттеншен и слои указывать если запуск онли cpu?
или ты запускал куда версию llama.cpp но только с процессором?
>load_backend: loaded CPU backend from ggml-cpu-haswell.dll
А чего у тебя сборка пишет что использует интеловский бекенд? Там случаем не идет никакая кривая трансляция команд из интела в амд?

Аноним 16/06/25 Пнд 22:34:46 № 1248322 379

>>1248261
А, скопировал из папки гпу-шной лламы. Перепроверил без этих ключей - ничего не изменилось.

Про хасвелл - хз, это оно само автодетектит. Ключей принудиловки нет. Ну и архитектура-то у них общая, х64. Есть разные микрооптимизации под каждое поколение, но видимо у Жоры дальше все процы под одну гребёнку обрабатываются.

Аноним 16/06/25 Пнд 22:46:10 № 1248344 380

>>1248322
Попробуй ik_llama.cpp, на виндде она ебет мозги, но на линуксе с ней хорошо сидят. Там быстрее раза в 2-3 промпт обработка на процессоре, генерация по идее тоже должна быть быстрее

Аноним 16/06/25 Пнд 22:53:04 № 1248361 381

>>1248344
>Там быстрее раза в 2-3 промпт обработка на процессоре, генерация по идее тоже должна быть быстрее
У меня процессинг был плюс-минус такой же, генерация побыстрее. Но форк этот кривой и костыльный.

Аноним 16/06/25 Пнд 23:00:04 № 1248380 382

>>1247694
У тебя харбингер срёт полотнами без абзацев? Вроде не тупой, но полотна раздражают. Читать невозможно. И генерирует он не обязательно много, просто текст сплошняком, а инструкций не слушается. И, что самое странное, на длинных последовательностях лучше чувствует контекст и выдаёт пёрлы по поводу того, что произошло 10к токенов назад.

>>1247583
Я пользуюсь корпами для кода, но если о локалках, то мне квен всё же кажется лучшим. Я тыкал в плотный 32б и в МоЕ 30б. Последняя тоже пригодна.

Но здесь проблема (лично для меня) заключается не в выборе модели, а в контексте. Не знаю как у тебя дела с этим обстоят, а вот у меня очень плохо. Нужно много, очень много контекста, опиздохуительно много. Ну а квант ниже четвёртого всё же брать нельзя, контекста нужно минимум 64к. Квантование кэша норм тема, но на большом контексте в точных задачах будет поднасирать.

Для кодерских задач я использую лм студио, а не таверну, но, наверное, есть какой-то специализированный инструмент вроде холстов или артефактов как у корпов, чтобы не забивать контекст сранью без остановки.

Аноним 16/06/25 Пнд 23:02:31 № 1248387 383

До 70B жизни нет.

Аноним 16/06/25 Пнд 23:11:52 № 1248400 384

>>1248387
Поглумился? Молодец. Теперь оставь нас, некромантов, в покое, пожалуйста.

Аноним 16/06/25 Пнд 23:15:19 № 1248404 385

>>1248387
Как хорошо что старушке 3.3 ламме гемма 27б проводит по губам предлагая тот же ум

Аноним 16/06/25 Пнд 23:27:36 № 1248420 386

>>1248404
Хотя всё ещё вылезают огрехи типа "Закрой глаза, я хочу показать тебе"

Аноним 16/06/25 Пнд 23:59:37 № 1248445 387

>>1248404
Была бы еще эта радужная пизда без цензуры, я бы памятник гуглу воздвиг нерукотворный.
За що сука, за що гугл ты так зол с нами.

Аноним 17/06/25 Втр 00:09:40 № 1248457 388

Ахахах чёт решил по приколу на своей пропёрженной GTX 1060 на которой ещё мой дед в доку 2 трейд задрачивал, чисто на пердунках эту тему с выгрузкой тензоров попробовать, хуйнул все ffn на CPU. В итоге влезла 12b в 4q_m c 16к контекста со скоростью в 2t/sec при полном загрузе лол. Спасибо кто эту тему в тред притащил с реддита, щя обмажусь этим вашим "слопом" и замалафью всю хату!

Аноним 17/06/25 Втр 00:12:56 № 1248459 389

>>1248445
Синтия вполне себе без цензуры

Аноним 17/06/25 Втр 00:17:22 № 1248464 390

>>1248459
Синтия не решает главной проблемы геммы. Она базово обучалась на safe dataset с её цветками роз и нежными поглаживаниями.

Аноним 17/06/25 Втр 00:17:32 № 1248465 391

>>1248457
>12b в 4q_m
>2t/sec
Я бы взял некроту которую анон советовал за 18$ чем так унижаться

Аноним 17/06/25 Втр 00:19:35 № 1248467 392

>>1248464
> Она базово обучалась на safe dataset с её цветками роз и нежными поглаживаниями
Ахуеть что несет, сразу видно диванного.

Аноним 17/06/25 Втр 00:28:56 № 1248475 393

>>1248467
Oke

Аноним 17/06/25 Втр 00:29:16 № 1248476 394

Окей мне реально нравится как пишет коммандер, это свежо.
Но как пофиксить спейшл аварнес?
Шиза за шизой идёт просто, места меняются вещи появляются пенисы то в вагине то во рту по 5 раз за секс без уточнений смены позиций

Аноним 17/06/25 Втр 00:29:22 № 1248478 395

>>1248133
llama-server --numa distribute?

Аноним 17/06/25 Втр 00:33:18 № 1248482 396

>>1248476
Никак.

Аноним 17/06/25 Втр 00:33:37 № 1248483 397

>>1248476
Никак блять. Или квант бери побольше или строй повествование так, чтобы не было разночтения. Если ты ебешься в пятимерном пространстве на лестнице Эшера - не удивляйся.
Ну и это. Велкам ту зэ клаб бадди - все модельки говно.

Аноним 17/06/25 Втр 00:48:51 № 1248493 398

>>1248483
>все модельки говно
Вот не надо пиздеть. Гемма точно лучше в этом, qwq точно лучше, не припомню даже когда в последний раз у меня пространства менялись с кухни на спальню так резко или как перс забывал что было сообщение назад и приветствовал меня снова

Аноним 17/06/25 Втр 00:55:36 № 1248502 399

>>1248493
>Гемма точно лучше в этом
Да, да, да, как скажешь. Никто твою гемму не обижает, можешь дальше ей спокойно пользоваться. Злые тредовички у тебя её не похитят.

>Вот не надо пиздеть
Как скажешь, если тебя всё устраивает, то пользуйся :3

Аноним 17/06/25 Втр 01:03:51 № 1248506 400

>>1248476
> Но как пофиксить спейшл аварнес?
Использовать базовую или Lite версию. У меня нет никаких проблем и я понятия не имею, почему у анонов Коммандер два раза снимает трусы и проебывается. Ставят себе безмозглый кум-тюн и удивляются. А зачем - непонятно. Даже базовая версия может в сочный кум. Надоело отвечать, игнорю такие посты.

Аноним 17/06/25 Втр 01:05:28 № 1248508 401

Думаю, это какой-нибудь шиз накатил IQ3XS квант с Q6 контекстом и удивляется.

Аноним 17/06/25 Втр 01:13:57 № 1248516 402

>>1248506
А я и так на базовой.

Аноним 17/06/25 Втр 01:18:14 № 1248519 403

>>1248508
q4_m квант
всё что изменил в пресета анона вот эту строку под 24.5к контекста и продлил ответ до 500 токенов

Аноним 17/06/25 Втр 01:21:35 № 1248520 404

>>1248519
Не знаю, что порекомендовать. У меня Q6 FP16 контекст. Возможно, дело в этом. Возможно, мы тупо играем по-разному. Я не придаю огромного значения маленьким деталям и не форсю их. У меня больше нарративно ориентированный стиль. Даже при этом я понимаю, что спэйшл аварнес у Коммандера слабее, чем у некоторых других моделей, но вот такого:
> места меняются вещи появляются пенисы то в вагине то во рту по 5 раз за секс без уточнений смены позиций
> снимать трусы дважды
Ни разу не было.

Аноним 17/06/25 Втр 01:23:31 № 1248521 405

>>1248519
>всё что изменил в пресета анона вот эту строку
Больше 2к не ставь, а лучше используй Dry.

Аноним 17/06/25 Втр 01:42:42 № 1248529 406

>>1248521
Коммандеру 32 жизненно необходим реп пен или xtc, иначе словит луп. В том пресете он используется вместе с dry. Одно другое не исключает. Как правило, rep pen range = 0.25 * (context-size)

Аноним 17/06/25 Втр 04:00:44 № 1248564 407

🌟MiniMax-M1: открытя reasoning‑LLM с контекстом 1M

MiniMax-M1 — первая в мире open-weight гибридная reasoning‑LLM c 1M контекстом (8× DeepSeek R1) и гибридной архитектурой MoE + lightning attention.
• 456 млрд параметров (45,9 млрд активируются на токен), сверхэффективная генерация — 25% FLOPs DeepSeek R1 на 100K токенов
• Обучение через RL с новым алгоритмом CISPO, решающим реальные задачи от математики до кодинга
• На обучение было потрачено $534K, две версии — 40K/80K “thinking budget”
• Обходит DeepSeek R1 и Qwen3-235B на бенчмарках по математике и кодингу,
• Топ результат на задачах для software engineering и reasoning

Бенчмарки:
AIME 2024: 86.0 (M1-80K) vs 85.7 (Qwen3) vs 79.8 (DeepSeek R1)

SWE-bench Verified: 56.0 vs 34.4 (Qwen3)

OpenAI-MRCR (128k): 73.4 vs 27.7 (Qwen3)

TAU-bench (airline): 62.0 vs 34.7 (Qwen3)

LongBench-v2: 61.5 vs 50.1 (Qwen3)

➡️ Попробовать можно здесь https://chat.minimax.io/

▪️Hugging Face: https://huggingface.co/collections/MiniMaxAI/minimax-m1-68502ad9634ec0eeac8cf094
▪️GitHub: https://github.com/MiniMax-AI/MiniMax-M1
▪️Tech Report: https://github.com/MiniMax-AI/MiniMax-M1/blob/main/MiniMax_M1_tech_report.pdf

Аноним 17/06/25 Втр 04:27:29 № 1248567 408

>>1248564
На 1060 потянет?

Аноним 17/06/25 Втр 04:28:20 № 1248568 409

>>1248564
На 1060 потянет?

Аноним 17/06/25 Втр 04:31:28 № 1248569 410

>>1248568
надо докупить 40xa100 и норм

Аноним 17/06/25 Втр 04:42:45 № 1248574 411

>>1248564
>Обходит DeepSeek R1 и Qwen3-235B на бенчмарках по математике и кодингу,
Спасибо конечно, но только Квен я могу у себя запустить, а эту модель не могу. Придётся терпеть отставание.

Аноним 17/06/25 Втр 04:57:22 № 1248577 412

Аноны, какой квант советуете для 32b,24b моделей? У меня просто есть возможность запусть 8квант для обоих, но влияет на производительность. Как-то думаю стоит ли оно того или реально не заметишь разницы с четвертым? Видел эти сравнения от чувачка, но хотелось услышать мнение тредовичков которые также даунгрейдят просто ради скорости

Аноним 17/06/25 Втр 04:59:42 № 1248578 413

Вы все нихуя не умеете использовать гемму.
Надо выставить точно такие же настройки как в рекомендованных а не васянские 5 темп и 100 топ-к xtc 1/1 драй как тут вкидывали, использовать только ориг никакие аблитерации и синтии ибо придерживание карточки у него идеал и всё блять на другие модели вы больше не посмотрите старик хемлок не просто так там окопался он выкупил тему и пользуется геммой на всю катушку видели вы хемлока в других моделях я вот не видел

Аноним 17/06/25 Втр 05:02:24 № 1248579 414

>>1248578
поясни за хемлока, есть какие-то мемы с ним? Сам не встречал. Это какой-то реальный персонаж?

Аноним 17/06/25 Втр 05:24:13 № 1248580 415

>>1248579
>хемлока
форс местного, типа он ему в разных карточках в генерации вылезает, сам не наблюдал

>>1248578
>никакие аблитерации и синтии
одебилевшее соевое говно в рп без аблитерации или тюнов, путь рухнет мир, но восторжествуют сейфети гайдлайнес

>>1248577
>какой квант советуете для 32b,24b моделей
4КМ минимальный, можно шестой

>>1248476
>Но как пофиксить спейшл аварнес?
Не юзать коммандер.

>>1248380
>У тебя харбингер срёт полотнами без абзацев?
Да, но мне норм. Скорее всего просто так тренился.

Аноним 17/06/25 Втр 05:25:23 № 1248581 416

ппц, это что

Аноним 17/06/25 Втр 05:28:00 № 1248583 417

>>1248581
Супер дуй.

Аноним 17/06/25 Втр 05:41:34 № 1248585 418

>>1248581
Киловатта 2 такая йоба рассеет. Но ей бы при таком раскладе самое место на балконе, надеюсь на фото она на нем и находится. И еще надеюсь что трубки идут к рендер-станции а не ебучему ригу ради калок.

Аноним 17/06/25 Втр 06:01:54 № 1248586 419

Бля кулстори.
Сеттинг: я живу с тянкой в одной квартире и слышу что она в своей комнате соседней дрочит, так как стены между нами тонкие. Я проделываю дырку и сую туда член и стучу подозвать ее. С той стороны я не вижу что происходит и от этого возбуждаюсь.
Синтия в следующем же сообщении рассказывает как я представляю чо там творится по ту сторону, возбуждаюсь, ебу стену и кончаю. Типа стена толще длины члена оказалась и просто не дотянулся и кончил в стену от перевозбуждения.
Чото орнул с этой хуйни, ведь это моя жизнь..

Аноним 17/06/25 Втр 06:10:32 № 1248587 420

Хочу напомнить, геммочка лучшая девочка (см. скриншот). Командира забыл, ну и лень было остальные проверять, сколько там голов. Заодно выяснил, почему дипсик так чётко следовал моим инструкциям

>>1248580
>>1248579
Базарю, хемлок не выдумка. Это не форс. Возможно, он у вас не вылез из-за того, что у вас слишком "несвободные" карточки, рассчитанные на одного персонажа и/или вы не выгуливаете их тщательно. В открытом мире, без персонажа, где чисто рпг или симуляция, олд мен хемлок вылезает довольно часто. Он у меня и кузнецом был, и дедом какой-то бабы. Вот в городских сценариях он не появлялся пока что. Ещё Lyra есть, тоже любит пихать на рандомные женские роли.

Но это не так страшно, как вжаренные в датасет персонажи со своей историей в некоторых тюнах (пантеон, вайфу чат). У меня от этого сразу тряска началась.

>У тебя харбингер срёт полотнами без абзацев?
>Да, но мне норм. Скорее всего просто так тренился.

Складывается впечатление, что ещё и на человеческом слопе. Небольшой глоток свежего воздуха, пусть и полотна.

А что насчёт упрямости персонажей и лупов? Именно опасных, ломающих всё лупов я пока не заметил, но есть странности.

Я его только на одной РПГ-карточке катаю пока потихоньку в удовольствие, лень тестировать, но по какой-то причине он очень часто делает сильных персонажей, даже если в лорбуке вываливается инфа, что человек обычный. Однажды при истязании персонажа он начал кайфовать от этого, просить больше, вот это всё, а затем ресаться, когда я его убивал. Было 0 эротики, 0 намёков на сексы. Только грязь.

Скучно играть, когда в истории все противники чрезвычайно сильны и вообще продыху от говна нет. Space Wars мог бы его заменить, но там лазерами шмалять гоблины начинают и в 21 веке тоже любит вывалить что-то слишком футуристичное.

Аноним 17/06/25 Втр 06:59:20 № 1248594 421

Новый магнум клодослоп, уже две недели как, кто тестил?
https://huggingface.co/Doctor-Shotgun/MS3.1-24B-Magnum-Diamond

Аноним 17/06/25 Втр 08:50:25 № 1248619 422

>>1248594
Извини, не тестил. Но попробую. Хотя вряд ли он будет лучше брокен туту.

Я тонны малафьи слил на дэнс персоналити третьей версии. Там по сравнению с другими тюнами мистраля кум очень нетипичный и годный: не лупится, вариативный.

Аноним 17/06/25 Втр 11:22:27 № 1248768 423

>>1248476
Приучить себя писать в стиле low context culture - так, как грамотные англоязычные пишут. Т.е. минимум "это подразумевалось по умолчанию", "это было два абзаца назад", для всего что можно прочитать двояко - рядом уточняющее слово(а). Помогает. Не на 100% правда, но сильно лучше становится (и не только коммандеру).

Аноним 17/06/25 Втр 12:00:16 № 1248805 424

image.png 40Кб, 1037x383

>>1247808
Куда_хост заберает этот оффлоад на рам, это нормально или нет? Всегда замечал как модель делает куда_хост то скорости выше становились, это работало на 12б, тут же хз..

Аноним 17/06/25 Втр 12:01:59 № 1248808 425

>>1248580
> Не юзать нормальную модель
> использовать харбингер
Корпус Стражей Мистральской Слополюции работает в треде очень активно в последние дни.

>>1248768
База. Чуваки срут в промт и удивляются, что это переваривает только всеядная геммочка, которая тренилась в первую очередь понимать юзера. Оттого в ней и датасет такой небольшой.

Аноним 17/06/25 Втр 12:03:50 № 1248812 426

Кстати, знаете, какая модель еще не будет у вас херить спейшал аваренес и пиздить вас за паршивый промтинг? Немотрон 49б, потому что он тоже ассистент, как и Гемма-ванилла

Аноним 17/06/25 Втр 12:19:54 № 1248824 427

Ы... Словил прикол. Никогда именно такого не видел. Эта новая туту-шка сыграла в "день сурка". Причем это даже нельзя назвать лупом, или слопом как таковыми.

Сюжет - персонаж работает в кафе. Пришел с утра - получил описание. Прошел игровой день много всякого разного, ночью потом было еще дофига событий. На следующий день снова пришел на работу - получил почти дословное описание из предыдущего дня. НО! Только его. Дальше все пошло по другому - без всяких признаков лупов, адекватные реакции на действия. Однако когда пришел на работу на третий день... ДА! Оно самое. Ы... Почти дословно. Но далее - опять все по другому. День сурка. (Натурально - в датасете?)

Аноним 17/06/25 Втр 12:30:12 № 1248832 428

>>1248824
>тутушка
>слайсик
>рп

А ?!

Аноним 17/06/25 Втр 13:20:37 № 1248909 429

>>1248564
Блин, оче уж жирная и ризонинг похоже заложен обязательным, а не опцией как в квене похоже. Кванты уже подвезли?
>>1248577
Смотри какие у тебя скорости. Если на q8 40т/с вместо 70 то офк бери большой, если там уже на 4 битах все впритых - ну максимум до 5 докинь и норм. Скорость действительно важна.
>>1248578
Что оригинал, что синтия хороши, зря гонишь. А аблитерации и прочие васяны местами конкретно нарушают логику.
>>1248824
Просто так залупилась, бывает.

Аноним 17/06/25 Втр 13:32:21 № 1248915 430

>>1248832
И чё!?

Работает же, генерит подходящее (мне). А я считаю себя выше предубеждений. Главное - результат. Надоест - поменяю.

Аноним 17/06/25 Втр 13:35:37 № 1248919 431

>>1248915
Ни в коем разе не осуждаю, сам же с тутушкой в тред прибежал советуя её.
Просто… Есть мистрали более подходящие для слайсиков, чем слоп генератор кум простыней.

Аноним 17/06/25 Втр 13:54:59 № 1248941 432

Какие есть топовые LLM с бесплатным чятиком? Я знаю Дипсик, Квен, Ллама 3.3 в duck.ai и обниморде, теперь ещё это >>1248564 Это всё, или есть ещё годнота?

Аноним 17/06/25 Втр 14:26:31 № 1249002 433

>>1248941
https://2ch.hk/ai/res/1248774.html

Аноним 17/06/25 Втр 14:39:29 № 1249013 434

>>1248919
> мистрали
> для слайсиков
Может офк я предвзят, но это последняя штука что взял бы для такого. Будет именно что день сурка из-за слишком слабого внимания к тому, что происходило раньше.

Аноним 17/06/25 Втр 14:47:07 № 1249034 435

>>1249013
Да нормально они следят, вы просто, сударь, уже зажрались со своей геммой. Суммарайз, отсутствие говна, внятное повествование и мистралька работает.
ИЧСХ старые мистрали работают лучше, чем новые.
Браво мистральаи, браво.Только у вас модель тупеет с каждой версией

Аноним 17/06/25 Втр 15:00:23 № 1249060 436

>>1249034
> уже зажрались со своей геммой
гемма очень плохо держит контекст, пикрил из шапки. но тот контекст, который она все-таки внимает, она неплохо развивает. это разные вещи. квены лучше всего держат контекст и почти ничего не забывают, но мистралебратии это бесполезно объяснять. там вся любовь к модельке на вере и чувствах держится (ну может еще на картошкожелезе), а не на объективном восприятии

Аноним 17/06/25 Втр 15:08:12 № 1249070 437

>>1249060
Давненько не было мистралесрачей. Ну давай разберем тобою написанное, складывается впечатление что ты человек достойный, что бы не посраться, тем более еще и на мистраль наехал. За такое лягушачьи лапки в жоу запихивают.
> квены лучше всего держат контекст и почти ничего не забывают
Но почему они работают с контекстом как дегенераты ?
Единственное вменяемое квеноподелие это кавэка (вообще какая то аномалия, есть подозрение что разработчики сами не понимают как так вышло) от которого не хочется разбить себе ебало.
> а не на объективном восприятии
Вот только день назад - я ставил цидоньку 1.2 (да, да, опять речь о слоптюне малышки мистральки) и третью цидоньку.
И что то 1.2 не теряла контекст, нормально работала с вменяемой карточкой и в целом подтвердила мои ощущения что мистраль все еще достойна.

Аноним 17/06/25 Втр 15:08:46 № 1249071 438

>>1248832
>А ?!
Тутушка может в рп, и может не начинать кум если не попросили, а растянуть прелюдию на 7К токенов.

Аноним 17/06/25 Втр 15:10:20 № 1249073 439

>>1249071
Bwaaaaaa
Зачем… зачем вы это делаете ? Вам дали охуительно быстрый генератор plap plap plap, зачем мистер анон, ради чего вы РПшите на нём ?

Аноним 17/06/25 Втр 15:13:24 № 1249081 440

>>1249073
лень переключать модели

Аноним 17/06/25 Втр 15:14:18 № 1249085 441

>>1249073
>plap plap plap
В синий архив играешь?

Аноним 17/06/25 Втр 15:22:33 № 1249096 442

>>1249070
> Давненько не было мистралесрачей.
они разве заканчивались? вы же сами их и подогреваете. у меня нет цели сраться, я увидел ошибочное суждение в отношении геммы и поправил анона. и прислал результат исследования, который подтверждает мой личный опыт. кому надо - обратят внимание на табличку, кому нет - пройдут мимо

> Но почему они работают с контекстом как дегенераты ?
откуда мне знать? быть может, тюны плохие щупал или коупишь. при всей моей нелюбви к сноудропу, я на 25-30к контекста ощущаю, что он не упускает из контекста ни самое начало, ни середину, и очень умен в диалогах. ни одна другая локальная моделька до 70б так себя не проявляла в этом смысле. квены2.5 чуть похуже, но тоже отлично держат контекст, уступают только квк и тюнам

> Вот только день назад - я ставил цидоньку 1.2 (да, да, опять речь о слоптюне малышки мистральки) и третью цидоньку.
> И что то 1.2 не теряла контекст, нормально работала с вменяемой карточкой и в целом подтвердила мои ощущения что мистраль все еще достойна.
так я и не писал, что мистраль какашка. мне он не нравится, но я понимаю, что это неплохие модели для своей весовой категории. другое дело, что аноны предпочитают его, когда могли бы катать гемму или коммандера, которые точно лучше. это, конечно, их дело. до тех пор, пока они в тред не приходят рассказывать, что это единственно верный выбор, что слоп - не слоп, а такизадумано, да и контекст ахуенно развивает, прямо как геммочка-дурочка

Аноним 17/06/25 Втр 15:33:09 № 1249099 443

> так я и не писал, что мистраль какашка. мне он не нравится, но я понимаю, что это неплохие модели для своей весовой категории. другое дело, что аноны предпочитают его
Пассаж скорее в другом, по моему я так чувствую - мистраль деградирует с каждой новой версией. И это скорее был реквест подтверждения/опровержения.
Ну я же не чоузенван чтобы за гекком пиздовать, не один же я вижу откровенную деградацию.

> увидел ошибочное суждение в отношении геммы и поправил анона. и прислал результат исследования
Есть некая ирония в расхождении исследований и личного опыта.
Потому что тыкаешь гемму, покрякивая от удовольствия и наслаждаешься как она обыгрывает контекст.

Аноним 17/06/25 Втр 15:33:25 № 1249100 444

>>1249096
>>1249099

Аноним 17/06/25 Втр 15:39:49 № 1249103 445

>>1249099
> мистраль деградирует с каждой новой версией
солидарен, я тоже так считаю. много раз уже об этом писали в треде

> Есть некая ирония в расхождении исследований и личного опыта.
> Потому что тыкаешь гемму, покрякивая от удовольствия и наслаждаешься как она обыгрывает контекст.
ты не разделяешь понятия. учитывать контекст, следить за ним - не то же самое, что его развивать. о чем я и писал выше, гемма прекрасно его развивает. она может в своем ответе проебать часть контекста, но та часть, на которую она обратит внимание, непременно получит отличное развитие. с одной стороны, она двигает таким образом сюжет, с другой - оттуда галлюны и другие проблемы. у квенов/квк обратная ситуация. они не проебывают контекст, держат всю картину целиком и не галлюцинируют, но развивают его часто неохотно. это решается промтингом, лорбуками и прочими ухищрениями. зато когда развитие произойдет, не возникнет противоречий. у каждой модели свои достоинства и недостатки, что я подмечал в своих сообщениях. умен тот, кто это понимает, глуп тот, кто считает свою правду единственно верной и приходит об этом заявить

Аноним 17/06/25 Втр 15:48:56 № 1249113 446

>>1248619
>Я тонны малафьи слил на дэнс персоналити третьей версии. Там по сравнению с другими тюнами мистраля кум очень нетипичный и годный: не лупится, вариативный.
Согласен, Дэнс энжин охуенный, тоже пока что на нем сижу. Но я еще не пробовал Синтию. Расскажите, какой промпт и семплер на неё лучше всего подойдут?

Аноним 17/06/25 Втр 16:23:20 № 1249134 447

Кстати, попробуйте туту и прочие мистральки на обычном V7 без приписки. По моему куда лучше работает.

Аноним 17/06/25 Втр 16:27:36 № 1249138 448

>>1249134
Спасибо анон. Конечно попробую, обязательно. Только еще найду что ты имел ввиду под V7.

Аноним 17/06/25 Втр 16:32:23 № 1249145 449

>>1249138
Картинку не видно? В других разделах жаловались хотя что картинки не прогружаются.

Текстом - Context / Instruct template "Mistral V7", именно так, без приписок.

Аноним 17/06/25 Втр 16:36:03 № 1249151 450

>>1248564
Что такое thinking budget, чем отличаются 40к от 80к?

Аноним 17/06/25 Втр 16:36:09 № 1249152 451

>>1249145
> Картинку не видно?
Неиронично, но правда , сорян. У меня на мобилке не прогрузилось.
Я думал просто очередной адепт :я нашел X и это вин, ищите теперь сами.

Стыдоба то какая.

Аноним 17/06/25 Втр 16:49:46 № 1249166 452

>>1247886
Поздно, пока они это пилили, я выкатился с тесел и отвык от 3 т\с.

Аноним 17/06/25 Втр 16:55:47 № 1249177 453

Зафиксировал сид и ща тестирую разные 24Б мистральки на одинаковых настройках, только первое сообщение, но для первичного понимания уже хватает, некоторые шизы и на первом уже едут, такие сразу в корзину.

Аноним 17/06/25 Втр 17:00:36 № 1249186 454

>>1249177
Держи в курсе.

Аноним 17/06/25 Втр 17:07:23 № 1249198 455

>>1249186
>Держи в курсе
У меня патент на это XD.
Хотя на деле оказалось их и не так много, 12Б - сотни, 24Б - десятка два.

Аноним 17/06/25 Втр 17:17:07 № 1249218 456

>>1249034
> уже зажрались со своей геммой
Гемма на оче большом может запутаться уже, как раз для нее желательно
> Суммарайз, отсутствие говна, внятное повествование
чтобы все было хорошо.
Если пытаться делать на мистралемиксах, то очень сильно заметен провал внимания в середине. Оно помнит карточку и ориентируется в последних постах, но основную историю неоче и неохотно обращается к ней.
В подобном хочется что чар тебе выдавал что-то типа
> бла бла... а вот по этому топику, юзернейм, я припоминаю что ты мне кое что обещал/я тебе кое что обещала, пора приводить в исполнение
и отношения, мнения и прочее менялись очень плавно и закономерно, а не "что ты сказал, извращенец?!"@"твой хуй неплох для прыжка для него, пусть сейчас совершенно неуметный для этого момент".
>>1249060
> пикрил из шапки
Сомнительная штука без прозрачной методологии и публичных семплов. Ее уже не раз критиковали, и переносимость цифр на различные юскейсы под большим вопросом.
> а не на объективном восприятии
Много опыта субъективно что не раз говорилось. Но среди поведения модели несложно выделить вполне объективные паттерны и явные фейлы/вины, а уже зайдут ли они тебе вопрос другой.

Аноним 17/06/25 Втр 17:25:44 № 1249235 457

>>1249085
Содомит
>>1249099
> мистраль деградирует с каждой новой версией
На схожих задачах обработки текста он чууууточку лучше. Но реально, на момент своего выхода 22-24 не был каким-то прорывным (если не считать способность терпеть надругательства васянтюнов), последующие его версии не давали какого-то вау-эффекта как это было с геммой, qwq/квеном, та же ллама3 в сравнении со второй и т.д.
А если ты про васян-тюны, то тут вообще мрак и чам дальше тем хуже, исключений мало.
>>1249177
> Зафиксировал сид
> ща тестирую
Дальше можно не читать, это большая глупость. Для хлебушков пример: плохая модель выдает 1 хороший ответ из 10, хорошая 9 из 10, на фиксированном сиде тебе попадаются именно это единицы.
Подобную оценку можно проводить только насобирав серию аутпутов побольше и оценивая их, после чего выставлять среднее. И то, пока будешь это читать и делать - невольно будет меняться твое настроение и критерии оценки, из-за чего баллы, выставленные в начале будут отличаться от аналогичных в конце.

Аноним 17/06/25 Втр 17:30:28 № 1249242 458

>>1248464
Кусающих друг за друга за соски лесбух, которые хохоча обсуждают их первое свидание, на котором они обсуждали сиськи чирлидерш оно еще как гегерирует.

Аноним 17/06/25 Втр 17:35:12 № 1249246 459

>>1249218
> Сомнительная штука без прозрачной методологии и публичных семплов.
которая, тем не менее, совпадает с моим опытом использования и субъективным восприятием того, насколько хорошо модели учитывают контекст. у меня гемма рассыпается в лучшем случае после 8к, квк и квены до 32к отлично себя показывают

Аноним 17/06/25 Втр 17:36:20 № 1249249 460

>>1249073
Каждый ... как он хочет.
Лично мне - пока норм именно так. Ну вот такой я baka-hentai.

>>1249096
>>1249099
Чисто если кому интересно мое впечатление по текущему состоянию.
На русском:
Для RP - гемма и синтия нормально, где то даже и топ, но специфичны в своем позитивном стиле. И считают игрока человеком принудительно. Если хочется поиграть какой-нить кракозяброй - это точно не с ними, т.к. задолбаешься их править.
Как ассистенты - топ. Технические задачи по тексту и картинкам выполняют шикарно.
qwen-ы - все портит стиль. Русский у этого семейства мне сильно не нравится получаемым стилем. Настолько, что вообще пробовать перестал - бессмысленно. Разве что, еще может QwQ попробую - как то мимо прошли, и еще руки не доходили.
Мистральки - нормально, но из того что я сам щупал (а щупал много - от базовых, до многих популярных миксов), правильно писать может только новая туту-шка. Все остальные - хоть и боле-менее могут, но корявости лезут. Хз почему - кванты те же.

На английском:
гемма с компанией - очень хороша, но уж больно велеречива. Отучить от высокого книжного стиля крайне трудно, а в RP оно не всегда хорошо.
Qwen-ы - среднее по палате, за исключением того который 30B-moe. Этот еще и шустрый, но зато капризный (после настроек - в принципе норм). Больше сказать особо не получается - нет ярких впечатлений от них.
Мистральки - ну, тут все давно в курсе плюсов и минусов. В основном впечатления совпадают, но я их давно гоняю только через GM промпты - так отдельные миксы выделяются. Те же туту-шки (здесь и про первую) которые вполне себе в генерал RP способны, и Dan's personality engine которые у меня никак вкурить не полчилось - по моему личному рейтингу это худшие миксы. Совершенно неуправляемые и крайне своенравные (по плохому).
Eurydice которую ТАМ хвалят - IMHO совершенная хрень, годная только в прямой диалог. Нескольких персонажей не тянет абсолютно.

Остальные 32B - GLM-4 и коммандеры - тяжеловаты моим железкам. Скорость ниже комфортной для RP, но как ассистентов и или соавторов юзать можно. И они, в принципе, справляются. Но там уже задача держать образ безошибочно не стоит, свайп - не трагедия, игру не портит. Всегда что-то подходящее получить можно.

Специально для немотронщика: на моем калькуляторе не юзабельно. Около 1 t/s как его не твикай.

Аноним 17/06/25 Втр 17:38:52 № 1249252 461

>>1249249
> велеречива
свайпает, приговариваяОпять понесло.

Аноним 17/06/25 Втр 17:42:41 № 1249256 462

>>1249249
>Те же туту-шки (здесь и про первую) которые вполне себе в генерал RP способны, и Dan's personality engine которые у меня никак вкурить не полчилось - по моему личному рейтингу это худшие миксы. Совершенно неуправляемые и крайне своенравные (по плохому).
UPD - криво написал. Туту-шки - хороши на своем месте, выделяются в плюс. Это Dan's движки - неуправляемы.

Аноним 17/06/25 Втр 17:45:25 № 1249258 463

>>1249256
такое ощущение, что у анслоп туту проблема, что не умеет ужиматься в токенах, сколько бы ни выставил, всегда хочет полотно выкатить

Аноним 17/06/25 Втр 17:48:59 № 1249260 464

https://huggingface.co/TheDrummer/Valkyrie-49B-v1
Таки какой консенсус для 24гб врамцелов? Гавнишко?

Аноним 17/06/25 Втр 17:56:30 № 1249263 465

>>1249235
>глупость
Для разных моделей (допустим сравнивать гемму, квен, мистраль) действительно глупость. Для сравнения тюнов / мержей вполне рабочая тактика для первого приближения.

Для более детального сравнения уже надо на контексте проверять, тут да.

Аноним 17/06/25 Втр 18:07:39 № 1249286 466

>>1249263
Непробиваемый.

Аноним 17/06/25 Втр 19:10:57 № 1249384 467

>>1249258
Тутушка неожиданно напоминает магнум, так же быстро лезет в трусы и также херачит стены текста, лол, магнум 4.5.

Аноним 17/06/25 Втр 19:13:30 № 1249386 468

>>1248478
Да. NPS1, smt off/on

llama-bench --model "Qwen3-235B-A22B-UD-Q2_K_XL-00001-of-00002.gguf" --batch-size 512 --threads 46 -p 128 --numa distribute
load_backend: loaded RPC backend from llama-b5683-bin-win-cpu-x64\ggml-rpc.dll
load_backend: loaded CPU backend from llama-b5683-bin-win-cpu-x64\ggml-cpu-haswell.dll
| model | size | params | backend | ngl | threads | n_batch | test | t/s |
| ------------------------------ | ---------: | ---------: | ---------- | --: | ------: | ------: | --------------: | -------------------: |
| qwen3moe 235B.A22B Q2_K - Medium | 81.96 GiB | 235.09 B | RPC | 99 | 46 | 512 | pp128 | 33.12 + 3.51 |
| qwen3moe 235B.A22B Q2_K - Medium | 81.96 GiB | 235.09 B | RPC | 99 | 46 | 512 | tg128 | 8.15 + 0.09 |

llama-bench --model "Qwen3-235B-A22B-UD-Q2_K_XL-00001-of-00002.gguf" --batch-size 512 --threads 94 -p 128 --numa distribute
load_backend: loaded RPC backend from llama-b5683-bin-win-cpu-x64\ggml-rpc.dll
load_backend: loaded CPU backend from llama-b5683-bin-win-cpu-x64\ggml-cpu-haswell.dll
| model | size | params | backend | ngl | threads | n_batch | test | t/s |
| ------------------------------ | ---------: | ---------: | ---------- | --: | ------: | ------: | --------------: | -------------------: |
| qwen3moe 235B.A22B Q2_K - Medium | 81.96 GiB | 235.09 B | RPC | 99 | 94 | 512 | pp128 | 36.40 + 3.59 |
| qwen3moe 235B.A22B Q2_K - Medium | 81.96 GiB | 235.09 B | RPC | 99 | 94 | 512 | tg128 | 7.18 + 0.07 |

Аноним 17/06/25 Втр 19:24:13 № 1249399 469

>>1249258
Возможно...
Я обязательно выставляю опцию "удалять неполные предложения" в таверне (привычка еще со времен первой-второй ламы), и с ней это не так заметно.
Для RP у меня, в основном, стоит 200-300 токенов вывода, и чаще - первое. Ей хватает для того, чтобы уложить нужное для описания результатов хода. Далее уже начинается вода, которая не всегда требуется. Когда надо - предпочитаю просто спросить как у GM-а "опиши подробнее".

Аноним 17/06/25 Втр 19:33:53 № 1249418 470

>>1249399
может в этом и прикол, я ниже 350 не пробовал, а надо было до 300 и тогда бы ее тригернуло ужиматься?

Аноним 17/06/25 Втр 19:35:59 № 1249420 471

>>1249260
Чел, запусти и дай своё мнение.

Аноним 17/06/25 Втр 19:40:01 № 1249422 472

>>1249420
Свое мнение я уже давал в предыдущих тредах, чел. Мне интересно мнение других.

Аноним 17/06/25 Втр 19:40:30 № 1249423 473

>>1249260
Я запускал, показалось хуйней полной. Скачал ее только потому что она в синтетике хф чото там места хорошие занимало, а вышло разочарование какое-то. Каких-то точных претензий у меня и нет, она просто тупая как пробка чтоль?

Аноним 17/06/25 Втр 19:45:51 № 1249430 474

>>1249423
дополню, может у меня просто карточки говно? Потому что я пробовал еще немотрон с пресетом от тредовичка и тоже посчитал его отвратным. У меня получались неплохие выводы на ламотюнах 70б при этом и мистрале большой с этими же картами.

Аноним 17/06/25 Втр 19:59:31 № 1249438 475

>>1249418
С моим подходом - я для RP выше 300 не ставлю. Иначе резко повышается шанс на то, что модель пойдет моим персонажем рулить.
Ей же просто писать про остальных становится нечего (всмыле - не трогая при этом игрока) - вот ее и несет задействовать перса игрока тоже. Такое почти всегда купируется сокращением длинны возможного вывода.
Характерный признак этого варианта, в отличи от того, когда модель просто лезет куда не просят - это когда она пишет сначала про остальных, окружение, и только потом про персонажа игрока - как он что-то новое придумал/решил.
Если же модель с не прошенных действий игрока начинает - тогда это косяк промпта/самой модели.

P.S. Помню, на первой ламе вообще выше 100-120 не ставил, часто и на 75 оставлял - иначе бред и галюны начинались.

Аноним 17/06/25 Втр 20:10:08 № 1249444 476

>>1249438
Зачем так жить?

Моё летсо, у которого всегда стоит 2048, сейчас непредставимо.

Аноним 17/06/25 Втр 20:19:37 № 1249445 477

>>1249438
>я для RP выше 300 не ставлю
Интересное наблюдение, правда для мистралек с хорошим промтом и 512 можно.

>>1249444
>2048
Сэйм, когда нет нужны запрещать отыгрывать за персонажа игрока, тоже так ставлю

Аноним 17/06/25 Втр 20:20:04 № 1249446 478

>>1249246
> которая, тем не менее, совпадает с моим опытом использования и субъективным восприятием того
Вариация яскозал же. Так сказать, со своей колокольни и некоторого опыта анализа и постановки реальных экспериментов, такой подход выглядит как ужасная растрата. Нужно понимать что именно измеряется, какие аспекты влияют и хотябы обозначить их, не говоря об оценке чувствительности, а также в целом иметь представление какую роль исследуемый эффект занимает в конкретных случаях применения.
Исследование то может быть наоборот крутое и хорошее, но без конкретики, деталей и правильного анализа - лишь спекуляция.
> у меня гемма рассыпается в лучшем случае после 8к
Дай угадаю, катаешь на жоре где ебический треш вместо правильной реализации скользящих окон? Гемма прекрасно работает на больших контекстах, но когда начинаешь просить от нее слишком многого то начинает ошибаться. При этом qwq там же может просто не понять задачу, новый квен 32 несколько странный, хз как его правильно готовить. Модель как модель без описанного отвала выше 8к если все работает как надо.
>>1249263
> вполне рабочая тактика
Хотябы 3-4 свайпа сделать, если стабильно фейлит то тогда уже можно списывать, только перед этим проверить чтобы был здоровый промпт.
>>1249386
Няша, при случае попробуй линуксы накатить.

Аноним 17/06/25 Втр 20:24:51 № 1249451 479

Хочу себе токсичную вайфу-всезнайку вроде Monday. Есть ли готовый шаблон вроде Monday, или нужно самому всё ручками собирать?

Аноним 17/06/25 Втр 20:25:08 № 1249453 480

>>1249260
Попозже попробую, отпишу.

Аноним 17/06/25 Втр 20:26:54 № 1249455 481

image 604Кб, 1595x595

>>1249446
>Хотябы 3-4 свайпа сделать
Ну в целом логично. К тому же сид почему-то не всегда работает в таверне.

Блин, не надо было ей немецкий прописывать XD

Аноним 17/06/25 Втр 20:31:05 № 1249464 482

месяца 2 в тред не заглядывал. Анончики, какие модельки для кума новые интересные 12-24б появились? Может файнтюны 30б квена?

Аноним 17/06/25 Втр 20:34:05 № 1249469 483

>>1249464
>модельки для кума новые интересные 12-24б
Поехавшая Кукуха 24
Broken-Tutu-24B-Unslop-v2.0

Аноним 17/06/25 Втр 20:34:57 № 1249471 484

>>1249446
> Вариация яскозал же.
здесь почти весь тред такой. мы делимся субъективными ощущениями от использованиях тех или иных моделей

> Дай угадаю, катаешь на жоре
exl3 5bpw

Аноним 17/06/25 Втр 20:45:12 № 1249487 485

Cравнение конечно актуально не валидное, ибо разные кванты, но сходство аутпутов заметно, и чото мне выводы мержа на Q4 нравятся больше чем тутушки на Q5.

https://pixeldrain.com/u/ChpVf2dK Broken-Tutu-24B-Unslop-v2.0.Q5_K_M.gguf.png
https://pixeldrain.com/u/43A9ypVp terraincognita-24b-q4_k_m.gguf.png

https://pixeldrain.com/l/22JGMMa2 All 2 files

Не призываю юзать и не говорю что оно лучше, просто интересно.

Аноним 17/06/25 Втр 21:12:47 № 1249522 486

>>1249444
А почему бы и нет, если хорошо живется?

Я ж играю не дамские романы, а приключения и экшен. Мне, собственно, для RP особо то выше и не нужно. В приоритете не длинные полотона описаний, а ответы GM по делу и ситуации - что произошло, каков результат. Слишком длинные описания только задерживают игру. Если же что-интересно в подробностях - просто спрашиваю об этом, и виртуальный GM всегда готов уточнить.

Это ведь только в ERP - обычно просто два равноценных игрока/персонажа/партнера - прямо друг другу пишут. А в том, что обычно подразумевают как RP в датасетах - это аналог настолки (лазил, смотрел). С явной ролью игрока, и GM/DM который игру ведет, и отвечает не как персонаж, а "что и кто делал/говорил и что получилось". Если подстроиться под это, и в промпте тоже задать - модели себя ведут адекватнее, именно для RP. Даже такие ебливые как туту-шка. IMHO.

Аноним 17/06/25 Втр 21:28:30 № 1249552 487

изображение.png 10Кб, 1538x50

>>1248564
В пизду, говно без задач.
Кстати, их вебсайт на скриншоты впиливает полупрозрачный ватермарк, лол.

Аноним 17/06/25 Втр 21:59:01 № 1249604 488

>>1249552
> нет промта
> нет префилла
> веб версия с железобетонным асисстентом
Чел натурально сел в автомобиль, не переключил передачу с первой и решил, что электросамокат все-таки лучше.
https://youtu.be/hWHIgixdBzg

Аноним 17/06/25 Втр 22:03:56 № 1249606 489

>>1249604
Тут скорее
> с включенными безопасностями не пристегнулся из-за чего автоматически не снялся ручник и никуда не смог поехать
полнейший фейл. Алсо интересно что там в синкинге аж на 15 секунд.

Аноним 17/06/25 Втр 22:10:27 № 1249610 490

>>1249606
>Алсо интересно что там в синкинге аж на 15 секунд.
Там оказывается нет свайпов на юзер сообщениях, я отредактировал первое своё, и ветка пропала в небытие. Но офк там было про мироров и прочую сейфити чушь. Оно в принципе в вебе даже от простого ролеплея отказывается, безо всяких "маленький" и "эротический". Впрочем, если писать утвердительно, то можно и в ролеплей.

Ну а тест это просто тест. Было бы круто, если бы модель прямо с порога могла в эротический чат по просьбе юзера. Джва года уже мечтаю о такой от корпов.

Аноним 17/06/25 Втр 22:15:15 № 1249615 491

>>1249610
Да нет смысла такое тестить в огороженных веб интерфейсах. Там навалено сои и безопасности в промптах чтобы абы какой злой журналюга не увидел чего-то опасное, создавая инфоповод чтобы захейтить компанию. Даже если модель может, такой ответ там нормален.

Аноним 17/06/25 Втр 22:56:42 № 1249660 492

IMG202506172255[...].jpg 230Кб, 1080x1135

>>1248564
бивер стрим блять))
qwen и deepseek изи поняли о чем речь

Аноним 17/06/25 Втр 23:25:14 № 1249706 493

Не думал что скажу это но мистраль 24б освежает...
Возможно потому что я посидел на ней пару дней и сразу свичнулся на 27б+ модели

Аноним 17/06/25 Втр 23:29:42 № 1249713 494

Попробовал тут Синтию (РП на английском). Кум совсем посредственный, мне не понравилось, но все остальное неплохо, видно что поумнее 24б мистралей, ну и вообще то что не лезет сразу в трусы, а сперва создает атмосферу для этого, и то если ситуация ну прям совсем подходящая. Для меня как глоток свежего воздуха после ебырей-террористов на мистралях.

>>1248464
>Синтия не решает главной проблемы геммы. Она базово обучалась на safe dataset с её цветками роз и нежными поглаживаниями.
Хоть кум и без огонька, но если карточка прописана нормально, то там и расчленка и все что нужно будет в деталях. У меня диссекцию живого(какое-то время) персонажа проводили, буквально разбирая на кусочки, описывая все в подробностях.

Аноним 17/06/25 Втр 23:33:57 № 1249723 495

>>1249660

Аноним 17/06/25 Втр 23:58:46 № 1249739 496

>>1249713
Запомните уже где нет кума там нет жизни.
Это как встречаться с бабой только из-за её ума и не ебать - я таких пар ещё не видел.

Аноним 18/06/25 Срд 00:00:31 № 1249743 497

>>1249739
>Это как встречаться с бабой только из-за её ума и не ебать - я таких пар ещё не видел.
Значит ты вообще пар не видел, долбоеб.

Аноним 18/06/25 Срд 00:03:30 № 1249747 498

>>1249743
Скуфяра, спок.
Нормальные люди ебутся в отношениях, кукич.

Аноним 18/06/25 Срд 00:06:51 № 1249752 499

>>1249739
Ебля занимает малую долю в остальной жизни, нельзя назвать приоритетом #1 в отношениях ибо доступна без них или покумить на ллм, ага. Вот когда и то и то устраивает - рай на земле.
Просто смени модельку на несколько постов а потом верни. Не будет считаться изменой, лол.

Аноним 18/06/25 Срд 00:07:01 № 1249753 500

1955366343234.mp4 438Кб, 560x720, 00:00:03

>>1249747

Аноним 18/06/25 Срд 00:09:22 № 1249757 501

>>1249753
ты все поняли что у тебя писька не стоит

ПЕРЕКАТ Аноним # OP 18/06/25 Срд 00:46:43 № 1249787 502

Наконец-то скорость ката становится адекватной. Лишь бы чего не вышло...
ПЕРЕКАТ

>>1249785 (OP)

ПЕРЕКАТ

>>1249785 (OP)

ПЕРЕКАТ

>>1249785 (OP)

Аноним 18/06/25 Срд 12:19:54 № 1250212 503

Анон, есть ноут с 5080 (16Gb). Какую взять модель чтобы поговорить с ней на неприличные темы на русском языке?

Аноним 22/06/25 Вск 21:43:39 № 1254092 504

Господа, какая модель хорошо подходит для шлюхо-ботов? Мне нравится как отвечает gemma-3-12b-it-qat (если обойти цензуру), но эта хуйня периодически отвечает не на том языке, несмотря на промты так не делать