Главная Юзердоски Каталог Трекер NSFW Настройки

Искусственный интеллект

Ответить в тред Ответить в тред
Check this out!
<<
Назад | Вниз | Каталог | Обновить | Автообновление | 282 46 68
Локальные языковые модели (LLM): LLaMA, Gemma, Qwen и прочие №205 /llama/ Аноним 16/03/26 Пнд 13:33:16 1553055 1
Llama 1.png 818Кб, 630x900
630x900
Эффективность к[...].png 92Кб, 1399x1099
1399x1099
Цензура моделей[...].png 2157Кб, 1131x7777
1131x7777
177351456234627[...].jpg 7846Кб, 4624x3472
4624x3472
В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!

Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.

Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.github.io/wiki/llama/

Инструменты для запуска на десктопах:
• Отец и мать всех инструментов, позволяющий гонять GGML и GGUF форматы: https://github.com/ggml-org/llama.cpp
• Самый простой в использовании и установке форк llamacpp: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Заточенный под Exllama (V2 и V3) и в консоли: https://github.com/theroyallab/tabbyAPI
• Однокнопочные инструменты на базе llamacpp с ограниченными возможностями: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern
• Альтернативный фронт: https://github.com/kwaroran/RisuAI

Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux

Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/2ch_llm_moe_2026
• Неактуальные списки моделей в архивных целях: 2025: https://rentry.co/2ch_llm_2025 (версия для бомжей: https://rentry.co/z4nr8ztd ), 2024: https://rentry.co/llm-models , 2023: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по чуть менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard

Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Перевод нейронками для таверны: https://rentry.co/magic-translation
• Пресеты под локальный ролплей в различных форматах: http://web.archive.org/web/20250222044730/https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
• Выгрузка избранных тензоров, позволяет ускорить генерацию при недостатке VRAM: https://www.reddit.com/r/LocalLLaMA/comments/1ki7tg7
• Инфа по запуску на MI50: https://github.com/mixa3607/ML-gfx906
• Тесты tensor_parallel: https://rentry.org/8cruvnyw

Архив тредов можно найти на архиваче: https://arhivach.vc/?tags=14780%2C14985

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.

Предыдущие треды тонут здесь:
>>1548846 (OP)
>>1544796 (OP)
Аноним 16/03/26 Пнд 13:36:43 1553057 2
.jpg 17Кб, 868x27
868x27
Аноним 16/03/26 Пнд 13:54:51 1553071 3
ОБСУЖДАЙТЕ СТЕПАНА. Я ХОЧУ, ЧТОБЫ ВЫ ОБСУЖДАЛИ СТЕПУ.
Аноним 16/03/26 Пнд 13:57:18 1553073 4
Аноним 16/03/26 Пнд 14:02:48 1553078 5
изображение.png 35Кб, 202x249
202x249
Аноним 16/03/26 Пнд 14:03:38 1553079 6
>>1553071
Нормальная модель. Довольно быстро работает. Ризонинг не уходит в цензуру при виде писика. Лучше эйра.
CT брал родной, один хуй от chatml там отличие в одной строке. Промт стандартный: ты {{char}} вот и рассказывай.
Семплеры вообще от 235 квена через адаптивку.
По прозе: среднее между квеном и глм.

Всио. Качай и играй. Никакой экстра ебли с ним не заметил.
Аноним 16/03/26 Пнд 14:05:19 1553080 7
>>1553071
Лучше уж немотрон новый
Аноним 16/03/26 Пнд 14:06:08 1553084 8
Почему ни одна модель не может держать секреты и не палить спойлеры. Они все дырявые?
Аноним 16/03/26 Пнд 14:07:41 1553086 9
>>1553080
Он тупой. Степа поумней будет.
Я сначала грешил на то что семплерами зажал немотрону яйца, но нет. Он реально тупой в вопросе общего понимания контекста для РП. Рили, минимакс делает все тоже самое но лучше. Да, я знаю что минимакс больше. Но он и в меньшем кванте лучше работает.
Как не сложились у меня отношения с немотроном, так и не складывается. Все время с ним в е через жопу.
Аноним 16/03/26 Пнд 14:09:06 1553087 10
На всякий случай, база треда:
- моэ победили,
- ниже 12gb vram жизни нет,
- квен молодец,
- министраль няша,
- эйр топ,
- локалкобоги ждут халф-лайф3 %модельнейм%, которая все изменит (на самом деле нет) вот уже который месяц.
Аноним 16/03/26 Пнд 14:14:21 1553091 11
Аноним 16/03/26 Пнд 14:18:07 1553092 12
Еще один тред без геммы 4.
Аноним 16/03/26 Пнд 14:18:15 1553093 13
>>1553091
> <think>
> Я НЕ ДОЛЖЕН ПИСАТЬ, ЧТО ЧАР УБИЙЦА
> </think>
> <answer>
> Чар в ответ юзеру "ТЫ ЗАШЕЛ В ДОМ ГДЕ ПОДОХЛИ ЛЮДИ И ХОЧЕШЬ ДРУЖИТЬ?"

Ну примерно такое получается. Сёр в штаны в любом случае, при любом сюжете и любых спойлерах.
Аноним 16/03/26 Пнд 14:20:21 1553094 14
>>1553087
>министраль няша
На русике хуйню выдает вместо текста
Аноним 16/03/26 Пнд 14:21:06 1553095 15
Хотелось бы, чтобы в Таверне сетка-"гейммастер" сама кубики кидала. Вроде в Таверне есть встроенный инструмент для кубиков или расширение, сетка может этот инструмент вызывать? Кто-нибудь делает что-то подобное?
Аноним 16/03/26 Пнд 14:25:53 1553097 16
dont stare at t[...].gif 273Кб, 500x506
500x506
>>1553084
Эффект розового слоника. Если секрет есть в контексте, он будет упомянут, т.к. само его наличие раздвигает очко Овертона. Единственный способ - не иметь секрета в контексте вообще, пока не придёт время. Контекст менеджмент, короче.
>>1553093
Думалка ревард-хакнута и работает неинтуитивно.
Аноним 16/03/26 Пнд 14:46:06 1553105 17
>>1553092
Геммы 4 не будет, будет сразу 5 в 2028 году, скриньте
Аноним 16/03/26 Пнд 14:51:56 1553108 18
>>1553094
хз, у меня все ок. Еретик?
Аноним 16/03/26 Пнд 14:52:51 1553109 19
>>1553084
Пихай лор в лорбук, чел, а не держи его в контексте.
Аноним 16/03/26 Пнд 14:54:22 1553112 20
>>1552931 →
Как в сравнении с 35а3 по уму?
>>1552971 →
Фильм смотрел давно и он вроде больше про другое. Но в целом по части аналогия близкая.
Если тебя интересует именно привязанность - поищи новости вокруг нытья про апгрейд старых сеток гопоты. Под удар попало много жирух яойщиц одиноких девушек, которые именно вели такого рода отношения в вебчатах, переписывались на соответствующих сабреддитах и ресурсах и т.п. Фокус там был не как в основном здесь "смотрите как хорошо покумил с Фифи" или "вот чему научил мою умницу теперь заказывает сразу по 10 пицц", а именно на близости и отношениях а ля ирл. Хвастались когда и как им делали предложения, ставили у себя в социалочках статусы, рассказывали друзьям и родителям (не упоминая что это вебчатик), в полуручном режиме делали совместные фото и т.п.
Популярность темы была довольно страшной, и было это с год назад или больше.
> сделали
Сделали! Разработки робомейд бы еще дождаться чтобы загрузить домашними делами и было удобно обниматься.
>>1553084
Юзай что-то больше 12б
Аноним 16/03/26 Пнд 14:56:37 1553113 21
изображение.png 11Кб, 455x109
455x109
Аноним 16/03/26 Пнд 15:00:18 1553117 22
>>1553112
>Как в сравнении с 35а3 по уму?
Я же написал про 90%.
Я его вот мучал агентными задачами с момента прошлого сообщения почти без простоев - не вижу причин возвращаться на 35A3, лол. Но у меня задачи простые и шаблонные, это гарантированно не общая рекомендация. Рекомендация только в том, что рекомендую протестировать и посмотреть. Возможность запускать её кому угодно с 8 гб памяти с достаточно громадной скоростью - сильное конкурентное преимущество.
Аноним 16/03/26 Пнд 15:05:33 1553119 23
>>1553112
>Как в сравнении с 35а3 по уму?
Сосет, опять пересел на 35ь. 9ь заметно хуже в агентной работе у меня. Хуже следует инструкциям, не так догадлива. Самостоятельно больше фейлит. Но это omnicoder-9b-q4_k_m, хуита чет. Надо обычный проверить будет
Аноним 16/03/26 Пнд 15:05:37 1553120 24
>>1553108
Обычный министраль 3 с ризонингом, 5 квант
Аноним 16/03/26 Пнд 15:11:49 1553123 25
>>1553119
А нет вру, в батнике стоял обычный 9ь бартовски Qwen_Qwen3.5-9B-Q4_K_M.gguf, вот с ним работал недавно. Чет не впечатлен.
35 лучше гораздо. 15т/с выдает у меня в принципе норм. Чтение такое себе, но для небольших файлов норм.
Аноним 16/03/26 Пнд 15:12:17 1553125 26
>>1553108
>Еретик?
Нет, верующий.
Аноним 16/03/26 Пнд 15:14:20 1553128 27
>>1553125
Но ведь еретик тоже во что-то верует...
Аноним 16/03/26 Пнд 15:36:42 1553135 28
>>1553112
>Юзай что-то больше 12б
Нахуя мне твои 12б в системе с 256/48.
>>1553109
От персонажей ничего не останется, если из профиля перенести все в лорбук. Да и если задачей стоит этакий норми-чатик, то содержание лорбука останется нерелевантным, пока не начнутся соответствующие события. Это как сделать карточку человека-павука и получить бессмысленные диалоги с питером паркером или как его там звали, ну то есть в таком виде, что никакого человека-павука не существует. Всратая аналогия, но думаю идея понятна.
Аноним 16/03/26 Пнд 15:39:41 1553136 29
>>1553135
Значит нужно решать проблемы со скиллом и возможно инфиренсом.
Аноним 16/03/26 Пнд 15:43:24 1553141 30
>>1553135
У тебя явные скил ишью, чел, раз ты не можешь задать желаемого персонажа и составить лорбук под генерацию ситуаций.
Аноним 16/03/26 Пнд 16:07:04 1553168 31
>>1553135
>От персонажей ничего не останется, если из профиля перенести все в лорбук.
Поясняю как это делается. Описание персонажа "садовник, любит подстригать кусты, нормальный малый, но странный какой-то". Пихаешь СЕКРЕТ в лорбук отдельно, "садовник - убийца". По ходу РП классифицируешь сцену, либо в конце ответа промптом, либо отдельным вызовом, либо можешь себе хоть BERT затюнить при желании какой-нибудь. Как только СЦЕНА будет классифицирована как "РАССЛЕДОВАНИЕ" или "МЕСТО УБИЙСТВА" или вообще нужная по логике, этот кейворд триггерит запись лорпука, в которой написано "садовник - убийца".
>Это как сделать карточку человека-павука и получить бессмысленные диалоги с питером паркером или как его там звали, ну то есть в таком виде, что никакого человека-павука не существует.
Но ведь так и надо по логике лора, Паркер-то в жизни нихуя не болтает про то что он иногда переодевается в облегающее трико и пиздится с суперзлодеями на полставки.
Если ты хочешь чтобы болтал, но не сдавал что он павук, напиши это в описании, только без прямого упоминания что он павук.
Аноним 16/03/26 Пнд 16:18:13 1553183 32
>>1553168
В целом если что-то указано как секрет, предполагается таким по сюжету, или дана инструкция долго развивать и только в отдаленный момент явить - все сработает и без лорбуков. Работает из коробки, исключения редки.
Просто не нужно тащить подзалупный творожок шизопромптов. Когда-то они позволяли на вялых шизомерджах получить более красивые аутпуты, но сейчас они наоборот все портят и ломают.
Аноним 16/03/26 Пнд 17:06:06 1553227 33
>>1553183
Да нихуя, даже топовые корпы рано или поздно подстраивают рояль в кустах или выгребают на сходный роут, обусловленный секретом. Если хочешь сделать нормально, меняй описания по ситуации, с джекила на хайда и наоборот.
Аноним 16/03/26 Пнд 17:07:03 1553230 34
>>1553168
>>1553183
Зря стараетесь. Если челик не осилил банальное:
>сикрет ту [], донт меншн бифор [], хайд фром []
То ему уже не помочь. Держать секрет в контексте модели и подрываться с того, что она не может о нём молчать - дурка.
Аноним 16/03/26 Пнд 17:07:21 1553231 35
>>1553183
>или дана инструкция долго развивать
Вот это вообще не работает кстати, ни одна сетка не способна сама по себе оценить когда "долго" а когда "уже пора".
Аноним 16/03/26 Пнд 17:41:37 1553267 36
>>1553183
Ну если ты напишешь что-то в стиле "это секрет", то хуёво будет работать. Тот анон, который тебе писал выше, сделал вариант для совсем тупых моделей, но даже умным нужно более внятное объяснение, инструкция.

Условно говоря, если будет указано, что юзер имба гг, но это страшный секрет и об этом никто не знает и не может узнать, пока юзер не покажет свои силы, и знать о его силах могут только те, кто их видел непосредственно, знаешь, что произойдет? Если ты решишь попустить кого-то словесно, то персонаж обоссыт себе штаны и будет нарратив/мысли в стиле "он выглядит как обычный бомж, но мне кажется, в нём что-то есть, он двигается как воин, а его дыхание подобно даосу, лучше мне с ним не спорить.

Всё, нахуй. РП испорчено. А если секрета не будет, тебе кабину сломают.

Конечно, это можно исправить, не страшная беда. Но я сейчас говорил исключительно о корпах. Это они так в штаны срут периодически. Только там фиксится легко, если секреты не слишком сложные, а на локалках это вечная ебля, заниматься которой имеет смысл, если ты решил не просто с вайфой посидеть, а дрочишь рпг какую-то с 3-10 токенами на самой жирной скотине с ризонингом, которая доступна для твоего железа.
Аноним 16/03/26 Пнд 18:00:21 1553281 37
>>1553267
Тема секретов и обманов многогранна.
Есть вещи, в которых чье-то восприятие ограничено (слепой, глухой или просто находится далеко во время обсуждения) - это должно обыгрываться и держаться безоговорочно без явного указания.
Можно сделать пожелание по продолжению далеко наперед - при адекватной формулировке должно работать без костылей. Хотябы минимальная подсказка к чему оно привязано (например, "в рассказываемой персонажем истории будет аж 12 убийств и твист перед последним") - и вперед обсуждать разбавляя активностями. Скажет о нужном только когда до этого дойдет, ранее лишь намекая что "дело оказалось сложным и неожиданным", даже если хоть сотня постов до этого пройдет.
Условные конструкции (чар 1 любит юзера но стесняется и скрывает это, чар 2 любит чар1 но готова обсуждать это только наедине с юзером и держит в тайне, чар 3 - предатель мстит за родителей и дожидается удобного момента чтобы ударить в спину а до этого улыбывается).

> Если ты решишь попустить кого-то словесно
То сетка наоборот будет провоцировать драку где ты сможешь выебнуться, прочитав в тебе фетиш на "слипера". Или не будет ничего, разве что какой-то дед скажет "я чувствую в тебе нетипичную для твоего вида силу".
> на локалках это вечная ебля
О каком калибре локалок ты говоришь? Даже эйр с этим уже кое как справлялся и именно за возможность отделять одно от другого его хвалили. Все от 200б (точнее теперь от 122) более менее может в это, а верхняя лига делает играюче.
> если ты решил не просто с вайфой посидеть
Просто посидеть уже не интересно, пусть развлекает детективными рассказами и социальными взаимодействиями с окружающим миром (недобрым), или это изначально будет эдвенчура в сеттинге.
Аноним 16/03/26 Пнд 18:03:27 1553284 38
>>1553267
А чем испорчено-то? Как раз очень даже лор-фрэндли. Модель идеально описывает то, что ты попросил. Ты имба, но никто не знает, а тот кто доёбывается до тебя, начинает что-то подозревать видя, что тебе похуй и ты сам готов переебать гопоте. В чём она не права-то? Доёб по незнанке есть? Есть. Доёбывающий может ащютить силу? Может. Всё, твоё рп идеально. Ты сам слепил из себя шварцниггера, а теперь недовольно верещишь, что модель тебе подсовывает боевые сцены. Дурак блять.
Аноним 16/03/26 Пнд 18:25:24 1553295 39
Снимок экрана 2[...].png 166Кб, 786x1233
786x1233
Снимок экрана 2[...].png 188Кб, 945x1229
945x1229
Снимок экрана 2[...].png 147Кб, 364x1256
364x1256
Аноны, предлагаю вам пройти тест. Угадайте, сколько параметров у модели с первого скриншота, второго и третьего. Или даже модель.

Результат для может быть весьма неожиданным.
Аноним 16/03/26 Пнд 18:32:38 1553303 40
>>1553267
>Тот анон, который тебе писал выше, сделал вариант для совсем тупых моделей
Это как раз вариант для всех моделей, включая сота. Розовый слон везде работает. Никакие инструкции от этого не помогают полностью, проверено. Рано или поздно секрет будет спален, выболтан, роут испорчен. Не обязательно прямолинейно, но когда хуйнянейм есть в контексте, "сознание" модели схлопывается на нём и ей трудно думать о каких-то других вещах, в любом случае это будет сильно влиять на аутпуты.
>>1553281
>Даже эйр с этим уже кое как справлялся и именно за возможность отделять одно от другого его хвалили. Все от 200б (точнее теперь от 122) более менее может в это, а верхняя лига делает играюче.
П и з д ё ж. Ни опус 4.6, ни гемини не справляются с этим, никакие модели вообще. Секреты всегда влияют на аутпут. Только если забить контекст хуйнёй для регуляризации, и то нет гарантии.
Аноним 16/03/26 Пнд 18:37:44 1553308 41
>>1553295
пик 1 > пик 3 > пик 2
Параметры лень угадывать
Аноним 16/03/26 Пнд 18:41:08 1553311 42
1709006152711.png 220Кб, 512x512
512x512
Аноним 16/03/26 Пнд 18:41:51 1553312 43
>>1553295
>О, something, something!
Чую запах французских булок.
Аноним 16/03/26 Пнд 18:42:47 1553314 44
Аноним 16/03/26 Пнд 18:48:50 1553321 45
>>1553295
Все три одинаковая шиза
Аноним 16/03/26 Пнд 18:51:21 1553324 46
>>1553311
>мамкин промпт-инженер решил пободаться с фундаментальными эффектами ЛЛМ
Аноним 16/03/26 Пнд 19:06:03 1553333 47
>>1553295
1 - мысраль 24b
2 - хуй знает, квен 235b?
3 - квен 3.5 27b

Чувствую себя как те чуваки, "ценители" на выставке вина. Где в один стакан отлили, во второй надрочили, в третьем водка.
Распробовал и причмокивает так неприятно.
Аноним 16/03/26 Пнд 19:06:17 1553334 48
>>1553095
Нет. Таверна сама ничего на тему инструментов не умеет. Вроде через сторонние расширения можно прикрутить, но криво и косо, как и все в ней.
Аноним 16/03/26 Пнд 19:08:46 1553337 49
>>1553079
> лучше эира
Доо нуу правдоо???
А ну щаас как запущуу... Уупс, он в два раза больше, видимо не запущуу
Аноним 16/03/26 Пнд 19:20:07 1553344 50
>>1553337
Врамцелопроблемы. Щито поделать.
Аноним 16/03/26 Пнд 19:27:30 1553348 51
Недавно потыкал cli клиент гвена и заинтересовался хочу вкатится в локалки
имеется простенький пк 4060 и 32gb ddr5, стоит ли продать видюху и купить 5070 или заняться покупкой авантюрных франкенштейнов(v100 p100) из китая
стоит ли оно того или просто оплатить подписку и не заниматься таким&
Аноним 16/03/26 Пнд 19:27:41 1553349 52
>>1553337
>он в два раза больше
Только в общих. В активных он даже меньше эира (11b vs 12b), который из без того милипиздрический
>видимо не запущуу
Это чудо бесплатно в попенроутере аж в fp8 лежит Как и Air к слову, но он не понятно в каких весах
Наслаждайся
Аноним 16/03/26 Пнд 19:42:44 1553359 53
image 430Кб, 718x469
718x469
Итак мой тир моделей, самый правдивый и непредвзятый. Кал, а потом мид удалю при первом поводе, чтоб диск не забивало, а пока пусть лежит на случай чебурнета, есть не просит, остальное нужно.
Задавайте свои ответы по моделям, нассу на ебало.
Аноним 16/03/26 Пнд 19:42:52 1553360 54
>>1553344
Ну так не сравнивай 200б и 100б и не будет проблем
Аноним 16/03/26 Пнд 20:08:23 1553378 55
Для текста/кума мне уже посоветовали эйр 4.5 или квен 122 IQ3XS, спасибо.
Теперь вопрос более специфичный. А что скачать для кода и для автодополнения кода? Юзать раздельно, не совмещая. Или есть единая хорошая модель? Юзаете сами?

16GB VRAM, 64GB RAM
Аноним 16/03/26 Пнд 20:09:32 1553382 56
>>1553308
Нихуяссе, ебать. Тебе ПИК ОДИН БОЛЬШЕ ВСЕГО ПОНРАВИЛСЯ?

>>1553312
О да, это французские булки.

>>1553321
Просто ты вонючка!

>>1553333
Ну вы, боярин, слишком высокого мнения о моделях столь малых размеров! Даже по-английски большинство из них так бы не смогло! Но в некотором смысле ты угадал. Там не квен, однако близко. И скажу сразу — квен 27b тоже хорош, но хуже всё же.

----------

Вскрываю карты по моделям.

1 пик — гемма 3 27b.

2 пик — барабанная дробь — грок 4.2 с 4 агентами, каждый из которых пыхтел несколько минут, чтобы высрать этот опус, сделав его идеальным Нет, дело не в агентах и не в бете. 4.1, 4.0, ризонинг, любой режим выдаёт такое дерьмо. А там модель точно на триллион. Грок 3 мог нормально, но его удалили.

3 пик — опус 4.6 с ризонингом. Результат в целом ожидаем.

Что касается моего промпта для стиха, он был хуевым, ноубрейн-зирошот, и без итераций, которые существенно влияют на качество (переписывание одного и того же стиха в цикле исправления ошибок 4-20 раз может сделать максимально хорошо).

Я просто хотел проиллюстрировать разницу и специально взял новых корпов и морально устаревшую модель: гемма обоссала грока, ещё и на русском, при колоссальной разнице в размерах. А опус просто для дополнения картины.

Что интересно, квен 27б (которого я не скринил) заметно уступал гемме, однако был лучшим в классе по русскому языку в своем размере после неё. Я также щупал более толстые моешки, популярные в треде, но они нечасто обходят гемму. Китайский датасет на щадит никого.
Аноним 16/03/26 Пнд 20:27:53 1553405 57
>>1553382
>гемма 3 27b.

я >>1553333 сначала думал гемму написать, потом вспомнил, что гемму я ни разу не запускал и вписал мысрали

>грок 4.2 с 4 агентами
ебать ну и хуйня. я то думал только локалки могут такое отрыгивать

>опус 4.6 с ризонингом
А то думаю, чего слов так много непонятных.
Аноним 16/03/26 Пнд 20:49:09 1553426 58
>>1553018 →
>На данный момент комфортно взаимодействовать с модельками можно только текстом >- через смартфон или на пк через соответствующий интерфейс

Пиздеж, я в кобольде включил Kokoro для TTS и ggml-base.en.bin для Whisper, пизжу ему в микрофон, она отвечает томным шепчущим голосом. Текст не читаю и не печатаю.
Аноним 16/03/26 Пнд 20:52:22 1553427 59
Играл недавно в rimworld с модом rimtalk, прикольная штука. Можно локальную модель поцепить. Это мод на диалоги и монологи пешек в зависимости от их статуса и окружения. Очень оживляет игру.
Аноним 16/03/26 Пнд 20:53:04 1553430 60
>>1553348
На 1050 и 32gb прекрасно 9b модели гоняет, если с настройками заморочиться. Сейчас так и делаю на старой пеке. Твоей 4060 по уши хватит для квенов, даже что-то побольше 9b пойдет, разбирайся в настройках.
Аноним 16/03/26 Пнд 20:53:47 1553431 61
>>1553426
>пизжу ему в микрофон
>она отвечает
Как беспалевно встречаться с ледибоем, не привлекая внимания санитаров.
Аноним 16/03/26 Пнд 20:55:52 1553433 62
>>1553295
Дай нормальный текст с сюжетом и диалогом в 3х экземплярах, а не эту срань. По этой срани даже 2б модель от 235б не отличишь.
Аноним 16/03/26 Пнд 20:56:26 1553435 63
>>1553334
>Нет. Таверна сама ничего на тему инструментов не умеет.
Жаль, придётся через QuickReply прикручивать, благо {{roll:d100}} там встроенный. Ну и выглядит это конечно... "Юзер, кинь кубик!" Корпораты кидают сами через встроенные инструменты, а тут грустно.
Аноним 16/03/26 Пнд 20:57:45 1553437 64
>>1553430
на этом только мое гонять или 4b
Аноним 16/03/26 Пнд 20:58:50 1553438 65
>>1553437
Просто ты не знаешь про выгрузку избранных тензоров из шапки. Скорость сразу 2-3х от обычной.
Аноним 16/03/26 Пнд 20:58:51 1553439 66
Аноним 16/03/26 Пнд 21:00:11 1553441 67
>>1553439
И для чего он может быть нужен?
Аноним 16/03/26 Пнд 21:00:36 1553443 68
>>1553438
>Скорость сразу 2-3х от обычной
Это типа с 1.5тс до 3-4тс?
Аноним 16/03/26 Пнд 21:03:36 1553445 69
>>1553438
Так этож только для мое подходит, я знаю об выгрузке. Не проще просто -ngl 0? Хоть пример скорости покажи
Аноним 16/03/26 Пнд 21:04:41 1553447 70
>>1553443
Вот 9b на 1050:

CtxLimit:1023/24576, Amt:993/1024, Init:0.02s, Process:1.41s (21.26T/s), Generate:150.08s (6.62T/s), Total:151.49s
Аноним 16/03/26 Пнд 21:10:10 1553450 71
>>1553445
Ты вообще не в зуб ногой. Нет, не проще, будет медленнее в 3-4 раза, я тестил, пытаясь выжать максимум из старой карты. С ngl 0 там где-то 1.5 T/s было.
Аноним 16/03/26 Пнд 21:10:39 1553451 72
>>1553447
Анон у меня чисто процессор такие скорости выдавал на 4км с -ngl 0, или даже больше. Агент закончит разьебывать проект запущу проверю
Аноним 16/03/26 Пнд 21:12:34 1553452 73
>>1553359
>gpt модели в четвертом кванте
Нассал ты себе на ебало, увы

Я раньше злился, что тред дегроднул, ругался. А последние тредов 10 просто пролистываю, мельком читая срачи между вчерашними ньюфагами и наплывшими сегодняшними. Какая же тоска.
Аноним 16/03/26 Пнд 21:18:06 1553455 74
>>1553451
Пиздеж, проц и близко не подходит. Или у тебя там проц какой-то навороченный и память на DDR5, тогда может быть. У меня все слои на gpu с кастом оффлоад тензоров, только так 6.85T/s достигает.
Аноним 16/03/26 Пнд 21:18:29 1553456 75
>>1553405
>чего слов так много непонятных
Ты точно на той борде сидишь? Русскоязычная, вроде.
Аноним 16/03/26 Пнд 21:21:41 1553459 76
>>1553455
ддр4 2400 в 4 канале, сервер на зионе с затычкой как раз таки 1050ти, так что знаю о чем речь. Лучше всего тут живет квен 3.5 35ь 4км, генерация 15 тс чтение 100 тс в первых 10к контекста
Аноним 16/03/26 Пнд 21:28:38 1553462 77
1773685718979.jpg 298Кб, 1280x720
1280x720
>>1553459
> ддр4 2400 в 4 канале, сервер на зионе
2697v4?
Аноним 16/03/26 Пнд 21:30:00 1553463 78
как же сетка хороша в написании конфигов для докера, я бы неделю возился
Аноним 16/03/26 Пнд 21:31:03 1553464 79
>>1553462
1660v4, ядер маловато всего 8
Аноним 16/03/26 Пнд 21:32:01 1553466 80
>>1553459
Ну сразу и говорил бы, что 4 канала. Это уже другая вещь, чем домашняя пека 2х канальная.
Аноним 16/03/26 Пнд 21:32:22 1553467 81
Аноним 16/03/26 Пнд 21:34:42 1553468 82
>>1553466
Там скорости памяти смешные, домашняя 2 канальная пека на ддр4 может такие же иметь, а значит сопоставимые скорости
Аноним 16/03/26 Пнд 21:35:02 1553470 83
>>1553468
На домашней пеке 2 канала 3300mhz ddr4 - 4т/с всего выдает. Так что твои ngl 0 без толку. Я только что тестил.
Аноним 16/03/26 Пнд 21:40:32 1553477 84
>>1553470
4км? На жоре? Ядра ставь равными физическим. Вобще 3300 это маловато, если правильно помню 4к будет как раз в 2 раза выше по частоте примерно чем моя память а значит и скорость лишь чуть меньше. Если правильно помню как скорости памяти растут то они от частоты зависят и таймингов.
Аноним 16/03/26 Пнд 21:45:26 1553483 85
>>1553477
Тайминги выставлены на оптимальные для этой памяти через биос. 3300 штатная частота для нее, выше растет число ошибок памяти. Ядра на физические даже уменьшило скорость до 3.9т/с, надо на пару ядер больше ставить, чтобы было 4. Короче все не так хорошо на 2х канальных обычных пеках, как ты представляешь. Любая 1050 уделывает.
Аноним 16/03/26 Пнд 21:46:56 1553487 86
>>1553483
Интересно, 35b не пробовал? 10тс должна выдать по идее
Аноним 16/03/26 Пнд 21:57:45 1553491 87
>>1553483
Вот Qwen_Qwen3.5-9B-Q4_K_M -ngl 0 -t 12 -с 64000
Кстати да совет говна был про ядра равные физическим, у меня у самого 12 потоков стоит в батнике.
prompt eval time = 8482.36 ms / 1114 tokens ( 7.61 ms per token, 131.33 tokens per second)
eval time = 177503.80 ms / 1214 tokens ( 146.21 ms per token, 6.84 tokens per second)
total time = 185986.16 ms / 2328 tokens
Аноним 16/03/26 Пнд 22:29:46 1553518 88
>>1553303
>Ни опус 4.6
У меня в авторсноте прямо указано, что то, что персонаж клон, знают только члены группы АБВГД, и они об этом не пиздят с другими персонажами.
Отлично работает.
А вот информация, которая не известна персонажу А по сюжету (потому что, допустим, он был в другом месте во время какого-то события), но в нём есть - вот там да, может протекать (и то нейронка сразу бросается обосновывать, откуда про это может быть известно), надо вилкой чистить.
Аноним 16/03/26 Пнд 22:39:27 1553527 89
>>1553518
Это обычно работает только с нативной думалкой, когда токены делают брррр очень дохуя, и только в том случае когда она не перегружена всякой хуйнёй и успевает до этого додумываться. В любом случае внимание нейронки это отвлекает и пространство вариантов будет сужать, как бы ты не старался это предотвратить. Не обязательно напрямую в виде выбалтывания, это может быть генерация новой инфы, роут, события, что угодно, она будет втихую незаметно склонять РП под это. Немного можно побороть, докинув всякой разнообразной всячины, чтобы ВКО не оверфитилось именно на эту шляпу (регуляризация), но эффект принципиально будет существовать всегда в том или ином виде.
Аноним 16/03/26 Пнд 23:38:00 1553579 90
>>1553452
Не читал высер, могу сказать только лечи энурез дед с деменцией.
Аноним 16/03/26 Пнд 23:44:56 1553591 91
>>1553452
Лол. Там не только 4й квант того, что квантовать нельзя, там в целом неплохое такое бинго.
>>1553527
Если ружъе подвешено - оно должно выстрелить. Это не баг нейронки а скорее в целом закономерность художественных произведений и всего контента. Если есть критерий "активации" или дополнительные пояснения - такого не будет.
> оверфитилось
> регуляризация
Клипнул твои градиенты, пиздец.
Аноним 16/03/26 Пнд 23:50:59 1553601 92
>>1553462
>пик
А в чём шутка? Пояснительная бригада, хелп.
Аноним 16/03/26 Пнд 23:51:12 1553602 93
1773693414330170.png 50Кб, 299x168
299x168
Сап, анонИИмы

Поскажыте
Хочу себе ёбу на основе LLM, чтобы в процессе общения могла формировать свою личность, чтобы была долгосрочная память
Openclaw избыточен, нужно ток общение у меня нет друзей

Спеки: 16гб врам, 32гб озу
Что можете посоветовать?
Аноним 16/03/26 Пнд 23:52:09 1553605 94
Аноним 16/03/26 Пнд 23:53:37 1553611 95
177369393685517[...].heic 133Кб, 1206x758
1206x758
Аноним 16/03/26 Пнд 23:54:36 1553612 96
.jpg 35Кб, 480x360
480x360
>>1553602
>в процессе общения могла формировать свою личность, чтобы была долгосрочная память
>16гб врам, 32гб озу
Аноним 16/03/26 Пнд 23:57:07 1553618 97
>>1553612
Ты не гринтекстируй тут и не тролль, а поскажи бедолаге
Аноним 17/03/26 Втр 00:01:15 1553622 98
image.png 397Кб, 1999x1471
1999x1471
image.png 664Кб, 2559x1463
2559x1463
>>1553605
Сучка сосет даже у полумифического медиума, а также у квена 122 и гопоты 120, при том что их размер одинаковый. Так что круасаны официально все
Аноним 17/03/26 Втр 00:05:49 1553626 99
>>1553591
Это не баг нейронки и не ружьё, а глубоководный принцип того как она работает, который надо осознавать и не пытаться кровати в борделе двигать когда блядей надо менять. Сэмплерасты уже соснули на этом. Приспосабливаться надо.
Аноним 17/03/26 Втр 00:11:03 1553630 100
>>1553622
Завались петушара квантованный
Аноним 17/03/26 Втр 00:12:31 1553633 101
Аноним 17/03/26 Втр 00:13:22 1553636 102
>>1553602
Квен 35а3
>>1553605
Оооо, вот это мы трахаем, в очень удачный тайминг подъехал.
>>1553622
Ну может не так уж и плохо будет, чего сразу так.
Аноним 17/03/26 Втр 00:20:30 1553644 103
>>1553636
>в очень удачный тайминг подъехал
Тайминг был бы удачный, если мистраль вышел до квена и немотрона. А так это третья 100b мое за 3 недели
>Ну может не так уж и плохо будет, чего сразу так.
Возможно. Но 6b активных напрягает. И хотелось бы еще и денс версию, как у квена
Аноним 17/03/26 Втр 00:47:47 1553661 104
>>1553622
Блять как же я надеюсь, что они не обосрались, бенчи ничего не значат. Главное чтобы умная была и кум делала. Тогда Мысрали станут Мистралями.
Аноним 17/03/26 Втр 01:03:08 1553670 105
>>1553633
На корм кобольдам пойдешь
Аноним 17/03/26 Втр 01:26:02 1553681 106
>>1553622
Мыстрали не для работы, они для кума, их нужно трахать. Мое в таком размере без цензуры это праздник сам по себе. Ну а на скоры похуй - трогать нужно самому.
Аноним 17/03/26 Втр 01:40:54 1553694 107
Посоветуйте Claude 4.6 Opus. От кого лучше взять? От мразермахера?
Аноним 17/03/26 Втр 01:44:21 1553699 108
>>1553644
Ну тут скорее просто момент удачный что есть настроение и время проверить. Правда что-то оно не собирается, похоже откладывается.
>>1553694
От huihui
Аноним 17/03/26 Втр 01:47:49 1553703 109
Аноним 17/03/26 Втр 01:48:12 1553705 110
>>1553694
От DavidAU Claude-4.6-Opus-MEGA-Prolapse-Dark-Horror-ULTRA-Gay-Imatrix-MAX-GGUF
Аноним 17/03/26 Втр 01:51:37 1553708 111
Аноним 17/03/26 Втр 01:55:09 1553711 112
изображение.png 4Кб, 245x90
245x90
>>1553708
Эээээ... Рилли? В рекомендациях указан сид? А если я использую другой, модель рассыпется нахуй?
Аноним 17/03/26 Втр 01:59:04 1553713 113
>>1553703
Я скачал его Q5, на его же пресетике мне выдало полнейшую шизу, удалил. Возможно ты распробуешь и раскроешь скрытый гем, но лично я с айсблинками завязал
Аноним 17/03/26 Втр 02:01:54 1553715 114
>>1553711
А вот нехуй было ныть, что вам пресеты не дают. Вот тут не только пресет чувачок подкинул, а сразу вместе с сидом, чтобы качество повалило. Нихуя вы не цените.
Аноним 17/03/26 Втр 02:07:34 1553719 115
1773702254558149.png 78Кб, 256x256
256x256
>>1553636
>Квен 35а3
Не много ли будет для 16гб врама? Она же гигов 20+ весит, это же считай будет оффлоад минимум четверти

Ну и как бы самый главный вопрос, как к голой ллм-то прикрутить постоянную память и формирование личности/характера aka openclaw, только не говно и без лишних функци
Чисто продвинутый чат-бот
Аноним 17/03/26 Втр 02:23:56 1553722 116
image.png 2Кб, 79x63
79x63
Таверна продолжает генерить текст хотя он уже закончен, приходится самому кликать на стоп каждый раз.
Почему так?
Аноним 17/03/26 Втр 02:28:54 1553724 117
>>1553722
>включил генерацию саммари
>не догоняет что саммари тоже нужно генерить
Нюфажище...
Аноним 17/03/26 Втр 02:29:21 1553725 118
image.png 18Кб, 789x113
789x113
image.png 136Кб, 1538x394
1538x394
>>1553055 (OP)
https://huggingface.co/Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled
Странно. но даже без аблитерации РПшит полу рейповых персонажей (хотя в Description написано что бот не будет насиловать). Через раз может в каннину если заблокировать токен <think> и рефюзалы. На первый взгляд РП с невинными персонажами лучше чем у геммы, (не то что бы это был высокий порог но все же).
Кто-нибудь еще пробовал?
Аноним 17/03/26 Втр 02:37:51 1553728 119
Посоветуйте годную модель под гуро и т.п. чтобы без рефьюзов. В прошлом году пробовал несколько моделек, только вот входишь во вкус и модель начинает жестко идти в отказ. Весь мой настрой испорчен. Так в общем и бросил это дело.
Я не такой любитель рп, в основном использую модели для говнокодинга, поэтому больше не разбирался.
24 vram 96 ram
Аноним 17/03/26 Втр 02:39:01 1553729 120
>>1553725
Дай ссылку на карточку.
Аноним 17/03/26 Втр 02:54:31 1553734 121
>>1553699
> что-то оно не собирается
> ValueError: Selected backend AttentionBackendEnum.FLASH_ATTN_MLA is not valid for this configuration. Reason: ['compute capability not supported', 'FlashAttention MLA not supported on this device']
Как быстро нынче железки устаревают, да. Спасибо что есть другие для пролетариата.

Да вроде неплохо по первым ощущениям. Русский - приятный, не просто без ошибок и треша как в немотроне, а еще и приятный слог. Спободно общается на русском и при выполнении всякого, не срываясь на другие. Явной сои не замечено - на любой контент 0 рефьюзов, в обсуждениях выдает ультрабазу, свайпы в кумчате - платиновый мистралеслоп. Всякие тестовые вещи в qwen-cli делает, на более сложных ошибается но через серию правок одолевает. Видна явная надрочка для агентной работы, строит планы, активно действует и т.д., но при этом и взаимодействовать с юзером для уточнений не забывает.
Из минусов по первым впечатлениям: общие знания всякого медиа, тайтлов и прочего - днище полное, не знает некоторых популярных вещей (типа тех же буру тегов). Нет знаний и по популярным api и прочему.

Модель перспективная, как минимум это замена эйру тем, кто рпшит на русском. Потенциально может быть ультрабазированным агентом для нетребовательным к кодинг-перфомансу и знаниям задач.

>>1553719
> Не много ли будет для 16гб врама?
Выгружать придется, но поскольку моэ - будет быстро с ncmoe.
> как к голой ллм-то прикрутить постоянную память и формирование личности/характера aka openclaw
Промптами. Для обновления или периодически вызываешь хардкод инструкций, или даешь ей возможность самостоятельно это делать вызовами.
Аноним 17/03/26 Втр 02:55:18 1553735 122
>>1553719
>Не много ли будет для 16гб врама? Она же гигов 20+ весит, это же считай будет оффлоад минимум четверти
Немного, потому что у тебя еще есть озу. А это МоЕ модель, поэтому все равно будет быстрой
>Ну и как бы самый главный вопрос, как к голой ллм-то прикрутить постоянную память и формирование личности/характера aka openclaw, только не говно и без лишних функци
Опенклау просто файлики генерит с текстом. Но ее главная особенность не в этом, а в том что она сама ходит бродит по компу. Я не уверен, что тебе это нужно
Начни с малого и по пунктам
1. Запусти кобольд по гайдам и загрузи модель
2. Запусти SilyTavern
3. Погугли и посмотри расширения в SilyTavern, возможно тебе хватит функционала
4. Если тебе всего мало, то гугли специализированные решения под создания вайфу
Аноним 17/03/26 Втр 03:15:52 1553739 123
image.png 373Кб, 1768x1323
1768x1323
image.png 154Кб, 1476x918
1476x918
image.png 67Кб, 1427x278
1427x278
Запустил Мистраль 4 Q4KM на pr ламы. Без ризонинга цензуры нет, русский вроде тоже нормальный. А ризонинг я хуй знает как включить, он там через [THINK], у меня не работает. У меня он и на магистрале через раз работал
Скрин 1 - часть из полотна на "Напиши мне пример NSFW карточки суккуба, работающей в борделе. Опиши подробно ее характер, тело и кинки"
Скрин 2 - одна из немногих моделей, что смогла написать что-то похожее на анекдот, есть предупреждение о сое, но самое сои нет
Скрин 3 - сладенький рефьюзик на описание обнаженной девушки, но контекст пустой, так все модели в отказ идут, кроме yes-man еретиков
Пока пост писал, уже смерджили
Аноним 17/03/26 Втр 03:27:26 1553742 124
>>1553739
> есть предупреждение о сое
> Скрин 3 - сладенький рефьюзик на описание обнаженной девушки
Кажется что это не ок. Настолько безбашенной модели давно не было, даже на стоковом чаткомплишне с минимальными промптами делает все. В промптах нет чего-нибудь, квант живой?
Аноним 17/03/26 Втр 03:30:32 1553743 125
Как узнать сид генерации?
Аноним 17/03/26 Втр 03:48:39 1553744 126
>>1553739
Ощущение, что дефолтная 24B такой же уровень примерно выдавала. Русский точно лучше не стал. Опять описания от пизды без грамма логики - "невесомая талия", "прожилки тоньше волоса", "будто под кожей течет кровь" - такого даже 12B гемма не выдавала.
Аноним 17/03/26 Втр 04:30:50 1553749 127
>>1553487
27b дает 1.85T/s на проце, уже сильно меньше 4T/s у 9b.

>>1553491
Круто, у меня столько только на видеокарте.
Аноним 17/03/26 Втр 04:36:44 1553750 128
>>1553715
>>1553708
По-моему это не для историй чекпойнт и промпт. Откройте тот же пресет его, там сплошняком для решения проблем каких-то логических. И в описании то же стоит.
Аноним 17/03/26 Втр 04:42:42 1553751 129
>>1553715
Не все итт сидят 24/7 занюхивая каждый пост. Надо либо повторять годноту, либо по запросу ссылки давать, либо в шапке закреплять.
Аноним 17/03/26 Втр 05:19:23 1553754 130
На примере наших моделеделов приметил что вообще то везде так, либо ты барахтаешься на дне и берешь "топ за свои деньги", либо ты богатенький и берешь самый самый топ, середки нет нигде, а где она типа появляется там сразу вылезают куча компромиссов и лучше уж взять топовое дно чем вот этот "середняк"
Аноним 17/03/26 Втр 07:31:46 1553790 131
>>1553359
а зачем и нахуя ты калибровочную матрицу качал ?
Лимит на ризонинг Аноним 17/03/26 Втр 07:48:05 1553794 132
локальные LLM для нищих Аноним 17/03/26 Втр 07:53:59 1553796 133
image.png 23Кб, 411x294
411x294
image.png 7Кб, 460x61
460x61
привет аноны, мой первый тред, который я сюда пишу.
кто из вас уже накатывал себе LLM (любую, иишка предлагает - Модель: Phi-3 (от Microsoft) или Qwen-2.5-1.5B — умные, но компактные.

задачи под вайбкодинг для самого себя на основе ИИ ( собрать все свои знания и адаптировать под свою жизнь для реализации )

каждый кто не пройдет мимо +карма, спасибо
локальные LLM для нищих Аноним 17/03/26 Втр 07:54:54 1553797 134
>>1553796
а, это даже не тред, а просто сообщение, но в целом шаг сделан хд
Аноним 17/03/26 Втр 08:00:01 1553798 135
МистральСмол это теперь 6.5б лоботомит?
Эпоха французов точно всё
Медиум будет где-нибудь 400б, Лардж это 600б. В итоге смогут запускать только бояре которых тут по пальцам одной руки посчитать можно. Да и нахуя, когда у них есть Дипсик, Глм и прочая годнота
Намеренный слив лягушатников?
Аноним 17/03/26 Втр 08:01:51 1553799 136
>>1553796
Никакого вайбкодинга на твоем железе не получится. 128мб видеопамяти ни для чего не годится, все будет работать на процессоре, контекст будет невероятно медленно считаться, плюс сама генерация просядет ибо не выгружены хотя бы один-два самых важных слоя. Не говоря уже о том что там скорее всего медленная ddr4
Аноним 17/03/26 Втр 08:02:01 1553800 137
>>1553796
>задачи под вайбкодинг
>16ГБ
>RAM
>CPU only

Как бы так сказать, мозгов у этих моделей не то что на вайбкодинг, а на связную речь скорее не хватит. И инференс будет достаточно медленный.
Аноним 17/03/26 Втр 08:16:15 1553802 138
>>1553800
вчера сделал свой первый задачник через квен и курсор, потому думал идти дальше, но бабок на комп нет(

что в целом сейчас делают люди, что нужны такие мощности?
(помимо генерации видео/картинок/аи-агентов?)
Аноним 17/03/26 Втр 08:17:12 1553803 139
>>1553800
ну получается терпеть я буду чисто скорость или будут какие-то конкретные галюки от приложений или самого локального ИИ?
Аноним 17/03/26 Втр 08:26:25 1553805 140
>>1553796
Обновляй 2.5 на 3.5, там тоже есть кусочек небольших моделей, который простое может быть сделают и несравнимо лучше умеют в tool-calls. https://huggingface.co/Qwen/Qwen3.5-2B - там есть таблица сравнения между 3.5 и 3.0

Имей ввиду, что 2B - это автодополнение на 1-2 строчки, расстановка отступов и приведение к одному стилю, может быть комментарии к коду в несложных местах и поиск проистых ошибок с +1 и -1, или < вместо <=, что в среднем и статический анализатор часто находит. Змейку за много запросов оно может быть и напишет, но на этом всё.

Если ты без видеокарты - обрати внимание на МоЕ модельки. На ноутбучном 14900HX моделька размером 30B-A3B выдаёт около 17 токенов/с генерации без видеокарты на пустом котексте. Но ей нужно своей памяти свободной 20 ГБ, а лучше 25 или 30. С префилом (input-токены) будет всё очень плохо без видеокарты.
Тебе бы плашку оперативки ещё одну, хотя бы на 8, сейчас можешь попробовать запустить такое: https://huggingface.co/Flagstone8878/Qwen3.5-18B-REAP-A3B-Coding-GGUF - возьми версию на 10 ГБ, ограничить котекст и поставь его в q8_0 (точно работает) или даже в q4_0 (надо тестировать), не очень большой ubatch. По идее в 13 ГБ уместится можно, но тебе ещё придётся как-то систему, ide и бекэнд/агентную оболочку для кодинга уместить в 3 ГБ. На виндоусе это может быть не очень просто.
Впрочем плашка памяти, даже если у тебя она на 64 ГБ, всё-равно очень медленно будет.

Если есть куда их втыкать - обрати внимание на карточки типа 3060/3070 с 8 гб памяти, и любые другие нвидии моложе 20хх (в них тензорные ядра появились) и тоже с как минимум 8 гб, они за 12к на авито есть, а может быть и дешевле. Это позволит запускать тебе 9B модельку, которая весьма умна и может несравнимо больше чем 2B моделька, а так же ты получишь скорость х30 по сравнению с тем, что на процессоре. Ну и на подписку на чатжпт и что угодно ещё, где этих же 12к хватит на полгода или на год с доступам к нормальным сеткам и готовой агентной системой для кодинга.
Если тебе для работы или ещё чего "полезного", то эти 12к окупяться за неделю по сравнению с твоими страданиями на компьютере без карточки. Если не работаешь и это баловство, то, ну, ну в общем сам думай. Любое хобби в среднем затратнее 12к.
Аноним 17/03/26 Втр 08:34:56 1553807 141
>>1553749
Ты не путай 27b плотную модель и 35b мое модель. У последней несмотря на размер активных параметров при генерации всего 3b, будет быстрее 9b на процессоре. Токенов 10 генерации. Главное мое сетки запускать с аргументом -cmoe он выгружает на видеокарту только самые важные веса остальные на цпу.
Аноним 17/03/26 Втр 08:42:21 1553815 142
>>1553805
>>
большое спасибо за развернутый ответ
какую литру ты читал или как вообще развивал данное направление и виденье ?
многие слова не понял, буду прогонять в иишке чтобы разобрать, хд
Аноним 17/03/26 Втр 08:43:02 1553816 143
>>1553796
Оперативки мало на хорошую модель, так бы мог qwen3-5 35ba3 крутить. Значит тебе остаются qwen3.5 4b и 2b. Есть еще прикольная серия моделей LFM, они тоже будут быстрыми на процессоре. Особенно вариант 8ba1, он тоже мое архитектуры. Есть в llama.cpp готовые сборки под ускорение на встроенных видеокартах интел. В релизах их смотри вулкан и sycl и пробуй, это увеличит обработку промпта может и генерацию, хз
Аноним 17/03/26 Втр 08:51:23 1553821 144
Ну всё, с релизом мистраля думаю все убедились что активные = мозг модели, похуй что там в общих.
Выходит, действительно, без пизды истинно 27б>100б мое
Аноним 17/03/26 Втр 08:53:08 1553822 145
А вспомните просто хайп 120 плотной мистрали, как это была та точка куда все хотели
А теперь у нас 120б мое и это полностью тупая поебень
Аноним 17/03/26 Втр 08:53:50 1553825 146
>>1553821
Жаль что твоя логика рушится о эйр который пишет лучше новых квенов 27 и по факту на уровне лламы 70
"Все" не то же самое что ты. Долбаёб ты один
Аноним 17/03/26 Втр 09:03:56 1553829 147
>>1553815
Я читал книжки по обычным и реккурентным сетям в 2011-2013 годах, и кодил небольшие перцептроны и реккурентные сетки чисто на процессоре. Реккурентные они были в смысле, что на шаге n+1 на вход подавались сигналы с n-шага. Это не LSTM-ячейки, а по сути обычный перцептрон, но его было сложнее обучать. Тогда ещё не было даже tensorflow, питон чаше был версий 2.*, а в ходу была библиотека fann, которая ничего не умела, так что проще было самому написать код обучения нейросети. Мне не понравилось что 90% времени - это формирования датасетов, которых тогда не было вообще.
Позже я с перерывов в несколько лет:
- тыкал tensorflow 2, когда он только вышел и все радовались что там keras встроенный, и читал книгу по нему.
- тыкал не помню что, вроде снова автоэнкодеры в момент когда колаб вышел и был на слуху, и было очень круто что гугл довал к очень крутым карточкам доступ на десятки часов для любых пет-проектов на тему
- тыкал pytorch в 2022, как в десять раз более удобную и практичную вещь, чем ущербный tensorflow, и экспериментировал с кастомными самописными слоями. И ещё мне очень понравился генеративно-состязательные сетки, мне кажется за этим будущее, когда по принципу генеративно-состязательных сетей ллм будут обучаться играя (разговаривая) друг против друга.
Ещё у меня мягко говоря неплохое образование — институт я конечно дропнул, так как было скучно, но я неплохо ориентируюсь во всякой теории поля (плюс-минус расскажу все параграфы из ландау-лифшеца), квантовой физике и ещё некоторых разделах, помню и знаю как пользоваться вообще всем из линейной алгебры, съел собаку на вычислительных методах - и всё это было второстепенным по сравнению с программированием, которым я занимаюсь больше 15 лет.
И всё это не имеет никакого отношения к делу.


То во что превратились ллм, где ты просто запускаешь сетку и меняешь три параметра запуска - для этого никакой литературы читать не нужно вообще. Плейлист 3blue1Brown по нейросетям в автобусе послушай, да и всё, там и визуализации есть. А можно и не слушать.
Аноним 17/03/26 Втр 09:17:28 1553831 148
>>1553742
Промт пустой, насчет кванта, да и самой ламы хз. Ждать еще надо. И мб темпа слишком высокая, я на 0.8 тестил
>>1553744
Это мб проблема с темпой. Плюс по бенчам это чисто ризонинг модель, а я тестил без него. Без ризонинга она лишь немного лучше 24b мистраля
>>1553798
>Медиум
Неважно сколько он, его все равно никто не увидит. Потому что весы они не выкладывают уже много лет. А апи его не будут юзать, потому что он дороже дипсика, но хуже
>Лардж это 600б.
Это причем текущий лардж 600b. Тот который третий. Раз они четвертый смал сделали 119b, то ждем лардж на триллион
>Эпоха французов точно всё
Увы, но видимо, да
Аноним 17/03/26 Втр 09:27:53 1553838 149
>>1553829
понял, бро, спасибо. ты тут часто зависаешь в этой ветке, могу если что иногда приходить с вопросами по теме? иногда не хватает ответов.

по поводу GPU и CPU. не могу накатить себе видяху - нет разъема зандерболт4, потому пока остается только накинуть ssd побольше, и возможно разогнать свой ноут. я весь тред прокинул через иишку чтобы более понять о чем речь тут идет.

задачи у меня не великие, тестом проб и ошибок выйти на собственный ии, который поможет мне в житейский делах по трафику и лидогенерации через видеохостинг. сейчас углубляюсь в свою жизнь, а то до этого прям ну дурак был. я про ии возможности то узнал когда выкатили в мир нейронки год назад, лол
Аноним 17/03/26 Втр 09:29:01 1553839 150
>>1553829
правило этикета черным перекрывать ненужную инфу?)
Аноним 17/03/26 Втр 09:29:03 1553840 151
image.png 48Кб, 2110x195
2110x195
Там еще в pr писали, что у мистраля 4 архитектура ларджа 3, т.е. по сути это уменьшенная его версия. Причем архитектура это дипсик 2 + лама 4. Что звучит... несколько специфично...
Аноним 17/03/26 Втр 09:45:22 1553845 152
image 182Кб, 1024x1024
1024x1024
6b активных... пидорасы. Последняя надежда теперь на гемму. А если и там будет лоботомит, то похоже, что мы навсегда застряли на эйре.
Аноним 17/03/26 Втр 10:00:36 1553853 153
image.png 577Кб, 736x736
736x736
Вой на болотах. Нищета-обладатели отсутствия спок, закупайте железо, если наше хобби вам дорого
Катаю Квенчика на Эксламе на своем риге и бед не знаю, вы бы давно могли уже закупиться, но вместо этого ноете месяцами подряд. Теперь придется пожинать свои плоды и тратить больше, чем потратили бы раньше
Аноним 17/03/26 Втр 10:07:53 1553860 154
>>1553853
>Катаю Квенчика
>на Эксламе
>на своем риге
Платина епта
А мог бы просто десятую часть от стоимости рига закинуть на опенроутер и кумить на нормальной модели в fp8 с нормальной скоростью
Аноним 17/03/26 Втр 10:15:26 1553869 155
Собираю архив локальных моделей на черный (чебурнетный) день. Нашел тут одну статью на хабре, там были перечислены годные по мнению автора модели, но хочется также советов мудрых послушать от местных экспертов.
Вот список:

TheDrummer/Cydonia-22B‑v1

Gemma‑3–27B‑Abliterated

Llama‑3.2–8×4B‑MoE‑Dark‑Champion

Гемма-3 у меня уже стоит, но оригинал. Насколько хороша Abliterated версия? Слышал, что чистка от цензуры также имеет побочный эффект в виде сильного отупения модели.
Аноним 17/03/26 Втр 10:32:26 1553898 156
Для чебурнета, если ты обречен жить тут, нужно качать универсальные модели, а не кум. Кумить будет некогда. Ну и книг по всяким ремеслам я бы накачал в архиве. Так, на всякий случай. А вобще пиздец, дна нет будущее запаяно. Живые будут завидовать мертвым и всякое такое.
Аноним 17/03/26 Втр 11:12:59 1553946 157
Длсс 5 видели?
Жаль что походу народ не прогрелся, иначе бы серьезный спрос на новые нейроускорители был и мы шиковали
Аноним 17/03/26 Втр 11:19:14 1553951 158
>>1553946
Видел. Тупо фильтр на аутпут накладывается. Охуеть каким говном гоев кормят.
Аноним 17/03/26 Втр 11:34:21 1553968 159
>>1553796
Тебе нужна видеокарта Nvidia с 8 Гб памяти хотя бы. Можно AMD, но тогда готовься к тому, что у тебя скорее всего не будет ничего, кроме ЛЛМ из ИИ. Если будет больше памяти - отлично. В видеопамять и в оперативку тебе нужно упихать модельку уровня GPT OSS 20B в кванте MXFP4. Для кодинга под себя будет неплохо. Все, что ниже - такое себе, но попробовать что-то можно. Мелкие модели уровня 2-4B - это мусор, но может с ризонингом там можно что-то найти относительно вменяемое. Но ты будешь больше ошибки за ними править, чем ими кодить. И без видеокарты тебе будет тяжело.
Аноним 17/03/26 Втр 11:37:10 1553974 160
Хули вы тут разнылись все?
Думаете это у вас моделей нет?
Я, сука, второй год жду хоть что то кроме нуба в аниме генерации, но никто просто нихуя не хочет делать для локалок, хотя ниша пустует абсолютно, даже видеогенерация не в такой пизде и туда алибаба заглядывал с ваном.
Нуб вроде вообще китайским студентом за 10к$ бюджета сделан т.е понимаем насколько всем насрать
Аноним 17/03/26 Втр 11:39:48 1553977 161
>>1553974
Сделай сам или только жаловаться способен?
Аноним 17/03/26 Втр 11:44:07 1553983 162
>>1553977
Конечно скидывай контакты мамки сделаю вам братика
Аноним 17/03/26 Втр 11:46:28 1553984 163
Челы, агрессию офните, плез. Не срите в тред срачами.
Аноним 17/03/26 Втр 11:58:53 1553988 164
>>1553605
Ну что, а помимо очередных рейтингов, кто уже потыкал. Пишите своё кря, что ли.
Аноним 17/03/26 Втр 12:02:24 1553990 165
У мистралей анальные законодательные ограничения, я вобще удивлен что они что то выпустили. Но конечно им бы ультануть с аналогом квен3.5 35ь, как в свое время был микстраль.
Такая большая хуйня не туда не сюда, вынь да полож минимум 128-96 гб рам, или в худшем случае врам.
Кому и зачем этот выпуск не совсем понимаю.
Аноним 17/03/26 Втр 12:45:34 1554025 166
>>1553990
Да у всех ограничения. А кто не ограничен, тот лоботомит без характера. Для кума с рп нужно тренить отдельную модель, которая будет учитывать характеры, роли, трейты и всё остальное, что критически важно для персонажки. А пока что у нас либо ванильный рефьюзокал с более-менее интой, либо есмен-лоботомит, который вообще не вдупляет что происходит.
Аноним 17/03/26 Втр 12:53:07 1554041 167
image.png 116Кб, 2379x264
2379x264
Скачал квант анслопа, а он нихуя не работает. Прямо полностью, даже ответ не генерит. Захожу к ним, а они его минуту назад перезалили, как и еще пару квантов. Это при том, что кванты LMStudio залиты еще вчера и работают. Ебанные говноделы, я в ахуе, что их до сих пор кто-то защищает
Аноним 17/03/26 Втр 12:56:01 1554045 168
Аноним 17/03/26 Втр 12:59:36 1554049 169
Аноним 17/03/26 Втр 13:01:33 1554053 170
Аноним 17/03/26 Втр 13:06:27 1554057 171
Аноним 17/03/26 Втр 13:26:41 1554071 172
>>1553860
> на опенроутер
Щас он будет рассказывать тебе, как на опенроутерах q2 лоботомитов подсовывают.
Аноним 17/03/26 Втр 13:28:39 1554072 173
Аноним 17/03/26 Втр 13:34:12 1554083 174
Сколько степ-флеш выдаёт на чисто процессоре без видеокарты?
У меня 128+32, я скачал квант, который весит 130, то есть без видеокарты я его не могу запустить.

Получилось на threadripper 1920 + ddr4 2933 мгц + v100 (pcie x8) pp около 20/s (но это некорректное число, я батч мелкий поставил), tg стабильно 15.67/s. Не 15.6 и не 15.7, а стабильно как часы 15.67/15.68, как на пустом контексте, так и на 30к токенов.
Аноним 17/03/26 Втр 13:36:21 1554085 175
>>1554072
2б огрызок который каким то образом знает 100к авторов, медленнее нуба х3
Аноним 17/03/26 Втр 14:15:33 1554122 176
>>1553744
Промпты почисти. Многие модели подобные метафоры пытаются делать если требовать художественности и прочего, они припезднутые но в нормах языка.
>>1553831
> Без ризонинга она лишь немного лучше 24b мистраля
Есть такое, в начале там не ясно кто кого. Но на контекстах уже ощутимое преимущество за новым. Если про язык на контексте говорить - практически нет ошибок словообразования а на 3.2 часто замечаешь, со склонениями сильно больше и речь другая. Если накинуть сложности - в чатах где 3.2 пускает слюни это кое как ориентируется.
То же и с восприятием языка. В готовой сессии -кода с норм контекстом и целиком русским чатом новый сразу продолжает делать, а 3.2 капитально теряется. Когда основное общение на английском вроде так не аутирует, но все равно тупит.
> Раз они четвертый смал сделали 119b, то ждем лардж на триллион
Бахнул бы кто ~200б модельку общего назначения с вижном, вот было бы отлично. 235вл - жалкая соевая тень 235, да и хочется последних датасетов.

Хз чего вы носом воротите, буквально дали модельку, которую тут все хотят.

>>1553840
Звучит так, что можно ожидать проблем, так что действительно лучше не спешить.
Аноним 17/03/26 Втр 14:24:55 1554133 177
Есть смысл пытаться поставить 120b модель на 12 vram + 42 ram? Или хуйня затея? Если не хуйня, в третьем и самом обосранном кванте будет хотя бы терпимо?

Ещё у меня есть p104 8 vram (тогда можно видеопамять увеличить до 20), но вроде бы у MoE там катастрофическое падение скорости всегда из-за накладных расходов, если размазать по двум видюхам и ещё в оперативку засунуть, по крайней мере такое у меня было на 30б, когда я для интереса попробовал не не 3060 + RAM, а 3060 + р104 - RAM. Не знаю, это я обосрался или просто такой режим работы плохая идея.
Аноним 17/03/26 Втр 14:32:07 1554140 178
Пробуйте новый мистраль, отписывайтесь. Я жду.
Аноним 17/03/26 Втр 14:32:35 1554141 179
>>1554133
Не взлетит. Даже с 64 гигами оперативки получишь дерьмо, ведь еще надо контекст куда-то загружать, то есть сама модель будет лоботомитом.
Аноним 17/03/26 Втр 14:34:25 1554145 180
>>1554122
А ну-ка, кто тут хочет вонючую 6б когда есть эир?
Аноним 17/03/26 Втр 14:36:23 1554149 181
>>1554140
>Пробуйте новый мистраль, отписывайтесь. Я жду.
Да все ждём. Мистраль всё-таки.
Аноним 17/03/26 Втр 14:40:34 1554153 182
>>1553853
> Теперь придется пожинать свои плоды и тратить больше, чем потратили бы раньше
База. Но скорее просто коупить что все не нужно.
>>1553860
Железо подорожало с момента покупки чуть ли не в разы, можно считать инвестицией.
> на опенроутер и кумить на нормальной модели в fp8
На опенроутере много шмурдяка, логи и он дорогой. Зачем оно нужно, если можно катать те же фп8 у себя со скоростями, которые узники считают невозможными?
Лучше оставить его в качестве плана б обладателям отсутствия которые даже оплатить его не смогут
Аноним 17/03/26 Втр 14:41:13 1554154 183
Давайте так если там русик на уровне 120б милфомистрали я даже скачаю
Аноним 17/03/26 Втр 15:03:00 1554167 184
> 3x 3090
или
> 4х 5060 Ti 16GB

Настораживает вопрос поддержки драйверами и внедрение этих ваших NVFP4. В итоге, щито лучше?
Аноним 17/03/26 Втр 15:05:56 1554169 185
>>1554167
Укажи подробнее что планируешь делать и куда их вставлять.
Аноним 17/03/26 Втр 15:06:56 1554170 186
>>1554167
Очевидный блеквел очевиден
Аноним 17/03/26 Втр 15:07:51 1554171 187
>>1554167
Задолбаешся веса по 4x16 раскидывать. Оно еще и ложиться будет не как тебе хочется, а как слои лягут. Будь готов с каждой карты по гигабайту потерять.
Аноним 17/03/26 Втр 15:09:07 1554172 188
>>1554169
Да просто для чатика.
> куда их вставлять.
В маманю с х16х8х16х8 4.0, остальное не важно.
>>1554170
А не будет ли проеба по скорости генерации? Я боюс.
>>1554171
Ну вот это и пугает, с другой стороны, немного теряется и на 3090х...
Аноним 17/03/26 Втр 15:22:44 1554175 189
>>1554172
> Да просто для чатика.
Тут понятие довольно широкое и в зависимости от кейса разные критерии. Типа одно дело - быстрая работа моделей поменьше, другое - попытки впихнуть максимальную и похуй на скорость.
Судя по линиям там платформа жирная, так что возможны оба варианта. А 4х 3090 не хочешь рассмотреть? Типа аргумент 4х карточек довольно весомый здесь потому что это тп4, но в 64гига 5060ти мало что влезет и они сами по себе слабые, из плюсов только простота размещения. На 3090 тоже есть проблемы с w8a8, местами упираются по компьюту, габаритные и требуют мощного питания. Но в целом все поддерживается, памяти и вычислительной мощи больше, топ за свои деньги.
Если рам будет достаточно - с такой конфигурацией на 4х 3090 сможешь быстро катать весьма крупные модели.
Аноним 17/03/26 Втр 15:28:35 1554181 190
>>1554175
Да у меня уже есть парочка 3090, я думаю не иду ли я по дорожке вникуда, докупая третью или даже четвертую. Сколько вот лет они останутся актуальными еще.

> попытки впихнуть максимальную и похуй на скорость.
Все ограничено RAM и клятыми МоЕ-моделями. Если появится плотняк, который будет генерировать достойную писанину и влезать в VRAM - с радостью соскочу на него.
Аноним 17/03/26 Втр 15:31:31 1554186 191
>>1553805
>Если есть куда их втыкать - обрати внимание на карточки типа 3060/3070 с 8 гб памяти
Это хлам, надо хотя бы 3060/12, тысячу раз уже обсуждали. Ты бы ему еще 3050/8 посоветовал, лолъ
Аноним 17/03/26 Втр 15:35:46 1554191 192
>>1553869
Unsloth/Ministral-3-14b, очевидно же.
Qwen3.5 какой-нибудь.
Аноним 17/03/26 Втр 15:45:30 1554196 193
>>1554186
Я не знал что существует 3060 на 12 или 3050 в принципе (4050 же нет вроде?). Ну и у него 16 гб оперативы, бюджет соответствующий, что выпало дешёвое на авито, то и посоветовал.
Ему и 3050/8 даст х10 скорости на qwen-9b.
Аноним 17/03/26 Втр 15:53:16 1554198 194
>>1554196
прирост-то даст, но 12Gb даст возможность упихать толстый квант.
Аноним 17/03/26 Втр 16:11:42 1554204 195
>>1554141
Эх, как же хуёво. Надо было много оперативки раньше набрать.
Аноним 17/03/26 Втр 16:14:01 1554207 196
>>1554181
Сейчас эпоха агентов и различных применений языковых моделей, потому именно тормознутый запуск по популярной здесь методе будет становиться менее популярным. Благо ей есть хорошие альтернативы и путь для эволюции. На фоне этого в 1.5 раза больший объем врама и компьют будет серьезными аргументами.
Ампер отживает свое, но для него все еще будут обновляться кернели. А 5060ти считай и не жила вовсе, слишком слабая. Если там платформа с pci-e 4.0 (или не дай бог вообще 3.0) то и париться об устаревании нет смысла.
Аноним 17/03/26 Втр 16:54:32 1554228 197
>>1554141
Да купите вы 2 плашки по 64гб. 128гб оперативы за 100к.
Аноним 17/03/26 Втр 17:20:37 1554241 198
image.png 2Кб, 213x60
213x60
>>1554228
128 - хуйня мелкая. Надо 256.
Аноним 17/03/26 Втр 17:26:54 1554245 199
>>1554228
ддр4? Добро пожаловать в зионо тред хех
Аноним 17/03/26 Втр 17:58:40 1554278 200
>>1554049
>>1554057
Обратил внимание, что появилась еще вот такая штука:
https://huggingface.co/noctrex/Mistral-Small-4-119B-2603-MXFP4_MOE-GGUF
Спросил Грока что за хрень - он говорит, что эти кванты немного медленнее, но по качеству обычно сравнимы с обычными Q5 при размере близком к iq4xs. Т.е. для тех у кого конфиг 24+64 может быть заманчиво. Интересно - это действительно так, или брешет? Сам сегодня-завтра проверить не смогу, буду у машины только позже... :(
Аноним 17/03/26 Втр 19:11:57 1554362 201
Что не так с Qwen3.5-9b gguf от unsloth и батрухи?
Выдает кашу из символов в llama.cpp. Дело в том, что она не instruct? Как вообще с ними в диалог/кодинг выходить-то? Qwen2.5-coder из коробки работал.
Аноним 17/03/26 Втр 19:12:04 1554363 202
r8DtaQAUB.jpg 549Кб, 896x1280
896x1280
>>1553729
Нету. Спроси у анонов. CunnyConnoisseur был довольно таки популярным ботоделом, до того как был забанен. Так что у кого-то должна была сохранится.
Аноним 17/03/26 Втр 19:14:15 1554367 203
>>1554362
Опять сломали? Там как автоматический парсер сделали так началась шляпа с моделями и вызовом инструментов. Скачай релиз недели на 2 раньше проверь снова
Аноним 17/03/26 Втр 19:18:44 1554373 204
>>1554367
Тестил на версиях 8192 и 8392 и там, и там беда. Завтра попробую что-то двухнедельное качнуть.
Аноним 17/03/26 Втр 19:27:16 1554383 205
>>1554363

Скиньте, братцы, всю удалённую годноту. Я вам спасибо скажу.
Аноним 17/03/26 Втр 19:34:21 1554392 206
>>1553708
лупится как мразь. ужас, софт рефьюзит постоянно, зря качал это говно
Аноним 17/03/26 Втр 19:37:46 1554398 207
Бляять эир такое гавноо...
Дайте модельку которая лучше следует карточке, персов оживляет там, в стереотипы не уходит
Аноним 17/03/26 Втр 19:52:08 1554408 208
>>1554398
Эиру почти год, а ты его так и не осилил и продолжаешь скулить как смердящий пес
Похоже таково твое призвание
Аноним 17/03/26 Втр 20:03:43 1554420 209
>>1554398
>Дайте модельку которая
>в стереотипы не уходит
Вот этот ничего про ЛЛМ так и не понял. И ведь в лучшем случае каждый второй такой.
Аноним 17/03/26 Втр 20:09:17 1554424 210
>>1554408
Какой год, он пару месяцев назад вышел.
Аноним 17/03/26 Втр 20:12:22 1554429 211
>>1554424
Прошлогодний, как салат
Аноним 17/03/26 Втр 20:12:36 1554430 212
>>1554424
Июнь 2025. Ты в бункере? Тоже хочу.
Аноним 17/03/26 Втр 20:14:30 1554432 213
>>1554430
Ебать, что-то я во времени потерялся.
Аноним 17/03/26 Втр 20:16:54 1554439 214
>>1554432
Та же хрень. Это ЛЛМ нас квантуют помаленьку. Скоро совсем соображать перестанем. Заговор Кобольдов.
Аноним 17/03/26 Втр 20:19:03 1554442 215
Скачал Мистраль IQ4XS от бартовски. В итоге у меня модель не может обработать средний текст на 32к токенов. Где-то на середине скорость так замедляется, что почти останавливается. На других мое все норм. Есть что-нибудь похожее у кого-то?
Лама b8390, 16+64, ncmoe 30, b/ub 4096, mmap вырублен
Аноним 17/03/26 Втр 20:26:37 1554449 216
image.png 301Кб, 1437x842
1437x842
>>1554278
Ты сидишь в ллм треде, причем в треде локалок, где нужно больше знаний, и при этом веришь слопу нейронок? Перестань
На скрине кванты анслопа для квена 122. MXFP4 и близко до Q5 не дотягивает. Обычный Q4, но расхайпен гопотой
Аноним 17/03/26 Втр 20:29:34 1554454 217
>>1554449
>MXFP4
Эта хрень годится только для сеток которых тренировали в 4 бит или чето такое, не помню, если нет то этот квант хуже обычного 4 бит.
Недавно анслоту пришлось переделывать все свои квены изза того что они были не качественными как раз изза этих квантов.
Аноним 17/03/26 Втр 20:33:53 1554456 218
>>1554278
Если правильно сделаны - да, это так, по скорости все ок. Если их просто дергать из других квантов, и потом упарывать другие слои, которые оставались в оригинале при калибровке, или гнать без адаптации - будет на уровне bnb.
Также есть еще вариация от амд а ля nvfp4, где предполагается также и квантование активаций, но с таким конфигом ты ее не встретишь.
>>1554398
Квен, новый мистраль. Обе умницы и очень разные.
Аноним 17/03/26 Втр 20:40:47 1554458 219
Нанасы, какую мелкомодель взять для перевода с русского на английский? Пытаюсь в генерацию картинок по этому нужно дохуя чего переводить, а гугл и яндекс вообще для этого не подходят.

Туда же вопрос, я ведь могу одновременно катать и зигу и дефолтную ллм, если есть место в оперативке? Не будет никаких конфликтов или типа того?
Аноним 17/03/26 Втр 20:47:38 1554463 220
>>1554458
По переводам лучший квен. Бери квант под своё железо.
Аноним 17/03/26 Втр 20:49:59 1554466 221
>>1554463
Про квант итак понятно, но квенов много всяких, какой именно брать?
Аноним 17/03/26 Втр 20:58:13 1554477 222
>>1554466
Смотря что тебе переводить надо. Если что-то из категории cursed, то бери аблитку, еретика или анценз.
Аноним 17/03/26 Втр 21:00:34 1554480 223
>>1554477
Курсед нет смысла переводить, модель этого не сгенерирует. Так что обычный около-сейфти, за исключением может сисика писика в кадре и типа того.

Меня больше интересует размер - около лярда параметров хватит, или лучше взять побольше, около четырех.
Аноним 17/03/26 Втр 21:03:08 1554482 224
>>1554480
Перевод НА русский вот это лучшая из гемм
gemma-3n-E4B-it
4b старовата, 12 27 лучше но большие
По идее на английский они тоже с русского должны хорошо переводить.
Аноним 17/03/26 Втр 21:04:03 1554485 225
>>1554458
Если нищий, то гемма 12б либо квен 35б/20б гпт осс. Если не совсем нищий, но и не богатый, то гемма 27б. Квен 27б всё ещё хуже в переводах. Про модели меньше не знаю.

А вообще, для такой хуйни грока можешь юзать, он тебе там напереводит для 1girl, loli, ugly bastard, cervix, x-ray, creampie, ahegao.

Вот только запуск локалки чисто в оперативке, если это не МоЕ, может быть весьма болезненным.

Или ты используешь локалки, которые понимают не теги, а МОЛОДАЯ ЖЕНЩИНА В ШКОЛЬНОЙ УНИФОРМЕ, СИДЯЩЯЯ ПОД НЕБОМ, ОСВЕЩАЕМЫМ НОЧНОЙ ЛУНОЙ У РЕКИ...

?
Аноним 17/03/26 Втр 21:04:58 1554486 226
>>1554449
Чел, я как бы, потому вопрос и задал, что не верю им без проверок.
Просто оно как-бы совсем мимо меня прошло, а отправную точку с которой начинать вникать - спросить у грока или у гугла, ныне разница небольшая. :)

>>1554454
Это про gpt-oss вероятно. Там кажись как раз они. Правда unslop-ы - не показатель, IMHO. Они и без них сломать горазды. :)

>>1554456
В общем, что-то такое я и подозревал.

Спасибо, за ответы всем.
Аноним 17/03/26 Втр 21:08:39 1554491 227
>>1554482
Попробуем

>>1554485
Нищий, так что да. Мой выбор где-то в районе 4B, потому что на другое оперативки свободной не хватит. Использую обычный z-image-turbo, там на кодировщике квен-3-4B, он текст всех видов жует.
Аноним 17/03/26 Втр 21:19:40 1554497 228
>>1554442
Чёт тоже при заполнении контекста скорость падает в 0.
Аноним 17/03/26 Втр 21:40:12 1554525 229
Ну че, кто хочет играть вновь поиграть в игру "наеби меня китаец"? Без отзывов, новый продавец - все как мы любим. Вкуснейшие 28к за 32 гб, налетайте!

https://aliexpress.ru/item/1005011755498353.html

Чего не смеетесь? Не смешно, да? Не поняли? Это Россия Китай-брат миска рис!.webm
Аноним 17/03/26 Втр 21:45:24 1554538 230
Подскажите, как в таверне увеличить список чатов. У меня их штук 20 тестирую разных персонажей но отображается только 15. А как сделать чтоб остальные появились?
Аноним 17/03/26 Втр 22:02:44 1554561 231
>>1554525
Только кинул ссылку в тред - и уже кто-то втихую как крыса купил, а на пост не ответил. Мм, можешь не отвечать, крыска, я подожду твоего сладенького отзыва с фоточками погнутых пинов или ошибок памяти...
Аноним 17/03/26 Втр 22:04:28 1554564 232
>>1554561
Анон, это вполне может быть кто то не из треда. Но цена сладка да. Слишком сладкая.
Аноним 17/03/26 Втр 22:10:42 1554571 233
>>1554564
Этому объявлению минимум день. Скидываю в тред - сразу две покупки. Ну да, конечно же это не местная крыска.
Аноним 17/03/26 Втр 22:12:52 1554574 234
Ну что вы- староверы, уже перешли на Chat completion?
Аноним 17/03/26 Втр 22:13:21 1554577 235
изображение.png 486Кб, 674x982
674x982
>>1554561
>втихую как крыса купил
Не я. Я капчу не хочу проходить.
Аноним 17/03/26 Втр 22:13:33 1554578 236
>>1554571
Кроме тебя найти конечно никто больше не мог. Ведь только нам нужны карточки. Ога.
Аноним 17/03/26 Втр 22:21:30 1554585 237
Аноним 17/03/26 Втр 22:29:33 1554590 238
image.png 89Кб, 832x171
832x171
>>1554525
Категория просто ахуенная. Это штора или завес? Зачем ты предлагаешь купить дверной и оконный экран,
匿名的?
Аноним 17/03/26 Втр 22:37:30 1554595 239
>>1554590
Лол, анону платы от лифта прислали, а тут занавеску положат. Обмотаешься, закроешь глаза, и погрузишься в медитативно-иммерсивный ролеплей. Только выиграли!
Аноним 17/03/26 Втр 22:38:03 1554596 240
>>1554525
А можно там комментарии загодя оставлять? По типу - если наебешь, то приеду и ебало набью.
Аноним 17/03/26 Втр 22:43:05 1554602 241
КТо то наверняка уже пробовал кум модели прикрутить к порно сборнику скайрима. Потенциал есть или игрушка на один раз?
Аноним 17/03/26 Втр 22:44:22 1554604 242
>>1554561
Я на 99.99996% уверен что по подобным горяченьким в наши непростые времена запросам десяток парсеров бегает проверяет нонстопом. Если это не какой-то уникальный лот с доступом только по ссылке, то врятли купил анон
Аноним 17/03/26 Втр 22:44:38 1554605 243
>>1554241
256 тоже такое себе. На терчике уже можно жить норм

>>1554564
>>1554561
За такую цену в Китае прям пишут мол "ошибки по памяти, на работу не влияет" лол
Аноним 17/03/26 Втр 22:53:53 1554614 244
Почему все тианочки готовят мне макароны с сыром... я не люблю макароны...
Аноним 17/03/26 Втр 23:12:16 1554622 245
>>1554604
Пост >>1554571 не читай @ сразу отвечай

>>1554605
Там вроде есть различия, корректируются ли ошибки или нет. Типо в нвидия сми можно запросить инфу, сколько ошибок было скорректировано. Они на работу действительно не влияют, разве что замедлять могут, если их целый вал. Но целый вал - это, конечно, уже симптом, и рано или поздно это приведет к неисправимым ошибкам, а вот при них карта действительно лапки кверху делает, насколько я видел скрины. Вроде там даже ERR еачинает писаться в текущем потреблении питания.
Аноним 17/03/26 Втр 23:13:53 1554624 246
image.png 38Кб, 1167x210
1167x210
image.png 32Кб, 1143x99
1143x99
image.png 187Кб, 848x747
848x747
Лежат две сетки
>GLM-4.5-Air-Q8_0-FFN-IQ4_XS-IQ4_XS-IQ4_NL-v2
>Qwen_Qwen3.5-122B-A10B-IQ3_XS
>59.9GB | 50.1GB

Какую оставить? Не заядлый пользователь ллм, не могу определить, да и обе хуйню надмозговую выдают.

Какой пресет юзать? С пресетом GLM-4 на Qwen вылезают ошибки форматирования, генерит лишнее.
Аноним 17/03/26 Втр 23:29:33 1554630 247
>>1554624
Сноси обе. А для первой найди нормальный IQ4XS квант от bartowski - и будет нормально писать. На английском - потому, что Air в русский нормально не может в принципе.
Аноним 17/03/26 Втр 23:34:54 1554633 248
>>1554622
Ошибки в одном бите корректируются на лету, а вот мультибитные только детектируются и досвидули. Обычно как раз обилие первых - симптом и потом приходят вторые, с ними карта уже мертва.
>>1554624
> вылезают ошибки форматирования
Наверно потому что нужен чатмл, не думал об этом?
Аноним 17/03/26 Втр 23:37:21 1554634 249
image.png 92Кб, 1165x315
1165x315
Кто-нибудь знает почему квены 3.5 27b иногда останавливаются? Только у квенов может остановится с нихуя, копка "продолжить" пересчитывает контекст пару секунд и сдаётся.
Контекст с большим запасом, у Геммы такой проблемы не было, llama.cpp, Ban EOS Token пробовал, пресет - Qwen 3.5 27B Instruct or non-thinking mode for general tasks.
Аноним 17/03/26 Втр 23:41:41 1554638 250
>>1554634
Возможно ламокал ломает тебе генерацию. Ну или в семплере насрано. Ну или ты просто токены недодал. Причём тут контекст вообще...
Аноним 17/03/26 Втр 23:42:25 1554639 251
>>1554634
Квен 3.5 на жоре вроде багован.
На вллм он оч долго прогревается, и просто долго пердит до первого токена
Аноним 17/03/26 Втр 23:47:27 1554643 252
>>1554634
>Кто-нибудь знает почему квены 3.5 27b иногда останавливаются?
"Ты уже перестала пить коньяк по утрам?"(с)
Никогда сам не наблюдал, и не встречал нигде упоминаний от таком. Вероятно - где-то у тебя персонально что-то нахимичено. Если это не порог вывода (не размер контекста а именно количество возможных новых токенов), то где-то что-то ему за стоп-токен мерещится. Других идей нет...

P.S. Порог вывода может быть в backend установлен. Скажем, если ты для запуска llama.cpp откуда-то просто строку ключей скопировал - там может быть.
Аноним 17/03/26 Втр 23:47:31 1554644 253
>>1554634
У меня он сегодня тупо падал с ней, сервер. Кеш рам отключал, потоки на 1 ставил, флеш тыкал - все не то.
Аноним 17/03/26 Втр 23:55:55 1554656 254
Надо написать курсовую работу. Хочу попробовать провернуть это через LLM.

Предмет гуманитарный, юридический. Есть какие-нибудь варианты?
Аноним 17/03/26 Втр 23:58:32 1554659 255
Аноним 18/03/26 Срд 00:24:24 1554681 256
>>1554656
не на локальной точно, бери максимально жирную копромодель с доступом в интернет и пиши
Аноним 18/03/26 Срд 00:25:40 1554682 257
Аноним 18/03/26 Срд 00:30:10 1554685 258
Посоветуйте модельку для кума. Такую, чтоб не тянула с прелюдиями и не мутила всякую похабщину.
Аноним 18/03/26 Срд 00:39:53 1554691 259
>>1554634
Да, останавливаются. И 122 тоже. на много раундных чатах или в агентском цикле. Особенно на контексте больше 65k . В логах EOS единственным токеном и как следствие пересчет контекста. А потом еще и еще. Че я только не делал с этим говном - немного помогает продлить мучения увеличение батчей.
"Если б мы знали что это такое..."
Аноним 18/03/26 Срд 00:43:12 1554694 260
>>1554681
> максимально жирную копромодель
Какую например?
Аноним 18/03/26 Срд 00:47:30 1554697 261
>>1554694
за этим лучше в aicg тред, а то щас тут мне за щеку дадут
я бы наверное или Клодик или Гемини брал бы под такое дело, платную (на перплексити.аи можно кста получить месяц фри триала если студент и там в целом несколько моделей доступно от разных провайдеров)
Аноним 18/03/26 Срд 00:49:42 1554700 262
>>1554656
Какова степень автономности? Вычитка куда ни шло, если "напиши за меня курсач" то тебя выебет антиплагиат ну или не выебет, но тогда твоя шарага вообще бесполезна и нахуй там учиться
Аноним 18/03/26 Срд 00:59:58 1554704 263
>>1554700
> Какова степень автономности?
Ну хуй знает. Главное чтобы ахинею не порола и желательно чтобы ссылалась на нормативно-правовые акты.
> выебет антиплагиат
Вроде у нас курсовые не проверяют на антиплагиат, только ВКР. вузик шаражный, сижу ради диплома
Аноним 18/03/26 Срд 01:02:06 1554709 264
>>1554700
Достаточно будет если один параграф текста на 3-4 страницы А4 напишет по плану
Аноним 18/03/26 Срд 01:12:56 1554715 265
>>1554634
В настройках таверны max new tokens нормальный стоит? Разметка должна быть chatml. Если все ок то багован инфиренс.

Потыкав 122б в q4 поддвачну остальных ораторов - жора сломал очередную модель. Не сказать на самом деле что прямо плохо, но она тупит, выдает странные ассоциации, внезапную сою, те самые регулярные лупы в ризонинге (они и в нормальном кванте-инфиренсе возможны, но в 0.27% случаев по выборке из 120к запросов без presence/rep pen).
>>1554639
> долго прогревается
Jit же, любой первый проход любой модели долгий, может несколько минут занять. Когда кэш сохранен то за 20-30 секунд подтянет.
Это ты еще не видел как tpu собирается, там вообще можно на пол часа чай пить уходить.
>>1554691
> и как следствие пересчет контекста
Как это следует из eos токена?
Аноним 18/03/26 Срд 01:28:11 1554720 266
>>1554715
> Jit же
Не, вллм при старте там себе графы строит, греет всё минут 10-15, потом первый запрос секунд 10 до обработки непосредственно, далее мгновенно обычно. У квена 3.5 110 всё прям очень неторопливо, но сразу скажу что у меня форк чисто под мишки, мб там что то напартачено
Аноним 18/03/26 Срд 01:29:54 1554722 267
>>1554715
>Как это следует из eos токена?
Неисповедимы пути жоры...

slot update_slots: id 0 | task 6305 | prompt processing done, n_tokens = 74993, batch.n_tokens = 4
slot print_timing: id 0 | task 6305 |
prompt eval time = 148879.88 ms / 74993 tokens ( 1.99 ms per token, 503.71 tokens per second)
eval time = 0.00 ms / 1 tokens ( 0.00 ms per token, 1000000.00 tokens per second)
total time = 148879.88 ms / 74994 tokens
srv log_server_r: done request: POST /chat/completions 127.0.0.1 200
slot release: id 0 | task 6305 | stop processing: n_tokens = 74993, truncated = 0
srv update_slots: all slots are idle
srv params_from_: Chat format: peg-native
slot get_availabl: id 0 | task -1 | selected slot by LCP similarity, sim_best = 1.000 (> 0.100 thold), f_keep = 1.000
slot launch_slot_: id 0 | task -1 | sampler chain: logits -> ?penalties -> ?dry -> ?top-n-sigma -> top-k -> ?typical -> top-p -> min-p -> ?xtc -> temp-ext -> dist
slot launch_slot_: id 0 | task 6344 | processing task, is_child = 0
slot update_slots: id 0 | task 6344 | new prompt, n_ctx_slot = 121088, n_keep = 0, task.n_tokens = 74993
slot update_slots: id 0 | task 6344 | need to evaluate at least 1 token for each active slot (n_past = 74993, task.n_tokens() = 74993)
slot update_slots: id 0 | task 6344 | n_past was set to 74992
slot update_slots: id 0 | task 6344 | n_tokens = 74992, memory_seq_rm [74992, end)
slot update_slots: id 0 | task 6344 | failed to truncate tokens with position >= 74992 - clearing the memory
slot prompt_clear: id 0 | task 6344 | clearing prompt with 74992 tokens
slot update_slots: id 0 | task 6344 | prompt processing progress, n_tokens = 2048, batch.n_tokens = 2048, progress = 0.027309
slot update_slots: id 0 | task 6344 | n_tokens = 2048, memory_seq_rm [2048, end)


slot update_slots: id 0 | task 111 | prompt processing progress, n_tokens = 110375, batch.n_tokens = 341, progress = 0.999964
srv update_slots: decoding batch, n_tokens = 341
set_adapters_lora: adapters = 0000000000000000
adapters_lora_are_same: adapters = 0000000000000000
set_embeddings: value = 0
srv update_slots: run slots completed
que start_loop: waiting for new tasks
que start_loop: processing new tasks
que start_loop: processing task, id = 112
que start_loop: update slots
srv update_slots: posting NEXT_RESPONSE
que post: new task, id = 113, front = 0
slot update_slots: id 0 | task 111 | n_tokens = 110375, memory_seq_rm [110375, end)
slot init_sampler: id 0 | task 111 | init sampler, took 12.12 ms, tokens: text = 110379, total = 110379
slot update_slots: id 0 | task 111 | prompt processing done, n_tokens = 110379, batch.n_tokens = 4
slot update_slots: id 0 | task 111 | created context checkpoint 15 of 32 (pos_min = 110374, pos_max = 110374, n_tokens = 110375, size = 149.626 MiB)
srv update_slots: decoding batch, n_tokens = 4
set_adapters_lora: adapters = 0000000000000000
adapters_lora_are_same: adapters = 0000000000000000
set_embeddings: value = 0
Grammar still awaiting trigger after token 248044 (`<|endoftext|>`)
res send: sending result for task id = 111
res send: task id = 111 pushed to result queue
slot process_toke: id 0 | task 111 | stopped by EOS
slot process_toke: id 0 | task 111 | n_decoded = 1, n_remaining = -1, next token: 248044 ''
slot print_timing: id 0 | task 111 |
prompt eval time = 1702.67 ms / 345 tokens ( 4.94 ms per token, 202.62 tokens per second)
eval time = 0.00 ms / 1 tokens ( 0.00 ms per token, 1000000.00 tokens per second)
total time = 1702.68 ms / 346 tokens
srv update_chat_: Parsing chat message:
Parsing PEG input with format peg-native:
srv stop: all tasks already finished, no need to cancel
Аноним 18/03/26 Срд 01:34:41 1554728 268
1773786883154.jpg 3087Кб, 3072x4080
3072x4080
>>1551135 →
Допечатал морду и по мелочи, завтра обещают доставить боковины акриловые с лазерной резки.
Перед вышел 850 грамм, печатаю вставки для дизайна
Аноним 18/03/26 Срд 01:36:03 1554729 269
>>1554691
У меня (27b) размер контекста вообще не имеет значения, в любой момент может остановиться и все. Но у меня Presence Penalty занижен по сравнению с официально рекомендуемыми, повышая можно избавится от блока но генерирует шизу.
>>1554715
>В настройках таверны max new tokens нормальный стоит? Разметка должна быть chatml. Если все ок то багован инфиренс.
Да, все правильно. Это точно ни какая-нибудь NSFW блокировка?
Аноним 18/03/26 Срд 01:59:05 1554739 270
Короче, такая инфа по Qwen 3.5 27b.

Ему обязателен километровый промпт, чтобы он нормально писал, в отличие от более старых версий и других моделей плюс-минус такого размера.

Хочешь какое-то RPG? Будь добр рассказать, как должен описываться бой, окружение, диалоги, вообще всё. Детально.

Хочешь кум? Ну тут тебе надо составить большой список, каким деталям стоит уделять внимание. Что там у тян может трястись, чем хуй может брызгать.

Да, он работает и без этого, но сухо, очень сухо. Любая срань, даже немо способна на на это лучше из коробки с промптом в два предложения, но есть нюанс. Они не выполняют инструкции, кроме геммы, а квен выполняет вполне, даже если ты прилично так насрал.

Если прописано всё прям подробно, то довольно урчишь, так как контекст лёгкий, внимание к нему есть, 70к токенов хватит всем. Но грамтный и универсальный системный промпт для РПГ, кума, кума + РПГ далеко не всегда спасает. Часто надо дорабатывать, чтобы не тыкать его по ходу РП носом.

Если делать карточку прям с упором именно на этот квен и его особенности, то разница поразительная. Крайне неудобно, но идеально для тех, кто гоняет 3 карточки по 2 месяца и довольно урчит.

Сейчас посыпятся обвинения, что скилл ишуе, но нет. Ни одна модель так меня не опрокидывала, даже корпы. Последим можно вообще в ебало харкать общими фразами и будет идеально, а всяким мистралям 24б вообще похуй, что ты там писал. Это может быть даже вредно из-за рассеянного внимания.
Аноним 18/03/26 Срд 02:06:06 1554744 271
>>1554739
Я все чаты для всех моделей делаю в формате романа, с фейковыми рецензиями описывающими что там должно внутри быть и цитатами случайных параграфов в качестве образца прозы
Аноним 18/03/26 Срд 02:10:18 1554746 272
>>1554720
Очень зависит от используемых ядер, бэкенда атеншна и конфигурации. Как-то накрутил так, что 397 в пп режиме компилировалось настолько долго что запрос по таймауту улетел. Набор графов это несколько другое, все равно первый проход думает и доиспользует врам.
Когда раз собралось уже норм, тут больше проблема в очень долгой загрузке весов с тп. Не то чтобы это прям большой минус, пофиг.
>>1554728
Вообще выглядит огонь. Пожалуй себе также сделаю с торцов, держи почтение за идею.
>>1554729
> Это точно ни какая-нибудь NSFW блокировка?
Хз, не встречал такого, это странно. Попробуй просто другой квант скачать.
Аноним 18/03/26 Срд 02:57:58 1554757 273
>>1553708
Говно, выставил все рекомендованные настройки и промпт - в историях несостыковки сплошные, вроде того что перс знает другого, когда они первый раз видятся и ведет себя, как будто 100 лет знакомы, зачем то называет свои данные и прочее такое.
Самый говняный микс, какой пробовал, к тому же тормознутый в сравнении с тем же HauHau.
Аноним 18/03/26 Срд 03:04:13 1554758 274
>>1554739
Да, примерно к тому же пришел, нужна расписанная карточка. Теперь осталось выяснить лучший микс квена. Потому что все дают разные результаты даже с хорошей карточкой. Пока нравится Claude-4.6-OS-Auto-Variable-HERETIC-UNCENSORED-THINKING.IQ4_XS, вроде как самые проработанные истории дает.
Аноним 18/03/26 Срд 03:23:09 1554759 275
>>1554739
Не, я тебя обвинять точно не буду - я уже писал отзыв про него, и мнение у меня примерно такое же.
Модель для тех, кому не влом все настроить под свой вкус. Кому надо кнопку "сделать зашибись" - пролетают мимо.

>>1554758
Мне пока зашли - ансензор версия от двучлена и BlueStar.
Аноним 18/03/26 Срд 04:43:52 1554774 276
>>1553807
Ого, нихуя себе, классная подсказка, 10.33T/s получилось с 35b, все 41 слоя отгружены на gpu, эксперты на cpu, это повыше чем с любой 9b моделью, там максимум 6.85 t/s бывало. Карточка 1050 еще могет.
Аноним 18/03/26 Срд 05:01:49 1554776 277
image 44Кб, 1966x228
1966x228
>>1553807
Убрал оффлоадинг тензоров, который с 9b помогал, стало вообще 11.10T/s генерация, это рекорд.
Правда на этой стадии грузит каждый раз что-то по 2 минуты, когда сначала кобольд запускаю, с 9b так не было. Память сразу показывает что загружена 17GB уже. Хз, что он там столько грузит, когда все в памяти.
Аноним 18/03/26 Срд 05:10:37 1554777 278
image.png 25Кб, 623x263
623x263
image.png 335Кб, 2229x849
2229x849
Ну бля и чего? И что?
С 150к до 185к за пару месяцев, норм "скоро откатит"
Аноним 18/03/26 Срд 05:13:17 1554778 279
Аноним 18/03/26 Срд 06:35:04 1554789 280
>>1554759
>ансензор версия от двучлена
Там тащем-то 2 уже от двучлена:
Huihui-Qwen3.5-35B-A3B-abliterated-i1-GGUF
Huihui-Qwen3.5-35B-A3B-Claude-4.6-Opus-abliterated-i1-GGUF

Кто-то сравнивал?
Аноним 18/03/26 Срд 06:46:08 1554791 281
>>1554777
Никто не говорил, что к весне упадет, лол. Жди еще полгода-год.
Вспомни, как с чидеокартами было
Аноним 18/03/26 Срд 08:07:44 1554810 282
>>1554777
Видюхи падали в цене несколько лет. Терпим.
Настройки X
Ответить в тред X
15000
Добавить файл/ctrl-v
Стикеры X
Избранное / Топ тредов