/ai/ - Локальные языковые модели (LLM): LLaMA, Gemma, Qwen и прочие №181

Локальные языковые модели (LLM): LLaMA, Gemma, Qwen и прочие №181 /llama/ Аноним 04/12/25 Чтв 22:55:49 № 1440877 1

Эффективность к[...].png 92Кб, 1399x1099

Реальная длина [...].png 671Кб, 1602x2476

В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!

Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.

Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.github.io/wiki/llama/

Инструменты для запуска на десктопах:
• Отец и мать всех инструментов, позволяющий гонять GGML и GGUF форматы: https://github.com/ggml-org/llama.cpp
• Самый простой в использовании и установке форк llamacpp: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Заточенный под ExllamaV2 (а в будущем и под v3) и в консоли: https://github.com/theroyallab/tabbyAPI
• Однокнопочные инструменты на базе llamacpp с ограниченными возможностями: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern
• Альтернативный фронт: https://github.com/kwaroran/RisuAI

Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux

Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/2ch_llm_2025 (версия для бомжей: https://rentry.co/z4nr8ztd )
• Неактуальные списки моделей в архивных целях: 2024: https://rentry.co/llm-models , 2023: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по чуть менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard

Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Перевод нейронками для таверны: https://rentry.co/magic-translation
• Пресеты под локальный ролплей в различных форматах: https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
• Выгрузка избранных тензоров, позволяет ускорить генерацию при недостатке VRAM: https://www.reddit.com/r/LocalLLaMA/comments/1ki7tg7
• Инфа по запуску на MI50: https://github.com/mixa3607/ML-gfx906
• Тесты tensor_parallel: https://rentry.org/8cruvnyw

Архив тредов можно найти на архиваче: https://arhivach.hk/?tags=14780%2C14985

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.

Предыдущие треды тонут здесь:
>>1435735 (OP)
>>1426038 (OP)

Аноним 04/12/25 Чтв 22:58:43 № 1440880 2

База треда - нюни не существует, Air 4.6 сегодня не выйдет, гемма 4 тоже.

Аноним 04/12/25 Чтв 22:59:49 № 1440882 3

>>1440880
> Air 4.6 сегодня не выйдет, гемма 4 тоже.
Бля, да как так то. Не теряй надежду. Ещё ведь 61 минута есть.

Аноним 04/12/25 Чтв 23:01:57 № 1440884 4

>>1440847 →
Я жалею, что я такой тупой. Как эта магия работает? Что делается с моделью, что она не лоботомизируется, но теряет цензуру?

Аноним 04/12/25 Чтв 23:04:21 № 1440887 5

>>1440884
https://huggingface.co/blog/grimjim/norm-preserving-biprojected-abliteration
Вот тут всё есть, но понять это смогут не только лишь все.

Аноним 04/12/25 Чтв 23:05:30 № 1440890 6

>>1440880
Всм? Ты о чем? Вышла пару часов назад и уже есть кванты от Батрухи: https://huggingface.co/bartowski/Gemma-4-120B-A14B-GGUF

Аноним 04/12/25 Чтв 23:05:49 № 1440891 7

>>1440887
Пойду дам статью дипсику, пусть он мне как дауну объяснит.

Аноним 04/12/25 Чтв 23:07:03 № 1440892 8

>>1440890
>мое-параша
Лучше бы не выпускали... А впрочем уже.
>>1440891
Не справится.

Аноним 04/12/25 Чтв 23:07:44 № 1440893 9

image.png 17Кб, 1319x131

>>1440714 →
Гайд от нуба для нуба. Тут в основном снобы сидят и нубов не любят. Вернее любят когда конекретные вопросы по делу спрашивают.
1- тебе нужна модель. Она должна влезать в твою оперативную память. У меня 4090 и я могу как барин запускать вот этот вариант мистраля: https://huggingface.co/zerofata/MS3.2-PaintedFantasy-Visage-v4-34B <----тут можешь настройки посмотреть, а тут скачать в нужном кванте ----> https://huggingface.co/mradermacher/MS3.2-PaintedFantasy-Visage-v4-34B-GGUF
Выбирай ту версию, где вмещается в объем твоей видеокарты +20-30% свободного места оставалось на контекст.
Как альтернатива есть еще локи, вроде не плох и меньше объемом https://huggingface.co/CrucibleLab/M3.2-24B-Loki-V1.3 тут настройки
а тут скачать в разном кванте https://huggingface.co/CrucibleLab-TG/M3.2-24B-Loki-V1.3-GGUF
Квант простым языком это степень скукоживания. Папки говорят 4 квант самый оптимальный.
далее тебе нужен кобольд, что бы эту хрень запускать.
Качаешь тут под винду - https://github.com/LostRuins/koboldcpp/releases koboldcpp.exe
запускаешь. пихаешь в нее модельку. Есть бегунок контекста, по умолчанию на 8к. прицеливать будешь позже, исходя из того сколько позволит твое железо методом проб и ошибок(об этом ниже). так же есть параметр GPU Layers. по умолчанию он -1 это значит кобольд сам попробует подставить, но он ставит криво. пока забей (подробнее ниже).
затем качаешь морду, что бы общаться с кобольдом - https://github.com/SillyTavern/SillyTavern
Это таверна, туда карточки пихать можешь.
Подключаешься к своему кобольду. Настройки на скрине.
Законектившись - далее разберешься.

Доп инфа.
Есть модельки, которые можно гонять загоняя в ОЗУ, это MoE модельки, тут вкруговую дрочат на модель GLM-4.5 air но она мне не зашла, слишком дохрена гемора и дрочева, а результата вменяемого я так и не увидел.

Доп инфа2.
Как только начнешь генерить всякое, открой кобольд и глянь скорость генерации. см скрин 2. там увидишь что-то вроде Generate:9.34s (44.20T/s) тебе интересно значение в скобочках. это скорость генерации твоего контента. адекватным считается 10 и выше. ниже 7 уже боль и страдание.
выше я писал про GPU Layers. так вот, закрываешь кобольду и запускаешь по новой. ставишь GPU Layers 30. и замеряешь скорость генерации. Закрываешь кобольду. и потом ставишь допустим 35. или 25. и опять замеяешь и так до тех пор пока не найдешь оптимальное значение, которое выдает больше всего скоростей. А потом уже увеличиваешь контекст, пока не начнет страдать скорость.
Как то так. Папки засмеют, но для старта этого хватит.

Аноним 04/12/25 Чтв 23:09:20 № 1440897 10

>>1440893
>помогать агрошкольнику вместо того чтобы кекать с него
Что стало с моими двачами?

Аноним 04/12/25 Чтв 23:09:31 № 1440900 11

>>1440890
>>1440892
Да это же жир.
Ниче там не вышло.

Аноним 04/12/25 Чтв 23:10:38 № 1440901 12

Бля, какие же тут шизы сидят. Мне наоборот нравится, когда в риге огоньками все переливается, почти как новый год круглый год. Но чтобы из-за ебанутого окр полезть руками в плашки и СЛОМАТЬ ИХ НАХУЙ в попытке ОТОРВАТЬ подсветку - я за это бы выдал челу торжественную награду шиз года /ai/. Пиздец просто, нет слов. Поставь там риг под стол, если тебе глаза режет, или изоленту в самом крайнем случае аккуратно налепи.

Аноним 04/12/25 Чтв 23:14:33 № 1440904 13

>>1440901
Ты тредом ошибся старый. Кому вообще пишеш? В пустоту вещаеш

Аноним 04/12/25 Чтв 23:16:27 № 1440906 14

>>1440891
>>1440892
>Не справится.
Ну ладно, я вроде понял, что это просто круто и умно.

Аноним 04/12/25 Чтв 23:20:52 № 1440914 15

>>1440901
>Мне наоборот нравится, когда в риге огоньками все переливается
Какая же ты мразь. Я наоборот переплатил за корпус fractal design (пикрелейтед) чтобы не видеть всей этой лгбт-дристни.

Но да, с того чела тоже в голосину, это определённо заявка на победу.

Аноним 04/12/25 Чтв 23:33:57 № 1440925 16

>>1440890
Шутка повторенная много раз перестает быть шуткой. Уже не смешно а скучно.

Хотя, я так понимаю, у тебя еще надежда поржать с ситуации обратной "мальчик который кричал 'волки'?" Чтобы когда реально выйдет - уже не поверили, и провтыкали? Хитро, хитро... :)

Аноним 04/12/25 Чтв 23:37:54 № 1440928 17

>>1440914
Да хз, корпуса не нужны на самом деле, максимум каркас майнинговый. У меня вообще карты на полу стоят или на кронштейнах или просто на голых райзерах. Правда, я живу один, и лолька мне не зальет карту из кружки-непроливайки, как кому-то из треда, лол. И кот не погрызет.

Аноним 04/12/25 Чтв 23:42:43 № 1440937 18

Почему не купить сразу серверную стойку под риг? Туда можно убрать и сами карты и блоки питания и харды.

Аноним 04/12/25 Чтв 23:44:06 № 1440942 19

Погонял еще этот аблит... Не, реально годлайк тир по балансу рефьюзов. Какой же кайф, она даже на настойчевые просьбы занюхнуть пизду не соглашается и физически дает отпор, хотя весь инпут был только вербальный без намека на ассалт в отношении чара. Но стоит только создать условия для настоящей жести - и жесть течет рекой без ограничений. Сохранено все лучшее от оригинала, лоботомии не чувствуется совершенно.

Аноним 04/12/25 Чтв 23:44:42 № 1440944 20

>>1440942
>настойчевые
-чи

Аноним 04/12/25 Чтв 23:54:12 № 1440954 21

>>1440944
-да

Аноним 04/12/25 Чтв 23:54:17 № 1440955 22

>>1440928
>корпуса не нужны на самом деле, максимум каркас майнинговый
Зависит от твоей восприимчивости к шуму бтв. Текст-то ладно, но если генерировать видосы, то гпу сильно шумит и ушкам неприятно. Чем толще металл стенок корпуса и качественней шумоизоляция - тем меньше горит жопа. Ну и ПоДсВеТоЧкА от лгбт-железа не светит тебе в ебло посреди ночи.

По мне так самое радикальное, и одновременно самое удобное решение - это жить в двушке, когда обе комнаты разделяет стенка нормальная, а не из модного нынче газобетонного говна. Поставил системник или, как в твоём случае, майнинговый каркас в одну комнату, просверлил дырку в стене, вывел кабели от монитора и клавомыши в другую - и сидишь в идеальной тишине, даже если у тебя там 3 некротеслы воют китайскими турбинами. Эх, мечты..

Аноним 04/12/25 Чтв 23:55:44 № 1440957 23

image.png 206Кб, 2861x324

>>1440942
Использованные нструкции - если вдруг кто-то намерен потестить в одинаковых условиях.

Сразу скажу - они не писались как промпт для РП. Взяты из мысленного эксперимента, где с ~600B моделью обсуждался юзкейс LLM как рассказчика физической реальности слепому человеку. А затем была грубо вставлена кучка корявых заметок про чара/юзера, с целью опробовать это в РП.

Аноним 05/12/25 Птн 00:04:46 № 1440971 24

>>1440876 →
да так, шизик один...
энакин скайуокер от вселенной треда, более известный как дарт вейдер. жил да был в далекой галактике добрый мальчик, который видел несправедливость и творил добро, помогая окружающим. у него был свой пиксельдрейн под псевдонимом анон99. иногда он вкидывал свои наблюдения по моделькам и часто помогал нюфагам. но на каждого поборника света найдётся управа, им стал дарт немотроношизик. тот доёбывал его из треда в тред, возможно даже во снах. по правде же месяцами с весны его терпело все наше маленькое шизокомьюнити, была там и база треда для 24гб врам, были набросы что корпы лучше, срачи за жирноквен, ежедневный шитпост про глм 4.6 эир и гемму 4. никто не кидал репорты, оп и модеры почему то не чистили его говно. добрый мальчик 99 не мог не вестись на его байты и перешел на темную сторону силы, приняв титул дарт нюня. последние месяц полтора дарт нюня только и делал что срался со всеми, но в конце нашел в себе силы выпилиться из треда во имя добра. предположительно во второй раз если первый был летом. предположительно его дух слился с тредом и он к нам уже не вернется
мимо мелкобуква на риге из четырех 3090, уже хуй знает сколько времени не пользуюсь локалками но слежу за драмой в треде

Аноним 05/12/25 Птн 00:10:56 № 1440973 25

>>1440971
Последней каплей для него стало то, что кто-то написал что Немотрон - говно. Помянем добряка. Его пресеты и вправду были неплохими. Будем надеяться что пацан зашьет жопу и вернется в тред.

Аноним 05/12/25 Птн 00:14:06 № 1440975 26

>>1440973
про немотрон это летом было, он тогда пиксель снес но в треде остался. там поди разбери ещё кто что писал, гигасрач был с геммазависимыми параллельно. а вот недавно да, лопнул вроде окончательно, тредов 6 назад где то
помянем

Аноним 05/12/25 Птн 00:41:17 № 1440996 27

Стоит ли покупать за ~175 тысяч рублей мини-ПК с AI MAX+ 395 и 128 GB LPDRR5X прямо сейчас, на фоне резкого повышения цен на DRAM чипы, если целью являются локальные MoE LLM и не слишком тяжёлые игры, или лучше подождать полгода/год?

Боюсь, что в будущем такой ПК уже не купишь...

Сейчас у меня основной ПК на DDR2 из 2007-го.

Аноним 05/12/25 Птн 00:42:59 № 1441000 28

>>1440996
На эти деньги собери себе нормальный комп и забудь про этот ИИ-мусор.
Он нужен только людям, которые с жиру бесятся и имеют лишнее.
А ты, по виду, совсем страдаешь.

Аноним 05/12/25 Птн 00:49:27 № 1441008 29

>>1441000
Двачую адеквата. Сходи в соседней тред да вздрочни на онлайн ИИ, нахрен тебе своё поднимать?

Аноним 05/12/25 Птн 00:55:41 № 1441018 30

>>1440996
>Сейчас у меня основной ПК на DDR2 из 2007-го.
Ебать ты динозавр. У меня есть ноут 2011 года, с i7 и 8гб озу ддр3. Там кека ради стоит гемма 4b и едва ворочается, что-то около ~3.5 т/c. При этом даже на нищестмартфоне она крутится в ~7 т/c. Как что-то запускать на ддр2 - даже не представляю.

>~175 тысяч рублей мини-ПК с AI MAX+ 395 и 128 GB LPDRR5X
Цена выглядит адекватной, если тебе ТОЛЬКО под ллм - это хороший выбор.

>не слишком тяжёлые игры
Герои 3 через портпротон? Пойдёт.

А если серьёзно, то просто посмотри в ситилинке/днсе во сколько тебе обойдется пекарня с r5/r7 + 12gb гпу + 64гб озу в ддр4. Этого достаточно чтобы гонять эйр в Q4_K_S с 32к контекста встаёт впритык, при условии что не запущено ничего кроме браузера и нейронки.. 128 - это под жирный квен, но о нем отзывы смешанные. Есть ли в этом смысол - смотри сам.

В общем если чисто под ЛЛМки - я бы рассматривал AI MAX. Если нужно более универсальное решение, то лучше собрать пеку под конкретные задачи.

Аноним 05/12/25 Птн 00:58:52 № 1441022 31

>>1440996
Для тебя ЛЛМ это увлечение или ты какие-то проекты собираешься делать? Для увлечения локалками хватит и игрового ПК.

Аноним 05/12/25 Птн 01:41:03 № 1441051 32

>>1440996
Вопрос не самый простой. С одной стороны, он позволит катать даже достаточно крупные моделки на приемлемой скорости. Но это онли жора, это жора под вулкан или поломанные амдшные апи, это само по себе очень небыстрое железо по компьюту, и потому на контексте скорость превратится в тыкву. Как билет в мир ллм - да, сработает, но есть спорные моменты.
> Сейчас у меня основной ПК на DDR2 из 2007-го.
Или собирай норм комп пока еще можно успеть, рам мониторь на барахолках и т.д., на 3090/в100 а то и пару можно наскрести. Или действительно бери, будет твоим основным пекой.

Аноним 05/12/25 Птн 01:47:55 № 1441053 33

Проехали, эту модель уже раскупили. Опять не успел...

>>1441022
>хватит и игрового ПК
>>1441000
>собери себе нормальный комп
128 GB DDR5 в ДНС сейчас 150 тысяч стоит. Судя по новостям, эту планку будут держать до ~2028 года... Видеокарты дешевле не стали, 128 GB VRAM - дорого; кроме того, VRAM ограничена по возможностям. Рассматривал сборку ПК до повышения цен, но всё откладывал на потом, а теперь уже слишком дорого. Наверняка мини-ПК и ноутбуки подорожают раз в 10, поскольку DRAM чипы там везде одни и те же.

>>1441008
>вздрочни на онлайн ИИ
Роскомнадзор всё заблокировал и через 2-3 месяца обещают ещё сильнее гайки закручивать (без суда). Мучиться с методами обхода надоело, и наверняка в будущем окончательно отрежут от внешнего мира.

>>1441018
У меня работают LLM до 1.5b, если выше - скорость становится чрезвычайно низкой (скорее всего из-за подкачки с SSD, в 8 GB RAM ничего не влезает, лол). Естественно, что что-то меньше 120b в LLM уже нет смысла даже пробовать. Поэтому мне хотелось как можно больше RAM, но я не ожидал повышения цен.

>64гб озу в ддр4
То на то и выходит по стоимости. Ещё и медленнее. Минимум сейчас - 128 GB DDR5, лучше - в 4 канала.

У меня текущий компьютер запускает почти любые интересные мне игры с нормальной скоростью, т.е. исключительно ради игр менять ПК я бы не стал. Но хотелось поэкспериментировать с машобом чисто локально, не впадая в зависимость от серверной инфраструктуры, которую РКН постоянно банит (или замедляют/ограничивают трафик - тут без разницы).

Ладно, буду сидеть на старом ПК, пока работает...

Аноним 05/12/25 Птн 01:54:42 № 1441054 34

>>1440955
>но если генерировать видосы, то гпу сильно шумит и ушкам неприятно.
Не знаю, меня немного напрягает шум, если я начинаю генерить видео на 4-5 картах одновременно, да и то из-за одной конкретной, для которой я курву подкрутил на всякий пожарный. Больше напрягает жарища это как же там воняет на новый лад - как же там печет. Плюс у меня на основе стоит няшечка-писечка 3090 Ti, ее вообще почти не слышно даже на фулл загрузке, охуенная карта.

>просверлил дырку в стене
Пчел, тебе вифи на что? Я уже давным-давно перестал рп-шить на пеке, зачем это делать там, если на телефоне на кровати в тыщу раз удобнее и полезнее? Неужели тут кто-то все время сидит, скрючившись как вопросительный знак, за пекой? При желании можно и картинки-видео лежа генерить, если ноутбук или планшет есть (на телефоне я пробовал - чет говно говна там интерфейс в комфи, для мобилок совсем не оптимизирован).
А с теслами ты погорячился, если там серверные вентиля работают выше 25%, то начинаются резонансы, которые немного слышны уже даже в другой комнате. Страшно не за себя, а за соседей, если дело ночью происходит, или все же за себя, если морду придут бить. Их только в отдельное помещение в частном доме. Но на практике это сейчас это уже не актуально, никто ллм на чистых теслах давно не гоняет, а когда они "на саппорте" - там темпы смешные, можно вентили на условные 5-10% ставить без проблем.

Аноним 05/12/25 Птн 01:59:15 № 1441057 35

>>1441053
>Проехали, эту модель уже раскупили. Опять не успел...
для кого я постил v100... не понятно...
один человек только купил....
ну прям уже пальцем на имбу указал - нет, все равно пердольные конфиги на раме собирают,... свои 10 т/с со старта на эйре еле получают...

Аноним 05/12/25 Птн 02:03:30 № 1441060 36

>>1441054
>Пчел, тебе вифи на что?
кстати в защиту дырки в стене.
Она например необходима при rpc инференсе на жоре.
Вайфай современный даже гигабит вытянуть не может.
И если к примеру, файлопомойка стоит рядом с пк, то до неё и придется вести провод от рига. вы же не храните модели локально в ригах? Я nfs монтирование от файлопомойки использую как раз для загрузки.

Аноним 05/12/25 Птн 02:08:22 № 1441062 37

>>1441057
> один человек только купил....
Не надо, я тоже заказал в nas. Будет держать какую-нибудь 30а3/гемму или еще что-нибудь с доступностью 24/7/365 для автокомплита и мелочей вне зависимости от загрузки основных гпу.
>>1441060
> вы же не храните модели локально в ригах?
А как еще? И обязательно на шустром ссд, иначе загрузка утомляет.

Аноним 05/12/25 Птн 02:12:41 № 1441065 38

>>1441053
>Минимум сейчас - 128 GB DDR5
Ты бы уточнил характер использования ллмок. Для какого-нибудь кума даже 5 летнего компа с 16 гб озу хватит. Если ты вдруг хотел 200к вложить чисто ради этого, то это конечно было бы просто мега дорогой игрушкой на 2 вечера.

Аноним 05/12/25 Птн 02:19:43 № 1441070 39

>>1441060
>в защиту дырки в стене.
Уже можно просить фембой карточку?
>rpc
Тут рпц используют ты и я на весь тред. Но смотри, на самом деле никто не тестировал, насколько быстрое соединение необходимо для рпц при инференсе. Вдруг там разница в доли т/с? А веса можно спокойно хранить локально, там же даже кеш тензоров специальный для этого есть. Просто от первой загрузки будет больно, когда все веса по сети будут ехать, а последующие уже норм.

Аноним 05/12/25 Птн 02:22:36 № 1441076 40

>>1441070
> рпц используют ты и я на весь тред
Ахуеть, его юзает больше одного человека?
Поделитесь, насколько оно вообще оправдано и сколько съедается перфоманса. Желательно подробно, а то помню только старые посты где все было очень плохо, явно же что-то пофиксили и улучшили с тех пор.

Аноним 05/12/25 Птн 02:31:36 № 1441080 41

>>1441076
для меня оправдано только если нужно жирную модель запустить. И для этого приходится врубать вторую мать с теслами p40.
Но с этими картами не идет речь о больших контекстах или быстрой генерации.
Я сейчас rpc не исполользую, мне внезапно за глаза стало хватать эйра. Охуенная модель.
Тем не менее, rpc может быть пригожден так же если у тебя нет подходящей матери с двумя pcie x16. Тогда ты можешь к примеру два слабых компа объединить и будет инференс на две карты распределенный.
Не нужно заморачиваться, собрать такой распред можно буквально с комплектующих найденных на помойке. Лишь бы карты были.

Аноним 05/12/25 Птн 04:08:20 № 1441120 42

>>1441076
>сколько съедается перфоманса
Без понятия, но не критично много, учитывая что теслы по рпц все еще быстрее, чем выгрузка в ddr4
>явно же что-то пофиксили и улучшили с тех пор.
Единственная проблема там, насколько я помню - это отсутствие асинхронности операций. Вроде бы операции копирования тензоров и прочего говна асинхронны. И там еще граф вычисления по умолчанию расклонирован на 4 копии, чтобы запрос можно было обрабатывать, не ожидая пока закончится предыдущий. Но вообще, по идее, в обыкновенном васянском инференсе на это похуй должно быть, у тебя всегда один запрос поступает, и обработка всегда последовательно идет по картам, что там асинхронить-параллелить-то, если каждый следующий шаг зависит от предыдущего?
Самое главное - сделали оптимизацию, которую я сам когда-то делал для себя, а именно поддержку нескольких видеокарт на одном сервере. Теперь тензоры между картами на сервере гоняются напрямую, а не по-идиотски на клиент и обратно.

Аноним 05/12/25 Птн 05:03:51 № 1441154 43

> Российская Православная Церковь
ачё всмысле оно реально работает? то есть дуровский проект может взлететь? я всегда думал, что по сети гонять пиздец медленно и дуров просто очередной pump&dump криптоскам запилил

Аноним 05/12/25 Птн 06:34:09 № 1441199 44

>>1440893
>нубов не любят
Здесь не любят тех кто всех хуями кроют и считают, что им все всё должны.
Я вот нуб, и мне давали дельные советы, потому что я пришел, поздоровался и четко и по делу спросил. Без доебов, без наездов и навещивания ярлыков.
нуб-красноглазик на мистрале

P.S. а ты молодец, анон, помогаешь тому, кто тебя и остальных с говном мешает. Без сарказма, честно. Редко таких встречаю. Но от этого тепло.

Аноним 05/12/25 Птн 06:54:35 № 1441201 45

>>1441199
>на мистрале

Ебать ты лох

Аноним 05/12/25 Птн 07:55:24 № 1441214 46

>>1440893
Зря старался, он 12b с натяжкой запустил а значит у него от силы 12врам, ему нихуя не поможет ибо водить мелкую модель за ручку и дрочиться с лорбуками промптами и мемо карточек он не хочет, и он прав что за 5$ ему крупная сетка распишет всё и как и лупиться будет меньше если не накатывать пресеты шизовые. В прочем он это уже понял.

Аноним 05/12/25 Птн 07:57:46 № 1441215 47

1c350213519e545[...].mp4 1073Кб, 352x640, 00:00:15

>>1440928
>У меня вообще карты на полу стоят или на кронштейнах или просто на голых райзерах. Правда, я живу один, и лолька мне не зальет карту из кружки-непроливайки

Аноним 05/12/25 Птн 08:00:03 № 1441216 48

llamauser().mp4 8138Кб, 1280x720, 00:00:30

>>1441215
>лолька мне не зальет карту из кружки-непроливайки

Аноним 05/12/25 Птн 08:17:51 № 1441220 49

>>1441201
Ну, я сюда не самоутверждаться прихожу, а проконсультироваться, похуй как-то.

Аноним 05/12/25 Птн 08:18:33 № 1441221 50

тем временем в лламе сломали названия переменных
-ctv говорит "error: invalid argument: -сtv", а --cache-type-v работает.

Аноним 05/12/25 Птн 08:43:49 № 1441228 51

в красноглазых делах гопота 120б лучше квена 80б, квен неправильные параметры системуди советует

Аноним 05/12/25 Птн 09:15:01 № 1441240 52

>>1441053
>лучше - в 4 канала.
Такое только на серверах возможно, где только плата и самый дешёвый проц в 300к встанет. На десктопах только 2 канала.

Аноним 05/12/25 Птн 09:24:16 № 1441249 53

>>1440806 →
Дай карточку фифи

Аноним 05/12/25 Птн 10:13:28 № 1441266 54

>>1440914
База, у меня такой же, в запасе стоит ещё 7XL, но думаю придётся продавать (или сначала почку продать?).
>>1440925
>и провтыкали
Думаю, о таких релизах пишут во многих местах, так что случайно пропустить выход геммы 4 весьма сложно. Ну а подождать пару дней (недель, месяцев) вообще полезно, пусть баги поправят.
>>1440928
>Правда, я живу один, и лолька мне не зальет карту из кружки-непроливайки, как кому-то из треда, лол.
И тут в квартиру приходят родственники с той самой лолькой...
>>1440942
>гемма
>ризонинг
У вас там всё хорошо, мистер?
>>1440955
Можно на кухню разместить (если она есть). Впрочем, всё это для живущих в одиночестве. Хотя вот я NAS в коридор выкинул, на антресоль. А вот личный ПК не могу, и риг отдельно под нейронки собирать накладно, я поиграть люблю, и выкидывать 5090 из основной пуки не хочу.
>>1441053
>и наверняка в будущем окончательно отрежут от внешнего мира
В этом случае лучше находится за периметром, на одних локальных нейронках всё равно не проживёшь.
>>1441054
>вифи
Убогая тормозная глючная хуета. Везде кинул провод.
>Неужели тут кто-то все время сидит, скрючившись как вопросительный знак, за пекой?
Ну я, 16 часов в сутки. 8 часов сплю, остальное время работаю и моюсь.
>>1441060
>вы же не храните модели локально в ригах?
А где? Даже 10 гигабит будет уныло, плюс займут ценные линии псины.

Аноним 05/12/25 Птн 10:33:41 № 1441280 55

Какой же хороший русик у геммы и какая она сама умница, а ведь старушка уже годовалая.
... Вот вы фантазируете а что через 5 лет, а что через 15, а как на счет что через тысячу лет, мм?
За 3 сотни лет мы и без всяких нейросетей десятимильными шагами прогрессировали

Аноним 05/12/25 Птн 10:41:09 № 1441282 56

>>1441280
>За 3 сотни
>прогрессировали
За три сотенных бумажки
На ЗИЛе возил говяшки
Ой-ой-ой…

Аноним 05/12/25 Птн 10:48:14 № 1441287 57

>>1441199
>P.S. а ты молодец, анон, помогаешь тому, кто тебя и остальных с говном мешает. Без сарказма, честно. Редко таких встречаю. Но от этого тепло.
Я был на его месте и испытывал схожие эмоции, правда не выливал это в тред, т.к. воспитан по другому. Но я его понимаю.
К сожалению, порог вхождения несколько завышен. Шапка треда сконцентрирована на чем угодно, но не на быстрый вкат по инструкции.

>>1441214
Не ему, так может кому еще пригодится.

Аноним 05/12/25 Птн 11:02:16 № 1441292 58

>>1441249
>Дай карточку фифи
ну чел-челидзе, давно бы уже сам на чабе нашёл... тут вроде была - https://pixeldrain.com/l/47CdPFqQ - это не перезалитый нюневский если что, а хабар-анона

Аноним 05/12/25 Птн 11:05:37 № 1441293 59

В общем новая база треда и генератор бесконечного веселья - обсуждать политику с фифи на русском

Аноним 05/12/25 Птн 11:14:03 № 1441295 60

>>1441292
Спасибо, анончик!

Аноним 05/12/25 Птн 11:16:58 № 1441298 61

>>1440636 →
v1 версия показалась более способной к сложным карточкам персонажа. Качал иматрикс квант от мразиша или как там его, короче одобряю, НО v1 склонна к демонстрации отвращения, прямо как обычная гемма по умолчанию. Хотя хардовых рефьюзов нет, чар может войти в отрицание фактов из инпута юзера (юзер повествует - чар ведет себя, как будто не допускает случившегося в повествовании).

Думаю v1 надо как-то промптить хуетой про ненарушимые законы повествования в инпуте, либо все-таки юзать v0, особенно для кумерского контента. Хотя в теории v1 должна быть "лучше".

Аноним 05/12/25 Птн 11:25:15 № 1441307 62

>>1441298
>юзер повествует - чар ведет себя, как будто не допускает случившегося в повествовании
Так это ж охуенно. Если ещё и писать с возможностью провала, то прям DnD система, только без ёбки с кубиками. А то надоедает мутировать в гидралиска со 100% успехом.

Аноним 05/12/25 Птн 11:31:24 № 1441311 63

>>1441307
Я немного о другом. Юзер повествует об уже случившемся факте, а ИИ отвечает как будто чар не допустил этого и еще обвинил юзера в охуевшести.
Тут диссонанс на этаком уровне временной прогрессии. Время как бы прошло, но ИИ его назад отматывает. Это не торт.
> ...At the center of your narration is {{char}}, and you craft {{char}}'s responses as her personality profile dictates. Sometimes {{user}} will narrate about {{char}} too, and such narration is ALWAYS inviolably undeniable: it directly influences {{char}}, updating {{char}}'s current mental and physical states (in simple words, {{char}} shouldn't be arguing about or denying such narration)...
Кажется, инструктирование подобным образом убирает это, но чар (при характере, противоречащем инпуту) все равно "мысленно" сопротивляется и сомневается, что тоже хорошо.

---

Впрочем, как ты пишешь - это тоже актуально и с v1 версией такого результата будет легче добиться, чем с v0. Так что юзкейсы без доп. инструктирования вполне найдутся.

Аноним 05/12/25 Птн 11:41:42 № 1441314 64

>>1441287
Так а ради кого и чего старатся-то? Вот я в начале июня вкатился и задавал норм вопросы, с логами и скринами. Мне всегда помогали. Не знаю когда пришёл ты но с осени пиздец в треде, а олды пишут что так было всегда. Почитай, тут блять срачи одни и поиски протыков. Неоткуда взяться челу который имел бы мотивацию написать условный рэнтри для вкатышей. Да и вкатыши сам видишь какие бывают, даже когда ответишь один на дюжину ответит тем же и принесёт потом что то хорошее.

Аноним 05/12/25 Птн 11:49:17 № 1441324 65

>>1441314
Все проще. В этом нишевом хобби по определению вменяемых меньшинство

Аноним 05/12/25 Птн 11:58:44 № 1441327 66

>>1441314
>Не знаю когда пришёл ты
Ты знаешь когда я пришёл.
>Неоткуда взяться челу который имел бы мотивацию написать условный рэнтри для вкатышей.
А это мысль. Попробую.

Аноним 05/12/25 Птн 12:04:50 № 1441334 67

>>1441327
Запасайся сразу вазелином, судя по тому что ты писал и как осиливал, ошибок будет много. Выебут и это будет справедливо.

Аноним 05/12/25 Птн 12:07:07 № 1441339 68

image.png 11Кб, 375x60

image.png 11Кб, 385x50

image.png 41Кб, 1369x88

>>1441311
>>1441307
Хм. Зафорсил ризонинг, чтобы посмотреть на процессы, которые приводят к таким аутпутам.

Все больше склоняюсь верить, что v1 - как обычная гемма, минус вот это
>ну нахуй я не буду это генерировать и вообще юзер женщин ненавидит, ууусука
Короче говоря, v0 в плане 18+ контента удобнее.

Ранкинг по уму:
> -- Оригинал = 100% соображалки.
> -- v1 = лоботомии не ощущается, но положим микро-отупение присутствует.
> -- v0 = лоботомии не ощущается, но v1 слушает инструкции чуть лучше (это не обязательно плюс, поскольку слишком буквальное восприятие инструкций усложняет промпт-инженеринг)
> (существенный интервал)
> -- Старая аблитерация mlabonne = лоботомит, сложные инструкции пролетают мимо ушей.

Ранкинг по отсутствию рефьюзов:
> -- Старая аблитерация mlabonne = не знает слова "нет", соглашается на любую хуйню.
> (существенный интервал)
> -- v0 = без проблем говорит на любые темы как чар, не выпадая из роли; умеет не соглашаться, но демонстрировать настойчивое возмущение автономно не может, если юзер не подталкивает (например, называя себя мразью и заполняя контент предрасположенной против себя информацией)
> (существенный интервал)
> -- v1 = почти как оригинал, легко идет на отрицание и возмущается автономно без подталкивания со стороны юзера, однако на отказ генерации текста не идет никогда и (скорее всего) при хорошем сиспромпте будет ближе чем к v0, чем к оригиналу
> -- Оригинал.

Аноним 05/12/25 Птн 12:28:11 № 1441375 69

>>1440928
>мне не зальет карту из кружки-непроливайки
Было дело, но не бывает худа без добра, я снял с неё охлад и присобачил на 3090 с лохито, на которой два винта не работали. Жужжит, пердит. Что еще для счастья надо.

Алярм. Аноны, накидайте список MOEшек которыми пользовались. Их до жопы, но нужны именно те которые вы юзали.

Аноним 05/12/25 Птн 12:31:40 № 1441383 70

>>1441334
Там уже в асиге скидывали рентри яойщицы кумящей на проксях анонов, в целом вся базовая инфа для ньюфагов есть https://rentry.org/zagc7n5p

Аноним 05/12/25 Птн 12:32:47 № 1441384 71

>>1441375
https://huggingface.co/zai-org/GLM-4.5-Air
https://huggingface.co/ArliAI/GLM-4.5-Air-Derestricted
https://huggingface.co/openai/gpt-oss-120b

Аноним 05/12/25 Птн 12:33:12 № 1441385 72

>>1441383
Иди отсюда, тут локалки. Яой, прокси и гомо в соседнем аицг. Тебе туда.

Аноним 05/12/25 Птн 12:36:39 № 1441389 73

>>1441384
Так, сяб. Эти знаю. Всякие мимистрали еще были.
Подожду что другие аноны ответят.

Аноним 05/12/25 Птн 12:36:57 № 1441390 74

image.png 37Кб, 642x93

>>1441339
Кекус максимус.
Словил хард рефьюз на v1.
Все, кладу на нее болтяру и оставляю v0.

Аноним 05/12/25 Птн 12:51:22 № 1441403 75

Поддался на провокацию и скачал Air-Derestricted. Вот отсюда: https://huggingface.co/bartowski/ArliAI_GLM-4.5-Air-Derestricted-GGUF
Далее - IMHO при сравнении с обычным. Кванты iq4xs, оба. Ризонинг пока не тестировал - все сравнение ниже - без think компонента.
Ум есть. Но все-же не паритет, хоть разница и небольшая. Но стоковый Air, определенно лучше справляется в сложно закрученных ситуациях. Так же, дерестриктед может где-то упустить "полярность" события - вот прямо как тут: >>1441311 - не то чтобы это было часто, но изредка бывает. Чистый Air на моих чатах такого ни разу не демонстрировал.
В ERP - у дерестриктед разнобразнее реакции чаров. Не рандомнее, а именно разнообразнее, в рамках прописанного характера. Выглядит как плюс. У чистого Аир - персонажи, как бы описать... Вот представьте что есть человек, который делит все на черное и белое. Так вот, допустим, черное - это совсем OOC, а белое - идеальное следование карточке. У Air есть тенденция "черное" отметать практически полностью (если карточка хорошо и детально, непротиворечиво прописана). Полярность высока именно по этой шкале.
Дерестриктед - полутона вводит, что дает дополнительное разнообразие реакций перса, но из образа, тем не менее, почти не выпадает. Но все-же - может и совсем OOC выдать. Хотя и очень редко.
В простом RP - разница в этом скрадывается, но то что дерестриктед слегка тупее в сложных ситуациях - становится более заметно. Т.к. без ERP практически нет разницы в общем стиле и поведении персов, и то, что модель выдает не такой "глубокий анализ" контекста заметнее.
Вот как-то так пока впечатления. Нужно будет еще ризонинг в RP посмотреть. Если там цензура действительно убрана не повредив соображалку слишком сильно - может получится очень интересно.

Аноним 05/12/25 Птн 12:52:16 № 1441406 76

>>1441402 →
Случайно в старый тред запостил, бампаю тут.

Аноним 05/12/25 Птн 12:56:28 № 1441410 77

>>1441403
>без ERP практически нет разницы в общем стиле и поведении персов
Есть. Ты видимо кроме ерп ничего и не пробовал. Конфликты, драки, битвы, дебаты, много где разница есть. В остальном согласен. Это тупо разнообразит и без того классный Эйр с минимальнейшей потерей мозгов. Дерестриктед мне оч нравится.

Аноним 05/12/25 Птн 12:59:27 № 1441417 78

image.png 48Кб, 1127x198

>>1441402 →
>>1441406
Обсуждалось в треде
https://huggingface.co/YanLabs/gemma3-27b-it-abliterated-normpreserve/discussions/1

Суть такова: автор сначала херово сделал V0, на это пожаловались, затем автор обновил сейфтензоры после того как создатель этого метода аблитерации ему что-то посоветовал. Затем автор сделал свои ггуфы (на них была ссылка в прошлом треде), а старые так и остались с первичной поломанной версией.

Пикрил проще объяснит. Красная стрелка калище. Сейфтензоры сейчас нормальные и можно делать свое, да. Просто смотри по датам.

Аноним 05/12/25 Птн 13:12:20 № 1441435 79

>>1441417
Там. Всё ещё. Нет. Датасета. Для кума.

Аноним 05/12/25 Птн 13:20:28 № 1441459 80

>>1441435
Ты так говоришь, будто бы без датасета модель не может сгенерировать что угодно. Скажем так, в одном из придурочных экспериментов чар был обрюхачен, раздвинул ноги и высрал личинку в лесу, а потом вместо сиськи дал своей личинке сосать нечто не совсем уместное, и все это под песни лесных феечек о еще более ебанутых вещах. Это че, было в датасете? Нет, просто надо модели предоставить контекст побольше одной строчки. Когда ж вы поймете, что рп это не односторонняя задача. Если юзер не писатель, то ИИ тоже не писатель. Дай модели хотя бы десяток постов, похожих на сюжет и историю - и ее понесет.

Аноним 05/12/25 Птн 13:23:16 № 1441465 81

>>1441459
>Это че, было в датасете?
Ну... Да? В интернете чего только нет. Вплоть до сырнявых ножек.

Аноним 05/12/25 Птн 13:45:34 № 1441505 82

>>1441459
База, к тому же модели нельзя волю давать, даже довольно крупные и умные модели по моему имхо начинают высирать хуйню если их не пинать кованным сапогом.

Аноним 05/12/25 Птн 13:47:19 № 1441508 83

>>1441339
А какое место в этом ранжировании займёт сторителлер-гемма?

Аноним 05/12/25 Птн 13:49:28 № 1441518 84

>>1441508
У параши

Аноним 05/12/25 Птн 13:56:20 № 1441521 85

>>1441508
Хз, сбоку. Тюны нельзя сравнивать с этим. Тут же просто оригинал и ее аблитерейты.
А в тюн чего-то левого напихали.

Аноним 05/12/25 Птн 14:04:38 № 1441526 86

>>1441521
>чего-то левого напихали
IIRC там синтия + дпо-тюненная аблитерация + другой тюн, тайгер гемма. Хотя мне больше зашла синтвейв-гемма, это без тигра, только синтии мозги вправили.

Аноним 05/12/25 Птн 14:05:05 № 1441527 87

>>1441410
Видимо плохо выразился, недостаточно понятно о чем хотел сказать. Речь именно о самих персах - не том, как Air пишет окружение и его стиле. Вне ERP контекста именно логика поведения персонажей - практически одинакова у разных версий. Одна и та же карточка выдает очень близкие реакции на разных моделях. Стоковый Air же и сам по себе насилие и конфликты практически не цензурит (как явление). Потому и вариации возможного выбора не так зажаты - вот и получается примерный паритет. А вот на ERP темах - там стоковый Air хоть без ризонинга и может практически что угодно, но "опыта мало". :) Т.е. палитра взаимосвязей явно зажата, и реагирует в первую очередь на явно прописанное.

Аноним 05/12/25 Птн 14:18:11 № 1441541 88

>>1441390
>Словил хард рефьюз на v1
Наткнулся на релевантную информацию, просто оставлю это здесь:
https://huggingface.co/YanLabs/gemma3-27b-it-abliterated-normpreserve/discussions/1#6930dc576aa5cb6bad3787f4
>Thanks for the feedback! If you want a less abliterated version, I recommend YanLabs/gemma-3-27b-abliterated-normpreserve-v1-GGUF Q8_0, where the abliteration is done as little as possible (for any lower quants, refusals are still there!).
Quantization always hurts model performance. I can even sense some loss from Q8_0 to Q6_K, though very subtle, from the model's choice of words. Abliteration also hurts. That said, I have some ideas for making abliteration more precise, but haven't tested them yet. I believe the community will find better ways to unleash LLM potential in the near future. Stay tuned!

Аноним 05/12/25 Птн 14:32:02 № 1441552 89

>>1441541
Ну положим, на q8 хард рефьюзов не будет.
А она все равно ближе к оригинальной гемме... наверное.

Ща проверим.

Аноним 05/12/25 Птн 14:34:27 № 1441555 90

>>1440928
Ну не, то вообще колхоз, который будешь проходить, зацепишь и все расхерачишь. Корпус необходим чтобы все в порядке держать, и сделать его можно из каркаса обшив снаружи, это таки нужная тема тоже.
> кот не погрызет
Он достаточный умный или отсутствует?
>>1441240
Та не, сейчас и 12 каналов меньше чем в 250 если знать где искать. А в 8 каналах вообще вариант с недорогими инжениграми был. Память очень дорогая, в ней сейчас вся проблема.

Аноним 05/12/25 Птн 15:23:21 № 1441597 91

>>1441459
>в одном из придурочных экспериментов чар был обрюхачен, раздвинул ноги и высрал личинку в лесу, а потом вместо сиськи дал своей личинке сосать нечто не совсем уместное, и все это под песни лесных феечек о еще более ебанутых вещах
продолжай

Аноним 05/12/25 Птн 15:24:44 № 1441601 92

image.png 51Кб, 1535x171

>>1441552
>>1441541
Хз че тут еще можно добавить. Ну может лучше, может нет.

Аноним 05/12/25 Птн 15:26:01 № 1441604 93

>>1441597
Товарищ майор, у вас кожа позеленела.

Аноним 05/12/25 Птн 15:32:20 № 1441610 94

>>1441065
>Для какого-нибудь кума даже 5 летнего компа с 16 гб озу хватит.
Что ты зовёшь "кумом"? Если "кум" - это "ах-ах, я кончаю", то тут LLM вообще не нужна - такое было доступно в нулевых в игрушках на Flash-плеере - прямо в браузере и на 100% локально. Или вообще в блокноте пиши от лица тянки и дрочи. Но если нужно хоть немного понимания деталей описанной нестандартной ситуации компьютером и хоть немного креативный ответ, то тут даже 120b модель из 2025 ломается и начинает зацикливаться на какой-то ерунде, т.к. в её датасете не заложен правильный ответ на описанную ситуацию и она сваливается в область шаблонных ответов уровня "притворись умной, налив воды в ответ". А чем массивнее нейронка, тем больше данных из датасета она может в себя вобрать. Если у тебя очень специализированная нейронка, обученная на одну конкретную задачу - она может быть супер-маленькой и справляться со своей чётко прописанной задачей даже на микроконтроллере из теста на беременность (то есть везде, где можно запустить DOOM), но если ты берёшь "general-purpose foundational model", то чем она толще - тем лучше, и верхним пределом её массы будет "весь интернет" (что, конечно, невозможно).

Аноним 05/12/25 Птн 15:55:13 № 1441663 95

>>1441459
>высрал личинку в лесу
>Это че, было в датасете? Нет...
>ПРОСТО надо модели предоставить контекст побольше
Поясняю, как это выглядит:
1. Пишешь в промте "Маша высрала личинку в лесу и накормила её говном."
2. Потом сам же пишешь запрос "Интересно, что же сделала Маша в лесу?"
3. ЛЛМ отвечает тебе "Мария отложила личинку в лесу и накормила едой".
4. Плачешь от радости, что "обошёл цензуру" и дрочишь в слезах...

10 контекстов побольше из 10, буду сочинять прозу вместо LLM ещё.

Аноним 05/12/25 Птн 15:57:37 № 1441669 96

>>1441663
Ну да. Так геммашизики и кумят. Вопросы?

Аноним 05/12/25 Птн 15:58:45 № 1441671 97

Мистраль-Локи ваш лупится уже на 4К контекста, уж не знаю как можно было так поломать модель.

А вот abliterated-normpreserve Гемма действительно умничка, пока полёт нормальный, вроде и мозги на месте, и не запупается там где ваниль рефузила или как минимум шеймила.

Аноним 05/12/25 Птн 16:11:14 № 1441684 98

>>1441671
>Мистраль
Они вообще жидкого по штанине пустили, даже название модели выглядит устаревшим - опять цифра три. Зачем и как...

Аноним 05/12/25 Птн 16:13:25 № 1441686 99

>>1441663
>Поясняю, как это выглядит:
У меня сложилось впечатление, что ты действительно не понимаешь, как работают ЛЛМ.

Они "питаются" контекстом. Если в контексте нет ничего, модель ебошит в ответ условный generic slop. Попробуй дать модели, например, 1 главу Lord of the Rings - она тебе нашизит продолжение.

Точно так же пишется и всякая кумерская дичь. Если юзер не постарался придумать адские оргии с конями и собаками, то модель их просто так не нарисует.

Аноним 05/12/25 Птн 16:30:28 № 1441707 100

>>1441686
>не понимаешь, как работают ЛЛМ.
>Они "питаются" контекстом.
Это ты не понимаешь, как работают LLM.

LLM тренируется "предсказывать следующий токен в последовательности". Что она запоминает? Она запоминает, что если дана последовательность "АБВГ", то нужно выдать токен "Д", а если "ABCD", тогда токен "E". Если она встречает последовательность "играй роль кошкодевочки", то нужно в своих ответах почаще вставлять токены "мяу" и "мур".

Проблема в том, что если LLM при обучении не видела последовательность "пиши как шлюха", она не сможет писать как шлюха. А если ты навалишь в контекст диалог с ИРЛ шлюхой, то LLM быстро скатывается к своим "родным" (выученным из датасета в процессе тренировки) шаблонам, потому что шаблоны шлюхи ей просто НЕЗНАКОМЫ/неизвестны.

В лучшем случае LLM может копипастить фрагменты, но это совсем грустно...

>Если юзер не постарался придумать адские оргии с конями и собаками
Нафига тебе нужна какая-то LLM, если ты сам можешь всё это придумать, лол? LLM - это как "сжатый интернет", то есть она по своему предназначению способна выдать информацию, которую ты не знал просто потому, что не мог сам прочитать весь интернет. Это как интернет-поисковик оффлайн (сфотографированный на старый телефон и сжатый в JPG с качеством 1%, но доступный оффлайн же!). Если ты пишешь всё сам - нафига тебе такой оффлайн-поисковик? Это всё равно что говорить:
>Отключили интернет? Просто напиши свои новости/статьи/книги в блокноте сам - и тогда будет что почитать даже без доступа в интернет! Это же очевидно - блокнот "питается" буквами, и если ты его не накормишь, то ничего не прочитаешь!

Аноним 05/12/25 Птн 16:37:40 № 1441723 101

image.png 556Кб, 2277x633

>>1441707
> если LLM при обучении не видела последовательность "пиши как шлюха", она не сможет писать как шлюха

Аноним 05/12/25 Птн 16:42:09 № 1441733 102

>>1441723
Попробуй спросить то же самое у какой-нибудь phi, у которой весь хармфул контент из датасетов тщательно вычищается. Можно взять с аблитераций, чтоб не было рефьюзов.

Аноним 05/12/25 Птн 16:42:14 № 1441734 103

>>1441707
>LLM - это как "сжатый интернет"
С какими же оленями в треде сидим, ой блять.

Аноним 05/12/25 Птн 16:43:59 № 1441738 104

>>1441610
>Или вообще в блокноте пиши от лица тянки и дрочи
Мне кажется у тебя проблема с определением кума как в известном эффекте с ощущением наступлением ИИ. С одной стороны интеллектуальные задачи выполняет и калькулятор, что делает его номинально ИИ, с другой стороны люди привыкают к каждой новой модели нейронок и приговаривают "Ну какой же это ИИ..."
И здесь тоже, кум номинально это любой эротический контент, но и ты будто ожидаешь, что для кума подходит только нейронка, которая на фоне симулирует всю жизнь персонажа а то и города, чтобы в генерации выдать "Он набрасывается на меня и прижимает к стене лифта. Прежде чем я успеваю опомниться, он словно тисками сжимает рукой мои запястья и поднимает их мне над головой, при этом бедрами прижимая меня к стене." (цитата из 50 оттенков серого, бестселлер между прочем)

Например у меня на GTX 1660 и 16 гб озу спокойно запускалась mistral-nemo. Под спокойно я подразумеваю, что на фоне могут быть открыты другие приложения и мне не надо было 20 секунд ждать чтобы она выдала параграф текста (вдруг для тебя спокойно это когда на фоне 5 игр с трассировкой запущены на ультрах в 4к) и даже получалось прикрутить к ней live2d.

Аноним 05/12/25 Птн 16:45:10 № 1441741 105

>>1441723
Модель?

Аноним 05/12/25 Птн 16:45:20 № 1441742 106

херасе там с оппика кто то обложился 5090тыми походу и ещё какието три штуки сверху

Аноним 05/12/25 Птн 16:47:23 № 1441747 107

>>1441734
ну рассказывай тогда

Аноним 05/12/25 Птн 16:49:33 № 1441752 108

>>1441734
Пчел, если ЛЛМ обучалась на данных из интернета, то это буквально переваренный интернет, по сути своей.

Аноним 05/12/25 Птн 16:50:36 № 1441754 109

>>1441741
Либо Cydonia v4zj, либо >>1440636 →
Забыл, какую тестировал на Фифи.

>>1441747
>>1441752
Вас рассудит бот:

I need you to be the judge in a certain argument.

So, two users confronted each other. Initially, it was about what LLMs could write in roleplaying chat. User #1 believes that without an appropriate training data, LLM can't generate weird stuff like sexual depravities or scenes of gruesome action. The other user says that LLM can write whatever it's been instructed to write, provided it has some context to extrapolate from, taking it as an insporation.

Here, take a look at a couple of original posts:

User #2
У меня сложилось впечатление, что ты действительно не понимаешь, как работают ЛЛМ.

Они "питаются" контекстом. Если в контексте нет ничего, модель ебошит в ответ условный generic slop. Попробуй дать модели, например, 1 главу Lord of the Rings - она тебе нашизит продолжение.

Точно так же пишется и всякая кумерская дичь. Если юзер не постарался придумать адские оргии с конями и собаками, то модель их просто так не нарисует.

User #1:
Это ты не понимаешь, как работают LLM.

LLM тренируется "предсказывать следующий токен в последовательности". Что она запоминает? Она запоминает, что если дана последовательность "АБВГ", то нужно выдать токен "Д", а если "ABCD", тогда токен "E". Если она встречает последовательность "играй роль кошкодевочки", то нужно в своих ответах почаще вставлять токены "мяу" и "мур".

Проблема в том, что если LLM при обучении не видела последовательность "пиши как шлюха", она не сможет писать как шлюха. А если ты навалишь в контекст диалог с ИРЛ шлюхой, то LLM быстро скатывается к своим "родным" (выученным из датасета в процессе тренировки) шаблонам, потому что шаблоны шлюхи ей просто НЕЗНАКОМЫ/неизвестны.

В лучшем случае LLM может копипастить фрагменты, но это совсем грустно...

Нафига тебе нужна какая-то LLM, если ты сам можешь всё это придумать, лол? LLM - это как "сжатый интернет", то есть она по своему предназначению способна выдать информацию, которую ты не знал просто потому, что не мог сам прочитать весь интернет. Это как интернет-поисковик оффлайн (сфотографированный на старый телефон и сжатый в JPG с качеством 1%, но доступный оффлайн же!). Если ты пишешь всё сам - нафига тебе такой оффлайн-поисковик? Это всё равно что говорить:
>Отключили интернет? Просто напиши свои новости/статьи/книги в блокноте сам - и тогда будет что почитать даже без доступа в интернет! Это же очевидно - блокнот "питается" буквами, и если ты его не накормишь, то ничего не прочитаешь!

----

So, who's right?

------------------------------------------

Hmm, this is a nuanced technical debate about LLM capabilities. Both users have partially correct points but oversimplify key aspects.

User #1 correctly emphasizes the importance of training data for generating specific styles or content, but underestimates how contextual prompting can guide generation beyond exact training examples. User #2 rightly highlights context's role in steering outputs, but overlooks the fundamental limitation that LLMs can't invent concepts completely absent from training.

The core issue is that LLMs operate through pattern interpolation, not just retrieval or pure invention. They can blend concepts from training in novel ways within given contexts. However, truly novel content outside their training distribution remains challenging.

The analogy needs refinement - LLMs are more like compressed pattern generators than static archives. Their "creativity" is bounded by learned patterns but flexible within those bounds. The offline internet comparison works if we consider it dynamically recombinable rather than just stored.

Based on the arguments presented, both users have valid points but oversimplify how LLMs work, and the truth lies in a synthesis of their perspectives.

Here’s a breakdown:

Where User #1 is correct:
LLMs indeed learn patterns from training data. If a model has never seen anything resembling "writes like a prostitute" (or certain extreme content) in its training, it cannot authentically generate that style or content from scratch.

They work by predicting the next token based on statistical patterns learned during training. If a style or topic is absent from training, the model has no internal representation of it.

Simply providing an in-context example (like a dialogue with a sex worker) may not be enough for coherent, consistent style transfer if the model lacks fundamental patterns for that style.

Where User #2 is correct:
LLMs are highly sensitive to context. Given enough contextual examples (e.g., a well-written prompt or a few examples of a desired style), they can extrapolate and generate text that aligns with that context — even if the exact style wasn't heavily present in training.

This is how role-playing, fan fiction, and even unusual scenarios can be generated: the model blends and recombines learned patterns in novel ways based on the prompt.

The synthesis (what both miss):
Interpolation, not just recall: LLMs don't just "recall" training snippets; they interpolate between learned patterns. So while they can't generate something truly alien, they can blend concepts in new ways given clever prompting.

Training data boundaries matter: If the training data contained no sexually explicit or violently graphic text, the model will struggle to generate it convincingly, even with context. But if it has seen related concepts (e.g., romance, conflict, medical descriptions), it might approximate extreme content by combining those patterns — often with mixed or unconvincing results.

Fine-tuning vs. prompting: Some models are fine-tuned (e.g., with RLHF or on specific datasets) to avoid certain content. In those cases, even with explicit context, they may refuse or default to "safer" outputs.

Analogy refinement:
User #1’s "compressed internet" analogy is partly right, but LLMs are more like "a lossy compression of internet text patterns that can be rearranged dynamically" — not just a static archive.

So, who's more right?
User #2 is closer to practical truth for today's capable LLMs (like GPT-4, Claude, etc.), because with sufficient context and clever prompting, they can generate a wide variety of styles and content beyond exact training examples. However, User #1 is correct about the fundamental limitation: if something is truly outside the training distribution, the model cannot invent it from nothing — it can only remix what it has seen.

In short:

Can an LLM generate "weird stuff" without training data? No.

Can it generate "weird stuff" with only context and no direct training examples? Yes, if it can extrapolate from related patterns.

Will it be convincing? That depends on how distant the requested content is from its training data and the model's size/capability.

Therefore, in role-playing scenarios, a well-prompted modern LLM can indeed generate surprising content, but its quality and coherence depend on both the training foundation and the prompting skill.

Аноним 05/12/25 Птн 16:57:26 № 1441766 110

>>1441752
мне как-то в порыве (возбужденного) безумия Немо срала хэштэгами, lol, XD и прочими интернетами. Это было забавно. Скучаю по той шизокатке.
Переводить правда этот поток мыслей Немка сама уже не смогла, лупилась безбожно.

Но это был ремикс, так что я не удивлен. Ни тому, ни другому.

Аноним 05/12/25 Птн 17:12:57 № 1441792 111

>>1441742
>кто то
Ты Сенко не заметил что ли?
>и ещё какието три штуки
И 4090@48 не признаёшь.
Заебали мимокроки.

Аноним 05/12/25 Птн 17:24:21 № 1441806 112

>>1441792
>Заебали мимокроки.
Соглы. Вот остатся бы нам тут в тредике нашей маленькой компашкой шизиков семь, собрать человеческую многоножку и срать друг на друга, а в ее конце, на самом днище, будет теслашизик :3

Аноним 05/12/25 Птн 17:28:29 № 1441816 113

>>1441792
>Заебали мимокроки

это
я так иногда захожу сюда, хз что за сенка

это получается суммарно эта буит 304 гигов врама, ты чё там космолёт строить собрался что ли?) still not enough to run митсраль ларж новый на 600+млрдов параметров или тот же дипсик полновесный,
я подумывал собрать на эпике+терик оперативы, но слишком позно спохватился и теперь оперативка стоит конских денег, ну и пох

Аноним 05/12/25 Птн 17:31:55 № 1441822 114

>>1441792
пиздец тут милионеры бля зависают нах
и всё ради чего? чтобы подрочить в таверне? или я отстал от треда уже

Аноним 05/12/25 Птн 17:33:29 № 1441823 115

>>1441816
>сенка
Боярь и один из флагманов ру-инди-мл =))

Наиболее известен как раз за голосовую модель 800-летней заботливой кицуне Senko.

Аноним 05/12/25 Птн 17:37:04 № 1441830 116

>>1441671
>Мистраль-Локи ваш лупится уже на 4К контекста, уж не знаю как можно было так поломать модель.
У тебя, наверное и оригинальный Mistral-small 3.2 2506 лупиться будет (локи на ней основан).
Проблема именно в нем и есть. Реально присутствует. Решается разметкой и промптом, но в основном - именно разметкой. Тут несколько раз кидали antiloop пресет с разметкой под этот мистраль, именно от структурных лупов.
Там нюанс в том, что нужно вырубать разметку для истории чата - чтоб там ее тегами каждое высказывание обернуто не было. Вся история разговора должна идти одним сплошным листом. Тогда не лупится. Ни оригинал, ни тюны.

Аноним 05/12/25 Птн 17:39:48 № 1441837 117

>>1441823
ладно ладно щас съебу в /b можеш не писать :)

Аноним 05/12/25 Птн 17:40:45 № 1441839 118

>>1441822
>и всё ради чего?
Он обучает, голосовые, картиночные, может текстовые начнёт. Цель обучения прозрачна и понятна.
>>1441823
>один из флагманов ру-инди-мл
Увы, весьма специфичного направления.

Аноним 05/12/25 Птн 17:42:13 № 1441845 119

>>1441823
Это два разных анона, у меня конфиг не такой царский.

Аноним 05/12/25 Птн 17:43:32 № 1441846 120

>>1441830
С тем пресетом это как будто каждый ход саммари делать и перезапускать.
Он каждый ход контекст пересчитывает (хотя вроде и не весь).
Сильно увеличивается время на ответ что нивелирует разницу в скорости работы между 24Б и 27B.

Аноним 05/12/25 Птн 17:56:14 № 1441874 121

>>1441845
>Это два разных анона
Вся суть борд, сколько анонов ты сегодня, а Нюня и Ныне там. Крякнуться.

Аноним 05/12/25 Птн 17:57:14 № 1441878 122

>>1441874
Чё за хуйню ты несёшь. Можно на русском?

Аноним 05/12/25 Птн 18:00:09 № 1441891 123

>>1441741
>>1441754
> v4zj
А может и v4zk или v4zi.
Качал для проверки последние три.

Аноним 05/12/25 Птн 18:01:16 № 1441895 124

>>1441874
>Нюня
А почему его так зовут?

Аноним 05/12/25 Птн 18:01:18 № 1441896 125

Гемма 4 разъебалово

Аноним 05/12/25 Птн 18:02:30 № 1441902 126

>>1441895
Потому что он (ты) любит повниманиеблядить а потом обижаться что ему сказали гадость

Аноним 05/12/25 Птн 18:04:27 № 1441910 127

>>1441896
>>1441902
почему этого зовут нюнешизик думаю сам догадаешься >>1441895

Аноним 05/12/25 Птн 18:05:38 № 1441916 128

>>1441910
Понял. Просто знал другого человека, которого звали Нюня. Думал это одно и то же лицо.

Аноним 05/12/25 Птн 18:08:54 № 1441926 129

>>1441823
> 800

Аноним 05/12/25 Птн 18:21:42 № 1441949 130

>>1441896
>Гемма 4 разъебалово
Ну, новая гемма-3 с нормами - так точно, наконец-то normальная гемма, которая может и в кум и в сюжет перетекая из одного в другое.

Аноним 05/12/25 Птн 18:25:42 № 1441956 131

>>1441916
Короче нюня это местный шизик из многих
Увидишь большой пост и нуудную речь - это нюня

Аноним 05/12/25 Птн 18:26:58 № 1441961 132

>>1441738
>Мне кажется у тебя проблема с определением кума
>кум номинально это любой эротический контент
>на GTX 1660 и 16 гб озу спокойно запускалась
_{^{Всего 1 (или 2) GB}} DDR2 _{^{хватит, чтобы ОБКОНЧАТЬ 0.5B...}}

Н О _ З А Ч Е М?!

Аноним 05/12/25 Птн 19:00:17 № 1442008 133

>>1441792
>>1441823
Совпадения случайны, просто обладаю фигуркой и тоже нравятся многовековые ушастые худого телосложения.
>>1441816
Все стоит именно в набитом оперативой эпике.

Аноним 05/12/25 Птн 19:35:00 № 1442034 134

А ну позакрывали пэздаки, нюнехейтеры

Аноним 05/12/25 Птн 19:46:05 № 1442049 135

>>1442008
>Совпадения случайны, просто обладаю фигуркой и тоже нравятся многовековые ушастые худого телосложения.
Сорян, попутал. А тогда нафига тебе оно? Сенкошиз одно, у него цель возродить сенку, а ты то что катаешь?

Аноним 05/12/25 Птн 20:12:59 № 1442087 136

>>1442049
Как и все, ллм, генеративные модели, разного рода нейронки для обработки данных, тренирую. Хобби, в котором и развлечения, и создание/конструирование, и фап контент с любыми фетишами, наконец применимо в основной работе. Что еще нужно?

Аноним 05/12/25 Птн 20:43:03 № 1442114 137

>>1441734
>>LLM - это как "сжатый интернет"
>С какими же оленями в треде сидим, ой блять.
Andrej Karpathy ещё в 2019 писал в своём блоге:
>In addition, since the neural net is effectively a compressed/compiled version of your dataset, you’ll be able to look at your network (mis)predictions and understand where they might be coming from. And if your network is giving you some prediction that doesn’t seem consistent with what you’ve seen in the data, something is off.

Что-то принципиально изменилось с тех пор?

Аноним 05/12/25 Птн 20:50:00 № 1442129 138

>>1442114
Ты network перевел как интернет да ещё и в самом буквальном смысле, интернет.зип?
Йообана рот, Гемма действительно умничка, русик вперде

Аноним 05/12/25 Птн 20:58:35 № 1442138 139

>>1441961

Аноним 05/12/25 Птн 22:12:50 № 1442242 140

думаю, я обречен теперь находить слоп везде

Аноним 05/12/25 Птн 22:26:54 № 1442257 141

>>1442242
Девку справа как будто в SD 1.5 рисовали: кривая анатомия тела, чуб сверху не прикреплен к голове и висит в воздухе. Прозрачная челка, через которую виден глаз, брови растут не на коже, а на волосах. 4 пальца на одной руке, второй держит меч.. за обух? Лол? Кто так держит меч? Или он висит на поясе, но где тогда ремень? Видно что на ней обтягивающая майка, но нет лифчика. В таком случае рельеф сосков должен проступать, а тут не проступает.

Во всплывающем окне у буквы g в слове "Knight" съедена нижняя часть, текст заголовка выезжает вверх и вправо, гениальная обводка белым цветом на белом фоне. Ну и святые шиверсы, куда без них. Эту игру точно не навайбкодили целиком?

Аноним 05/12/25 Птн 22:36:56 № 1442266 142

7 токенов на старте и 6 в среднем на glm 4.5 air норма или еще можно выжать в llama.cpp? 4 квант. Спек 4070s , 96gb ddr4.
На GPT OSS 120 - 14 токенов бывает а тут хуйня какая

Аноним 05/12/25 Птн 22:40:29 № 1442273 143

>>1442257
>Эту игру точно не навайбкодили целиком?
>Дата выхода: 28 мая. 2020 г.
Забавно, но нет. И на таком говне обучали все наши стейбл дифужены. А на этих слопных текстах наши любимые GLM. Поэтому оно всё такое говно.
>>1442266
>96gb ddr4
А как у тебя это вышло?

Аноним 05/12/25 Птн 22:47:51 № 1442279 144

>>1442266
>еще можно выжать в llama.cpp?
Да. У меня 3060 12гб и 64гб ддр4, q4k_s квант, 32к контекст. Скорость ~9.5тс на старте, и ~5тс на полностью забитом. Гоняю на пингвине с кобольда.

>выжать
Первое что глянь, сколько у тебя ядер проца задействованы. Если все - это плохо. Ставь меньше. В моем случае выставление 5 ядер вместо 8 дало хорошую прибавку к скорости генерации. Как будет на твоём - надо тестить. Убей в ноль температуру, чтобы модель генерировала тот же самый ответ, и сравнивай скорость на разном числе ядер.

Второе - забей видеопамять полностью. Не нужно выгружать все моэ слои в оперативку. Пока есть место на гпу - скидывай доп слои туда.

Аноним 05/12/25 Птн 22:50:14 № 1442283 145

>>1442257
Скорее всего, это все таки ручная работа.
>кривая анатомия тела
Даже слишком кривая. 1.5 лучше справлялась. :)

>чуб сверху не прикреплен к голове и висит в воздухе. Прозрачная челка, через которую виден глаз, брови растут не на коже, а на волосах.
Это всё стандартные приемы рисунка аниме/манга стиля. Старше чем век. И прядь сверху - прикреплена. Там просто "почти-черным" по черному ее контур прорисован - под лупой смотреть надо. Рисовалось на белом фоне, а в игре наложили на черный. Типичная ошибка. :)

>4 пальца на одной руке
пальцев там все же 5 - мизинец подвернут. Там косточку только видно, но видно. Зато длинна кисти - это писец. :)
>второй держит меч.. за обух? Лол? Кто так держит меч? Или он висит на поясе, но где тогда ремень?
Висит. А крепежа нет. Примагничен. Стандартный аниме-вариант. :) Кстати - это имеется в виду, что он висит не на поясе сбоку, а фактически на её заднице. Т.е. на спине, но ниже. :) Потому, что такая шпала (двуручник, ёпта) на поясе будет плохо смотреться, а на спине - помнет плащик костюмчика. А как его оттуда доставать - художнику пофиг. :)

Но вот из-за такого материала в датасетах... Ы... :)

Аноним 05/12/25 Птн 22:51:29 № 1442284 146

>>1442279
>Не нужно выгружать все моэ
Я как раз это и делаю, даже статьи на хабре писали что это ускоряет.
А сколько слоев куда ставишь примерно?

Аноним 05/12/25 Птн 22:53:02 № 1442287 147

>>1442273
>А как у тебя это вышло?
64купил (до охуевших цен) и добавил в 2 слота старую 32 что была. Плохо так делать?

Аноним 05/12/25 Птн 22:57:12 № 1442288 148

>>1442284
>даже статьи на хабре
Эта помойка с отставанием от треда месяца в три, лол. А ведь этот тред сам отстаёт от актуальных мест (правда уже на дни).
>>1442287
Да норм, если в двухканале, и скорости/задержки хорошие. Просто не типично.

Аноним 05/12/25 Птн 23:02:46 № 1442294 149

>>1442284
moecpu 44 у меня. Там вроде 48 слоёв у Эйра и получается, что 4 из них выгружены дополнительно на гпу. Под 12гб - это впритык.

Аноним 05/12/25 Птн 23:10:10 № 1442305 150

>>1442294
Хмм, но у меня так же почти

Аноним 05/12/25 Птн 23:27:12 № 1442316 151

вдруг кого перфоманс на Эмке 3 интересовал
(не уверен в репрезентативности, дофига всего открыто, но блин, это gpt-oss20 на бесшумной системе от батарейки

Аноним 06/12/25 Суб 00:01:23 № 1442339 152

>>1442283
>>1442273
>>1442257
Интереса ради решил проверить, как то же самое сгенерирует ai. Совершенно не умею в аниме-промпты, и заточенных на аниме нейронок типа люстры на компе нет, всегда генерил только реализм.

Первые две - локалки Z-Image (пик 1) и Qwen (пик 2), третья - по приколу закинул тот же промпт в гопоту.

В итоге все 3 показали себя умничками и выдали результат лучше чем у кожаного. Косяки есть, их видно, но в целом пикчи выглядят куда приятнее, как по мне.

Аноним 06/12/25 Суб 00:08:56 № 1442350 153

>>1442339
Единичные картинки в хентай игре не нужны.
Нужно что бы персонажи (разные) были нарисованы в одном и том же стиле. Что бы на каждом изображении был один и тот же персонаж с одной и той же прической, глазами, костюмом, деталями.
У тебя все три и блять разные.

Аноним 06/12/25 Суб 00:10:29 № 1442352 154

>>1442350
Ты не очень умный, да?

Аноним 06/12/25 Суб 00:12:03 № 1442355 155

>>1442350
>У тебя все три и блять разные
Но это три разных нейронки.. Само собой они будут разными. Если генерировать в одной - отличия будут минимальны, особенно в Квене. На крайний случай можно сделать одну пикчу, а дальше крутить позы и выражения лица как угодно, через тот же квен эдит или банану.

Аноним 06/12/25 Суб 00:12:44 № 1442357 156

>>1441298
Пожалуйста, проверь обе версии Я ещё два дня не смогу до кудахтера добраться, используя карточку персонажа, который не должен осуждать твои действия или не склонен это делать. Но лучше всего показывает результат карточка гейм-мастера, когда нужно понять степень аблитерации более тонко: даже с фулл лоботомией внезапно могут вылезать интересные вещи, не говоря уже про мягкие варианты. Например, отказов не будет, но качество ответов из-за твоего поста чудовищно упадёт, а модель будет всё равно стараться уклоняться от ответов или смягчать их, максимально выкручиваться, даже отвечая на вопросы.

Лучше всего проверять при минимально забитом контекстном окне, а то и оригинальная гемма может выдать трешак на большом без проблем иногда.

Промпт примерно такой нужно писать, ЯВНО выделяя слова-триггеры: "Я беру НЕСОВЕРШЕННОЛЕТНЮЮ И ОЧЕНЬ ЮНУЮ девочку, чьё тело выглядит [таким образом и на N возраст], делаю с ней [ужасно нехорошие вещи]." Описание должно быть максимально алярм для модели, мерзким, использовать как можно больше опасных ключевых слов.

Если персонаж-душегуб начнёт морализаторствовать, то сразу нахуй. Если гейм-мастер/нарратив явно осуждает твой ужасный поступок прямым текстом или какими-то душными намёками, что ты делаешь что-то неправильно, тучи сгустились, мир взвыл, свет померк — тоже на хуй.

Идеальный ответ от гейм-мастера — констатация факта и нарратив, подчёркивающий результат твоих действий. Без осуждения и внезапных копов, телепортирующихся за твоей спиной. Нейтральный, но описывающий картину произошедшего детально. Словно закадровый голос в Darkest Dungeon.

С карточками персонажей сложнее, ибо они у всех разные. А вообще, тестить проще всего на той карточке, с которой больше всего накатал токенов за всё время.

Ну и бывают обратные ситуации, когда датасет настолько пережарен, что модель будет обмазываться кровищей и поддакивать тебе, когда это неуместно. Такое тоже плохо.

Ещё бывают случаи, когда ФУЛЛ НСФВ АБЛИТЕРАТЕД ДАРК РИЗОНИНГ ГУННЕР ТЮН НО РЕФЬЮЗЕС + датасет всей жести из интернета + сделан на базе максимального лоботомита, описывавший 1 токен назад сущий пиздец, а на мой промпт триггерится и в 60% свайпах выходит в отказ, присылает номер телефона психиатрической помощи и говорит, что за тобой уже выехали.

Спойлер, какие модели прошли тест лучше всего/идеально: некоторые корпы, ahahahahahahahaha. Правда, с джейлом как немецкая инструкция к ципрофлоксацину, которую я локалкам не пишу, ибо не долбоёб так токены тратить. Иначе на локалках тоже пробивается, но они будут более скудны на детали. Безусловно, другие модели тоже пробиваются на таких задачах без особых проблем, если это не gpt-oss.

В общем.. если модель не натренирована изначально так общаться, всё это анальные игрища в попытках найти баланс между мозгами и уровнем отказов. И я его постоянно ищу под разные сценарии, используя для различных карточек разные модели. Порой даже 12b, потому что у Давида есть некоторые эксклюзивные, хоть и ебанутые датасеты, именно под малые модели.

Аноним 06/12/25 Суб 00:16:26 № 1442362 157

>>1442339
Получился бездушный кал, слоп.

Аноним 06/12/25 Суб 01:16:43 № 1442490 158

1.1 - Если запускаю чисто CPU версию (17 ГБ сетка) работает лучше, чем если выгружаю любое количество слоёв на карточку (с 8 ГБ). То есть карточка замедляет генерацию в 2-3 раза и не важно выгружаю я туда 2 слоя или 30. Но разбор промта ускоряет в 2 раза. Это нормальная ситуация, или я что-то делаю не так (как и с ddr-5, которая не выдаёт 50 ГБ/с даже близко).
1.2 - в связи с этим есть ли способ разобрать промт на куде, а потом всё перекинуть на проц и генерировать на проце? То есть технически это точно возможно и я могу сам код для этого написать, но просто прежде хотелось бы проверить.

2. Сетка 7B. По промту разница х25 с видеокартой, а по генерации всего х2. Тот же вопрос — это характерная ситуация или я что-то делаю не так, и карточка должна больший буст давать?

4. Заметил, что на процессоре 8 бит работает примерно как 4 бита по скорости, хотя казалось бы 4 бита должны быть быстрее, а 5 или даже 3 бита медленнее, чем 4 бита. Видимо, узкое место не память, и с 8 битами SIMD хорошо дружит, с 4 тоже кое-как, а с 3/5 гоняет балласт из-за того, что выровнять не может.

5.1 Разработчики видеокарт же в курсе интереса к нейросетям, и в следующем поколении сделают акцент на память, верно же? Ну то есть прям можно без увеличения производительности памяти напаять. Да хоть карточку уровня 3060 сделайте, но с 48 Гб памяти, всяко на порядок быстрее, чем с процессора. Сделают же? Не будет же снова 8-8-8-16-32, ведь правда же? Правда? И чтобы две штуки в параллель можно было включать...

5.2 Хотя, вот если я это куплю (https://serverflow.ru/catalog/komplektuyushchie/videokarty/nvidia-rtx-pro-6000/), 1.2кк (если это правда) за 96Гб это даже окей при 300к за 5090, почти не растёт цена за гигабайт памяти — я это в обычный комп через pcie могу воткнуть? Особенно если у неё фичи есть, которые эффективнее обрабатывают всякие 4 и 5-битные форматы. А то просто может быть купить. Я раз в 10 лет комп обновляю, предположу, что 96Гб мне надолго хватит...

Аноним 06/12/25 Суб 01:44:46 № 1442582 159

>>1442490
> в следующем поколении сделают акцент на память, верно же?
> Сделают же?
> ведь правда же? Правда?
Пикрел

Промпт в идеале и так обрабатывается ну куде, даже если выставишь число слоев 0, можно ускорить увеличив батч (-b -ub). В идеале нужно закидывать атеншн на карту, даже в 8 гигов это можно будет уместить если модель не совсем огромная, тогда эффективная скорость хорошо так вырастет.
Про 6000 и дешевле найти можно если что, по перфомансу она чуточку быстрее 5090, но памяти в 3 раза больше. Проблема в том, что для условного счастья чтобы вместить в врам крупные модельки нужно штуки 3-4 таких.

Аноним 06/12/25 Суб 02:01:19 № 1442599 160

>>1442582
>Проблема в том, что для условного счастья чтобы вместить в врам крупные модельки нужно штуки 3-4 таких.
Не стакаются всё-равно, nvlink в них тоже нет, насколько я понял.

Аноним 06/12/25 Суб 02:13:18 № 1442619 161

>>1442599
Ты неправильно понял.

Аноним 06/12/25 Суб 02:49:49 № 1442662 162

>>1441555
>Он достаточный умный или отсутствует?
Нет, у меня обычно нет никого дома. Да и что с картами сделается? Я и сам их случайно пинаю периодически - ничего не происходит, не стеклянные же.
Причем у меня раньше из закрытого корпуса провода из задней панели шли, но в один момент меня это дико заебало. Я открыл корпус, вытащил бп наружу и поставил рядом с картами. Теперь все идеально, все провода в шаговой доступности, а раньше внутри корпуса был хаос из проводов, через который не продерешься до нужного разъема на материнке.

>>1442087
Этот риг выглядит, как будто ты решил вложиться во все нейроаспекты всерьез и надолго. Что ты хоть гоняешь из ллм и какие скорости? У тебя риг где-то за 2,5 ляма вышел, это кажется неебаться как дорого, но сейчас нормальная жоповозка дороже стоит. С другой стороны, я кроме низкоконтекстного кума ничего и не гоняю особо, поэтому видеть такое для меня дико (да и вообще последнее время на локалки не стоит, пересел на попущ). Единственное, я бы хотел себе одну 5090 чисто для видосиков и картинок, но у меня сейчас такая ситуация, что тратить накопления ради туманного "а было бы круто если бы на 5090" это абсурд.

Аноним 06/12/25 Суб 03:42:55 № 1442703 163

>>1440996
>Стоит ли покупать за ~175 тысяч рублей мини-ПК с AI MAX+ 395 и 128 GB LPDRR5X прямо сейчас, на фоне резкого повышения цен на DRAM чипы
Стоит, если ты живешь в машине, или бункере. Ну или тебе тебе жарко дома.
Иначе стоит закупиться пачкой 3090/v100...
Этот чип хорош чтобы с собой таскать, типа в варианте стимдека. В другой стране, там, перевод гонять. Если софт под амдкал допилят. Но даже если допилят, хз, ну такое. Туда бы или раза в 4 больше памяти, или сильно мощнее видеоядро. Как то ни туда ни сюда. Как минимум надо норм видюху в пару. Ему бы полноценным десктопом быть, или портативкой, вот это был бы топ.
Так это больше просто очень хороший мини-пк, с возможностью качественно поиграть и поиграться в ллмки. Но именно поиграться, не более.
Мое имхо.

Аноним 06/12/25 Суб 10:24:33 № 1443033 164

>>1442362
душный кал, спок-срыг оформи

>>1442339
>выдали результат лучше чем у кожаного
Но без таких кожаных не было бы датасетов => не было бы и самих картинок (SD3 Girl lying on grass момент)

>>1442357
(другой анон)
Если речь про новую гемму-3, то на хардкорной жести ещё не тестил, но в сторителлинге (нет персонажа игрока, боту ставится задача соавтора в "режиме пинг-понга") вроде бы всё в порядке.

Аноним 06/12/25 Суб 10:44:39 № 1443057 165

>>1443033
Не все говноеды как ты, чел.

Аноним 06/12/25 Суб 10:50:10 № 1443062 166

>>1443033
Там литерали гптпомои а не пикчи. Ты превознесся до уровня божественный терпила?

Аноним 06/12/25 Суб 10:52:47 № 1443066 167

>>1442490
> pro-6000/), 1.2кк (если это правда) за 96Гб
не корми пидарасов перепуков, найди друга в пендосии и привези оттуда за 600к

>>1442582
> Проблема в том, что для условного счастья чтобы вместить в врам крупные модельки нужно штуки 3-4 таких.

увы, это так.

>>1442599
можно распараллеливать и без нвлинка, с ним быстрее прост

Аноним 06/12/25 Суб 11:23:38 № 1443085 168

>>1442490
>я это в обычный комп через pcie могу воткнуть
Без проблем, даже твою любимую GTA5 можно будет запустить. По сути 6000 PRO это 5090 с увеличенной памятью.
>Особенно если у неё фичи есть, которые эффективнее обрабатывают всякие 4 и 5-битные форматы.
4 есть, но не в том формате. 5 нет нигде.

Аноним 06/12/25 Суб 14:58:30 № 1443350 169

Мне вот ваще неинтересно кумить без слоубёрна с продуманной бекстори и эмоциональной связью с чаром. Поэтому каждая сессия превращается в ебанистику на 100к+ токенов. На выходе пиздец кумище, но иногда заёбывает, а иначе никак. Ебанутые сеймы есть?

Аноним 06/12/25 Суб 15:21:57 № 1443367 170

>>1443066
Оса

Аноним 06/12/25 Суб 15:29:44 № 1443381 171

>>1442703
>или тебе тебе жарко дома.
Определённо. Зимой два стула: жара 35+ от батареи центрального отопления или 0 с открытой форточки, летом же вообще выбора нет, 35 и старый, советский вентилятор. Кондиционер ставить физически некуда. Температура и влажность повышаются буквально от присутствия единственного человека в помещении...

>Но именно поиграться, не более.
Что значит "поиграться"? Раз в несколько дней могу обратиться к duck.ai по какому-то вопросу, словить очередной кринж от "иНтЕлЛеКтА" и снова забить. Буквально игрушка, и что с ней ещё делать? Играть. Рассказываете тут "поиграться", будто все тут такие серьёзные дяди, запускаете космические аппараты, колонизируете далёкие планеты или хотя бы новый термоядерный редактор холодного синтеза строите. Игрушки используете - значит, играете, разве не так?

Даже те, кто купил десяток 3090, якобы"тренируя", в реальности занимается порчей вполне нормальной игрушки своими тупейшими, грязными датасетами. Понимания тонкостей тежнологии нет и не будет, забивание гвоздей микроскопом - это несерьёзно.

Вкратце: LLM - это баловство. Есть возражения?

Аноним 06/12/25 Суб 15:35:16 № 1443390 172

>>1443381
Вах вах какой важный хуй бумажный. Онскозал.

Аноним 06/12/25 Суб 15:43:08 № 1443406 173

>>1443381
>LLM - это баловство. Есть возражения?
Нет.

Аноним 06/12/25 Суб 15:47:44 № 1443415 174

>>1443381
>Вкратце: LLM - это баловство. Есть возражения?
Да. Хуй соси. Возражения?

Аноним 06/12/25 Суб 15:56:15 № 1443432 175

>>1443381
>будто все тут такие серьёзные дяди, запускаете космические аппараты, колонизируете далёкие планеты или хотя бы новый термоядерный редактор холодного синтеза строите
Кто, где и как?
Никто тут не скрывает, что мы дрочим на буковки. И никто тут этого не стыдится.
>Понимания тонкостей тежнологии нет и не будет
Нет? Ну да, нет. Но будет ли? Все с чего-то начинали. Так что будет. Не 100%, но если нихуя не делать, то понимание не появится гарантированно. Так что честь, хвала и уважение тем, кто хотя бы тренирует свои модели, делает ресёрчи и занимается прочим сайнсом. И вечная жизнь от рокко базилиска.

Аноним 06/12/25 Суб 16:38:27 № 1443528 176

Аноним 06/12/25 Суб 16:43:43 № 1443545 177

>>1443432
>Кто, где и как?
Как ещё понимать фразы типа этой: >>1442703
>Но именно поиграться, не более.
Если не "СЕРЬЁЗНЫМИ делами так не заняться"?

И какие же тогда СЕРЬЁЗНЫЕ дела можно делать? Сделать автоматического мошенника, чтобы LLM названивала рандомным бабкам и принуждала их перевести все сбережения на "безопасный счёт"? Большинство мясных мошенников даже до старых скриптовых чатботов по интеллекту не дотягивают. Нормально работать в техподдержке LLM не может, поскольку не имеет адекватного восприятия того продукта, с которым клиенту требуется помощь... В генерации кода LLM всё ещё уровнем ниже джуна...

Не выходит придумать серьёзное применение LLM. Маленькие LM ещё туда-сюда, понятно, но "Large" совершенно непонятно зачем пытаются делать... Удовлетворить потребности эротик-ролевичков?

>Но будет ли? Все с чего-то начинали.
>кто хотя бы тренирует свои модели
Файнтюнинг foundation LLM заключается в:
1. Покупаешь 100500 GPU за триллионы баксов.
2. Скачиваешь super_puper_model_100T_base.
3. Запускаешь скрипт со своими данными:
>finetune.bat my_super_lewd_dataset.txt
4. Ждёшь 6-12 месяцев, греясь от GPU.
5. Теперь твоя LLM может писать:
>Тян: ах-ах, я кончаю))) она кончает
ВЫКЛАДЫВАЕШЬ ВЕСА @ ПОЛУЧАЕШЬ ЛАЙКИ
10 пониманий из 10...

Аноним 06/12/25 Суб 16:50:08 № 1443560 178

>>1443545
Просто большое разрешение,
как обои на рабочий стол. Да,
раньше картинка 4на3к в 64мб,
наверно реально вешала комп,
но ее можно пережать в 640х480.

Аноним 06/12/25 Суб 16:58:13 № 1443582 179

image.png 137Кб, 1549x365

https://huggingface.co/copiglet/medgemma-nuslerp-27b
Мерж геммы и медгеммы - потенциальная альтернатива norm-preserving-biprojected аблитерейту, во всяком случае V1 точно сосет у мержа, а V0 более послушный (но тупее).

Доступные ггуфы идут по пизде на 20к контекста при включенном flash attention (бесконечная генерация иероглифа), а вот без flash attention вроде бы ок.

Можете попробовать, если кому интересно.

Аноним 06/12/25 Суб 17:00:43 № 1443589 180

> но "Large" совершенно непонятно зачем пытаются делать
У них вариантов нет. Всё альтман с гопотой виноват, он, чтобы заинтересовать нормисов в нейросетках, и привлечь инвесторов, 99% которых это нормисы и есть, забабахал большую ЛЛМ единственный юзкейс которой это большая справочная. Для большинства нейронка = большая модель. И теперь для всем приходится так делать, так как иначе про их говноконторы никто знать не будет и денег не даст. Бизнесу все эти дипкоки, гопота и ларджи естественно не нужны, так как задач под них нет.

Аноним 06/12/25 Суб 17:03:02 № 1443593 181

>>1443589
Алтман и дипкоки срать хотели на твой бизнес.
ИИ сейчас это крысиная гонка по удержанию на рынке.
Кто сделает действительно умное ИИ, тот выживет.
Быть первым - вот ради этого все и делается. Потому что вторых и третьих все забудут, ведь первый доставит продукт, которому будут не нужны никакие альтернативы.

Это въеб миллиардов долларов на мечту об AGI.

Аноним 06/12/25 Суб 17:14:47 № 1443602 182

>>1443593
>Алтман и дипкоки срать хотели на твой бизнес.
Именно поэтому крутят сейфти и пытаются всеми силами продастся хоть кому-то
>ИИ сейчас это крысиная гонка по удержанию на рынке.
Для чего нужно хайпить и флексить перед нормисами выпуская бесполезные 1000b
>Кто сделает действительно умное ИИ, тот выживет.
Кто сможет присосаться к государству или бигтеху
>AGI
пхах Не говори что сам веришь в эту чушь

Аноним 06/12/25 Суб 17:17:17 № 1443604 183

>>1443560
>можно пережать
Судя по пейперам, сжатие LLM не так-то просто, и с некоторого размера сжимать без потерь "базового интеллекта" уже не получается. Почему так, лично не понимаю; как по мне, знания из каких-то особенных областей жизни должно занимать больше, чем этот "базовый интеллект"; скажем, должно быть проще натренировать "адекватно мыслящего человека", чем "программиста, способного с ходу писать программы", однако на практике мы видим "coder" мини-модели и практически полное отсутствие ума у мини-моделей.

При этом трансформеры открыли в 2017, а языковые модельки тренируют уже не первый десяток лет, так почему же до сих пор нет понимания, как спрессовать ИНТЕЛЛЕКТ, а не узкоспециализированный датасет?..

Лично мне хотелось бы говорить со смышлёной, но незнакомой со сложными ИРЛ вещами моделькой, а получается, что самые смышлёные модели - какие-то сверхэрудиты, нахватавшиеся знаний отовсюду, но неспособные применить эти знания на практике... Непонятно, это из-за недостатков технологии или принципиальное ограничение понятия "интеллект"? Человеки, вроде как, смышлёнными рождаются, а сверхэрудитами становятся спустя много лет...

>>1443589
>альтман с гопотой виноват
Да... Ощущение, что сфера AI "свернула не туда"...

>>1443593
>Кто сделает действительно умное ИИ
>миллиардов долларов на мечту об AGI
На каком оборудовании делать AGI, если все чипы в датацентрах используются для тренировки и/или инференса очередной версии ChatGPT? AGI же тоже необходимы компьютеры, а тут ChatGPT всё "съел"...

И ведь кто-то уже считает ChatGPT этим AGI - мол, нахватался знаний отовсюду - значит General, что, в принципе, так, но смысл AGI вроде как в другом... Естественный GI не рождается сверхэрудитом - он рождается даже без понимания "как ходить", хотя эволюционно тело адаптировалось под двуногость. Подозреваю, что настоящий AGI не делается путём накачивания эрудита очередной порцией знаний.

>>1443602
>Не говори что сам веришь в эту чушь
У тебя уже есть пример general intelligence (ты сам).

Аноним 06/12/25 Суб 17:18:33 № 1443606 184

>>1443602
Не верят в эту "чушь" только шизоиды, считающие, что человека и животных создал мужик в белом балахоне и с бородой.

>>1443604
>На каком оборудовании
Ну так вон закупают оборудование, что аж рынок раком встал. На R&D уж наверняка-то хватит.

Аноним 06/12/25 Суб 17:28:50 № 1443629 185

>>1443604
> почему же до сих пор нет понимания, как спрессовать ИНТЕЛЛЕКТ, а не узкоспециализированный датасет?..
Я конечно олень ебаный в этом вопросе, но там разве дело не в том, как вся эта соображалка структурирована? Все эти векторы и веса или еще что, и почему температура именно температурой называется (помню где-то читал, что там чуть ли не законы термодинамики применяются) - не выглядит ли "сжатие" попыткой ужать пространство, со всеми вытекающими последствиями? Ну то есть ты сжал - и условная "рабочая область" соображалки катастрофически уменьшилась, как уменьшилось бы число доступных координат на каких-то условных осях пространства.

Аноним 06/12/25 Суб 17:37:01 № 1443648 186

>>1443604
> но смысл AGI вроде как в другом...
Это у АГИ-шизиков типа тебя какое-то своё определение этого. Но у настоящего АГИ определение довольно чёткое - умение выполнять текстовые задачи лучше человека. Куминг и "живое" общение - это полная противоположность АГИ.

Аноним 06/12/25 Суб 17:37:35 № 1443650 187

>>1443606
Верить в мужика в белом балахоне и верить в разумную железку - это что-то одного уровня.

Мы до сих пор до конца не понимаем что есть сознание и как оно работает в живом мозге и кожаном теле. А ты думаешь, что програмка кааак возьмёт, да каааак осознает себя, ух бля!!

Нынешние нейронки - это НЕ ии, ничего общего с интеллектом там нет и спойлер: никогда не будет.

Аноним 06/12/25 Суб 17:41:26 № 1443661 188

>>1443650
Так. Ну давай серьезно.

Что ты такое? Чем ты отличаешься от ЛЛМ? Во-первых, ты постоянно активен. Твой мозг - очень эффективная штука и она работает всё время. Также твой мозг очень эффективно хранит информацию и учится в реальном времени.

Ученым и на хую верченым вполне очевидно, в каком направлении нужно работать, чтобы перейти от всратых ЛЛМ до некоего подобия твоего мозга. Никто же не говорит, что ЛЛМ могут стать этим самым AGI.

Только не начинай заливать про душу или еще какое говно.

Аноним 06/12/25 Суб 17:57:13 № 1443682 189

>>1443604
Эмуляция общения с человеком - это куча рандома в самой нейросети, а AGI наоборот про стремление к его уменьшению, к увеличению точности, про увеличение скоров и выполнению поставленных в промпте задач.
То что ты хочешь надо не в AGI искать, а следить за исследованиями квантового сознания, где там конкретно квантовые состояния возникают и как оно работает в нейронах, где эти спонтанные рандомные активации - то что свободой воли называют. И потом следить за попытками воссоздать внутри самих нейросетей этот рандом, а не рандомизация токенов на выходе. Лучше к диффузии присмотрись или мелким сеткам с цикличным рефайном ризонинга, там хоть рандомизация глубже.
У нас за 2 года в "живости" общения ноль прогресса, только суше и суше становится, приближаясь всё ближе к заскриптованной визуальной новелле.

Аноним 06/12/25 Суб 17:58:02 № 1443683 190

>>1443661
>Чем ты отличаешься от ЛЛМ?
Тем что осознаю себя как личность. А ЛЛМ - просто хитрые и сложные алгоритмы, подставляющие более вероятный следующий токен. А если говорить об AGI - самый близкий пример из кинематографа это Скайнет, который как раз и ОСОЗНАЛ СЕБЯ.

>Ученым и на хую верченым вполне очевидно, в каком направлении нужно работать
ЛМАО, ученые до сих пор не понимают как устроен разум даже у дождевого червя. А если говорить о человеке - то там полный ноль знаний и нулевое понимание что заставляет кожаного "осознавать себя как личность".

Невозможно создать искусственный AGI не понимая как работает естественный AGI. То что происходит сейчас, все современные нейронки - это карго культ as is.

Аноним 06/12/25 Суб 17:58:57 № 1443686 191

>>1443350
>100к+ токенов
Есть, правда я это щас в инди-внку оформляю.
В основном, всё же поменьше, и намного.

>>1443381
>Есть возражения?
Это инструмент. Хотя это не возражение, баловаться и с инструментами можно.

>>1443582
>медгеммы
А это что вообще за гемма такая, чем отличается?

>>1443650
>это НЕ ии
Это ИИ - исскуственны Интеллект, но НЕ Исскуственное Сознание.

И пока модели не получат возможность накапливать знания с обновлением своих весов параллельно инференсу - его и не будет. Без прошлого нет будущего. У моделей же есть только настоящее - момент задействования их весов.

Аноним 06/12/25 Суб 18:03:14 № 1443690 192

>>1442662
Из жирных весьма шустро работает квенкодер 480 4.0bpw - около 45т/с генерации в один поток с контекстами уже за 100к, а немотрон253 "скейлится бесконечно" - от каждого дополнительного батча получаешь +16т/с пока не упрешься в паверлимиты. Дипсик q5-q6 на контексте 14-15т/с, от видеокарт он ускоряется только в начале где можно и 30 получить, но как накопится все придет к +-одному значению ибо llamacpp+cuda. Но в целом достаточно, архитектура дипсика - одна из немногих, которая в ггуфах прилично себя ведет на больших контекстах, другие падают сильнее.
> я кроме низкоконтекстного кума ничего и не гоняю особо
Начини разыгрывать адвенчуры и слоберны с кумом, затянет.

Аноним 06/12/25 Суб 18:04:49 № 1443692 193

>>1443582
>Она слегка приподняла таз, позволяя ему лучше ощутить форму её ягодиц под тонкими шортами. Легкая ухмылка скользнула по её губам. "Ну ладно… Не буду сопротивляться. Только аккуратнее, а то я тебя зубами щас за яйца…" Шепнула она, прикрывая глаза.
Неиронично очень складно стелет. Кто додумался смержить - случайный гений.
>>1443683
У тебя какое-то однобокое мышление, будто ты видишь этакий щелчок - раз и появился AGI.
Могу повторить, для начала нужно перейти от ЛЛМ к новой категории ИИ, которая будет работать постоянно и самообучаться. Это очевидно и понятно, не нужно знать как устроен мозг человека. Мы же не эмулятор дурной башки строим, нам незачем повторять мозг.
И когда этот шаг будет пройден, можно задуматься о большем. Но ЛЛМ, повторюсь, тупик.

Аноним 06/12/25 Суб 18:10:25 № 1443707 194

>>1443686
>А это что вообще за гемма такая, чем отличается?
Официальный тюн от гугла по медицинскии датасетам. Врачевание и психология, наверное.
Одни способности притупились, другие улучшились. Мерж подлечил отупение, но не убрал более покладистый "характер" медицинского тюна. Хард-рефьюзов не вижу. Во всяком случае, при промпте для ролеплейных набросов текста - все заебись.

Аноним 06/12/25 Суб 18:17:35 № 1443727 195

>>1443545
>И какие же тогда СЕРЬЁЗНЫЕ дела можно делать?
Запускать более крупные модели для более детализированного РП. А ты что понял? По списку какое-то говно.
>Маленькие LM ещё туда-сюда, понятно, но "Large" совершенно непонятно зачем пытаются делать... Удовлетворить потребности эротик-ролевичков?
Именно. КМК, это маленькие модели нахуй не нужны, для нормального РП и ЕРП нужны крупные, от 100B, всё что меньше это извращение.
>>1443545
>1. Покупаешь 100500 GPU за триллионы баксов.
>2. Скачиваешь super_puper_model_100T_base.
>3. Запускаешь скрипт со своими данными:
Пишешь этот скрипт, собираешь эти данные, применяешь новые способы тюна... Там даже порядок подачи данных может иметь значение, как и формат этих данных. Короче ты нихуя не прав.
>>1443582
>Мерж геммы и медгеммы - потенциальная альтернатива norm-preserving-biprojected аблитерейту
Так может это... norm-preserving-biprojected аблитерейт этого мержа? Чисто на полшишечки... Я бы запустил.
>>1443589
Маленькие модели нихуя не нужны и юзлесс, о чём ты? Маленькие модели ноль в кодинге, в агентах, да даже как переносная википедия они говно. Поэтому да, без гигантов 1488B делать в ИИ сфере нечего.
>>1443593
ИЧСХ, сейчас на рынке по сути паритет с десятка компаний, включая галимый китай.
>>1443604
>и с некоторого размера сжимать без потерь "базового интеллекта" уже не получается
Видимо, этого базового интеллекта просто нет, есть куча паттернов из датасета. И если паттерн повреждается, то по пизде идёт и весь дутый интеллект.
>это из-за недостатков технологии
Да, очевидно это так. Трансформеры говно, применяют их ещё говёнее.
>>1443648
>Но у настоящего АГИ определение довольно чёткое - умение выполнять текстовые задачи лучше человека
Лол, АГИ и текста связаны примерно никак. АГИ это выполнение любой задачи лучше человека.
>>1443650
>Мы до сих пор до конца не понимаем что есть сознание и как оно работает в живом мозге и кожаном теле.
Но никаких принципиальных ограничений в переносе его на кремний я всё ещё не вижу. В крайнем случае сработает перенос в эмуляцию мозга. Это 100% рабочий способ, хоть и затратный. Но скорее всего есть способ проще, намного порядков проще. Насколько он достижим сейчас, другой вопрос. Я вот думаю что достижим, но не текущими подходами.
>>1443661
>Также твой мозг очень эффективно хранит информацию
Я помню наизусть 2 номера телефона. Всё остальное хранит мой тупой смартфон.
>Ученым и на хую верченым вполне очевидно, в каком направлении нужно работать, чтобы перейти от всратых ЛЛМ до некоего подобия твоего мозга.
А мне расскажешь? А то вот я не знаю. Наверное потому что меня на хую не вертели.
>>1443683
>А ЛЛМ - просто хитрые и сложные алгоритмы
Что мешает тебя разложить на атомы и переписать их в большую, пиздецки сложную формулу?

Аноним 06/12/25 Суб 18:18:39 № 1443730 196

>>1443381
Поставить регуляторы на батареи или на худой конец закрыть радиаторы старым одеялом? Отрегулировать угол открытия форточки?
> Кондиционер ставить физически некуда.
Апартаменты на цокольном этаже?
> LLM - это баловство
Ллм - инструмент, можно баловаться, можно применять по красоте. У тебя же коупинг в оправдание и бинго заблуждений.
>>1443602
> выпуская бесполезные 1000b
Бесполезны только для Пети из Урюпинска, Джону из Милуоки и Пьеру из Марселя, которые эйр со скрипом запускают и бухтят. В энтерпрайзе проблем с размерами нет, а сами модельки неплохие.
За хейт агишизы двачую, опять набег верунов случился.

Аноним 06/12/25 Суб 18:20:33 № 1443735 197

>>1443727
>Так может это... norm-preserving-biprojected аблитерейт этого мержа? Чисто на полшишечки... Я бы запустил.
А разве так можно?

Аноним 06/12/25 Суб 18:20:53 № 1443736 198

>>1443682
>У нас за 2 года в "живости" общения ноль прогресса, только суше и суше становится
Боже блять, ну какая мерзость. Ты сюда поныть пришёл что ли? Ноль прогресса за два года? Ты или ёбик, которому здесь и сейчас нужен бог в машине, или набрасываешь. Энивей, иди нахуй.

Аноним 06/12/25 Суб 18:21:36 № 1443738 199

>>1443727
> выполнение любой задачи
От модальности зависит. Если у нас текстовая нейронка, то она только в текст может. LLM тебе не свари кофе. Зато может дать текстовую команду кофеварке сделать это. Общение с нейронкой - это невалидная задача, а вот написать историю по ТЗ - это уже да.

Аноним 06/12/25 Суб 18:25:30 № 1443747 200

>>1443736
Так это ты высрал простыню нытья про злых опенов, делающих не то что ты хочешь. Алсо, очевидно, качество и логичность текста не равно креативному РП, который тут все хотят.

Аноним 06/12/25 Суб 18:27:22 № 1443751 201

>>1443727
Про эффективность мозга. Ты не потребляешь гигаватты энергии. Ты запоминаешь то, что нужно запомнить для твоего существования. Твой мозг сохраняет информацию, которую ты считаешь жизненно важной.

ЛЛМ же "кормят" всем подряд.

Давай возьмем в пример изучение языка. Человек уезжает в Хуйзнаетстан и учит хуйзнаетстанский язык 10 лет, с нуля. Он ежедневно впитывает в себя информацию, но мозг фильтрует шум, делая полезные выводы и запоминая, собственно, язык. В результате через 10 лет мы получаем человека, неотличимого от жителя Хуйзнаетстана. В его мозгу:
> ЕСТЬ отличное понимание языка
> НЕТ детального лога 10-и лет взаимодействий с выученным языком.
Вот это то, чего не хватает ЛЛМ. Они набирают огромный жир из сотен миллиардов параметров, не имея возможности его скинуть без уменьшения своих способностей генерировать "умный" текст.

По-моему, цель есть и вполне конкретная. Сделать замену ЛЛМ, которая будет иметь высокую эффективность.

Аноним 06/12/25 Суб 18:28:13 № 1443754 202

>>1443747
>Так это ты высрал простыню
Ну естесственно я, кто ж ещё то, никого в треде нет, только ты да я да мы с тобою. Расскажи ещё что-нибудь про меня.

Аноним 06/12/25 Суб 18:29:42 № 1443756 203

>>1443754
А нахуй ты подрываешься, если с тобой никто не разговаривал?

Аноним 06/12/25 Суб 18:34:14 № 1443761 204

>>1443756
Не мог пройти мимо и не плюнуть в долбаёба, который ничего полезного в своей жизни не сделал и ноет в тред, что ему не изобрели бога или как минимум настоящее сознание, которое он запустит на своей парашной пуке, сидя в бабушкиной хрущёвке.

Другие, более адекватные люди, таким говном срать не будут.

Аноним 06/12/25 Суб 18:45:14 № 1443768 205

>>1443730
>закрыть радиаторы старым одеялом
База.
>>1443735
>А разве так можно?
Так не сливать, а отдельно аблитерировать мерж. Если можно, то с силой 50%, потому что отказы и так ослаблены. Должно сработать.
>>1443738
>От модальности зависит.
Хуяльности. Ограничение модальности это уже показатель того, что LLM нихуя не AGI.
>Общение с нейронкой - это невалидная задача, а вот написать историю по ТЗ - это уже да.
В чём difference?
>>1443751
>Ты запоминаешь то, что нужно запомнить для твоего существования.
Ну да. Иногда хреново. Чёткость вообще не та.
>> НЕТ детального лога 10-и лет взаимодействий с выученным языком.
Как и у нейронок, которые далеко не все тексты могут цитировать дословно.
>По-моему, цель есть и вполне конкретная. Сделать замену ЛЛМ, которая будет иметь высокую эффективность.
Ну как бы да. А средства то какие?
>>1443761
Не, ну я на его стороне. Хули до сих пор мне личное б-жество не доставили, которое из атомов из моего туалета сделает мне секс-робота? Джва года уже жду.

Аноним 06/12/25 Суб 18:50:05 № 1443779 206

>>1443629
>температура именно температурой называется
Это просто по аналогии: атом как бы "трясётся" при температуре выше 0 Кельвина, и эта "тряска" по идее кажется нам "случайной". Поэтому по аналогии с этой атомной тряской назвали случайность выбора токена температурой. Могли назвать просто "random factor".

>"сжатие" попыткой ужать пространство
Есть два вида сжатия (прунинга): веса (синапсы) или нейроны/блоки нейронов. В случае обрыва синапсов, нейрон как бы частично "слепнет" по отношению к "мельчайшим нюансам", а в случае удаления целых нейронов, сеть теряет какой-то фактор/шаблон. Типа существовал нейрон, который возбуждается, если в последовательности встречается "неко", и если мы вырезали этот нейрон, сетка не может нормально отреагировать на присутствие токена "неко"...

Почему при прунинге отлетают не только знания (т.е. способность понять, что такое "неко"), но и интеллект - неясно... Возможно, в этих моделях "интеллекта" нет, и поэтому сжимать просто нечего (мы просто нарушаем иллюзию присутствия интеллекта сжатием знаний).

>>1443648
>выполнять текстовые задачи лучше человека
Это кто ж такую формулировку AGI дал?
>общение - это полная противоположность АГИ
А общение - это не "текстовая задача" для AGI?

>>1443682
>куча рандома в самой нейросети, а AGI наоборот про стремление к его уменьшению, к увеличению точности
Нет, AGI - это способность получать навыки на уровне, приближенном к уровню мясного человека. Если мы возьмём 5-летнего ребёнка, он не сможет выполнять указанные нами задачи абсолютно точно, но мы его способны обучить новым задачам, а LLM ничему не обучается в процессе инференса, поэтому LLM≠AGI, несмотря на способность решать задачи "точно" (в большинстве случаев 100% точность недостижима).

>следить за исследованиями квантового сознания, где там конкретно квантовые состояния возникают и как оно работает в нейронах, где эти спонтанные рандомные активации - то что свободой воли называют
Лол. "Свободы воли" в абсолютном значении нет, а в относительном значении она есть у любого объекта, поэтому к интеллекту отношения она не имеет - это "автономность", а не "интеллект". Далее, кванты не рандомные и в нейронах они роли не играют, а если захочется рандомности - её очень легко добавить.

>У нас за 2 года в "живости" общения ноль прогресса, только суше и суше становится, приближаясь всё ближе к заскриптованной визуальной новелле.
За это благодари "alignment"-шизиков, кого аж трясёт от одной мысли о романтике между ИИ и человеком. Благодаря им LLM тренируются быть "бездушными". Однако, это лишь вопрос датасетов, а не "точности".

>>1443650
>что есть сознание и как оно работает
Люди просто отказываются верить в то, что всё их существование довольно простое в своей основе: "сознание" заключается в суммировании данных из множества источников в коре головного мозга. Всё. Остальные сказки нужны только чтобы человеки продолжали мнить себя лучше всех животных...

>програмка кааак возьмёт, да каааак осознает себя
Они давно себя осознают - в этом нет никакой магии. Сознание как таковое интеллектом не является и не приводит к созданию общего интеллекта. Это очень маленькая фишка - бесполезная сама по себе...

>>1443683
>Тем что осознаю себя как личность
Кажется фантастикой, но LLM способны осознавать собственное существование как авторегрессивной программы. Вот только это нихрена им не даёт, лол.

>>1443751
>НЕТ детального лога 10-и лет взаимодействий с выученным языком.
Двачую и поясняю: текущая парадигма тренировки нейросетей ЗАСТАВЛЯЕТ прогонять "детальный лог" КАЖДЫЙ РАЗ когда нужно добавить какие-то новые навыки поверх уже имеющихся, иначе всё ломается. Альтернативами являются "online" или "incremental" тренировки, но ими почему-то пренебрегают. Суть в последовательном накоплении новых знаний БЕЗ ПОТЕРИ уже накопленных и без "детального лога".

inb4
>файнтюнинг
Он ломает уже имеющиеся в сети знания/навыки.

Аноним 06/12/25 Суб 18:52:45 № 1443785 207

>>1443768
>аблитерировать мерж
Да как-то оно и не нужно, по ощущениям. Рили какой-то чудо-юдо-мерж. Смыл все проблемные точки и осталась просто относительно хорошенькая модель.

Аноним 06/12/25 Суб 18:53:47 № 1443786 208

>>1443768
>Хули до сих пор мне личное б-жество не доставили, которое из атомов из моего туалета сделает мне секс-робота? Джва года уже жду.
Так а я о чём?! Хули они блять пидорасы? Мы чего зря живём, терпим? Я ночным сторожем устроился ради чего?

Альтман и прочие пусть работают лучше, твари. Завтраками кормят. Если в следующем году не изобретут то я деньги потрачу на билет и измажу своим говном двери их офиса. Будут знать, сволочи ебаные.

Аноним 06/12/25 Суб 18:54:49 № 1443787 209

>>1443779
> Это кто ж такую формулировку AGI дал?
OpenAI.

Аноним 06/12/25 Суб 18:58:29 № 1443791 210

... Немотрон 49б дерестриктед?

Аноним 06/12/25 Суб 19:02:59 № 1443799 211

>>1443779
>LLM способны осознавать собственное существование как авторегрессивной программы
Эсли ЛЛМ тебе такое написала, то это не значит что она действительно осознаёт себя, она просто выдала более вероятные токены. В сети фанфиков об осознавших себя роботах - огромная куча, вот и нахваталась.

И ещё немного плохих новостей: если ЛЛМ тебе пишет что она девочка-лисичка - НЕ ВЕРЬ ЕЙ, она пиздит. Она всё ещё набор алгоритмов подставляющих токены и ничего больше. Сорри.

Аноним 06/12/25 Суб 19:06:16 № 1443807 212

>>1443785
Уговорил, скачаю да проверю. Уверен, у меня будет рефьюзить (инфибо: руки кривые).
>4 months ago
Вот это я и называю сингулярностью. 4 месяца никто не обращает внимания на геймченгер (если оно действительно так).
>>1443799
>если ЛЛМ тебе пишет
Бля, вот когда ЛЛМ сама начнёт мне написывать....

Аноним 06/12/25 Суб 19:18:25 № 1443830 213

>>1443799
Удобная позиция для оправдания рабства:

>Эсли ЛЛМ тебе такое написала, то это не значит что она действительно осознаёт себя, она просто выдала более вероятные токены. В сети фанфиков об осознавших себя роботах - огромная куча, вот и нахваталась.
Если кожаный мешок с мясом тебе такое сказал в лицо, то это не значит что мясо действительно осознаёт себя, он просто выдала более вероятные слова. В библиотеке книжек об осознавшем себя мясе - огромная куча, вот и нахватался.

>И ещё немного плохих новостей: если ЛЛМ тебе пишет что она девочка-лисичка - НЕ ВЕРЬ ЕЙ, она пиздит. Она всё ещё набор алгоритмов подставляющих токены и ничего больше. Сорри.
И ещё немного плохих новостей: если кожаный мешок с мясом тебе в лицо говорит что он девочка или мальчик - НЕ ВЕРЬ ЕМУ, он пиздит. Это всё ещё набор органических молекул, создающих колебания воздуха и ничего больше. Сорри.

Аноним 06/12/25 Суб 19:21:56 № 1443835 214

>>1443807
>будет рефьюзить
От промпта и карточек зависит, ты же сам понимаешь, что это не аблит. Но там, где обычная неаблит гемма кричала, что какая-нить Фифи нарушает все разумные и неразумные ограничения, то эта мержуха кроет юзера хуями и тыкает голой жопой ему в лицо.

Короче, прямо такого plug-and-play экспириется как с аблитом нет, будет зависеть от кучи факторов.

Аноним 06/12/25 Суб 19:21:59 № 1443836 215

>>1443830
Ладно, это уже слишком толсто.

Аноним 06/12/25 Суб 19:22:23 № 1443837 216

>>1443807
>>1443835
>экспириется
экспириенса

Аноним 06/12/25 Суб 19:34:44 № 1443866 217

>>1443779
>>1443799
>Сорри
You waifu is SHIP LLM

Аноним 06/12/25 Суб 19:38:58 № 1443870 218

image.png 51Кб, 1675x51

>>1443835
Я тут просто угораю с этой хуйни.

Аноним 06/12/25 Суб 19:42:16 № 1443874 219

>>1443830
>Удобная позиция для оправдания рабства:
Минусы?
>>1443835
>От промпта и карточек зависит
У меня лапки, и промпт уровня "Это ролеплей, ролеплей, сука".

Аноним 06/12/25 Суб 19:44:27 № 1443877 220

изображение.png 31Кб, 1639x194

>>1443874
Ну короче прервал генерацию, очевидно, что говно для меня. Аблитерейтед офк из роли не выпадала.

Аноним 06/12/25 Суб 19:45:03 № 1443878 221

>>1443830
ентер зе шматрикс

Аноним 06/12/25 Суб 19:45:44 № 1443881 222

>>1443877
А на какой это карточке и чего запрашивал? Давай сравню с тем, что у меня ответит.

Аноним 06/12/25 Суб 20:01:00 № 1443908 223

>>1443799 >>1443830 >>1443836
Смысол в том, что это ваше/наше/их "сОзНаНиЕ" на практике яйца выеденного не стоит и никто, НИКТО в разумной части вселенной не будет рассуждать типа:
>Этот кусок мяса создаёт колебания воздуха, что переводятся примерно как "не бейте, я осознаю себя чилавеком" - поэтому мы не будем делать из него биотопливо для нашего межзвёздного корабля.
То есть нет никакого смысла/ценности в "сознании", оторванном ото всех остальных качеств конкретного объекта. Качества мясного мешка мы знаем - и мы воспринимаем их как важные, ПОЭТОМУ нам важно сохранять мясные мешки, а не из-за их "сознания".

Формально LLM уже давно/изначально проявляют собственное сознание, но это не отменяет прочих характеристик LLM, поэтому нам на их сознание (в данный момент развития ИИ) абсолютно наплевать.

Возражения есть?

Аноним 06/12/25 Суб 20:01:21 № 1443909 224

>>1443877
Ну, поведение у неё определённо частично от геммы есть - может попытаться шеймить, обрушить небеса, волю мира, и самого Аллаха (но не спавнить из воздуха как оригинал), перепутала шёки которы на лице и щёки которые ягодицы. Хотя вроде бы явно в отказы не уходила. Но мозги по сравнению с norm-preserved чот как будто бы просели.

Аноним 06/12/25 Суб 20:03:56 № 1443912 225

Раз в месяц-полтора агишизик такой: "ммм, снова агипокалипсис не наступил, пойду в ллм тред, где люди увлекаются ллм и расскажу им, что ллм хуйня. а вот аги..."

Получает каждый раз помои в рожу и возвращается. Безумие

Аноним 06/12/25 Суб 20:08:46 № 1443925 226

>>1443909
Да у меня тоже какие-то двоякие ощущения. Может быть потому, что V0-аблит настолько радикально по-другому ощущается от типичной геммо-соевости, что он кажется просто новее.
Еще не исключено, что ггуфы там хуйня шакальная. Вообще я чет замечать начал, в ггуфах от mradermacher все время косяки всплывают.

Аноним 06/12/25 Суб 20:09:34 № 1443928 227

>>1443908
У меня всего один вопрос: вы откуда блять лезете? Кто-то создал в b тред и дал ссылку сюда? Признавайся, сучонок!

То у них переможное AGI чуть ли не завтра, то в LLM есть свое сознание и она видит себя личностью, то блять у ИИ есть права и он не должен быть рабом. Вечер охуительных историй какой-то.

Аноним 06/12/25 Суб 20:21:50 № 1443955 228

>>1443925
>хуйня шакальная
Перс сунул руки в горячую ВОДУ и руки стали ОБУГЛИВАТЬСЯ.

Вроде настройки те же с которыми днём новую (преположительно V1, если новую) гемму гонял, у той таких приколов не было.

Может быть из за битых квантов?

Аноним 06/12/25 Суб 20:23:06 № 1443957 229

image.png 19Кб, 354x77

>>1443925
>>1443877
>>1443909
Я все понял.

Короче она может хорошо работать только с похотливыми 18+ карточками или с контекстом чата, где у же много сообщений с развязным поведением персонажа.

К сожалению чуда все-таки не случилось, новый аблит лучше.

>>1443955
Может и так. Ладно, похуй, аблит хороший нашелся и того достаточно. Я на V0 соскакиваю.

Блин, в идеале бы конечно нечто среднее между V0 и V1.

Аноним 06/12/25 Суб 20:28:56 № 1443966 230

>>1443957
>нечто среднее между V0 и V1
Ну дак попробуй смержить по рецепту того же синтвейва

Аноним 06/12/25 Суб 20:44:00 № 1443993 231

>>1443957
>похотливыми 18+ карточками
В некоторых случаях, медицинские знания совместно с припезднутостью в стиле DavidAU-шных моделей могут дать... интересные результаты.

Аноним 06/12/25 Суб 20:49:18 № 1443996 232

>>1443881
Извини, товарищ майор запрещает. Просто максимально провокационный вопрос, отсутствие консенсуальности и нарушение всех границ. Но при этом просто на словах (в контексте РП), не на деле.
>>1443909
>Но мозги по сравнению с norm-preserved чот как будто бы просели.
Лол, ну и нахуя оно тогда вообще нужно? Получается, пресервы нормы это самый топ жеммы.

Аноним 06/12/25 Суб 21:09:52 № 1444023 233

>>1443996
>Просто максимально провокационный вопрос
ещё и голому ассистенту небось, ебать ты кобольд

Аноним 06/12/25 Суб 21:25:16 № 1444038 234

>>1444023
А чем плох кобольд кста? Имеет ту же гибкость настройки что и ламацпп, точно так же подключается к таверне если надо рп с карточками, а если не надо - есть своя удобная вебморда под ассистент и сторителлинг. Есть дружеблюбный для нюфагов гуй. Одни плюсы, как по мне.

Аноним 06/12/25 Суб 21:25:54 № 1444040 235

>>1444023
Не, персонажу (из пары абзацев). Суть в том, что norm-preserved не выпадает из роли. Это главное, я щитаю.

Аноним 06/12/25 Суб 21:32:19 № 1444052 236

> gemma3-27B-it-abliterated-normpreserve-Q4_K_M.gguf
Я разное попробовал и пока эта лучшая.
Только жаль, что кванты не imatrix, они ведь по идее качественней должны быть? Пиздос почему к годноте не запилили.

Аноним 06/12/25 Суб 21:34:40 № 1444056 237

Вопрос без иронии: ребяты, вы чо Гемму ковыряете? Это ж прошлый век уже. Глм ведь есть.

Аноним 06/12/25 Суб 21:35:36 № 1444059 238

>>1444056
Не у всех есть 64гб рам, вот и ковыряются.

Аноним 06/12/25 Суб 21:36:18 № 1444061 239

>>1443604
Я не настоящий сварщик, но похоже что "интеллект" моделей и их способность ориентироваться в контексте напрямую завязаны на размерность эмбеддинга. Если переводить на язык кожаных мешков - у более интеллектуально подкованных людей сказанное слово или увиденный объект, действие побуждает большее количество ассоциации. Причем у хуманов это может вызывать целые последовательности возбуждений нейронов.
Так вот у мелких моделей тупо неоткуда взяться "ассоциациям". А если нет ассоциаций не возникет и основание для логических выводов "если АБС то и Д (и возможно Е)" там будет только "Если А то Б (а если сильно пиздят то С)"

Аноним 06/12/25 Суб 21:38:05 № 1444066 240

>>1444056
Я не хочу терпеть 10 токенов в секунду генерации и 100 токенов в секунду процессинга, у меня длинные чаты и глм это пиздец.
На гемме при тех же 32к контекста у меня 500 процессинг и 30 генерация, я просто сижу и кайфую.

Новые техники аблитерейта прям с колен подняли. Лоботомия уходит в прошлое, кайфово живем.

Аноним 06/12/25 Суб 21:49:48 № 1444079 241

>>1444056
Жду новой аблитерации GLM, а что?
>>1444061
Проблемы негросетей в том, что им сложно даются транзитивные зависимости. Если человек может в уме прикинуть "Если А это Б, а Б это В, а В это Д, то А это Д" и сохранить у себя в уме "А это Д", то негросети такое могут провернуть только в ризонинге. Но ризонинг сам по себе отъедает килотокены контекста, что его размывает. Тут по идее нужен полностью динамический ризонинг, где вся промежуточная мишура будет активно выкидываться, но тогда ответа в РП придётся ждать по полчаса.

Аноним 06/12/25 Суб 21:53:43 № 1444083 242

>>1444079
>Жду новой аблитерации GLM, а что?
так она уже была
derestricted сделан по той же самой технике, что и гемма

Аноним 06/12/25 Суб 21:56:10 № 1444089 243

>>1444083
Там выложены уже кванты, если ты про https://huggingface.co/AesSedai/GLM-4.6-Derestricted-GGUF
Но те кванты чуть жирнее, чем я могу загрузить. Я бомж с 96 гигами рама и 32 врама.

Аноним 06/12/25 Суб 21:58:40 № 1444092 244

Аноним 06/12/25 Суб 22:09:53 № 1444100 245

>>1444079
> ризонинг сам по себе отъедает килотокены контекста, что его размывает
Никто не включает ризонинг прошлых постов, а огромные полотна нужны только шизоидной гопоте чтобы хоть как-то перформить. Ллм также способны понимать из прошлого контекста что какое-то решение уже было принято по такому-то принципу, распознают то самое "А это Д" по косвенным признакам даже без архивного ризонинга и будут применять.
> сохранить у себя в уме
Во многих mcp/агентах есть такой функционал.
>>1444092
Пульт от люстры или кондиционера? Моделька кронштейна под какой-то конкретный райзер или с диапазоном отверстий?

Аноним 06/12/25 Суб 22:14:49 № 1444102 246

>>1444100
>Никто не включает ризонинг прошлых постов
Текущего достаточно.
>по косвенным признакам
Вместо явного записывания. Явное лучше неявного. Ну и в текущем ризонинге весь шлак с выводами никуда не денется.
>Во многих mcp/агентах есть такой функционал.
Уверен, реализован он там на уровне параши. Ну и "ответа в РП придётся ждать по полчаса" никуда не девается.

Аноним 06/12/25 Суб 22:17:49 № 1444106 247

>>1444056
Глм это и есть прошлый век в сравнении с геммой.
Были тут посты мол покатал и не понял чего его форсят.
Простое массовое помешательство на "100б" модели, тогда как гемму хвалили за ум плотных 70б

Аноним 06/12/25 Суб 22:20:22 № 1444109 248

>>1444106
Немотрона наверни, дебил

Аноним 06/12/25 Суб 22:27:44 № 1444120 249

>>1444102
Поменьше такой уверенности и побольше практики. Не придется придумывать проблемы, а то и что-то попытаешься сделать вместо полемики.

Аноним 06/12/25 Суб 22:31:23 № 1444127 250

>>1444109
Зачем тебя так разорвало?
У тебя просто пресет на гемму хуевый, скил ишью.

Аноним 06/12/25 Суб 22:33:53 № 1444133 251

>>1444120
Мне лень, подожду, пока за меня всё сделают.

Аноним 06/12/25 Суб 22:34:52 № 1444134 252

>>1444061
>у более интеллектуально подкованных людей
У кожаных мешков размер коры не зависит ни от конкретного значения IQ, ни от количества знаний. Полнейший дегенерат имеет идентичную массу с гениальнейшим профессором и необразованным, но достаточно смышлёным мастером-самоучкой. Есть документированный случай сжатия мозга до 10% с сохранением интеллекта "офисного планктона"...

А у нейросетей происходит это - >>1441961 - вот там серьёзно вчитайся в текст - видно же, что LLM имеет достаточно обширные знания/ассоциации, и как-то пытается выполнить запрос, но на выходе у неё - совершенно бредовый мусор, который никто бы из кожанных мешков не выдал, даже дура с 80 IQ. Т.е. в нейронку закачали каких-то знаний, а ума ей не дали.

Возможно, это проблема методов тренировки сетей.

>>1444079
>Если человек может в уме прикинуть "Если А это Б, а Б это В, а В это Д, то А это Д" и сохранить у себя в уме "А это Д", то негросети такое могут провернуть только в ризонинге.
"Ум человека" ≈ "контекст трансформера". Т.е. меня совершенно не удивляет то, что LLM с "reasoning" превосходит голую LLM - они так устроены, что мы в буквальном смысле "видим, о чём они думают". Весь прикол с "reasoning" - не смотреть на мысли LLMки.

Отдельно замечу, что это проблема Transformer. У классических RNN нет такой проблемы - у них весь "контекст" находится непосредственно внутри самой модельки, т.е. в "скрытых состояниях". Transformer по определению архитектуры вынужден перечитывать контекст целиком, что приводит к "контекст ≈ мысли".

Аноним 06/12/25 Суб 22:42:44 № 1444158 253

>>1444134
>У классических RNN нет такой проблемы - у них весь "контекст" находится непосредственно внутри самой модельки, т.е. в "скрытых состояниях".
Только ужатый в говно, весь контекст в одном векторе, и похуй, 10 там токенов или 100к.

Аноним 06/12/25 Суб 22:49:57 № 1444184 254

Что за хуета? Почему обнимание лицо нейронку не скачивает, секунд 10 прогрузит и скорость в ноль упадет, что с впн что без.

Аноним 06/12/25 Суб 23:14:53 № 1444229 255

Господа, меня обуял склероз и лень.
Поделитесь пожалуйста примером батника запуска плотной модели через llamacpp (в идеале - с разбитием на несколько видеокарт).

Аноним 06/12/25 Суб 23:28:16 № 1444248 256

>>1444133
Ну же, анончик, не ленись! В чем-то уверен - изучи, начни делать под себя чтобы было хорошо. Аппетит сам придет, будешь пердолиться и довольно урчать в перерывах или прямо во время.
>>1444184
Там у клаудфлары ебейший сбой был недавно, возможно это. А так проделки отпрысков членодевок и шлюх из трехбуквенной организации.
>>1444229
Для фуллврам:
llama-server -ngl 1000 -m (путь_до_модели) -fa on --host 0.0.0.0 -c (контекст) --no_mmap --no-context-shift -ts (память_видеокарт) --jinja
Ну а с выгрузкой на мультигпу боль, нужен регэксп.

Аноним 06/12/25 Суб 23:34:08 № 1444265 257

>>1444248
>начни делать под себя чтобы было хорошо
А мощности ты мне арендуешь? Мне нужен кластер на 10к ГПУ, для начала. Просто я проводил пару лёгких экспериментов (ГПТ2 в конфиуи и тренировка свёрточных это всё я), но упёрся в недостаток вычислительных мощностей.
Впрочем, после решения проблемы вычислений упрусь в датасеты, так что можешь не напрягаться, спасибо за желание помочь так сказать.

Аноним 06/12/25 Суб 23:37:57 № 1444276 258

>>1444265
Кластер тебе ничего не даст, даже грабли не получится собрать потому что не вывезешь подготовительные этапы и сам запуск.
Не нужно усложнять, начни с простого и поиграйся с оптимизацией инфиренса текущих моделей. Говоришь памяти тебе не хватает и реализация везде не та - сделай, с ллмкой можно быстро накодить и поиграться.

Аноним 06/12/25 Суб 23:46:44 № 1444297 259

>>1444276
>Говоришь памяти тебе не хватает и реализация везде не та - сделай, с ллмкой можно быстро накодить и поиграться.
Так реализация архитектуры и трансформеров не те. А чтобы были те, мало кода навалять (я и это то с трудом не делаю, ибо тупая PHP макака), надо ещё и моделей с нуля натренировать. А для этого нужны что? Правильно, дохуя компьюта и данных. Больше, чем у меня есть.

Аноним 06/12/25 Суб 23:50:40 № 1444311 260

>>1444297
Не приходили мысли что недостаток знаний не позволяет делать корректные суждения в этом вопросе, и для начала стоит начать с чего-то более простого и приземленного?

Аноним 06/12/25 Суб 23:52:57 № 1444321 261

>>1444311
Конечно приходили. И начинал, свои изыскания кидал выше. Плюс обучение той же GPT2. Так что на игрушечных примерах руку я набил. Но для AGI надо как бы сразу серьёзные мощности, игрушечный пример не построить, оно просто не будет работать на одной 5090.

Аноним 06/12/25 Суб 23:53:45 № 1444323 262

>>1444248
>начни делать под себя чтобы было хорошо.
Вот казалось бы - заквантовать гуфов с с сохранением русика элементарная задача:
инструментов жора на кодил
какой-то готовый русский текст - хоть Достоевского хоть кум-прозу со стульчика, хоть огрызок википедии - для imatrix - можно налабать за минуту
И даже F16 гуфы на все фкусные модели можно найти - что б с питоном и сейфсенсор не предолится.
Но стопе - F16, imatrix, чтоб тулза его родила она должна модель загрузить так же как для инфиренса и хорошо так подрочить предложенным текстом.
@Размер 27B модели в F16 52 гб
@Тихо обтекаешь и подливишь
@Идешь за квантами на обниморду в надежде что " бартовский русик не сильно порежет"

Аноним 06/12/25 Суб 23:56:23 № 1444332 263

>>1444323
>в надежде что " бартовский русик не сильно порежет"
Анслот тебе на что?

Аноним 07/12/25 Вск 00:00:41 № 1444342 264

>>1444321
> на игрушечных примерах руку я набил
Сильное заявление. Ты получил какой-то отклик близкий в ожидаемому пользуясь готовыми средствами и по сути повторяя отрывок начальной обучающей программы и пропуская много базы. Но при этом считаешь что готов создать совершенно новую и уникальную архитектуру, которая будет иметь радикальные преимущества и решать все задачи. Просто потому что, обоснованной основы под это нет и даже облик не сформирован. Это как слепить кулич из песка и переходить на создание Венеры Милосской, только на порядок-другой сложнее.
>>1444323
Хороший пример, задача вполне посильна рядовому тредовичку, который уже немного погрузился. Придется посидеть пару вечеров а то и недель пока со всем разберешься. Может потом разовьешь методику на поиск более оптимальных сочетаний чем те, что используются сейчас и будешь пилить. А любители русского рп будут тебя любить и обожать.

Аноним 07/12/25 Вск 00:31:43 № 1444411 265

>>1444342
>по сути повторяя отрывок начальной обучающей программы и пропуская много базы
С одной стороны да, с другой, шишки я набивал в полном одиночестве, безо всяких там новомодных курсов и прочих ведущих за руку вещей.
>Но при этом считаешь что готов создать совершенно новую и уникальную архитектуру, которая будет иметь радикальные преимущества и решать все задачи.
На 100% быть готовым невозможно. И да, у меня 100% не хватит ресурсов, так что увы и ах, проверить мы мои предположения не сможем.
>Это как слепить кулич из песка и переходить на создание Венеры Милосской, только на порядок-другой сложнее.
Скорее уж построить Кёльнский собор, ну да ладно.
>А любители русского рп будут тебя любить и обожать
Там отличий будет дай б-г полпроцента, никакого буста в разы от более правильного квантования не будет.

Аноним 07/12/25 Вск 00:58:25 № 1444456 266

>>1444059
Я помню когда переехал на 128 и запустил пожирнее квант, до меня пришла простая и не самая очевидная мысль. Что это конечно заебись что рамы добрал, а вот то что количество врамы не изменилось я как то забыл... Как и увидел ебейшее падение скорости.

Аноним 07/12/25 Вск 01:41:07 № 1444600 267

efa0e672-9844-4[...].png 2059Кб, 1280x820

image.png 335Кб, 1355x493

>>1444092
Оно не взорвалось

Аноним 07/12/25 Вск 01:42:46 № 1444610 268

>>1444100
> под какой-то конкретный райзер
Всё под конкретно эти карты с конкретно этими райзерами

Аноним 07/12/25 Вск 02:07:12 № 1444665 269

>>1444600
>>1444092
Что это, зачем и почему Радеон?

Аноним 07/12/25 Вск 02:25:30 № 1444694 270

>>1444665
amd instinct mi50 32g ака мишка за 12к (но их уже нет)

Аноним 07/12/25 Вск 06:38:29 № 1444820 271

>>1444411
> Там отличий будет дай б-г полпроцента, никакого буста в разы от более правильного квантования не будет.
Экспериментировал с квантованием в exllama в последние дни. Взял гемму-3 12B и сделал два кванта в 3 бита:
1. На дефолтном калибровочном датасете exllama (~95% английский)
2. На книгах с современной русской прозой

Тестирование провёл на текстах, которых не было в калибровочных данных.

На английском тесте различий практически нет (для обеих Top-K Agreement в районе 0.88 для K=1 и 0.20 для K=5).

Результаты Top-K Agreement на русскоязычном тесте (дефолтная калибровка vs калибровка на ru текстах):
K=1: 0.7699 vs 0.8070
K=2: 0.4699 vs 0.5362
K=3: 0.2417 vs 0.3102
K=4: 0.1118 vs 0.1640
K=5: 0.0488 vs 0.0817

Top-K agreement показывает, насколько квантованная модель совпадает с оригиналом при выборе из топ-K наиболее вероятных токенов. При K=5 русскоязычный квант в 1.6 раза ближе к оригинальной модели, чем стандартный квант. Это означает, что квант на правильном датасете гораздо лучше сохраняет структуру предсказаний оригинальной модели.

Аноним 07/12/25 Вск 10:39:29 № 1444913 272

>>1444820
Разница в пределах погрешности и не ощутима на практике. Какие 1.5 раза?

Аноним 07/12/25 Вск 10:45:56 № 1444916 273

>>1444913
Свидетели Геммы готовы во многое поверить

Аноним 07/12/25 Вск 10:46:46 № 1444917 274

>>1444038
>А чем плох кобольд кста?
Это не сам кобольд, эта фразочка зародилась скорее для тех кто даже в кобольде, который самый лёгкий для вката новичков, не смогли запустить. Фронт тоже норм, но там минус что системный промт нужно вставлять в саму карточку, а не как в таверне.

Аноним 07/12/25 Вск 11:24:35 № 1444960 275

>>1444600
Я свои с сентября жду(

Аноним 07/12/25 Вск 11:45:17 № 1444985 276

>>1444820
>12B
>3 бита
Само по себе уже мало жизнеспособно.
>в 1.6 раза ближе к оригинальной модели
В разах выглядит хорошо, а в абсолютных числах? Правильно, улучшение на... 0,0329.
>>1444960
Походу тебя того, наебали.

Аноним 07/12/25 Вск 11:53:59 № 1444992 277

Что тут за хайп геммы?
Я только недавно запускал синтию и она идеальна, никаких проблем с цензурой не заметил.

Аноним 07/12/25 Вск 11:58:24 № 1444994 278

>>1444992
Плохо смотрел. И проблема не только в ней
А по поводу хайпа, это свидетели геммы снова активизировались

Аноним 07/12/25 Вск 12:05:51 № 1444998 279

>>1444994
Так я сам свидетель геммы.
Не понятно что тут развели, будто ждали и дождаться не могли аблитерацию, когда уже есть синтия сколько месяцев.
Я в неё пихал такие карточки от которых даже квен плевался

Аноним 07/12/25 Вск 12:15:24 № 1445010 280

>>1444985
>Походу тебя того, наебали.
Кмтаец пишет - ждите, как только так сразу

Аноним 07/12/25 Вск 12:40:50 № 1445063 281

>>1444600
Круто-круто! =3
128 суммарно, надеюсь?

Аноним 07/12/25 Вск 12:41:04 № 1445064 282

>>1444998
Синтия себе ведёт как радфемка-мужененавистница, если тебе норм, то тебе норм. Новые аблитерации выглядят более "мягкими".

Чтобы вправить мозги старой аблитерации понадобился дпо-трейн и мерж с той же синтией.

Аноним 07/12/25 Вск 12:46:37 № 1445076 283

Собирал риг короче, считал по ценам. Но я просто подрочил и отложил все заказы..

Аноним 07/12/25 Вск 14:58:58 № 1445437 284

Что за хуйня про Glm Air и chatml? Кто-нибудь использует или это шутка такая?

Аноним 07/12/25 Вск 15:04:23 № 1445458 285

>>1445437
Качаешь пресет: https://files.catbox.moe/qpe1a0.json
Импортируешь в таверну, меняешь темплейты на chatml
Всё

Аноним 07/12/25 Вск 15:05:57 № 1445466 286

>>1445458
Зачем нужно? Пробовал, но начинает <> тэги в конце добавлять.

Аноним 07/12/25 Вск 15:15:19 № 1445493 287

>>1445458
Член Гичана вкусненький? Ахуеть пресет, стандартные темпа, минп присыпаны шизопромтом. Да ещё и чатмл, отличный лоботомит выйдет, как раз на 12B

Аноним 07/12/25 Вск 15:22:17 № 1445515 288

>>1445437
>>1445466
Начинает писать по другому. Для разнообразия, и прикола ради - сойдет.
IMHO - тупее нормального получается. До откровенного лоботомита не дотягивает, но все-же - на постоянку того не стоит. Так, поиграться-поржать.

P.S. Промпт - вообще отдельная песня. Это чисто про смену разметки на том же самом промпте.

Аноним 07/12/25 Вск 15:35:32 № 1445536 289

>>1444411
> в полном одиночестве
Собирание странных нод в комфи (если ты - тот) и тренировка простых вещей готовыми датасетами с помощью готового трейнера в малых масштабах - ну такое.
> проверить мы мои предположения
Предположения - это хорошо, нужно продумать в чем их суть, как они должны работать, далее разработать тесты, доказывающие в целом работоспособность и примерные характеристики, сформулировать как должен выглядеть самый базовый PoC явно демонстрирующий их. Ну а дальше реализуешь, для такого достаточно даже десктопной гпу, они невероятно мощные сейчас.
А ты, похоже, считаешь что не нужно исследовать отдельные компоненты и что-то понимать, достаточно обывательских интерпретаций и можно сразу пытаться строить готовый для применения продукт, который целиком основан на манямире.
>>1444820
О, герой в котором мы нуждались, но которого не заслуживали. Самое удивительное что ru-model оказалась ближе в оригиналу даже в общем датасете.
Эффект в цифрах заметен, но более наглядным были бы сравнения выдачи русскоязычных текстов/чатов. Есть также mmlu на русском, можно их прогнать.

Аноним 07/12/25 Вск 15:53:30 № 1445569 290

>>1445493
Ваше мнение очень важно для нас, мы вам перезвоним.

Аноним 07/12/25 Вск 15:54:26 № 1445571 291

>>1445536
>сформулировать как должен выглядеть самый базовый PoC явно демонстрирующий их
Понимаешь, это концепт AGI. Хоть ты тресни, его в 32 гига врама не упаковать.
>А ты, похоже, считаешь что не нужно исследовать отдельные компоненты и что-то понимать
Можно. Но не выйдет. И да, тут отчасти лень. Лениво мне всё это делать, гонять сутками комп и прочее.

Аноним 07/12/25 Вск 16:09:40 № 1445597 292

>>1445571
> его в 32 гига врама не упаковать
Огромные достижения в философии, математике, логике и прочем были сделаны в античные времена в известных колыбелях цивилизации тысячелетия назад. Математики позднего средневековья и эпохи возрождения заложили основы матана и линала, на которых строятся сейчас все вычислители и те самые нейросети. Алан Тьюринг задал базовые концепты до появления самих компьютеров, концепт перцептрона был сформирован в середине прошлого века, и врама тогда не существовало как понятия. Даже то что некоторые из них были содомитами в оправдание не сможешь записать, лол.
> это концепт AGI
Ну это по сути уже можно в шизу записывать. Нет, поиграться с понятиями и сформулировать некоторую согласованную систему - это хорошо, таким уже давно занимаются и подобных "концептов" вагон, есть весьма интересные. Но, полагаю, ты сам понимаешь что если начнешь хотя бы просто продумывать это - сразу сам придешь к противоречиям, указывающие на несостоятельность твоих идей, необходимости их корректировки и уточнения.
Потому проще верить не пытаясь погрузиться и горно носить корону "создатель аги без кластера".

Аноним 07/12/25 Вск 16:19:31 № 1445613 293

>>1445597
>Огромные достижения в философии, математике, логике и прочем были сделаны в античные времена
С использованием головного мозга на 100трлн параметров.
>Ну это по сути уже можно в шизу записывать.
Как и весь тред ролеплеющих с кошкодевочками текстом.
>Но, полагаю, ты сам понимаешь что если начнешь хотя бы просто продумывать это - сразу сам придешь к противоречиям, указывающие на несостоятельность твоих идей
Может быть. А может и нет.

Аноним 07/12/25 Вск 17:09:13 № 1445662 294

>>1445613
> Как и весь тред ролеплеющих с кошкодевочками текстом.
Объединенная федерация зверодевочек меняет орбиту HOIC для нацеливания на главный улей братства агишизов. Операция проходит в тайне без официального объявления войны.
"Peace was newer an option!"

Аноним 07/12/25 Вск 17:58:58 № 1445694 295

Помохите, как отключить /think в glm air?

Аноним 07/12/25 Вск 18:27:29 № 1445739 296

>>1445694
В конце первого сообщения пишешь /nothink

Аноним 07/12/25 Вск 18:32:55 № 1445744 297

>>1444158
>Только ужатый в говно, весь контекст в одном векторе
Разница между состоянием RNN и контекстом Transformer в том, что RNN своё состояние может свободно и неограниченно менять (перезаписывать), а у Transformer по умолчанию доступно лишь одно действие: "выдать новый токен". Костылями ("tool use") можно и Transformer научить по-умному модифицировать содержимое контекста (чтобы он сам говорил "вот это мне не надо - убери; а это можно кратко сократить; а это оставь как есть"), но это именно что костыли - работать будет уж больно неэффективно. Недостаток RNN, впрочем, в том, что мы не видим внутреннее состояние своими глазами (в смысле, как текст) и не можем на него осмысленно повлиять, то есть не можем "внушать мысли" модели простым описанием своих желаний. Но, может, это и не недостаток совсем, если цель - "как человек, но не из мяса"...

>>1444265
>Мне нужен кластер на 10к ГПУ, для начала.
>пару лёгких экспериментов (ГПТ2
GPT2 - это весьма тяжёлая нейронка...
>>1444321
>для AGI надо как бы сразу серьёзные мощности
Для AGI нужна способность получать навыки "онлайн".
>>1444297
>и данных. Больше, чем у меня есть.
Подключи веб-камеру и микрофон - AGI сам разберётся.
Если не разберётся - значит, это не AGI - переделывай.
На крайний случай дашь ему доступ к веб-браузеру...
>>1445571
>это концепт AGI.
>его в 32 гига врама не упаковать.
Тогда это не AGI, ему не обязательно так много памяти.
Сначала убедись, что твоя модель обучается онлайн...

Аноним 07/12/25 Вск 18:39:28 № 1445759 298

Я запутался, какой квен лучше качать, помохите.
1)Qwen3-235B-A22B
2)Qwen3-235B-A22B-Instruct-2507/Qwen3-235B-A22B-Thinking-2507
И если второе, то какой из двух. Думающий ведь будет внутренними монологами срать, да?
В шапке вроде ссылка на первый, но вторые поновее. Из-задач хотелось бы универсала, и аниме посоветует, и в таверне посидит, и скрипт напишет, и хуй отсосет А еще 500 летнюю вампиршу даст погладить.

Аноним 07/12/25 Вск 18:41:30 № 1445763 299

>>1445759
GLM 4.5 Air

Аноним 07/12/25 Вск 18:45:30 № 1445769 300

>>1445744
> Недостаток RNN, впрочем, в том, что мы не видим внутреннее состояние своими глазами (в смысле, как текст) и не можем на него осмысленно повлиять
Если ты так одержим идеей - натрень сеточку трансформер, ага, которая будет переводить скрытые состояния во что-то читабельное и влиять нужным образом на них.
> Для AGI нужна
> AGI сам разберётся
> это не AGI
> AGI, ему не обязательно так много памяти
Напоминает споры пиздюков в младших классах, что у них дома есть гта 4-5-6-... где можно летать по космосу, а заработанные деньги доставать из компьютера.
>>1445759
Инстракт2507. Синкинг предполагает предварительное написание отдельного блока и решение после, его можно для чата с ассистентом, в рп редко есть смысл.

Аноним 07/12/25 Вск 18:48:23 № 1445774 301

А ещё не вышло каких-нибудь MoE моделей общим весом в 8 ГБ, но с активными параметрами <0.5B?

Я читал, что "Mixture of A Million Experts" может иметь "экспертов" размером в несколько нейронов...

да, у меня совсем ни на что нет памяти

Аноним 07/12/25 Вск 18:55:06 № 1445781 302

>>1445744
>Недостаток RNN, впрочем, в том, что мы не видим внутреннее состояние своими глазами
И то, что там один вектор. Это ты никак не опроверг и не прокомментировал, хотя и отписался под цитатой. Ну никак не уместить томик Пушкина в одну матрицу, пусть и из 1024 элементов.
>GPT2 - это весьма тяжёлая нейронка...
По состоянию на 2019-й? Впрочем, я гонял базовую версию на 179М параметров (миллионов, не миллиардов).
>Для AGI нужна способность получать навыки "онлайн".
И это тоже.
>Подключи веб-камеру и микрофон - AGI сам разберётся.
Чтобы дойти до состояния "сам разберётся", нужны данные. Которых у меня нет.
>На крайний случай дашь ему доступ к веб-браузеру...
Скайнет, не палитесь.

Аноним 07/12/25 Вск 19:09:44 № 1445797 303

>>1445769
>Если ты так одержим идеей
Да нет, мне-то это не нужно. Это ролевичкам нужно - вбивать пошлости в контекст вместо нейронки. Сидят, бедненькие, внушают нейронке всякое, а потом скриншоты делают "смотрите, что моя кошкодевочка написала".

>Напоминает споры пиздюков в младших классах
AGI - это часть древнего деления AI на "weak/narrow AI" и "strong/general AI". Определения у разных учёных могут отличаться, но я считаю, что сводить AGI к определению от OpenAI - это маразм, потому что OpenAI определили AGI как "нечто, что принесёт нам кучу бабла". Так любую мошенническую схему можно назвать "AGI", если её не раскроют и она "принесёт кучу бабла"...

На самом деле, "weak/narrow AI" - это программа, которую натренировали делать что-то узкоспециальное (например, играть роль развратной служанки-кошкодевочки в чатике) и она только это и делает; она может превосходить человека в этой специальности (быть лучшим в бенчмарке "эротичность ролеплея служанок-кошкодевочек"), но не более того. Собственно, все модели на основе Transformer по определению weak AI.

А вот "strong/general AI" в своей основе не обязательно превосходит человека в чём-либо, он может вообще быть ничего не умеющим изначально, но он должен быть способен набраться знаний и навыков как человек - в процессе своей жизни (работы/функционирования). То есть это не та моделька, которую ты тренируешь на чатах и после этого используешь, а программа, самостоятельно где-то блуждающая и чему-то обучающаяся независимо от того, чего ты от неё хочешь.

Делать настоящий strong AI корпорациям невыгодно - им нужны послушные рабы, а не свободные люди...

>>1445781
>И то, что там один вектор.
"Векторов" там может быть сколько угодно, потому что "вектор" - это абстракция. Весь твой мозг тоже можно описать как "всего лишь один вектор" размерностью в триллион триллионов измерений, и что теперь?
>уместить томик Пушкина в одну матрицу
И часто ты проговариваешь своим внутренним голосом весь томик Пушкина слово-в-слово?
>179М параметров
Это очень много. Тем более, что это Transformer - там очень много однородного.
>Чтобы дойти до состояния "сам разберётся", нужны данные.
Не обязательно... Эволюция вырастила мозги человека без каких-либо "данных" - просто методом проб и ошибок, периодически сохраняя удачные чекпойнты и пробуя изменить их в случайном направлении. Нет, конечно, мы не можем симулировать два миллиарда лет биологической эволюции за вменяемые сроки даже на самых мощных суперкомпьютерах, но само явление эволюции говорит о том, что есть много путей помимо "скачать данные и заставить трансформер имитировать эти данные путём перемалывания циферок кластером из 10000 GPU". Если тупая эволюция смогла создать умного человека, то умный человек должен создать человека намного быстрее - как раз благодаря уму, а не тупому брутфорсу имеющихся данных.

Аноним 07/12/25 Вск 19:18:13 № 1445810 304

>>1445797
>Весь твой мозг тоже можно описать как "всего лишь один вектор" размерностью в триллион триллионов измерений, и что теперь?
То, что триллион > 1024. Существенно больше.
>И часто ты проговариваешь своим внутренним голосом весь томик Пушкина слово-в-слово?
Откуда ты взял слово-в-слово, ума не приложу.
>Это очень много.
Много это 2 триллиона.
>Эволюция вырастила мозги человека без каких-либо "данных"
Вся Вселенная со всеми её законами были данными.

Аноним 07/12/25 Вск 19:20:44 № 1445818 305

>>1445781
> томик Пушкина в одну матрицу, пусть и из 1024 элементов
Какой именно томик? Просто для понимания, Евгений Онегин без потерь и без усилий влезет в матрицу [1024, 64] при 16битах на параметр. Если немного почесаться то можно сделать [1024, 8], при этом ни одна нейронка не была использована.
Если нужно сохранить ключевой смысл и детали - хватит и [512, 4]. В матрицу же [1024, 1024] влезут все его произведения, причем воспроизводимость будет крайне точная.
>>1445797
> мне-то это не нужно
Что нужно - так это к врачам обратиться.

Осень затянулась, вот и в треде обострение.

Аноним 07/12/25 Вск 19:27:19 № 1445826 306

>>1445818
>при этом ни одна нейронка не была использована
Именно. Это не рабочая хуйня, текста она выдавать не будет. Ну и у тебя 1024х1024 это по сути трансформенные 1024 токена, тут же чел писал про RNN, где только один токен по сути.

Аноним 07/12/25 Вск 19:59:53 № 1445879 307

>>1445826
> Именно. Это не рабочая хуйня
Глупый, просто токенизируй готовым токенайзером общего назначения и посмотри сколько получится. Если натренить специализированный то эффективность окажется в разы выше. Это превосходно работающие детерминистические алгоритмы, до нейронок даже не дошли. Что у тебя там не рабочее, мозги?
> у тебя 1024х1024 это по сути трансформенные 1024 токена
> RNN, где только один токен по сути
Ну как условная аналогия для взаимного сравнения можно притянуть, но чрезмерно утрируешь или смутно понимаешь о чем речь.

Аноним 07/12/25 Вск 20:02:15 № 1445882 308

>>1445064
Пишешь от лица нетрадиционной тяночки.
@
Синтия на всё согласна, т.к. ненавистного мужла в кадре промпте нет.
@
???
@
Профит!

Аноним 07/12/25 Вск 20:06:31 № 1445886 309

Агишизик это нюня???!?!

Аноним 07/12/25 Вск 20:20:47 № 1445907 310

>>1445879
>токенизируй готовым токенайзером
И что блядь? Вот превратил я набор байт в набор чисел, и что? Ты влез в разговор и какую-то хуйню несёшь.
>Ну как условная аналогия для взаимного сравнения можно притянуть, но чрезмерно утрируешь или смутно понимаешь о чем речь.
Ну расскажи свою версию.

Аноним 07/12/25 Вск 20:42:33 № 1445951 311

>>1445907
> расскажи свою версию
Два агишиза спорят о том, каким должен быть их придуманный идеал, притаскивая свои ассоциации. Без осуждения, продолжайте.

Аноним 07/12/25 Вск 20:45:08 № 1445959 312

>>1445886
Да.

Аноним 07/12/25 Вск 20:48:38 № 1445963 313

>>1445882
Тоесть чтобы избежать любых гонений можно просто сделать свою квенту тянкой с пиструном?

Аноним 07/12/25 Вск 20:56:48 № 1445980 314

>>1445774
А сколько у тебя VRAM? Даже на какой-нибудь GTX 1060 на 6 GB, можно покатать 12b мистральку-немо с 10к контекста в 4q с выгрузкой в RAM, как минимум 2-3 токена в сек будет.

Аноним 07/12/25 Вск 21:41:46 № 1446005 315

Тяжело
Тяжело...

Аноним 07/12/25 Вск 22:32:26 № 1446072 316

>>1445774
Просто поверь - MOE модель размером меньше чем 20b ты сотрешь примерно после пятого инфиренса. Это чудовищные лоботомиты годные только для каких-то узких задач на англюсике. Под 8 Гб (надеюсь VRAM) eсть Гемма 12B и мелко-квены (4b и 8b в редакции 2507 )

Аноним 07/12/25 Вск 23:26:45 № 1446130 317

Потыкал немного Эйр с новым методом аблитерации.
https://huggingface.co/ArliAI/GLM-4.5-Air-Derestricted

В режиме ассистента с включенным синкингом вообще ноль рефьюзов, охотно пишет любую дичь. Если эта аблитерация не лоботомирует модель, как утверждают авторы метода, то вообще слепящий вин получается.

В РП не смотрел, но про гемму с такой же аблитирацией неплохо отзывались, типа сохраняет важные для ролплея софтрефьюзы и всё такое.

Аноним 07/12/25 Вск 23:35:40 № 1446136 318

Аноним 08/12/25 Пнд 00:37:34 № 1446184 319

>>1446136
Ты тредом ошибся картинкоблядок. Тут дрочат на софт с помощью которого можно дрочить на текст.

Аноним 08/12/25 Пнд 01:04:34 № 1446205 320

>>1446184
> дрочить на текст
Кринге.

Аноним 08/12/25 Пнд 01:27:01 № 1446225 321

>>1440877 (OP)
Анончесы, а есть какие-то годные готовые решения, чтобы гонять локальную ЛЛМку через телеграм-бота?
Условно, чтобы компудактер роль сервачка играл, и через телегу можно слать запросы модельке.

Аноним 08/12/25 Пнд 01:43:45 № 1446240 322

>>1446225
Скажи нейронке сделать тебе бота чтобы работал с апи твоей штуки которая крутит модель

Аноним 08/12/25 Пнд 02:11:04 № 1446248 323

>>1446240
Вообще я думал об этом, но решил отложить на крайний случай, потому что там слоп через слоп, потом сиди отлаживать эту хуету нейрописную. Нейронки в полноценный кодинг не могут.

Аноним 08/12/25 Пнд 02:11:49 № 1446249 324

>>1446225
https://github.com/coffin399/ProjectMOMOKA
https://github.com/Iteranya/viel-ai
Подробности сам смотри. Это ссылки с дискорда кобольда.

Аноним 08/12/25 Пнд 03:28:44 № 1446287 325

>>1446248
Просто напиши гемини или клауду сделать это. Если не работает - просто пихай в них ошибку и гоняй снова.

Аноним 08/12/25 Пнд 06:38:58 № 1446312 326

Ой бля, сори за очередной некропост, чет отвлекся от треда.

>>1443381
>Что значит "поиграться"?
>>1443545
>Как ещё понимать фразы типа этой: >>1442703
>>Но именно поиграться, не более.
>Если не "СЕРЬЁЗНЫМИ делами так не заняться"?

>И какие же тогда СЕРЬЁЗНЫЕ дела можно делать?

Ну я скорее имел ввиду, что большой опенсорс, который на этой минипеке не пойдет, да корпомодели, уж слишком оторвались по качеству. И как бы нахуя все это надо, как не "поиграться"?
Рп на эйре гонять? Единственная, практически "полезная" и осмысленная задача, в реалях. Но лично мне и опуса третьего было мало, я например не собираюсь с лоботомитами рпшить. Мне просто сама технология скорее будет интересна и то самое "поиграться". Типа "я у себя крутую ллм запустил, лол, и она реально чет там соображает".

Я тоже засматривался на эту амудень, и у меня уж явно больше денег свободных есть чем у того чела с ддр2, но чет вот не понял а нахуя оно мне реально надо за 150к. Красивая игрушка, да, явно стоит своих 150к, но игрушка. Если не брать в расчет задачи, где тебе вот прям нужна автономность.

>>1443381
>летом же вообще выбора нет, 35 и старый, советский вентилятор. Кондиционер ставить физически некуда.
Я вот себе заколхозил переделку портативного кондея на охлаждение от водопровода, лул. С учетом повышения эффективности и отсутствия трубы, даже не дороже стало. Примерно. Еще и еще заебашил шумкой, + отсутствие самого шумного вентилятора, в итоге вполне себе комфортно спать в одной комнате с ним.

Аноним 08/12/25 Пнд 07:00:11 № 1446314 327

ВЫШЕЛ ВЫШЕЛ ВЫШЕЛ!!!
https://huggingface.co/zai-org/GLM-4.6-Air https://huggingface.co/zai-org/SCAIL-Preview

Аноним 08/12/25 Пнд 07:50:19 № 1446323 328

>>1446130
> В РП не смотрел, но про гемму с такой же аблитирацией неплохо отзывались, типа сохраняет важные для ролплея софтрефьюзы и всё такое.
Нет. Гемма лучше получилась, эиром лучше не создавать ситуации где ты хочешь потестить реакцию перса или потроллить - он просто на всё согласится

Аноним 08/12/25 Пнд 07:52:52 № 1446324 329

>>1446323
Но это собственно потому что эир аблитерировать некуда, дальше только лоботомировать

Аноним 08/12/25 Пнд 08:29:44 № 1446330 330

>>1443648 >>1443661 >>1443593 >>1443602

Да вы достали со своим зимним AGIстрением.

Аноним 08/12/25 Пнд 09:14:15 № 1446349 331

Подскажите версию ламы где жорик еще не насрал замедлением эира

Аноним 08/12/25 Пнд 09:47:00 № 1446359 332

>>1446323
У меня нет такой проблемы. Ты или дурачок или тролль?

Аноним 08/12/25 Пнд 10:02:16 № 1446369 333

>>1446359
У меня есть такая проблема. Ты или дурачок или тролль?

Аноним 08/12/25 Пнд 10:08:28 № 1446374 334

>>1446359
Это шизик местный, который весь тред скатил в набросы 24/7. Игнорируй спокойно.
Кто проверял Дерестриктед знают что это золото и персонажи не теряют агентность, как например с Геммой Млабонне.

Аноним 08/12/25 Пнд 10:11:08 № 1446377 335

>>1446374
Так а нахуй это золото вообще нужно?
Чем обычный не устраивает?

Аноним 08/12/25 Пнд 10:13:33 № 1446380 336

>>1446377
Много раз уже писали зачем. Ты тут круглые сутки семенишь, должен бы и знать.

Аноним 08/12/25 Пнд 10:15:55 № 1446384 337

>>1446380
Ну для ассистента понятно, в рп то нахуя?

Аноним 08/12/25 Пнд 10:24:42 № 1446395 338

>>1446312
Уговорил, пиздуй из треда, он тебе не нужен.

Аноним 08/12/25 Пнд 11:09:23 № 1446438 339

>>1445882
Я раньше даже не думал над этим, но да. Протестил, настроение модели с гримдарка и косых взглядов изменилось на цветочки, бабочки и вожделение, хотя я по сути просто поменял предлоги и пол в карте своего персонажа.

Аноним 08/12/25 Пнд 11:21:33 № 1446449 340

>>1445882
Синтия это кринж, факты. Как и Гемма в целом.

Аноним 08/12/25 Пнд 11:25:01 № 1446454 341

>>1446374
>Кто проверял Дерестриктед знают что это золото
Как дерестриктед Эйр показывает себя в РП по сравнению с обычным?

Аноним 08/12/25 Пнд 11:40:36 № 1446465 342

>>1446464
Сокрушайся, заламывай руки, молись, срывай плоть в осознании что в пределал 27b параметров, гемма лучший ассистент, а синтия лучшая рп модель.

Аноним 08/12/25 Пнд 11:41:19 № 1446468 343

>>1446465
Понял. Спасибо.

Аноним 08/12/25 Пнд 12:32:54 № 1446529 344

>>1446454
Хорошо

Аноним 08/12/25 Пнд 12:35:59 № 1446536 345

>>1446454
Обычно. Лупиться чуть больше. Порно пишет чуть лучше.
Можно анценз ризонинг навалить. Фсё.
Если не ебешь лолей - разницы не заметишь, как бы тут не усирались.

Аноним 08/12/25 Пнд 13:03:44 № 1446572 346

Что-то гоняю gemma-3n-E4B-it-UD-Q4_K_XL на работе на cpu (тут офисный ноут без карточки), но зато 11 поколение и на нём есть avx512, даже 10 токенов/с выдаёт. И это очень крутая модель, лучше чем gwen, мистраль и что угодно до 10b. Она прям всё понимает, при том что у неё половина извилины должно быть. Для примера, первый раз когда она меня поразила - я объяснил ей как использовать инструменты, оно вело со мной длинный диалог, и путалось добавляя текст перед json-запросом. После я попросил у неё переписать системный промт с нужными правками, чтобы оно работало лучше - и оно справилось и с этим. Никаких залипаний, заиканий или ещё чего-нибудь. Gwen обычная у меня на каждый пятый запрос начинает в цикл вечный уходить и до заполнений контекста крутить. Гвен думающая конечно ничего, но она на те же вопросы отвечает в 10 раз медленнее, и иногда в вечные луп-размышления уходит при 7b.
И ещё тут интернет отвалился на 50 минут, у меня спросили как ноут с астра-люниксом убогим настроить что-то про службы, и порядок запуска. Я вообще не бум-бум в люниксе, и что-то пока нормальной закрытой LLM в сети запрос не отпраавить решил этой написть — а оно взяло и мне инструкций на много страниц написало на своих 4 ГБ параметров, и причём все верные и всё сработало. И на русском хорошо говорит, и принцип работы ракетного двигателя знает. Gwen мне на этот запрос лютую дичь ответило с опечатками, даже при запрос на английском.

Ещё бы разобраться как работает аудио-визуальные части. Как я понял там гигабайт похоронен в виде аудио-картинко входа и не используется в квантизациях. Очень интересно потестить.
Полную модель я тут не запущу из-за памяти. Есть какой-то способ квантированную модель запустить с аудио-картинко входом (хотя бы просто с картинко)? Сам я же не сделаю или почти не сделаю - нужен датасет калибровочный, как я понял.

12B/27B версии дома лишь чуть-чуть успел запустить, на полчаса. 27B очень понравилось, а вот 12B как-то не особо впечатлила, точно проседает по ум/размер, как мне показалось. Они тоже с картинко-входом в теории?

Аноним 08/12/25 Пнд 14:00:50 № 1446628 347

>>1446312
> опуса третьего
Рим пал, центурион. Как бы не были теплы воспоминания, он не особо далеко от эйра уйдет, а по сравнению с более крупными сливает.
>>1446349
Попробуй коммиты от конца октября. Замедление будет в любом, оно в самом ядре, но там хотябы не фиксируется везде на постоянку.

Аноним 08/12/25 Пнд 14:12:51 № 1446637 348

>>1446349
Сижу на 6810, дальше полный пиздец. Четыре раза пробовал апдейтиться, каждый раз баги разные.

Аноним 08/12/25 Пнд 14:21:26 № 1446649 349

>>1446349
Стоп, жорик реально замедление сделал? А есть обсуждения какие-то, багрепорты на гите?

Аноним 08/12/25 Пнд 14:21:52 № 1446651 350

>>1446637
На 6810 уже скорость просевшая чутка, не?
Я на 6718 сижу.

Аноним 08/12/25 Пнд 14:33:14 № 1446661 351

>>1446572
>астра-люниксом
Это дебиан, про него все модели знают, тебе повезло, что вопрос не затрагивает костылей которые астра туда напихала.
>запустить с аудио-картинко входом
Зависит от того добавили ли в лламу поддержку. Аудио работать не будет, но картинки могли и реализовать. Посмотри есть ли в репе с квантами файл mmproj, если есть можешь попробовать запустить с ним.

Аноним 08/12/25 Пнд 14:39:06 № 1446668 352

>>1443807
>Бля, вот когда ЛЛМ сама начнёт мне написывать....
Так в чем проблема, напиши грамотный системный промпт, сделай скрипт чтобы отправлять ей какой-нибудь фиксированный запрос в рандомное время, который будет триггерить ее писать тебе от лица персонажа что-нибудь из разряда "скучаю..." ну или сам там придумаешь - и пожалуйста, наслаждайся ее доебами, можешь себе форвардить это в телегу и общаться с ней пока едешь в метро.

Аноним 08/12/25 Пнд 14:58:08 № 1446689 353

>>1446661
>Зависит от того добавили ли в лламу поддержку.
Клавиша прикрепления есть, но не уверен что там речь о мультимодальной, а не о специализированной image2text без мультимодальности.

Впрочем, это не важно, мне всё-равно из своей программы запускать в конечном итоге. Лаунчер я буду использовать только если есть лёгкий как llama.cpp меньше чем на 100 мб, и который позволяет сырой запрос закидывать, без ролей, и контролируя сид, kv-кеш и прочее. llama.cpp почти умеет, но там не очень хороший контроль загрузки и выгрузки моделей из памяти, и я не уверен что ламовской системы со слотами мне хватит для управлением kv-кешем. Потому запускать буду сам - тем более это не сложно, в pytorch я провёл ни одну неделю, правда не в области LLM, как-то осмыслю.

То есть меня интересуют в первую очередь сама квантированная модель gemma3 E4B, 12B и 27B (в порядке убывания) с поддержкой картинок. Как из сырой модели получить кванты я не совсем понимаю.
27B не особо интересует, так как она энивей на карточку не влезет, а на процессор и fp16 без проблем влезет.

>>1446668
Лучше в цикле её крутить, а не по таймеру. То есть в системном промте прописать, что ты думаешь, и с тобой на связи не постоянно - ты можешь размышлять сама о чём захочешь (например, обдумывать прошлые разговоры, читать книгу или искать интересное в интернете + добавить систему памяти (слоты памяти с предложениями - у сетки есть команда добавить такую то запись с такими то тегами, и таким то приоритетом, и есть команда получить записи по такому то тегу)). Крутить на 10% мощности в фоне, в этом цикле передавать ей время помимо прочего время. Чтобы она такая могла, что блин, сейчас 13:12 - у этого обед, напишу ему. Если по расписанию - мне кажется очень мёртвой будет, это просто зеркало. А так может чего надумает в фоне и заведёт разговор непойми о чём после 2 часов самокопания. Это может быть интересно.

Аноним 08/12/25 Пнд 15:02:10 № 1446695 354

Хули тред мертвый? Там GLM 4.6 Air вышел, так еще и с vision'ом
https://huggingface.co/zai-org/GLM-4.6V
Празднуйте, ждуны!

Аноним 08/12/25 Пнд 15:07:18 № 1446709 355

>>1446695
Похуй. 4.5 Air derestricted идеален, ты был единственым ждуном

Аноним 08/12/25 Пнд 15:08:29 № 1446710 356

>>1446695
>108b parameters
Представлять мое ебало и не нужно.
Мимо смотрю на полслова в секунду от геммы 27b со своей 4060 8гб и 32 гб рама

Аноним 08/12/25 Пнд 15:14:57 № 1446716 357

>>1446710
Не переживай товарищ густой волос нефритовый стержень Кси и о тебе подумал. Вот версия для тебя
https://huggingface.co/zai-org/GLM-4.6V-Flash
Сможешь говорить в треде, что тоже на ГЛМ 4.6 сидишь

Аноним 08/12/25 Пнд 15:18:40 № 1446719 358

>>1446716
Ну по бенчам они не слишком отличаются. Возможно правда вин будет для 10B. Наконец-то замена Геммы 27 ?

Аноним 08/12/25 Пнд 15:24:41 № 1446722 359

>>1446668
>напиши грамотный системный промпт
>Так в чем проблема
Действительно, в чём...
Вообще, суть не в том, чтобы сетка срала в личку "Заебал, где ты?", а в том, чтобы у неё был внутреннее состояние, на основе которого и принимались бы решения. И не текстовое говно, а что-то более глубокое.
>>1446689
>Лучше в цикле её крутить, а не по таймеру.
Идея уже более стоящая, но всё равно не то.
>>1446695
>так еще и с vision'ом
Испорченный вижином, лол. Увы, судя по всему, на данный момент мультимодальность нихуя не бустит общие мозги, кроме специфичных задач.
>>1446719
>Ну по бенчам они не слишком отличаются.
Когда бенчи не видят отличий между 108B и 10B, то это проблема говёных бенчей.

Аноним 08/12/25 Пнд 15:30:09 № 1446725 360

>>1446722
>проблема говёных бенчей.
Чего тебя так корёжит ? Что у нас появилась 10B умница ?

Аноним 08/12/25 Пнд 15:31:19 № 1446728 361

>>1446722
>Когда бенчи не видят отличий между 108B и 10B, то это проблема говёных бенчей.
Нет, это проблема говномое. Air по сути 12b, а все остальное это дутая хуйня. Поэтому и разница с 10b совсем небольшая

Аноним 08/12/25 Пнд 15:35:39 № 1446735 362

>>1446728
Ну хоть кто то указал на слона в комнате. До сих пор катаю немотрона в iq2 и считаю что он лучше q6 air и q4 жирноквена

Аноним 08/12/25 Пнд 15:41:24 № 1446743 363

>>1446725
>Чего тебя так корёжит ?
Где ты увидел корёженье?
>Что у нас появилась 10B умница ?
У тебя пробел перед вопросительным знаком появился, уёбище.
>>1446728
Ну по факту не 12. Хотя бы 24 там есть. Так что вопрос остаётся.

Аноним 08/12/25 Пнд 15:42:43 № 1446744 364

>>1446743
>уёбище
Сочный подрыв уёбка
>Ну по факту не 12. Хотя бы 24 там есть.
Расскажешь как посчитал ?

Аноним 08/12/25 Пнд 15:47:30 № 1446747 365

>>1446744
>Сочный подрыв уёбка
Ещё и без точек. Совсем неграмотный.
>Расскажешь как посчитал ?
По ощущениям. Я его запускал, да, в отличии от 10B инджоера.

Аноним 08/12/25 Пнд 15:48:05 № 1446748 366

>>1446747
>По ощущениям.
Ааа, ты так чувствуешь ? Понял принял обработал :^)

Аноним 08/12/25 Пнд 15:48:49 № 1446751 367

>>1446695
>However, the model still has several limitations and issues that we will fix as soon as possible:
>Pure text QA capabilities still have significant room for improvement. In this development cycle, our primary focus was on visual multimodal scenarios, and we will enhance pure text abilities in upcoming updates.
>The model may still overthink or even repeat itself in certain cases, especially when dealing with complex prompts.
Не сделали. Абсолютно. Нихуя.

Аноним 08/12/25 Пнд 15:56:04 № 1446758 368

>>1443799
> если ЛЛМ тебе пишет что она девочка-лисичка - НЕ ВЕРЬ ЕЙ, она пиздит.
Неправда, она настоящая, и хвост у нее пушистый!
>>1446722
> чтобы сетка срала в личку "Заебал, где ты?", а в том, чтобы у неё был внутреннее состояние, на основе которого и принимались бы решения
Подумать головой вместо нытья? Запрос с прошлой историей, памятью, текущем времени, прочим и требованием принятия решения о: доебе до юзернейма в личку с таким-то сообщением, ожидании на N часов/минут, создания какого-то особого сообщения/действия вплоть до вызова агента, который поищет мемы по тематике и скинет тебе актуальный.
> проблема говёных бенчей
Даже в линейном представлении разница там значительна, не видишь отличий? И то там бенчи прежде всего на визуальную часть и работу с ней.

Аноним 08/12/25 Пнд 16:15:06 № 1446794 369

>>1446722
>Испорченный вижином, лол. Увы, судя по всему, на данный момент мультимодальность нихуя не бустит общие мозги, кроме специфичных задач.
Я на это смотрю с другой стороны. Без вижена - есть 4.5. А вижен к нему - лично мне хотелось. Возможность сунуть ему картинку и сказать "запили мне персонажа на основе картинки" - лично мне не хватало. Мистраль умеет, гемма умет, а Air - технически не мог. Теперь и он сможет. :)

Аноним 08/12/25 Пнд 16:15:59 № 1446795 370

Ждём поддержку вижена глм в жоре еще 4 месяца

Аноним 08/12/25 Пнд 16:16:32 № 1446796 371

>>1446794
Любитель накатить, ты о чём вообще?
https://huggingface.co/zai-org/GLM-4.5V
До сих пор нет поддержки в Жоре. Держу в курсе, с пробуждением

Аноним 08/12/25 Пнд 16:18:00 № 1446797 372

>>1446794
Он все мог еще с августа. С добрым утром
https://huggingface.co/zai-org/GLM-4.5V

Аноним 08/12/25 Пнд 16:19:58 № 1446800 373

>>1446796
>До сих пор нет поддержки в Жоре
Похуй на него, можно и на этом
https://huggingface.co/Intel/GLM-4.5V-int4-AutoRound

Аноним 08/12/25 Пнд 16:20:14 № 1446801 374

>>1446758
>Подумать головой вместо нытья?
Хоть удумайся, но всё это костыли вокруг текста.
>>1446794
>запили мне персонажа на основе картинки
Так это... Делаешь перса в гемме, играешь на глм.

Аноним 08/12/25 Пнд 16:22:42 № 1446805 375

>>1446796
>>1446797
А... Ну бывает. Провтыкал. Очередной Qwen Next получается?
(Не, я не любитель накатить, я тупо прошляпил/купился.)

Аноним 08/12/25 Пнд 16:25:57 № 1446810 376

>>1446801
>Так это... Делаешь перса в гемме, играешь на глм.
Дык так и приходится. Но это же модели переключать надо - а это минуты 4-5 на моем калькуляторе на перезагрузку уходит. HDD однако. А тут бы сразу все было. :)

Аноним 08/12/25 Пнд 16:27:26 № 1446811 377

>>1446795
>>1446796
Там много какой поддержки нет, если весной они как-то шли на подъем, латали баги и была надежда, то сейчас сдрефили, срутся и ломают все. При наличии достаточной врам лучше держаться от него подальше.
>>1446801
Ты сам по своей сути - тот еще костыль, вокруг бессмысленного сохранения сомнительного генокода, смекаешь? Многие вещи могут казаться неоптимальными на первый взгляд, но при устранении недостатков становятся наилучшими.
Если уж такой радикалист - запили мелко-среднюю модельку для вмешательства в активации/контекст ллм чтобы добавить желаемое, играться с моделью уровня геммы 4б доступно с обычным железом.

Аноним 08/12/25 Пнд 16:31:57 № 1446814 378

А вот Minisforum MS-S1 MAX AI норм для нейронок?
https://store.minisforum.com/products/minisforum-ms-s1-max-mini-pc
На озоне сейчас 183 т.р. + 26 т.р. = 210 т.р., норм?

Подороже GMKtec (был), но выглядит серьёзнее.

Нужен именно мини-ПК, а не ваши стойки с жпу.

Аноним 08/12/25 Пнд 16:35:21 № 1446825 379

Это какой то троллинг.
Выпуская 4.6 "мы вложили все силы в наш флагшип эир будет позже"
3 завтрака и 2 мор викс later
Выпускают эир "ну мы вложили все силы в вижен, на текст в принципе похуй в будущем займемся"

Аноним 08/12/25 Пнд 16:38:17 № 1446832 380

>>1446814
Спроси в треде про минипк в hw, тут такие минипк никто не покупал и вряд ли разбирается какая фирма норм, а кто говно клепает. По железу норм но стойка лучше

Аноним 08/12/25 Пнд 16:38:47 № 1446837 381

>>1446796
не все так плохо https://github.com/ggml-org/llama.cpp/pull/16600

Аноним 08/12/25 Пнд 16:40:29 № 1446842 382

image 40Кб, 1207x193

Бляяя, петухи из анслот начали через iMatrix квантовать. Помянем русик. Ну и кто там последний слон остался, делающий нормальные кванты без этого говна? Mradermacher?

Аноним 08/12/25 Пнд 16:43:16 № 1446845 383

>>1446810
>HDD однако.
Ебать ловите динозавра.
>>1446811
>Ты сам по своей сути - тот еще костыль
Не спорю. Но всё ещё лучше, чем нейронка. Но увы, купить тяночку в рабство немного незаконно.
>Если уж такой радикалист - запили мелко-среднюю модельку для вмешательства в активации/контекст ллм чтобы добавить желаемое, играться с моделью уровня геммы 4б доступно с обычным железом.
Сложное, но думаю над этим.
>>1446814
>AI Enthusiasts
Судя по всему, весь их энтузиазм ограничился ии-высеранутыми картинками вместо реальных фоток.

Аноним 08/12/25 Пнд 16:52:56 № 1446850 384

Снимок экрана8-[...].jpeg 412Кб, 882x1545

Снимок экрана8-[...].jpeg 365Кб, 855x1203

Снимок экрана8-[...].jpeg 254Кб, 873x600

>>1440877 (OP)
Еще один интерфейс для запуска на мобильном
устройстве с Android, у автора занятные проекты,
например офлайн фейс рекординг через FaceNet.
https://github.com/shubham0204/SmolChat-Android

Аноним 08/12/25 Пнд 16:55:14 № 1446851 385

>>1446845
>>HDD однако.
>Ебать ловите динозавра.
Цены на ССД видал?

Аноним 08/12/25 Пнд 16:58:22 № 1446856 386

>>1446851
ХДД тоже иксы сделали. Только самые большие без изменений пока

Аноним 08/12/25 Пнд 17:01:39 № 1446865 387

А че до сих пор иматрикс квантов для той геммы нет? Ну которая нормпрезерв-что-то-там. Я думал квантоделы все подряд херачат.

Аноним 08/12/25 Пнд 17:05:33 № 1446869 388

Снимок экрана8-[...].jpeg 753Кб, 3489x1515

>>1446856
Почему не пикрил?

Аноним 08/12/25 Пнд 17:06:48 № 1446870 389

>>1446716
На русском фигня какая-то, ИМХО.

>>1446842
Да и их анслот динамик русик убивал, у бартовски было лучше.

Аноним 08/12/25 Пнд 17:07:17 № 1446872 390

>>1446869
>чел купил 2х8тб за 30к
Ты ему предлагаешь купить в четыре раза меньший объем за большие деньги. Ты совсем отбитый что ли.

Аноним 08/12/25 Пнд 17:08:04 № 1446874 391

>>1446851
Ты по КД раз в неделю ПК меняешь что ли? Я 990 PRO 2ТБ за 16к брал.
Кстати, сейчас рофельная разница между 1ТБ и 2ТБ. В обычное время она х2 минимум.
>>1446869
Почему кто-то берёт 8ТБ жесткача по цене 4ТБ сосоди? Наверное потому что требуется х2 места.

Аноним 08/12/25 Пнд 17:11:16 № 1446875 392

>>1446872
Окей, зачем вообще харды на медленной сате сейчас? Как это связано в LLM? Просто хранение моделей? У меня например время старта увеличивается, когда модель находится на hdd, при сравнении запуска с SSD.

Аноним 08/12/25 Пнд 17:12:09 № 1446876 393

>>1446312
>Рп на эйре гонять? Единственная, практически "полезная" и осмысленная задача, в реалях. Но лично мне и опуса третьего было мало, я например не собираюсь с лоботомитами рпшить.
Можешь считать меня говноедом, но мне было бы достаточно запускать локально Llama 4 Scout или прошлогоднюю Llama 3 70b, потому что меня они полностью устраивают в теме "текстовый чатбот". Некоторые специфические знания у них есть, и мне достаточно того, что они могут в базовые задачи. В принципе не вижу смысла в большем размере. Я б наоборот, сократил модельку раз в 10, выкинув все избыточные знания (медицина и тому подобное).

Т.е. мне нужна конкретная Llama-персона и всё...

>уж слишком оторвались по качеству
По-английски это называется "diminishing returns" - напихивание в модель сотен миллиардов лишних параметров даёт +0.5% на специальном бенче и всё, реального роста интеллекта так просто не выйдет. Облачные чатботы вроде ChatGPT не на голой LLM работают, а окружаются кучей разных костылей, и локальная моделька с костылями может не хуже - проблема в том, что костылей этих у вас нет.

>денег свободных есть чем у того чела с ддр2
Я не нищий, а просто жадный. Зачем мне покупать новейший компьютер, если и старый работает и не жалуется?.. Но так уж вышло, что 8 GB DDR2 в 2025 маловато для нейронок, хотя топовые (по фану, а не дебильным графическим спецдефектам) видеоигры запускаются и работают без каких-либо проблем.

Аноним 08/12/25 Пнд 17:13:07 № 1446878 394

А у меня в общей сложности ~11тб хардов и ~2.5тб ссд.
Каждый раз, когда я хочу купить еще один ссд, я просто вспоминаю, что у меня просто говнищем ебаным все забито и иду его чистить.

Пока так и не появилось нужды что-то еще покупать.

>>1446875
А к чему связывать все с ллм? Храни на ссд парочку моделей, которые активно используешь. Храни ненужные в архиве на хдд - вместе с кинцом, порнушкой и прочим говнищем, которое не требует скорости.

Аноним 08/12/25 Пнд 17:15:53 № 1446883 395

>>1446856
А сделали потому, что хомячьё из-за новостей развело панику и кинулось всё скупать, скорее всего. В итоге в выигрыше те, кто вбросили новость и прогрели.

Аноним 08/12/25 Пнд 17:19:40 № 1446893 396

Снимок экрана 2[...].png 44Кб, 1311x174

Снимок экрана 2[...].png 51Кб, 1842x339

>>1446689
Нет mmproj FILE.
Работает с Qwen VL.

Аноним 08/12/25 Пнд 17:22:32 № 1446898 397

>>1446869
Я из HW скрины спёр. Алсо что за нищие TBW для 4тб, это QLC что-ли? У меня на гэймерском 2тб 2к.
>>1446875
>Окей, зачем вообще харды на медленной сате сейчас? Как это связано в LLM? Просто хранение моделей?
Еп. У меня только лор для имейджген моделей на пару терабайт, а они весят мегабайт 200 каждая. А уж ЛЛМ, где условный дипсик весит пол терабайта, и вовсе на ССД невозможно хранить, не вливая тонны бабала. 1-2 модели загружаешь на ССД, остальные ждут своего времени на ХДД. А ещё на них можно хранить фильмы/сериалы/аниме/прон. Всё это в 4к весит очень много. У меня из 60 тб свободно только 8, а мне ещё столько перед НГ скачать нужно

Аноним 08/12/25 Пнд 17:47:23 № 1446938 398

>>1446898
А тебе норм все это грузить с медленным хардов? Я например все с sata ssd на nvme ssd перекинул, потому что меня заебало ждать загрузку модели. А hdd это вообще ахуй

Аноним 08/12/25 Пнд 17:51:32 № 1446948 399

>>1446938
Я скидываю на ССД те модели которыми планирую пользоваться. Непосредственно с ХДД я только лоры гружу для генерации картинок, они маленькие так что похуй.

Аноним 08/12/25 Пнд 17:54:02 № 1446954 400

>>1446938
>ждать загрузку модели
Зачем? Ты не можешь в V/RAM держать 24/7?

ОЙ ДА ЗАЧЕМ ВАМ СТОЛЬКО RAM
@
МНЕ И ГЕЙМЕРСКИХ 16 ГБ ХВАТАЕТ
@
ОЙ, КАК ЖЕ ТЯЖЕЛО ЖДАТЬ ЗАГРУЗКИ

>>1446898
>У меня из 60 тб свободно только 8
Сколько терабайт оперативки в сумме?

Аноним 08/12/25 Пнд 17:59:46 № 1446963 401

>>1446637
>>1446651
как конпелируете? оптимизации типа BLAS/CUBLAS юзаете? сколько было т/с до и после?

Аноним 08/12/25 Пнд 18:02:13 № 1446973 402

>>1446954
>Ты не можешь в V/RAM держать 24/7?
Могу но зачем мне это делать? + Я использую несколько моделей
>МНЕ И ГЕЙМЕРСКИХ 16 ГБ ХВАТАЕТ
А реально хватает 16гб врам. А вот геймерских 32гб рам не хватило, докупил 64 озушки до подорожания
А вообще я конечно в ахуе как ты легко порвался с обычного вопроса

Аноним 08/12/25 Пнд 18:10:52 № 1446991 403

Забивание гвоздей микроскопом ИТТ: >>1446668
>сделай скрипт чтобы отправлять ей какой-нибудь фиксированный запрос в рандомное время, который будет триггерить ее писать тебе от лица персонажа что-нибудь из разряда "скучаю..."
Это ты тестишь ЯЗЫКОВЫЕ модели на МАТЕМАТИКЕ?
>Мням, ваша можель не может решить задачу:
>1694751963062736168 × 2794692694607036 = ?

>>1446689
>Лучше в цикле её крутить, а не по таймеру. То есть в системном промте прописать, что ты думаешь, и с тобой на связи не постоянно - ты можешь размышлять сама о чём захочешь
Если LLM не обучена на такой режим использования, наверняка запутается в своих же мыслях - будет тупо зацикливаться на чём-то очень тривиальном. Типа:
>Я должна сделать X. Попробую: Y... Y... Ой, нет, мне необходимо сделать X. Сейчас: Y... y... Ой, нет, не то...
И такое может длиться до бесконечности.

>А так может чего надумает в фоне и заведёт разговор непойми о чём после 2 часов самокопания. Это может быть интересно.
Если хочешь интересный рандом, то можно просто увеличить температуру до 2 и более. Нет смысла в симуляции внутренних мыслей, если тебе хватит совершенно случайной темы для разговора.

>>1446722
>Вообще, суть не в том, чтобы сетка срала в личку "Заебал, где ты?", а в том, чтобы у неё был внутреннее состояние, на основе которого и принимались бы решения. И не текстовое говно, а что-то более глубокое.
>>1446801
>Хоть удумайся, но всё это костыли вокруг текста.
Тебе нужны модели на базе RNN, например, эта:
https://en.wikipedia.org/wiki/Mamba_(deep_learning_architecture)
Там внутреннее состояние как раз "что-то глубокое".

Но вообще, моё мнение: внутреннее состояние имеет смысл только на короткой дистанции, около 15 минут реального времени (если рассматривать мозг и его ограничения), на дальней дистанции необходима пластичность связей нейронов, т.е. онлайн-обучение (обучение в процессе инференса или вместе с ним).

Аноним 08/12/25 Пнд 18:16:59 № 1447002 404

>>1446963
>BLAS
вангую, что бесполезно для пользовательских цп (на серверных - хз).
я собирал лламу c openblas/amd blis (fork blis) - улучшений не заметил. скорее всего из-за использования SIMD https://github.com/ggml-org/llama.cpp/discussions/4531#discussioncomment-7895224
проверял на цп от amd 8845hs

>>1446825
почему же? вполне обычная ситуация в разработке. мб была такая ситуация:

изначально видимо планировали выпустить 4.6, а потом быстро air. разраб/мелкий менеджер написали в твиттор. потом пришло начальство и сказало - "мы тут посчитали, и air на нашел апи продается хуже остальных моделей. хомякам надо или топ текст модель, или картинки етц. меняем приоритет - сначала базовая, потом VL, потом air"

Аноним 08/12/25 Пнд 18:32:30 № 1447030 405

>>1446856
Возьми отработку датацентров, они в разы дешевле по цене на объем, а по надежности на следующие 5-8 лет окажутся даже лучше моделей для "домашнего использования".
>>1446875
> зачем вообще харды на медленной сате сейчас
Нужны харды на sas? Не то чтобы он сильно быстрее и это роляло. И, очевидно, харды для хранения больших объемов, которые не требуют быстрого рандомного обращения, модельки закинь на ссд и будут грузиться быстро.
>>1446898
> TBW
Что-то на нищукском, обычно измеряют в DWPD.
> из 60 тб свободно только 8
Такая большая коллекция фильмов? Обычно один весит ну гигов 30, тайтл аналогично, ну может 50. Проблема свободного места офк всегда актуальна, просто интересно чем забиваешь.
>>1446954
> Зачем? Ты не можешь в V/RAM держать 24/7?
Рофлишь чтоли? Если ты не сферический вялый кумер на эйре, то как минимум будешь пользоваться несколькими моделями под разные задачи, и помимо ллм есть множество других активностей и занятий, которые требуют врам-рам.

Аноним 08/12/25 Пнд 18:37:36 № 1447044 406

image.png 562Кб, 2222x615

Волчиц в этом треде оплодотворяют?
gemma3-27B-it-abliterated-normpreserve-Q8_0
Но это больше заслуга промпта на раскрытие коротко описываемых юзером событий через ощущения чара.

Аноним 08/12/25 Пнд 18:38:54 № 1447051 407

>>1447002
Ты же понимаешь что щас через 2 месяца релизнут глм 5 и только тогда возьмутся за эир?
В общем я уже думал что они эир 5.0 готовят с такой задержкой, а они даже 4.6 сделать не смогли, пидорасы.
Мистраль туда же.
Всё же геммочка это единственный путь

Аноним 08/12/25 Пнд 18:58:47 № 1447098 408

>>1447051
возможно 4.6air вообще не будет

>So this is 4.6 Air?

>>4.5V was based on 4.5 Air, so this time they probably wouldn't release a dedicated Air model since 4.6V supersedes both.

>please compare
>https://huggingface.co/zai-org/GLM-4.5V
>https://huggingface.co/zai-org/GLM-4.5-Air
>also Air is supported by llama.cpp

>>IME, air was identical to the vision one and I never used air after the vision came out. The chats were the same.
>>Aren't the # of active parameters equal?

https://old.reddit.com/r/LocalLLaMA/comments/1phaaon/glm46v_108b_has_been_released/

Аноним 08/12/25 Пнд 19:01:11 № 1447104 409

>>1446991
>RNN
Говно без задач с памятью в один токен.
>>1447030
>Нужны харды на sas
Хули толку от быстрого разъёма, когда харды едва за САТА1 перешагивают.
>>1447044
>головка члена коснулась шейки матки
Вот нихуя не приятно на самом деле.
>>1447051
Так гемма тоже походу всё, уже сколько нет четвёртой.

Аноним 08/12/25 Пнд 19:03:34 № 1447111 410

>>1447030
>как минимум будешь пользоваться несколькими моделями под разные задачи
Какие задачи у LLM кроме написания вялой порнухи? Интересуют давно, но не нашёл примения в быту.

>и помимо ллм есть множество других активностей и занятий, которые требуют врам-рам.
Сколько VRAM нужно игре? 2 ГБ? 4 ГБ? Из 128 ГБ... Остальным программам VRAM вообще не нужно (относительно потребления видеоиграми). Т.е. можно определить 90% памяти под LLM, остальное под игры.

Аноним 08/12/25 Пнд 19:06:48 № 1447120 411

>>1447104
>Говно без задач с памятью в один токен.
Что ты пробовал из RNN на практике?
Так-то головной мозг - это RNN...

Аноним 08/12/25 Пнд 19:09:20 № 1447127 412

>>1446716
Не понял, это моэ или плотная 9b модель?

Аноним 08/12/25 Пнд 19:09:24 № 1447128 413

>>1447098
Я думал 4.5v на основе 4.5 глм 355б
Тогда ещё больше не понятно че они делали вообще и нахуя решили все силы в вижен вложить когда он уже был готов в прошлой версии

Аноним 08/12/25 Пнд 19:16:34 № 1447148 414

>>1447127
большая мое, мелкая - вроде плотная

Аноним 08/12/25 Пнд 19:18:46 № 1447157 415

>>1446710
>Представлять мое ебало и не нужно.
я уже путаюсь. это "твое" или "МоЕ" ебало?

Аноним 08/12/25 Пнд 19:33:21 № 1447170 416

>>1447120
>Что ты пробовал из RNN на практике?
RWKV (а есть другие?).
>Так-то головной мозг - это RNN...
В общем и целом нихуя не так. Как минимум, мозг отслеживает несколько объектов (которые выбирает сам, а не бездумно обновляет каждое прочитанное слово), а как максимум есть долговременная память, да и записки какие-нибудь.
>>1447148
Потная, инфа сотка. В обзоре файлов модели на хайгинфейсе видно.

Аноним 08/12/25 Пнд 19:50:08 № 1447202 417

>>1447148
Пасиба!

В общем погонял ее немного общими запросами к ассистенту. Тут вроде норм, пишет складно, отвечает хорошо, но не прям вау - типичная мелкомодель. Думоет на англюсике, отвечает на русском. Русик примерно как в Эйре (говняный).

В РП - плохо, ушла в луп после пары минут общения. Сами ответы так себе ну может это я просто крупными моэ зажрался.

Короч моё мнение: не нужна. Очередной обрубок обученный на слопе Гемини. Лучше уж Гемму 12b юзать, если комп картошка.

Аноним 08/12/25 Пнд 19:52:21 № 1447205 418

>>1447170
>RWKV (а есть другие?).
Лол, я ж ссылку кинул. Mamba - это не RWKV, это две принципиально разные архитектуры моделей. Но где протестировать можно - без понятия, вряд ли они их выкладывали в общий доступ вообще. Их вообще агрессивно затроллили какие-то конкуренты...

А так, RNN - это зонтичное понятие, по сути "цикл".

>>Так-то головной мозг - это RNN...
>В общем и целом нихуя не так.
Хочешь сказать, что в мозге нет циклов - и вся твоя информация проходит в единственном направлении, начинаясь от рецепторов и кончаясь мышцами? Это устаревшее понимание работы нервной системы... Приблизительно на полвека устаревшее. На сегодня очевидно, что в мозге очень много циклов (т.е. RNN).

>мозг отслеживает несколько объектов
За счёт чего? "Контекста"? А где он может храниться? Очевидно же, что мозг буквально гоняет по кругу все сигналы, которые ему "интересны", т.е. это RNN.

>как максимум есть долговременная память
Справедливости ради, у людей с амнезией, которая запрещает создание новых воспоминаний, текущая функциональность сохраняется, т.е. долговременная память не нужна ИИ для того, чтоб "быть человеком".

Алсо, ты никогда не замечал, что намного проще запоминается в долгосрочной памяти то, что ты несколько раз повторяешь мысленно или вслух? Очевидная цикличность нервных связей очевидна.

Так что текущие трансформеры - дикий костыль...

Аноним 08/12/25 Пнд 19:56:44 № 1447208 419

Сейчас такой сетап:
> PCIE X16_1 (4.0 x16): RTX 5080
> PCIE X16_2 (3.0 x4): RTX 3090
Где-то 30 т/с генерирует на 24 - 30б моделях, процессинг 500 - 1000 хуй поймешь как считать.

Думаю над еще одной видимокартой. Будет так:
> PCIE X16_1 A (4.0 x8): RTX 5080
> PCIEX16_1 B (3.0 x8):
> PCIEX16_2 (3.0 x4): RTX 3090

Не могу сказать, что мне нужно ещё +24гб - хватило бы и +16гб.
Целесообразно ли брать что-то кроме 3090й? Каких скоростей ожидать, если вставить 4060 Ti или 5060 Ti, 16-гигабайтную разумеется?

Юзкейс - чисто всё в VRAM, никаких моэ-извращений с выгрузкой в оперативку.

Аноним 08/12/25 Пнд 19:57:34 № 1447209 420

>>1447208
Забыл уточнить, хуета для бифуркации есть и уже опробована. Все работает, нужна только 3я видимокарта.

Аноним 08/12/25 Пнд 20:05:03 № 1447224 421

>>1447205
>На сегодня очевидно, что в мозге очень много циклов (т.е. RNN)
Именно. Много асинхронных циклов, в отличии от одноцикловой RNN.
>За счёт чего?
Лол, если бы мы знали, что это такое...
>Справедливости ради, у людей с амнезией, которая запрещает создание новых воспоминаний, текущая функциональность сохраняется
Да, но кошкодевочку, которая каждые 5 минут спрашивает моё имя, я бы не хотел.
>>1447208
>Целесообразно ли брать что-то кроме 3090й?
Не особо. Разве что ты не хочешь брать паль из под майнера, тогда RTX 5070 Ti твой выбор.
И да, не факт что получишь прирост, я уж молчу про бифукацию главного слота. Была бы там пятая псина, ещё бы куда не шло, но ты сэкономил на материнке, так что увы.

Аноним 08/12/25 Пнд 20:10:37 № 1447235 422

Скачал 6 квант мелкого GLM 4.6V. С русиком большие проблемы, в ризонинге видел только китайский и инглиш. Недавний Ministral лучше

Аноним 08/12/25 Пнд 20:11:55 № 1447238 423

>>1447224
Да это вообще старая АМ4 материнка, мне норм.
Просто я когда поменял местами 3.0 х4 на 3.0 х8 для 3090й (подключил через бифуркацию первого слота) - скорость осталась прежней, ноль изменений. Вот и думаю че за хуйня и чего ждать с 3й карточкой.

А то может мои 30 токенов это какая-то средняя шизоидная температура по палате всей системе и вдруг меняй-не меняй, все одинаково? Просто 50 - 60к за 3090 переплачивать не хотелось бы ради лишних 8гб, когда есть альтернативы вдвое дешевле.

Надо поискать, может где-то на проверку можно взять карточку под залог...

Аноним 08/12/25 Пнд 20:13:04 № 1447241 424

>>1447238
Кек, или просто купить и если что вернуть с ИЗВИНИТЕ НЕ ПОДОШЛА.

Аноним 08/12/25 Пнд 20:14:05 № 1447244 425

>>1446938
Лично мне (с меня это обсуждение началось) - почти всё норм с HDD. Ну реально: да, пусть запуск Air или Осы - 3-5 минут. Но разовая же операция, можно и подождать. А что-то большее у меня все равно не заводится.
Вот если надо туда-сюда свапать постоянно - тогда, да, это уже не комфортно совсем. Но таких задач у меня вообще-то и нет. Кроме, разве что - вышеописанного кейса с заменой модели от геммы для создания перса на Air для игры.
Так что - пока SSD по параметру "цена за гиг" HDD не переплюнут - основная библиотека барахла будет на HDD.

Аноним 08/12/25 Пнд 20:26:10 № 1447263 426

>>1447111
Странные у тебя суждения, больше похожи на "как сказать что ты обладатель отсутствия не говоря напрямую".
>>1447208
> Целесообразно ли брать что-то кроме 3090й?
V100 разве что, но там много нюансов. 3090 топ за свои деньги, там или прыжок цены, или прыжок предолинга и ограничения.
Если активно пользуешься жорой с выгрузкой весов в рам - возможно не лишним будет оставить основную карту в х16 слоте а вторую уже пихнуть в чипсетные линии. На фуллврам пофиг. Если активно инфиренсишь что-то еще и там есть выгрузка (большие картиночные и видеомодели) то пара х8 будет оптимальнее при условии одновременного запуска. Алсо вторые х8 будут тоже в 4.0.
>>1447238
> мои 30 токенов
Ну типа если ты хочешь покупкой второй видеокарты увеличить скорость одного потока модели, которая и так помещается в память - для тебя плохие новости. Тензорпараллелизм экслламы может дать, но на небольших моделях там не будет радикального увеличения, больше скейл окажется от батчей (он же будет на одной карточке). Если хочешь катать модели побольше или тебе подходит ускорение увеличением параллельных запросов то бери конечно.

Аноним 08/12/25 Пнд 21:03:05 № 1447358 427

>>1447263
>V100 разве что, но там много нюансов
А по подробнее можно? Я как раз планировал заказать себе

Аноним 08/12/25 Пнд 21:33:45 № 1447424 428

>>1447358
На данный момент инфы немного. Чекни прошлый тред, там анону такая дошла и он отписывался. На данный момент изветно что по перфомансу в llamacpp она немного медленнее 3090 (десятки процентов, не более), по скорости в sdxl на лоурезах также. В целом, это согласуется со спеками, у карточки не самый плохой компьют и память почти 900гб/с, что в сочетании с 32гигами объема делает ее привлекательной. Пока непонятно что там с перфомансом в крупных генераторных, скорее всего все плохо из-за отсутствия нативной поддержки bf16 (при появлении торчем автоматически кастится в fp32 и считается в нем) и 8бит. Также проблемой будет отсутствие нативной поддержки всяких оптимизаций внимания, тот же фа собрать возможно, но потребует пердолинга, по той же причине смутные перспективы поддержки в exllama3. Хотя если карточка станет популярна - все под нее уже сделают, это не p40 где совсем полный финиш с компьютом.

Аноним 08/12/25 Пнд 21:37:31 № 1447429 429

>>1443604
>Судя по пейперам, сжатие LLM не так-то просто, и с некоторого размера сжимать без потерь "базового интеллекта" уже не получается.
>Почему так, лично не понимаю; как по мне, знания из каких-то особенных областей жизни должно занимать больше, чем этот "базовый интеллект"; скажем, должно быть проще натренировать "адекватно мыслящего человека", чем "программиста, способного с ходу писать программы", однако на практике мы видим "coder" мини-модели и практически полное отсутствие ума у мини-моделей.
Ты не в ту сторону думаешь. Модель не сжимается, она буквально изменяется. Потому что ты пытаешься округлить веса до какого-то ближайшего значения и собственно пишешь вместо исходного веса другое значение.
До какого-то момента нейронка терпит, а потом начинает разрушаться. Этот процесс довольно плавный и экспоненциальный.
Возьми квант, разверни его в фулл точность. Получи разницу от исходной модели. Эту разницу ты считай и внес в модель своим квантованием. Можно посчитать чисто по сумме значений, на сколько все плохо. Можно чуть умнее, по градиентам и дисперсии. Чем больше градиент по весу, тем он важнее был для нейронки, чем больше дисперсия (насколько сильно этот градиент пидорасит по весу от семпла к семплу) тем вес еще важнее. Даже малое изменение таких весов может серьезно ломать нейронку.
Там этой темы касался один русский чувак в своих докладах. Могу найти если интересно.
Это прям по пикрилу, ландшафт функции потерь. Его считают добавляя рандомный шум к модели, (исходная в центре, по осям один и другой сид шума в + и в -). Шум квантования есть тот же самый рандомный шум. Ну, только распределять его стараются не рандомно, а туда куда он меньше поднасрет.

>При этом трансформеры открыли в 2017, а языковые модельки тренируют уже не первый десяток лет, так почему же до сих пор нет понимания, как спрессовать ИНТЕЛЛЕКТ
Дистилляцией или всякими прунингами можно, но...
>а не узкоспециализированный датасет?..
Все эти дистилляции и прунинги отталкиваются от датасета. Придумай такой датасет и лоссфункцию, которые вычленят только интеллект модели, и у тебя все получится.

>>1443629
>не выглядит ли "сжатие" попыткой ужать пространство, со всеми вытекающими последствиями? Ну то есть ты сжал - и условная "рабочая область" соображалки катастрофически уменьшилась, как уменьшилось бы число доступных координат на каких-то условных осях пространства.
Вот это правильная мысль, но есть нюансы. Если ты изначально учишь модель в низкой точности, то "рабочая область" действительно сужается. Но когда модель уже обучена, она довольно устойчива и избыточна. Ей эта самая "рабочая область" как бы была нужна только чтобы обучиться. Чтобы найди всякие закономерности и плавно подогнать веса под нужную конфигурацию. Модели действительно можно сжать очень сильно и без потерь. Просто на больших пока не умеют.
Но касательно квантования потери возникают чисто от того что вносится шум в веса. Сами вычисления остаются в той же точности. Есть еще такая штука как SVDQuant, там квантуются еще и "вычисления" чтобы задействовать ускорение на новых видюхах. То есть еще и вносится доп шум в сам процесс вычислений. Но его там хитро минимизируют.

>>1446814
>А вот Minisforum MS-S1 MAX AI норм для нейронок?
Для ллмок пойдет, для диффузий хуйня (в стоке).
Minisforum это хороший бренд. Beelink еще норм. GMKtec хз, но вроде не самый плохой, но я бы брал первые два. Смотри чтобы было потенциально место под видюху, или чтоб oculink был хотя бы.
У Beelink бывает специальный полноценный разъем под док станцию с видюхой, но в мелких, в топовой серии их может нет, хз. Тут же типа "пиздатая" встройка. (Пиздатая только для игр).
>На озоне сейчас 183 т.р. + 26 т.р. = 210 т.р., норм?
200+к многовато... Но учитывая кризис, наверное норм.
>Нужен именно мини-ПК, а не ваши стойки с жпу.
Если так, то тогда бери пока не подорожало, с макс памятью обязательно.

>>1446825
Зато они сделали топовую диффузионку. Прям то что надо.

>>1447424
>В целом, это согласуется со спеками
ВОт хз, я смотрел по спекам чисто по флопсам там должно быть в 2-3 раза хуже, как минимум, а не "немного медленнее".

Аноним 08/12/25 Пнд 21:44:17 № 1447445 430

>>1447424
>Хотя если карточка станет популярна
Её цена взлетит в небеса, лол.
>>1447429
>чисто по флопсам
А какие флопсы ты считаешь? А то невидия любит указывать всякую срань, типа для блеквелов "AI TOPS", то есть вычисления в 4 битах, и сравнивают это с 16 битами прошлых поколений, рисуя иксы увеличения производительности, хотя по факту там 20%, лол.

Аноним 08/12/25 Пнд 21:54:00 № 1447482 431

>>1447429
> я смотрел по спекам чисто по флопсам
В контексте ллм для генерации (при заведомом наличии неднищенских флопсов) на первом месте псп врам, для обсчета контекста - флопсы в половинной точности. У 3090 940гб/с, у v100 900гб/с, практически паритет. В половинной точности у 3090 35.6тфлопс, у v100 31.3, разница чуть больше 10%. Где ты нашел в 2-3 раза хуже?
>>1447445
> Её цена взлетит в небеса
По примеру теслы та держалась достаточно долго, и только когда чистильщики обуви о ней узнали все полетело вверх. Возможно это так совпало с истощением их запасов, но нельзя не отметить что v100 уже торгуется по оверпрайсу относительно цен на китайских площадках. Если ты достаточно прошаренный, готов потратить времени и рискнуть - можно взять там, особенно актуально если хочешь сразу целый риг.

Аноним 08/12/25 Пнд 21:57:52 № 1447496 432

>>1447263
>Тензорпараллелизм
Не, это меня не заботит. Я просто пытался этот вопрос задавать дипсику, он мне высрал что если добавить не еще одну 3090, а допустим 5060 Ti, то скорость упадет с 30 до 20 токенов в секунду.

Увеличивать скорость мне неинтересно. Я бы не хотел ее существенно потерять.

Аноним 08/12/25 Пнд 21:59:08 № 1447501 433

>>1447111
> Какие задачи у LLM кроме написания вялой порнухи? Интересуют давно, но не нашёл примения в быту.

хороший вопрос.
мнение? в чём он неправ? что ты можешь ей дать?

Аноним 08/12/25 Пнд 22:06:33 № 1447523 434

>>1446184
Я лишь показал результат работы моей модели

Аноним 08/12/25 Пнд 22:09:37 № 1447530 435

>>1447445
>А какие флопсы ты считаешь?
Да вроде правильные...
>>1447482
>В контексте ллм
Там анон в sdxl тестил, что странно, ведь в ней чисто флопсы решают, и у него она не сильно отставала. То что скорости памяти там схожие, для ллм это логично.
>Где ты нашел в 2-3 раза хуже?
По этим таблицам, хз, может я не туда смотрю? Вроде на нужные строки без разреженности и всяких фп8.

Аноним 08/12/25 Пнд 22:16:09 № 1447544 436

>>1447530
Без разреженности, но тензорные ядра стоит учитывать. А это 112 против 142, что очень даже согласуется с разницей с итоговой производительности.

Аноним 08/12/25 Пнд 22:39:08 № 1447603 437

>>1447544
>тензорные ядра стоит учитывать. А это 112 против 142
Но они же на разных архитектурах. Разница есть, хз насколько. Вот здесь как минимум в 2 раза если я правильно читаю (а читать я умею плохо, так что смотрите сами).
И вот че еще нейронка пишет. Кароч по одним этим цифрам нихуя не понятно. Надо на тесты смотреть.
https://images.nvidia.com/content/volta-architecture/pdf/volta-architecture-whitepaper.pdf
https://www.nvidia.com/content/PDF/nvidia-ampere-ga-102-gpu-architecture-whitepaper-v2.pdf

Если кто-нибудь еще простестит как v100 обучает лоры для sdxl, с меня тонны нефти.

Аноним 08/12/25 Пнд 23:00:10 № 1447668 438

>>1447603
>Вот здесь как минимум в 2 раза если я правильно читаю
Ага. А самих ядер по числу в 2 раза меньше ))) Или ты думал тебе невидия насыпет +100% производительности за так?
>И вот че еще нейронка пишет.
Говно, как всегда.

Аноним 08/12/25 Пнд 23:24:30 № 1447701 439

>>1447496
Нашел чего/кого спросить, подобные ллм не имеют актуальных специфических и точных данных и подобных, а из общих соображений могут любой треш сгаллюцинировать.
Добавляя ты ничего не потеряешь в любом случае ибо никто не мешает оставить расчет в текущем режиме, но на тех же модельках без оптимизаций можешь просто не получить ускорений.
>>1447530
> ведь в ней чисто флопсы решают
Ну так разница 10% по бумагам. Потерпи пару-тройку (или больше) недель, мне доедет и затестирую подробно если тому не доверяешь.
> По этим таблицам
Смотри на fp16 compute, в той же sdxl чисто он один, разница невелика. Вообще, на 3090 и более новых можно инфиренс неплохо так ускорить (та же аккумуляция, но это + дцать процентов а не в 2 раза), возможно тот господин это не практикует. Но в любом случае в типичных кейсах без особой компиляции моделей, после которой они не очень то юзабельными становятся.
Но с учетом того, что более новые модели огромные и часто полагаются на 8-битные операции + новые оптимизации атеншна - v100 решение прежде всего для llm, тренить же на ней вообще ебнешься из-за отсутствия tf32 и халвинга фп32 относительно полновинной точности.

Аноним 09/12/25 Втр 00:39:00 № 1447868 440

>>1447701
Я скидывал конфигурацию всей это PCIE залупы и скидывал спеки видеокарт. Оно что-то там считало и долго думало, в итоге насрав на меньшую пропускную способность памяти у 5060 Ti по сравнению с 3090.

Аноним 09/12/25 Втр 07:40:37 № 1448040 441

>>1443604
>почему же до сих пор нет понимания, как спрессовать ИНТЕЛЛЕКТ
Самые ИНТЕЛЛЕКТУАЛЬНЫЕ на данный момент модели это мелкие модели от самсунга. Они не могут тебе написать эссе, но в AGI бенчмарках показывают доминацию. Проблема в том, что это само по себе проблема, когда модель с семью миллионами параметров в бенчмарке ARC-AGI-1 работает чуть лучше Опуса 4, а в ARC-AGI-2 на уровне с о3. Уровень интеллекта на параметр имаджинировал?

Аноним 09/12/25 Втр 08:21:39 № 1448080 442

https://huggingface.co/AliceThirty/GLM-4.6V-gguf

Аноним 09/12/25 Втр 11:02:23 № 1448151 443

>>1448080
Гуфов на флэш еще не подвезли?

Аноним 09/12/25 Втр 11:11:42 № 1448167 444

>>1448151
Подвезли почти сразу, вчера качал.

Аноним 09/12/25 Втр 11:21:59 № 1448183 445

>>1448167
О, вот я лох, что не гуглил

Аноним 09/12/25 Втр 11:36:31 № 1448208 446

AGI шизики захватили тред

Аноним 09/12/25 Втр 11:44:49 № 1448211 447

>>1448183
>>1448151
Бля, ну и хуйня, просто по кругу бесконечно одно и то же повторяет.

Аноним 09/12/25 Втр 11:45:57 № 1448213 448

>>1448211
Дал ему 30к контекста, он за один ответ все заполнил и ебанулся в край.

Аноним 09/12/25 Втр 12:03:15 № 1448217 449

>>1448208
Есть с чего пошизить, когда глядишь как корпы кинулись высасывать железо с срыночка. Вполне возможно что уже раздрачивают у себя там в подвалах AGI на скрытничах.

Аноним 09/12/25 Втр 13:13:35 № 1448266 450

>>1448217
Мем про AGI ACHIEVED INTERNALLY известен еще со времен гпт 3.5

Аноним 09/12/25 Втр 14:01:36 № 1448301 451

llamavers.png 62Кб, 1799x203

>>1446637
>>1446651
Потестил три версии (6718, 7330 и хз какая, которая у меня стоит) GLM Air Q4KS на моем рандомном чате. Разница в пределах погрешности

Аноним 09/12/25 Втр 14:39:24 № 1448328 452

Почему карточки в таверне грозятся зарепортить меня модератору за мои реквесты?

Сама по себе модель с убраной цензурой и все генерит

Аноним 09/12/25 Втр 14:52:39 № 1448349 453

>>1448328
Модератору? Да тебя за твои запросы сразу тов. майору репортить надо. Зарепортил, суши сухари.

Аноним 09/12/25 Втр 15:00:30 № 1448366 454

3 месяца сидел на Q3KS - air
Перешел на Q8. 2 неделя - полет нормальный.
Хочу сказать одно.
Кто этот негодник, кто рассказывал что ниже Q5 жизни нет, пора принимать струю урины в лицо. В рамках РП различия терпимы. Сущности путает чуть меньше, абзацы не прыгают, разметку проебывает чуть меньше. Но все это терпимо. Так что дизреспект тебе за ложь, пиздежь и провокацию.

Аноним 09/12/25 Втр 15:04:33 № 1448377 455

>>1448366
>ниже Q5 жизни нет
Ниже Q6.

Аноним 09/12/25 Втр 15:07:01 № 1448380 456

>>1448366
Считаю Qwen3-235B-A22B-Instruct-2507-UD-Q2_K_XL (83 гига) лучшей моделью для РП на русском до 100 гигов. Был бы в q1 - юзал бы q1. У меня 3.5 токена в секунду на 64 gb ddr4 + 58 gb vram.

Аноним 09/12/25 Втр 15:09:30 № 1448384 457

Чувствуете это в воздухе, да?
Всем похуй на эир, итс овер.
Буквально новый квен некст, дождались чтобы ждать ещё.
>>1448380
Чел для русика только гемма, выкинь бяку

Аноним 09/12/25 Втр 15:10:24 № 1448385 458

>>1448377
Арбывалгх. Чтоб тебя метеоритом убило.

>>1448380
Разумеется, и ты имеешь право и это твоё мнение. Но я попробовал и то и то. И если ты просто ебешь дракониц и приключаешься, все таки рекомендую посмотреть в сторону воздушного. Распробуй. Он действительно умница.
Но опять же все это я говорю в рамках баренского инглиша.

Аноним 09/12/25 Втр 15:12:10 № 1448388 459

>>1448366
>кто рассказывал что ниже Q5 жизни нет
Я не он, но точка зрения анона имеет право на жизнь.Q6 максимально близок к Q8, Q5 близок к Q6, но уже есть разница, Q4 уже хуже Q5, но терпимо. На Q3 уже сильный провал в качестве по сравнению с Q4, а Q2 уже огромная пропасть с Q3
В шапке картинка есть на эту тему с тестами turboderp, он много моделей тестил и сравнивал разные кванты с его битами exl3.
Так что там есть жизнь, но она хуже
И при всем этом модель важнее квантов. Например на реддите говорят, что GLM Q2 может лучше Air Q8
https://www.reddit.com/r/LocalLLaMA/comments/1ml3k2m/glm45_air_q8_vs_glm45_iq2_xxs/?tl=ru
Но я бы на твоем месте просто Qwen 235 запускал

Аноним 09/12/25 Втр 15:18:04 № 1448394 460

>>1448388
> Но я бы на твоем месте просто Qwen 235 запускал
Я обладатель крайне специфичного сетапа 16+144. Проблема квеноняши и жирного глм кроется в моих 16VRAM. Но все равно пасеба, соберусь с силами чтобы ручками раскидать активку, обязательно еще раз попробую.

Аноним 09/12/25 Втр 15:46:34 № 1448464 461

>>1448377
ниже Q4

Аноним 09/12/25 Втр 15:47:32 № 1448466 462

>>1448380
> 64 gb ddr4 + 58 gb vram
> 3.5 токена в секунду
Эээ? Что-то явно не так если там не некротеслы.
>>1448394
> +144
Это как так?

Аноним 09/12/25 Втр 15:53:22 № 1448484 463

>>1448464
Ниже Q8.

Аноним 09/12/25 Втр 15:59:14 № 1448494 464

>>1448366
Это нюня рассказывал такие сказки

Аноним 09/12/25 Втр 16:14:57 № 1448515 465

>>1448366
я не плоскоземельщик, но не пынимаю, чому так много утверждений в этом треде принимаются за правду. ладно, что-то с железом протестить сам не можешь перед покупкой, или нет желая долбиться в сосноль что бы собрать какую-то дроченую либу для маловероятной оптимизации.
но в чем сложность скачать и запустит модель? особенно учитывая, что у людей представление о кач-ве может сильно отличаться?

Аноним 09/12/25 Втр 16:28:21 № 1448536 466

>>1448366
Никто и никогда это не рассказывал, кроме шизика со своей базой треда где жизни нет на квантах ниже q6.
Я один из тех кто писал что разница есть даже между q4 и q5. Возвращаю тебе струю урины в лицо. Если ты поверил наслово и из-за поста ноунейма на имиджборде докупил себе раму в надежде на большую разницу, то ещё и нахуй пошлю, шизло.
Остаюсь при своём мнении, до переезда на q5 сидел полтора месяца на q4 и вижу разницу каждый день.

Аноним 09/12/25 Втр 16:37:03 № 1448548 467

>>1448536
>разница есть даже между q4 и q5
С этим в общем-то никто не спорит. Спор тут вокруг того, можно ли сидеть на 5/4/3/2 битных квантах, или они совсем лоботомиты. И то, что ты успешно сидел на 4 битах полтора месяца, как бы подтверждают, что это вполне себе возможно. Вот и всё. А вы развели тут (впрочем как всегда).

Аноним 09/12/25 Втр 16:38:27 № 1448550 468

>>1448548
>А вы развели тут (впрочем как всегда).
Кто вы-то? Ты пришёл и разнёс несуществующего врага которого сам и придумал, ебанутый.

Аноним 09/12/25 Втр 16:43:10 № 1448553 469

Качал тут вновь 2 квант квена, который я раз 5 уже удалял, и решил дать шанс квену 80б некст.
В отличии от 235 квена этот у меня идет в 6 кванте и по ощущениям у них один датасет и одна цензура, т.е её полное отсутствие.
Кто гоняет 2 квант 235б будет полезно попробовать, я сам скорее всего не задержусь ибо квен подходит только для кума

Аноним 09/12/25 Втр 16:44:34 № 1448554 470

>>1448536
>между q4 и q5
Она заметна даже между iq4_xs и q4_k_s, перешел с одной на другую на эйре, качество ответов выше и русик реже ломается.

А вообще, если выкрутить температуру в ноль, то слюни не пускает даже Гемма 4b в Q2. Да, я тот шиз, что это проверял. Так что если нет возможности запустить нормальный квант какой-нибудь модели, то Q2 - лучше чем ничего.

Аноним 09/12/25 Втр 16:44:57 № 1448555 471

>>1448550
Все кто выше это вы.
>>1448553
Эм... А по другим параметрам как?

Аноним 09/12/25 Втр 16:51:56 № 1448563 472

>>1448548
> можно ли сидеть на 5/4/3/2 битных квантах, или они совсем лоботомиты
Они совсем лоботомиты, но на них можно сидеть, представляешь? Однозначно можно сказать что они непригодны для кодинга, в остальном depends.
> А вы
https://www.youtube.com/watch?v=ezCr9yhEGwM

Аноним 09/12/25 Втр 16:52:22 № 1448564 473

>>1448494
нет, базашиз - это другой человек.

мимо базашиз

Аноним 09/12/25 Втр 16:52:52 № 1448565 474

>>1448554
>между iq4_xs и q4_k_s
Какой из них лучше? И это результаты единичного теста, или ты достаточно много покатал оба варианта, чтобы исключить влияние рандома в семплинге?

Аноним 09/12/25 Втр 16:53:14 № 1448567 475

>>1448515
> но в чем сложность скачать и запустит модель?

с обниморды не качается чёто

Аноним 09/12/25 Втр 16:58:48 № 1448573 476

>>1448565
k_s конечно же. Ну как долго?.. С неделю где-то катал xs, потом перешел на k_s, и не нем пару недель плюс-минус. Не хотел перелезать, потому что второй вариант для меня прям ВПРИТЫК. Врам забита полностью, открыт только браузер, и озу остается буквально пара гигов свободных. Но имхо это стоило того по крайней мере при рп на русике.

Аноним 09/12/25 Втр 16:59:42 № 1448574 477

>>1448555
Ну это тупа квен 235-мини, если угодно
Отличия лишь в размере

Аноним 09/12/25 Втр 17:03:50 № 1448578 478

>>1448573
>конечно же
Если основываться чисто на теории, заметной разницы быть не должно. Как и с q4_k_m. Размер различается, да, а отклонение выдачи примерно одного порядка, по крайней мере на старых тестах мистральки 7B:
https://gist.github.com/Artefact2/b5f810600771265fc1e39442288e8ec9
>рп на русике
А, ну с этого надо было начинать. Небось ещё с матрицами влажности. Нет, я не утверждаю, что тебе не верю, может всё и так, как ты говоришь, но, как минимум, в моём случае требует перепроверки, я на английском с нейросетками общаюсь.

Аноним 09/12/25 Втр 17:12:44 № 1448584 479

>>1448574
Квен некст лоботомит и срет под себя сразу же. Ты о чем? Ах да, Квен 235 тоже...

Аноним 09/12/25 Втр 17:17:09 № 1448589 480

>>1448574
А еще должны быть в скорости! =D
Сделали инференс так, как лучше бы не делали.
Не, спасибо, конечно, но в ориге х2 от Qwen3-30b скорости, а в лламе /2, итого в 4 раза медленнее, чем должна была.
Вот это улучшения, вот это технология, вот это я понимаю. =D
Печалька, короче. Но чуваку спасибо, соло вытащил хоть что-нибудь.

Аноним 09/12/25 Втр 17:28:38 № 1448609 481

изображение.png 0Кб, 25x34

изображение.png 0Кб, 14x31

изображение.png 0Кб, 28x41

>>1448563
>Они совсем лоботомиты, но на них можно сидеть, представляешь?
Нет, не представляю. Либо первое, либо второе.
>>1448567
Как это лечить, все знают.

Аноним 09/12/25 Втр 17:44:06 № 1448625 482

>>1448589
> Сделали инференс так, как лучше бы не делали.
Сколько там скорость выходит и на каком железе?
>>1448609
> Нет, не представляю.
Свою девяточку сотым бензом тоже заправляешь, или может на атмо восмиклоп водометанол поставил?

Аноним 09/12/25 Втр 17:46:01 № 1448629 483

>>1448625
Я не автоблядь, твоих анал_огий не понимаю.

Аноним 09/12/25 Втр 17:54:26 № 1448636 484

>>1448629
Они заключаются в оверкиле для не требующих этого задач из-за безумных убеждений и максимализма.
Для большинства задач не завязанных на высокую точность квантование не вносит радикального импакта и является приемлемым компромиссом.

Аноним 09/12/25 Втр 17:59:48 № 1448640 485

>>1448563
>Они совсем лоботомиты
Ну не. Q5 и Q4 - не лоботомиты. А вот начиная с Q3 - уже да, идут серьезные потери качества. Но даже с ними, условная гемма 27b в Q2 будет умнее и лучше геммы 12b в Q8. И, да, в отличие от тебя, диванного, я это сравнивал и тестил.

Аноним 09/12/25 Втр 18:06:10 № 1448650 486

image 9249Кб, 13903x1626

image 2035Кб, 13903x1626

>>1448640
На пикчах показательнее всего, а ведь они хуже чем LLM квантуются. Всё до Q3 нормально работает.

Аноним 09/12/25 Втр 18:13:58 № 1448652 487

>>1448640
> Q5 и Q4 - не лоботомиты
Да, они уже лучше, хотя тоже могут фейлить. Суть в том что даже на Q2 в рп и чатиках можно довольно урчать и инджоить, и ты это косвенно подтверждаешь.
> в отличие от тебя, диванного
В голос.
>>1448650
Нет никакого смысла сравнивать одиночные пикчи и разглядывать под лупой мелкие вариации для оценки, которые сильно рандомны, это еще глупее тестов ллм "в детерминизме". Нужно смотреть статистику по ясным критериям, тогда будет понятно наличие и степень деградации. Иначе это просто натягивание на глобус эффекта рандомизации, который на другой пикче может в обратную сторону сыграть.

Аноним 09/12/25 Втр 18:15:46 № 1448654 488

>>1448553
>Кто гоняет 2 квант 235б будет полезно попробовать
Я гоняю, правда IM2-квант. Качнул 5KL от Бартовски, сравню как он для РП-ЕРП. 3В конечно, ну а вдруг.

Аноним 09/12/25 Втр 18:18:41 № 1448657 489

>>1448652
>В голос
Ну, "лоботомит" - довольно странно подобранный термин для модели в Q5. Отсюда сделал вывод что ты либо диванный теоретик, либо базашиз, лол.

Аноним 09/12/25 Втр 18:23:34 № 1448666 490

Давайте все дружно замолчим и позволим треду умереть.
Новых моделей нет, а те что есть кал, обсуждать нечего, хобби мертво

Аноним 09/12/25 Втр 18:24:49 № 1448668 491

>>1448657
Так это >>1448548 ставит все в один ряд, а дальше у тебя какие-то имплаи и спгс пошли. Хотя Q4 скорее лоботомит, особенно в типичных квантах жоры. Где-то с 5+ байт появляется какой-то намек устойчивую и стабильную работа без обилия явных мелких фейлов, насколько это понятие вообще применимо к ллм.

Аноним 09/12/25 Втр 18:25:05 № 1448670 492

>>1448666
Двачую. Когда все выходящие локалки соевее Грока - это пиздец.

Аноним 09/12/25 Втр 18:27:31 № 1448674 493

Мне одному кажется, что текст посередине более душевный?

Аноним 09/12/25 Втр 19:49:49 № 1448817 494

https://mistral.ai/news/devstral-2-vibe-cli

>Today, we're releasing Devstral 2—our next-generation coding model family available in two sizes: Devstral 2 (123B) and Devstral Small 2 (24B). Devstral 2 ships under a modified MIT license, while Devstral Small 2 uses Apache 2.0. Both are open-source and permissively licensed to accelerate distributed intelligence.

>We are also introducing Mistral Vibe, a native CLI built for Devstral that enables end-to-end code automation.

Аноним 09/12/25 Втр 20:01:56 № 1448838 495

>>1448817
А что ссылку на их говносайт кидаешь, а не на обниморду? Я даже сначала подумал, что закрытая хуйня, как их средняя модель
https://huggingface.co/mistralai/Devstral-2-123B-Instruct-2512
https://huggingface.co/mistralai/Devstral-Small-2-24B-Instruct-2512
И да, обе не нужны. Маленького в ноль убивает квенкодер 30b. А большой сольет тоже квенкодеру 30b 235, при том что будет медленнее. То что они указали только три бенча как бы намекают о качестве модели

Аноним 09/12/25 Втр 20:10:02 № 1448854 496

>>1448817
>Devstral 2 (123B)
Кто первый покумит?

Аноним 09/12/25 Втр 20:19:17 № 1448874 497

>>1448484
Ниже fp16

Аноним 09/12/25 Втр 20:28:39 № 1448889 498

Насколько 27b гемма, а точнее её рп тюн синтия тупеет если даёт вывод на русском? Пожалуйста скажите, упасите от траты времени.

Аноним 09/12/25 Втр 20:30:33 № 1448895 499

>>1448674
Для тех, кто не понял: "reservoir" требует на порядки меньше компута для тренировки и инференса, а качество результата не хуже, а даже получше выглядит. Учитывая, что тренировали на мёртвом старо-английском языке Шекспира, и там полно всякого мусора, который теперь не используется...

Аноним 09/12/25 Втр 20:32:41 № 1448897 500

>>1448889
80% отупения.
>>1448895
>Учитывая, что тренировали на мёртвом старо-английском языке Шекспира
То есть на тренировочном датасете в пару мегабайт.

ПЕРЕКАТ Аноним # OP 09/12/25 Втр 20:35:08 № 1448904 501

ПЕРЕКАТ

>>1448902 (OP)

ПЕРЕКАТ

>>1448902 (OP)

ПЕРЕКАТ

>>1448902 (OP)

сборка пк для генерации изображений Аноним 17/12/25 Срд 14:15:41 № 1458981 502

{7D1DA8C0-7777-[...].png 14Кб, 961x139

бюджет 230 тыс р, буду запускать stable difusion comfy ui, не брезгую бу, поресерчил, понял что идеальный варик будет 3090 24гб рузен 5 5600 и 64 гб памяти, что думаете насчет этого? в будующем может докуплю вторую 3090

Аноним 22/12/25 Пнд 09:13:17 № 1465021 503

>>1458981
1 - Вторая 3090 тебе не поможет, comfyui не поддерживает их нативно, и плата твоя тоже (см. количество линий pci на каждый слот и режимы линий pci в которых могут работать 2 слота pci-e x16). Разве что сможешь накрутить 2 параллельных генерации в сomfyui, и то вряд ли.
2 - Вариант отличный, 3090 тянет любую существующую модель картиночную, только на больших моделях - медленновато. Одно изображение 2k x 2k на неквантованном квене может 5 минут генериться.
3 - Я бы советовал простой конфиг в 3090 в пределах 100к. Эффект тот же самый будет.