Главная Юзердоски Каталог Трекер NSFW Настройки

Искусственный интеллект

Ответить в тред Ответить в тред
Check this out!
<<
Назад | Вниз | Каталог | Обновить | Автообновление | 119 23 34
Локальные языковые модели (LLM): LLaMA, Gemma, DeepSeek и прочие №150 /llama/ Аноним 25/07/25 Птн 19:56:56 1288430 1
Llama 1.png 818Кб, 630x900
630x900
Эффективность к[...].png 92Кб, 1399x1099
1399x1099
Реальная длина [...].png 481Кб, 1520x2266
1520x2266
17518920519090.png 2055Кб, 1455x1225
1455x1225
В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!

Базы треда не существует, каждый дрочит как он хочет. Базашизика дружно репортим.

Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.

Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.gitgud.site/wiki/llama/

Инструменты для запуска на десктопах:
• Самый простой в использовании и установке форк llamacpp, позволяющий гонять GGML и GGUF форматы: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Заточенный под ExllamaV2 (а в будущем и под v3) и в консоли: https://github.com/theroyallab/tabbyAPI
• Однокнопочные инструменты с ограниченными возможностями для настройки: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern
• Альтернативный фронт: https://github.com/kwaroran/RisuAI

Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux

Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/2ch_llm_2025 (версия 2024-го https://rentry.co/llm-models )
• Неактуальный список моделей по состоянию на середину 2023-го: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по чуть менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard

Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Перевод нейронками для таверны: https://rentry.co/magic-translation
• Пресеты под локальный ролплей в различных форматах: https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
• Выгрузка избранных тензоров, позволяет ускорить генерацию при недостатке VRAM: https://www.reddit.com/r/LocalLLaMA/comments/1ki7tg7

Архив тредов можно найти на архиваче: https://arhivach.hk/?tags=14780%2C14985

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.

Предыдущие треды тонут здесь:
>>1283995 (OP)
>>1280475 (OP)
Аноним 25/07/25 Птн 20:00:55 1288434 2
>>1287555 →
>я зассал что-то туда втыкать
А как оно по твоему работать будет?
Аноним 25/07/25 Птн 20:02:43 1288438 3
база треда:

- меньше 16GB жизни нет
- меньше Q6_K жизни нет. ниже q 4 даже говорить смысла нет, там реально истекающая слюной сущность сидящая в чулане и срущая под себя
- меньше 5 т/c жизни нет
- меньше 24B жизни нет
- меньше 8 каналов DDR4 жизни нет
- АМУде КАЛ, а куртка ТОП
- таверна говно
- тут полтреда токсичных уебанов, игнорируй хейт, опционально можешь ебать их мамок

копиум треда:

- Можно получить интересный опыт даже на маленьких моделях меньше 12b
- Не обязательно иметь мощное железо, чтобы попробовать текстовые модели. Но нужно иметь терпение:)
- Каждая модель может найти своего пользователя
- Чем больше модель, тем меньше она потеряет в мозгах при квантизации
- "я не смог разобраться с моделькой а значит она говно"
- "Базы треда не существует, каждый дрочит как он хочет"

дополняйте
Аноним 25/07/25 Птн 20:05:03 1288442 4
175346289482395[...].jpg 89Кб, 1480x1080
1480x1080
Ребят, я новенький смешарик.
Что можно поставить имея i5 4570, gtx 1650s, и 24гб рам?
Склоняюсь к гемме 3 27б. Но может что получше есть. Хочется максимально универсальную и умную модельку, чтобы когда инет перекроют был источник информации хоть какой-то.

Спасибо заранее всем.
Аноним 25/07/25 Птн 20:07:39 1288446 5
>>1288442
Добавлю что я терпеливый, и мне 5 токенов/с хватит вполне.
Конечно, ещё для рп что-нибудь, чтобы хотябы отдалённо напоминало клода..
Аноним 25/07/25 Птн 20:08:32 1288448 6
>>1288442
> Склоняюсь к гемме 3 27б
> имея i5 4570, gtx 1650s, и 24гб рам
Напрасно. 12б твой потолок с огромным скрипом, а так - 8б. Напиши спеки смарта, воззможно он будет пригоднее.

>>1288446
> я терпеливый, и мне 5 токенов/с хватит вполне.
Ты точно не жирный?
Аноним 25/07/25 Птн 20:09:02 1288450 7
>>1288446
>и мне 5 токенов/с хватит вполне
Боюсь даже твоя выбранная 27B столько не выжмет. Покупай видеокарту.
Аноним 25/07/25 Птн 20:11:44 1288456 8
>>1288448
>12б твой потолок с огромным скрипом,
Разве не от озу зависит? Я не так давно на 8гб ддр3 запускал гемму 3 12B Q3, со скрипом но генерировала.

Телефон на SD 8+gen1, 12 ram.

>>1288450
>Покупай видеокарту.
Эх. Я только недавно жтх купил эту.
Аноним 25/07/25 Птн 20:13:26 1288460 9
>>1288456
>Телефон на SD 8+gen1, 12 ram.
Я на нём уже кстати пробовал. Гемма 12B Q4 стартанула с ~2 токена/с.
Но телефон греется ебануто, такая себе затея по-моему.
Аноним 25/07/25 Птн 20:14:09 1288461 10
>>1288456
> Телефон на SD 8+gen1, 12 ram.
Реально лучше на нём будет. Качай qat гемму3 8б
Аноним 25/07/25 Птн 20:15:58 1288464 11
>>1288461
>Реально лучше на нём будет.
Да я пробовал уже. В 2 раза медленнее чем на пеке выпукивает.
Тестировал на Gemma 3n E4B Q6.
Аноним 25/07/25 Птн 20:16:06 1288466 12
Напишите мне список всех возможных глинтов, начиная с Пигмы. Ехидные блески, молодая ночь и вот это всё.
Аноним 25/07/25 Птн 20:19:15 1288472 13
Аноним 25/07/25 Птн 20:22:00 1288475 14
Блин, в перекат попал. Повторю вопрос.
Аноны, объясните нубу как заставить tts читать текст во время его написания. Я думал за это отвечает пункт в настройках Streaming Audio Generation. Но с этой штукой она молчать начинает.
Аноним 25/07/25 Птн 20:24:34 1288478 15
>>1288431 →
>Ты в каком часовом поясе живёшь?
Сибирь, ночь глубокая.

>>1288431 →
>Антибаза всё ещё в шапке, репортим
Ультрамегахарош, как тред похорошел-то.
Аноним 25/07/25 Птн 20:27:00 1288480 16
>>1288472
Повторный вопрос, что это?
Аноним 25/07/25 Птн 20:43:13 1288488 17
>>1287420 →
Предположу, что лучше взять оригинальную Gemma 3 12b QAT, она и так четырехбитная, зато обученная такой быть.
Должна быть получше, синк эбаут ит.

>>1287983 →
Клево, нехай будет.

>>1288446
Как время летит, мне на 235B не хватает 6 токенов…
А когда-то был бы рад и 3 токенам на 70B…
Аноним 25/07/25 Птн 21:07:31 1288508 18
Джимми Уэльс см[...].jpg 8Кб, 173x173
173x173
>>1288488
> не хватает 6 токенов
кто отрицает базу треда, будет вынужден возвращаться к ней вновь и вновь
Аноним 25/07/25 Птн 21:27:57 1288521 19
Аноним 25/07/25 Птн 21:29:17 1288522 20
Аноним 25/07/25 Птн 21:35:38 1288525 21
image 129Кб, 618x618
618x618
>>1288442
>gtx 1650s
>Склоняюсь к гемме 3 27б
>мне 5 токенов/с хватит вполне
Аноним 25/07/25 Птн 21:42:05 1288528 22
>>1288521
>Смешно
Было первые пару-тройку раз, а щас посмешише тред позорящее.
Даже асиг так не опускался.
Аноним 25/07/25 Птн 21:42:36 1288529 23
Аноним 25/07/25 Птн 22:00:05 1288540 24
>>1288508
> меньше 8 каналов DDR4 жизни нет
Былин, по одному пункту и я не прошел!.. =(
Надо будет исправить это.
Аноним 25/07/25 Птн 22:08:42 1288545 25
>>1288540
Помолись перед сном святому Тредрипперу и ты прощен
Аноним 25/07/25 Птн 22:40:23 1288564 26
>>1288545
у тредрипера же вроде 6 каналов, не?
Аноним 25/07/25 Птн 22:48:44 1288570 27
>>1288564
Ryzen Threadripper Pro 3995WX имел уже 8 каналов, а вышел давно.
Аноним 25/07/25 Птн 23:13:28 1288577 28
image.png 55Кб, 1056x538
1056x538
image.png 24Кб, 1059x197
1059x197
image.png 35Кб, 1043x328
1043x328
image.png 45Кб, 1045x671
1045x671
Попробовал на tabby запустить qwq snowdrop
https://huggingface.co/ReadyArt/QwQ-32B-Snowdrop-v0_EXL2_6.0bpw_H8
Уже запускал его через ламу и все окей было, а тут чото пизда какая-то с теми же пресетами. Кто-то подскажет в чем может быть причина?
Запускаю на двух mi50, слои вроде пополам идут.
Проверял уже на llama3.3 70b и она нормально работала в tabby поэтому я хз чо думать.
Аноним 25/07/25 Птн 23:31:08 1288586 29
А чё никто не разворачивает модели за бабки для других? Хотел бы топовую рпшную какую-то попробовать, побазарить, потрогать пенис. Платить тоже готов, денег и желания нет покупать топовую карту, арендовывать сервер да и разбираться.

Вот нашёл какую-то chai ai без цензуры. По типу кэрэктэра. Но по ощущениям она слабенькая на русский.

В общем подскажите че-нибудь ещё плез. Мб кто-то мистраль топовую где-то держит?
Аноним 25/07/25 Птн 23:54:14 1288610 30
>>1288577
- Попробовал обновить exllamav2 у меня была 0.3, обновил до 0.3.2
-Пробовал
curl http://localhost:5000/v1/chat/completions \
-H "Authorization: Bearer 5f0xxxxxxxxxxxxx" \
-H "Content-Type: application/json" \
-d '{

"messages": [{"role": "user", "content": "Привет!"}]
}'
Чтобы просто проверить работает чи не и тоже самое, пустое поле в консоли после и не заканчивает генерацию.

- Попробовал 4bpw h8, такая же хуйня. Хз.
Аноним 26/07/25 Суб 00:10:12 1288619 31
Есть вообще разница что приоритетнее выгружать?
- ffn_down_exps
- ffn_up_exps
- ffn_gate_exps
Аноним 26/07/25 Суб 00:28:30 1288631 32
>>1287633 →
По процессингу в 2 раза отстает, так еще дороже чем более быстрая 3090. Это налог на глупость амд фанатизм?
Рофел будет если чекнуть генерацию изображений/видео/другой инфиренс, получится разница в сотни процентов, или она улетит в бесконечность из-за деления на нулевой результат амудэ.
Если же говорить о комфортном пользовании всем ассортиментом фич - то что на хуанге будет просто заводиться из коробке, на красных придется допиливать, переписывать или смириться с отсутствием.
>>1288577
Попробуй выключить флешатеншн а также удалить из вэнва экслламув2 которую ставит хардкод табби, и установить-собрать ее вручную (просто через pip). Не факт что оно вообще на ми50 сможет работать, но мало ли.
Если проблемы искчючительно на этой модели - битый квант.
>>1288586
Опенроутер же.
Аноним 26/07/25 Суб 00:34:05 1288637 33
>>1288619
По идее не должно быть, хотя up и gate могут работать параллельно. Так что их наверное лучше либо рядом, либо наоборот что-то одно оставить видюхе чтобы по минимуму простаивала.
Аноним 26/07/25 Суб 00:42:37 1288640 34
>>1288631
Не знал про опенроутер, слушай а в чём кайф тогда покупать овердорогое железо для запуска жирных моделей локально, если можно по апи за копеечку гунить в кулачок через опенроутер? Не вдупляю.
Аноним 26/07/25 Суб 00:54:17 1288649 35
>>1288640
Мне скорее интересно, в чём кайф сливать всё и вся незнакомым дядечкам, нежели чем делать всё локально.
Аноним 26/07/25 Суб 01:30:11 1288677 36
image.png 213Кб, 574x2018
574x2018
image.png 40Кб, 1362x292
1362x292
>>1288619
Это в тему продолжения насилия над ми50 и зивонами (нас тут минимум два с такими сетапами, так что думайте кто есть кто).
Накидал немного кода по просчёту что выгружать. Удалось загрузить так что бибика вот вот лопнет.

Буду тесты гонять
Аноним 26/07/25 Суб 02:05:12 1288697 37
>>1288619
Подпишусь, тоже интересно.
>>1288640
Ну, когда-то давно локальные модели вообще не могли дать какого-то приличного экспириенса а гопота уже была и что-то как-то кое как могла, чаная туда же. Интересен был сам процесс.
Сейчас же, помимо этого, при регулярном использовании инфиренс выйдет в копеечку, на многих апи вовсе не то что указано, отправляешь свой инцест с собакой какому-то дяде, часто не имеешь полного доступа а только кастрированный чаткомплишн.
Насчет цены - многие здесь еще увлекаются чем-то типа генераций картинок и всяким ии-релейтед что само по себе требует гпу а ллм - приятный бонус, или сам процесс пердолинга доставляет, приватность туда же. Поэтому что-то типа "окупится только через 3 года при 22 минутах рп в день" вообще не выглядит аргументом.
>>1288677
> Удалось загрузить так что бибика вот вот лопнет.
Ахуенно, прям под кромку. Это уже с контекстом?
Аноним 26/07/25 Суб 03:20:31 1288720 38
>>1288677
Тоже с mi50 двумя по 32гб, я бы чутка сбавил, по гб где-то на каждой, там при первом прогоне то ли rocm, то ли что резервирует еще память, из-за чего еще больше забивает. Ну если у тебя такого нет, то забей.
Аноним 26/07/25 Суб 03:40:41 1288724 39
>>1288720
>>1288697
Примерно по 500-700 скинул т.к. в один из проходов бенча самопального был вылет, до этого ворочалось, решл выбрать стабильность. По 5000мб (пиздец) резервирую под всякий мусор при расчёте того что выгружать.

Гоняю бенчи, пока без особых изменений
Аноним 26/07/25 Суб 04:16:16 1288732 40
image.png 310Кб, 2391x1170
2391x1170
>>1288724
Потраченного времени жаль.
TG быстрее всего если выгружать up+down пополам и держать gate в памяти, PP лучше если выгружать в рам gate.
Но в общем и целом, выбирать просто по ffn_*_exps и не выёбваться.

Для себя решил что вообще меньше tg 10 t/s даже нет смысла пытаться
Аноним 26/07/25 Суб 07:52:25 1288766 41
Аноним 26/07/25 Суб 08:20:19 1288772 42
>>1288766
>Infermatic
На фри тире там полное гавно, на платном опенроутер во всём лучше.
Аноним 26/07/25 Суб 08:20:41 1288773 43
Аноним 26/07/25 Суб 08:21:28 1288775 44
Аноним 26/07/25 Суб 08:28:03 1288777 45
Аноны, которые чаще пользуются фронтэндом кобольда, но также пользовались и таверной, вы замечали меньшее количество лупов и подобных проблем по сравнению с таверной?
Аноним 26/07/25 Суб 08:41:10 1288780 46
>>1288777
Теоретически возможно что где-то насрал в разметку, у кобольда с этим проще.

Но если честно, не припомню.
Аноним 26/07/25 Суб 10:38:42 1288806 47
1000017735.jpg 483Кб, 1080x2108
1080x2108
НОВЫЙ НЕМОТРОНЧИК!!
Аноним 26/07/25 Суб 10:39:48 1288807 48
Аноним 26/07/25 Суб 10:43:07 1288809 49
07.26.2025 похороны всех моделей до 49б
Аноним 26/07/25 Суб 10:53:59 1288818 50
image 69Кб, 225x225
225x225
Аноним 26/07/25 Суб 11:00:19 1288821 51
Аноним 26/07/25 Суб 11:21:14 1288831 52
Это невероятно но похоже списки и таблицы пропали
Аноним 26/07/25 Суб 11:26:35 1288836 53
Я вижу... кум? И откат софт рефузов?
Аноним 26/07/25 Суб 11:42:17 1288840 54
>>1288806
Когда Q1 версия? Хочу на gtx 1650s запустить.
Аноним 26/07/25 Суб 11:45:15 1288841 55
>>1288821
Оно даже чисто теоретически не может дать лучше.
Аноним 26/07/25 Суб 11:47:17 1288842 56
>>1288442
Ты с ума сошел? Какая гемма 27б, если она даже на 20 врам (12+8) работает на 7-8 токенах у меня? На линуксе вроде побольше.

Тебе максимум 12б в 4 кванте запускать можно. И только мистраль, а не гемму.
Аноним 26/07/25 Суб 11:52:23 1288844 57
>>1288842
Жаль.
Сейчас мисраль немо запустил 12b Q3, выдало ~3 токена. Но ролит неплохо, приятно удивило на креативность после соевой геммы.
Аноним 26/07/25 Суб 12:03:40 1288853 58
>>1288844
Качай q 4k m, ибо даже 4 квант - лоботомит, а ты ещё хуже делаешь. Если сможешь, ставь линукс. Будет быстрее.

А так закрываешь абсолютно все окна в ПК, в том числе браузер, стим, вообще все программы левые, потому что они отжирают видеопамять. После этого ставишь 20 слоёв, 8к контекст и запускаешь бенчмарк в кобольде. Делаешь так до тех пор, пока не перестанет вылетать или не начнёт вылетать. При этом сделай ещё кэш 8 бит - очень сэкономит память, освободит 1 гигабайт точно.

Качай nemomix unleashed. Он самый сбалансированный из малых. Может и в кум, и в диалог, и в обычное рп, при этом реже остальных ломается.

На русском языке рп не веди никогда на таких моделях. Даже те, которые могут в русский, делают это сильно хуже. Даже корпы имеют ныне значительно меньший словарный запас на русском, чем год назад. Модели максимально смещаются в сторону английского.
Аноним 26/07/25 Суб 12:18:26 1288868 59
>>1288732
> TG быстрее всего если выгружать up+down пополам и держать gate в памяти, PP лучше если выгружать в рам gate.
записал, спасибо!
> Для себя решил что вообще меньше tg 10 t/s даже нет смысла пытаться
>>1288508
Аноним 26/07/25 Суб 12:21:37 1288872 60
пока записывал нашёл в заметках вот это

> IQ кванты сильно медленнее обычных, обычно процентов на 30. Когда ты целиком на врам - то у тебя скорость в любом случае будет выше 20 токенов в секунду - и тогда это падение не играет особой роли, но когда ты оффлоадишь слои на рам - то скорость падает очень сильно из-за этого и эти дополнительные 30% уже сыграют роль. Существуют очень узкие юзкейсы когда IQ все же выгоднее чем обычный квант даже на оффлоаде на рам, у меня было такое что благодарая тому что IQ4_XS меньше 4_K_S - то освобожденную за счет разницы в размере модели врам я пускал на увеличение контекста, который нельзя оффлоадить и которого дико не хватало, но это реально был узкий случай.

это к предыдущему треду про медленность ik_llama
Аноним 26/07/25 Суб 12:25:18 1288878 61
175352118638941[...].jpg 36Кб, 679x384
679x384
>>1288853
>даже 4 квант - лоботомит
От кванта сильно зависит качество? Говорили что больше 4 не особо смысла много.

>А так закрываешь абсолютно все окна в ПК,
Я так и делаю, у меня только lm студия открыта и всё.

>После этого ставишь 20 слоёв
Гпу которые?

>Качай nemomix unleashed. Он самый сбалансированный из малых. Может и в кум, и в диалог, и в обычное рп, при этом реже остальных ломается.

Так и понял, его и буду тестировать.

>На русском языке рп не веди никогда на таких моделях
Совсем плохо с ним? Для меня вся суть в этом.. я английский ± понимаю, но когда дрочу явно не хочу заниматься переводом.
Лучше уж в крюшоне через грока, и другие модельки подрочить. Но да, интересует автономность, контроль, и конфиденциальность.
В крашоне раньше Клод был, бесплатно! Сидел бед не знал, потом выпилили из-за невыгодности.
Хочется хотябы немного максимально похожий экспирианс на клода, ибо он настолько хорош, что до сих пор старые ролки с ним перечитываю. Что думаешь о Magnum?

А так благодарю за подробную подсказку, анон.
Аноним 26/07/25 Суб 12:27:00 1288880 62
>>1288732
А ffn_norm? Их выгрузка влияет?
Аноним 26/07/25 Суб 12:31:46 1288891 63
>>1288878
> копиум треда:
> - Чем больше модель, тем меньше она потеряет в мозгах при квантизации

типа 235B можно и в Q2 гонять, а 12B лучше ниже Q8 не опускаться
на практике 235B даже Q4 говно
Аноним 26/07/25 Суб 12:31:49 1288892 64
>>1288878
Также спрошу. Как и где кумить удобно? Я пока что только в лм студии тестирую модели. Типа расскажи то, это, проверяя на знания. Потом просто говорю "Возьми роль персонаж_нейм)"
Но подозреваю есть более практичные способы. Через таверну наверное.
Аноним 26/07/25 Суб 12:34:32 1288894 65
>>1288878
>lm студия
выкинь каку и поставь кобольда / llamacpp, ещё быстрее будет, немного, но будет

>>1288878
>Совсем плохо с ним?
Нет, это просто местные шизы и тролли.

Да, на русском хуже, и да, на мелких моделях с ним хуже чем на больших. Но вполне нормально, разницы ты не заметишь из-за того что английский не родной.

Также есть несколько специально на русском обученных моделек, в том числе мелких.

Аноним 26/07/25 Суб 12:35:18 1288895 66
>>1288891
Для того чтоб влезла бОльшая модель, достаточно же рам увеличить, на врам похуй? У меня старый сокет, за несколько тысяч можно 32гб ддр3 купить.
Аноним 26/07/25 Суб 12:36:16 1288896 67
>>1288895
>на врам похуй
на раме ты выше 2-7 токенов в секунду не разгонишь особо
Аноним 26/07/25 Суб 12:38:22 1288901 68
>>1288894
>кобольда / llamacpp
В чом разница? Там интерфейс удобный?

>Также есть несколько специально на русском обученных моделек, в том числе мелких.

Типа saiga? Они под рп не заточены вроде.
Аноним 26/07/25 Суб 12:40:05 1288902 69
image 216Кб, 600x429
600x429
>>1288878
>От кванта сильно зависит качество?
это как сжатие картинки

Как правило, стоит юзать Q4 / Q6, ниже - плохо, выше - бессмысленно.
Аноним 26/07/25 Суб 12:41:00 1288903 70
>>1288895
> ддр3
увы, хорошей скорости на этом не будет
>>1288901
неудобный, поэтому и быстрее)00))
Аноним 26/07/25 Суб 12:43:57 1288906 71
>>1288901
>В чом разница? Там интерфейс удобный?
там простые лаунчеры или вообще только батником, раболтют быстрее, памяти требуют меньше

У кобольда ещё и свой фронт, простой как палка, с него начинал, пересел на таверну, потом к нему вернулся.

>>1288901
>saiga
Сайга, Янка, Руадапт Квены.

Алсо мержи местных анонов из шапки.

И да, они как раз под рп.
Аноним 26/07/25 Суб 12:44:58 1288907 72
>>1288853
> На русском языке рп не веди никогда на таких моделях. Даже те, которые могут в русский, делают это сильно хуже. Даже корпы имеют ныне значительно меньший словарный запас на русском, чем год назад. Модели максимально смещаются в сторону английского.

> Модели максимально смещаются в сторону английского.
Чел-челик-челишечка! Ты так мимо, что мимо. Весь инглиш интернет давно высосан в датасеты и сейчас как раз выбирают любое на любых языках. Дипсик, кими, квен - они просто ультят на русеке. Даже грок, которому вроде должно быть пофиг - и то прекрасно может. Ты по-моему просто потерялся где-то в районе 2022
Аноним 26/07/25 Суб 12:46:29 1288908 73
Аноним 26/07/25 Суб 12:47:17 1288909 74
>>1288902
Понял, спасибо.

>>1288903
>увы, хорошей скорости на этом не будет
Планирую скоро на ам4 пересесть с ддр4, будет сильно лучше?

>неудобный, поэтому и быстрее)00))
Я комнатное тупое растение, комфорт важен.

>>1288906
>И да, они как раз под рп.
И чё, нормально работают? Раз на русских дата сетах то должны лучше мисралей англоязычных работать.
Аноним 26/07/25 Суб 12:57:33 1288911 75
17535228070470.png 178Кб, 600x429
600x429
Аноним 26/07/25 Суб 12:57:35 1288912 76
>>1288909
Янка 8Б хорошо работает. Для тебя напверно идеальный вариант.
Но учти что степень внимания к деталя всё же как у восьмёрки.
А вот сам русский очень хорош.

https://pixeldrain.com/l/47CdPFqQ#item=130 пример
Пресет для таверны там рядом лежит.

Ещё примеры историй на русском на мелкомистралях 12Б.
https://pixeldrain.com/l/47CdPFqQ#item=45
https://pixeldrain.com/l/47CdPFqQ#item=48
https://pixeldrain.com/l/47CdPFqQ#item=71

https://pixeldrain.com/l/47CdPFqQ#item=13
https://pixeldrain.com/l/47CdPFqQ#item=3

Последние два - это SavedState для Kobold-Lite.
Аноним 26/07/25 Суб 12:58:42 1288913 77
>>1288911
хахахахха, ультрамегахарош, в шапку и гайды, однозначно
Аноним 26/07/25 Суб 12:59:33 1288914 78
>>1288909
> ам4 пересесть с ддр4
не сильно, если хочешь сильно лучше - закупайся видюхами
Аноним 26/07/25 Суб 13:00:31 1288916 79
>>1288911
А если выбор между 12B Q4 и 8B Q6?
Аноним 26/07/25 Суб 13:01:56 1288917 80
>>1288916
Если 8б - вышеупомянутая yankagpt-8b то на русском она будет лучше.

На английском - лучше взять 12B Q4.
Аноним 26/07/25 Суб 13:20:14 1288921 81
>>1288911
Заменить основного на bf16, fp16 из него определить около q3-q2
Аноним 26/07/25 Суб 13:33:14 1288930 82
>>1288921
>fp16 из него определить около q3-q2
???
Аноним 26/07/25 Суб 13:34:30 1288931 83
>>1288930
Почитай про форматы, почему конвертировать из одного в другой = лоботомия и почему сейчас именно бф16 популярнее.
Аноним 26/07/25 Суб 13:51:20 1288936 84
Аноним 26/07/25 Суб 14:12:51 1288951 85
image.png 27Кб, 647x536
647x536
Аноны, подскажите как сделать лору через oobabooga webui? Я уже от злости готов выкинуть монитор нахуй в окно, не стартует нихуя, ошибки строчит, чат гпт на них выдает мусорные ответы которые тоже не работают. Второй день ебусь.

Имеем:
Венда
12B моделька BF16
Датасет из диалогов (это важно), который я могу превратить в какой угодно формат, лишь бы webui съел и не слал нахуй в консоли. Мне важно чтобы диалоги оставались диалогами (обрезал до 4096 токенов), иначе весь смысл теряется
RTX 5090

Доступные форматы на скрине (методом тыка выяснил что принимает только JSON). Если хоть кто-то делал лору с диалогами с контекстом скажите просто плиз какой формат вы юзали и какой-нибудь маленький пример с двумя диалогами и по 4 ответа в каждом. Этого будет достаточно чтобы я переконвертировал все в нужный формат
Аноним 26/07/25 Суб 14:27:39 1288959 86
>>1288951
>BF16
А зачем? Разве от Q6 различия не минимальные? В отличие от веса и производительности.
Аноним 26/07/25 Суб 14:29:32 1288963 87
>>1288959
>квантование
>тренировка
Ну вот куда ты лезешь? Куда ты лезешь то? Не знаешь, а лезешь.
Аноним 26/07/25 Суб 14:31:58 1288964 88
>>1288959
Потому что эту модель не выкладывали квантованной, только в .safetensors выложена. И по-моему Lora только для этого формата можно делать, не для .gguf. В любом случае она у меня и так работает, в память целиком помещается и меня устраивает. Вопрос в том как fine-tune сделать на основе диалогов. Я не понимаю какой формат нужен и во что преобразовать диалоги чтобы на старте не получить ошибку "неверный формат json"
Аноним 26/07/25 Суб 14:38:58 1288967 89
>>1288951
Для того чтобы тренить тебе нужно в пять-десять раз больше VRAM чем для Q8 инфиренса, то есть 5090 хватит разве что на 2-4Б.
Аноним 26/07/25 Суб 14:41:32 1288968 90
Аноним 26/07/25 Суб 14:43:37 1288969 91
>>1288967
Я не модель тренировать собираюсь, а только файн-тюн делать. Я в курсе что для полноценной тренировки модели надо H100 или подобное, мне это не нужно
Аноним 26/07/25 Суб 14:46:32 1288971 92
>>1288968
> You will need to create a dataset usually with 2 columns - question and answer
Там гайд по созданию LoRA вида вопрос-ответ, там ничего ни про диалоги, ни про рекомендуемый формат вообще
Аноним 26/07/25 Суб 14:49:41 1288974 93
image.png 268Кб, 842x1792
842x1792
image.png 138Кб, 1007x1356
1007x1356
>>1288907
>>1288908
Нет, я регулярно пользуюсь всеми популярными корпами. Опены, антропик, гугл и даже грок. Остальные не годятся для работы.

Тенденция ухудшения русика видна невооружённым глазом, если ты занимаешься переводами или работой с текстом и застал старые версии.

Самый простой тест для сравнения качества - попросить написать стих в эстетике Бодлера, придерживаясь стиля Льва Львовича Кобылинского, который часть его стихов переводил. Или хотя бы просто в стиле Бодлера. Разумеется, указав тему и прочее, используя нормальный промпт.

Посмотри на эти скриншоты и скажи, может ли так нейросеть? Что-то на уровне первого скриншота - никогда. И даже второй со скрипом вряд ли повторит. А раньше они были куда ближе, особенно старый клод. Сейчас же 4 версия клода нихуя не может. Из гпт только 4.5 что-то относительно вменяемое выдаёт. Как ни странно, только гугл и грок не так сильно в русике просели.

Было бы наплевать на это, но беда в том, что на английском они в это МОГУТ, хотя там тоже наблюдается деградация, вероятно, из-за того, что их тюнят исключительно под кодинг.

Поэтому я и говорю, что русик там не ультимативный, а говно. Да, его хватит для любого уровня РП, но только на вот таких жирных корпоративных моделях или открытых типа дипсика. Даже 400б не будет на уровне корпов в русском языке. А именно такие сложные вещи как стихи показывают, насколько модель умеет манипулировать языком и "понимать" его. Они все обсираются, но с каждым апдейтом обсираются всё сильнее и сильнее.

>>1288878
Зависит от задач. Для большинства задач треда 4 кванта хватит. Но это минимальная планка. При запуске моделей потолще деградация от более малого кванта не так заметна, но у маленькая модель, которая в любом случае будет срать под себя, даже если ты её запустишь без квантования. Так что в идеале надо брать её квант не ниже шестого.

Лм Студио - это параша, не используй её. Она, конечно, сгодится, но только если ты чётко понимаешь, зачем тебе нужна именно она.

Слои модели, которые ты грузишь на карту. Уменьшай либо увеличивай их количество, всегда используя бенчмарк в кобольде, пока не определишь оптимальное количество. Это самый быстрый способ и самый простой. И сделай kv cache 8 бит.

Если тебе русик нужен, то для тебя это финиш, потому что вменяемого русика ты не получишь, особенно в маленьком кванте, но можешь попробовать Pathfinder-RP-12B-RU. Он на базе мистрали 12б. Скажу сразу: модель поломана и достаточно быстро придёт в негодность в рамках одного чата. Русский тоже с ошибками. Почему я тебе её советую? Потому что кум там более смачный и язык более интересный, чем на других мелких моделях мистраля. А так как ты кумить собрался, то факт поломки чата не проблема: подрочил - закрыл. В следующий раз начнёшь новый чат или из лупа выйдешь иным способом. На русском ставь температуру пониже, обычно это 0,6 на том мистрале. Первое сообщение от персонажа должно быть переведено на русский, а систем промпт должен децензурировать модель. Найди его где-нибудь или сам напиши.

>>1288892
Только через связку типа кобольд + силли таверн. Конечно, в качестве бэкенда можно использовать и лм студио. А к таверне подключаться с телефона. Не кумить же за клавиатурой как мудак. Ну и карточка персонажа нужна, чтобы модель знала, каким именно образом кумить.

>>1288906
Ты хоть сам этой янкой пользовался? Полностью сломанный кал. А руадапт квен куда он в свою затычку воткнёт на 4 гб? Сайга тоже мусор.
Аноним 26/07/25 Суб 15:00:49 1288989 94
>>1288619
>Есть вообще разница что приоритетнее выгружать?
Лучше выгружать все ffn из одного слоя. Если по типу выгружать будет немного медленнее. Я как-то тестил.
Аноним 26/07/25 Суб 15:05:37 1288993 95
>>1288974
>кумить же за клавиатурой как мудак.
Это база. Следующим моим вопросом должен был стать "а как на телефон перенести?"
И где карточки кстати брать?
Аноним 26/07/25 Суб 15:06:56 1288995 96
>>1288974
>А к таверне подключаться с телефона.
А как.
Аноним 26/07/25 Суб 15:14:37 1289003 97
Ну как там новый Немотрончик, не томите!
Аноним 26/07/25 Суб 15:20:44 1289009 98
image.png 26Кб, 399x907
399x907
Аноним 26/07/25 Суб 15:21:47 1289012 99
>>1288951
Слушай, а ты насколько пердоля прошаренный? Есть простое предложение: натренить не с помощьюь убабуги и трансформерс трейнера. У той же гопоты попроси код и дать разъяснений, там все очень логично и понятно если в общем с пихоном и мл знаком.
https://huggingface.co/docs/transformers/v4.53.3/en/main_classes/trainer
Даталоадер и коллейтор под свой формат датасета напишешь и сразу же оформишь нужные аугментации. Чтобы тренить не саму модель а только лору - подключаешь peft при инициализации модели, все остальное не меняется. Если нужно qlora (плохая идея) то грузишь модель обернутую в bnb или что-нибудь еще.
>>1288971
> ни про рекомендуемый формат
Формат ты сам выбираешь. Обычно просто применяют стандартным прпроцессором чат темплейт на основе заготовленных сообщений и все, но ты можешь и инстрактоподобное что-нибудь натренить.
>>1288974
> деградация
> Тенденция ухудшения
На фоне роста скорости, сравни старый и новый опус. Корпы ударились в оптимизации, вместо больших моделей там небольшие моэ, где оптимизация под задачи идет уже на уровне финальных этапов тренировки. От того и ограниченность-деградация, она не только в русском но и в массе абстрактных задач.
Аноним 26/07/25 Суб 15:22:48 1289013 100
>>1288472
Ладно. Я конечно попробую. Но так как это тестовый билд, да еще без рекомендуемых семплеров, чую у мен получится говно.
Аноним 26/07/25 Суб 15:29:39 1289016 101
>>1289012
> Слушай, а ты насколько пердоля прошаренный?
Не шибко. Впервые хочу попробовать. Пробовал axolotl - в лоб вообще не устанавливается (какой-то компонент на винду отстутствует), а через контейнер плачет что больно новая видеокарта, он с ней работать не умеет

> там все очень логично и понятно если в общем с пихоном и мл знаком
Я не знаком с этим. Я хотел бы как можно меньше питона касаться. Я вообще на шарпах все делаю, там же генерирую все что нужно

> Формат ты сам выбираешь
Я так понял, что иишки эти текстовые в принципе рассчитаны только на вопрос-ответ. Без контекста. Контекст если и можно затолкать, то, наверное, только в вопрос. И потом непонятно как она должна понимать что половина контекста это часть прошлых вопросов и ответов... кароче дохуя вопросов, на которые у меня нет ответа и даже загуглить не могу. Но мне кажется что это как-то должно нормально решаться, неужели я первый что ли кто хочет скормить на дообучение именно диалоги, а не просто instruct?
Аноним 26/07/25 Суб 15:40:36 1289022 102
>>1289016
> Я хотел бы как можно меньше питона касаться.
Весь мл - это питон. Буквально. Язык очень прост и максимально удобен, так что освоение не потребует усилий, особенно с привлечением ллм. Если отбросишь предрассудки и специальную олимпиаду про превосходства яп который попробовал первым - поймешь почему так.
Там кода - буквально сотня строк и он весь наиболее прозрачен если ты уже можешь в программирование и общие абстракции. Таки все равно рекомендую потратить денек на погружение, когда освоишься - поймешь насколько ненужные эти вася-обертки типа того же аксолотля и прочих, что с ним пердолинга даже больше а гибкости и удобства - меньше.
> иишки эти текстовые в принципе рассчитаны только на вопрос-ответ
Нет. Модель рассчитана на генерацию новых токенов на основе имеющегося контекста, все. За счет особенностей архитектуры обучение проходит сразу на весь контекст а не по одному токену. Вопрос-ответ это просто самый популярный формат, и он сам по себе условность и нужен для формирования правильной разметки (служебные токены чтобы модели проще понять где что при анализе контекста) и масок внимания.
> кароче дохуя вопросов, на которые у меня нет ответа и даже загуглить не могу
Глянь самые основы что такое ллм.
> неужели я первый что ли кто хочет скормить на дообучение именно диалоги, а не просто instruct
Ты не то что не первый в этом, а не первый и не последний кто задает неправильные вопросы ибо сделал неверные выводы и сформулировал вот такое, но ничего страшного в этом нет.
Аноним 26/07/25 Суб 15:45:24 1289025 103
>>1289016
Нет, ответы тоже кормятся.
Но я чо-то в ахуе с вашей дискуссии двухлетней давности.
Казалось бы, это все должно быть очевидно, но на практике это у нас профдеформация уже, а в шапке много инфы, а части может и нет, но никто не вспоминает, что ее нужно добавить.

1. ICL, in context learning — не совсем то, что подразумевает под «дообучением».
2. Есть два формата: text completion и chat completion, но на практике это рубится на этапе бэкенда, в модель поступает один и тот же «текст».
Суть в том, чтобы любым из способов подсунуть <user> — вопросы, а <assitant> — ответы, то есть, сымитировать предыдущий диалог, после чего модель продолжит общаться в данном ей стиле, да.
Это и есть контекст.
Просто длинный контекст в формате переписки.

Есть еще вариант few-shot, где ты прямо в систем промпт пихаешь диалог, и просишь продолжить общаться в таком же стиле.
Аноним 26/07/25 Суб 15:46:38 1289026 104
>>1289022
> Весь мл - это питон.
Плюсы.
А питон — обертка над плюсами. =)
Ну так, чтобы точно.
От питона тоже никуда не уйдешь, канеш.
Аноним 26/07/25 Суб 15:50:39 1289028 105
>>1289022
> Весь мл - это питон. Буквально. Язык очень прост и максимально удобен
Это замечательно, но у меня нет времени и желания разбираться с этой внутрянкой. Я просто хотел потыкать кнопок и получить файн-тюн под себя. Проблема не в самом питоне, а в том что я в принципе не планировал ничего программировать сверх того чтобы json на C# генерировать на основе имеющегося датасета. По факту ничего не работает, либо сыпет ошибками, либо видеокарта не нравится, либо какая-нибудь говнолиба питоновская не той версии. При попытке обновления - шквал ошибок в духе "а у тебя тут конфликт между этой бетой и вот этой". Без бета-версий нытье что карта больно новая

> Нет. Модель рассчитана на генерацию новых токенов на основе имеющегося контекста, все
Я в курсе про это, но на практике для меня как для юзера все форматы которые есть так или иначе сводятся к тому что есть user и есть assistent. Вопрос-ответ. Все. А меня это не устраивает. Попытка затолкать еще один вопрос-ответ в тот же диалог = ошибки

> Глянь самые основы что такое ллм
Я знаю что такое llm. Мне это на практике что дает?

>>1289025
> Казалось бы, это все должно быть очевидно
Мне нихуя не очевидно. Для меня пока что очевидно, что все способы что я перепробовал закончились ошибками на стороне питона. И ни одно не решить не вышло. То есть я даже запустить процесс полноценно еще не смог, и у меня закончились идеи. Самому программировать впадлу, это уже перебор для меня
Аноним 26/07/25 Суб 15:51:39 1289030 106
>>1288969
тренить на замороженных слоях - получится говно уровня чатбота-автоответчика, так что даже для лоры нужны норм веса, хотя есть ещё q-lora, трейн на квантованной модели, ну, это выходит многкратно переваренный кал
Аноним 26/07/25 Суб 15:56:35 1289032 107
>>1289028
> нет времени и желания разбираться
Это так не работает
Аноним 26/07/25 Суб 16:00:19 1289036 108
>>1289030
Да пусть даже и так. Я бы убедился и успокоился бы. Пока что я на уровне "послан нахуй всем софтом что я мог попробовать"
Аноним 26/07/25 Суб 16:00:30 1289037 109
>>1288969
> модель тренировать
> файн-тюн делать
Значение знаешь?
>>1289026
Питон. Язык изначально разработанный под конкретную область задач и максимально удобный в них, позволяющий делать удобные абстракции не отвлекаясь на кишки и иметь отличную производительность при правильном применении. Плюсы уже для умных людей, которые специализируются на конкретных высокопроизводительных операциях и построении бэков с ними, хорошо разбираться в мл при этом им не нужно.
Ну или можно делать цирк как у жоры.
> Плюсы
Развивая твою логику, плюсы - обертка над асмой, лол. Перетолстил.
>>1289028
> у меня нет времени и желания разбираться с этой внутрянкой. Я просто хотел потыкать кнопок и получить файн-тюн под себя
Эта задача требует погружения, знаний и понимания. То же самое можно сказать
> у меня нет времени и желания разбираться с авотомобилестроением. Я просто хотел на выходных собрать гоночный болид под себя и выиграть одну гонку
> но на практике
Присоединяюсь к другому анону, это так не работает, область сложна и свежа. Когда-нибудь появятся красивые интерфейсы от корпов, которые в юзер-френдли манере будут делать типичные примитивные задачи за тебя, но делать это посредственно и за большие деньги.
>>1289030
> тренить на замороженных слоях
Что?
Аноним 26/07/25 Суб 16:03:47 1289040 110
>>1289037
> Значение знаешь?
Да

> Эта задача требует погружения, знаний и понимания. То же самое можно сказать
Чтобы сделать обычный инференс модели никакого погружения, знаний и пониманий не потребовалось. Почему здесь должно быть иначе? Я очень сомневаюсь, что тут прям каждый анон ml-инженер и сидят скрипты на петухончике пишут под нейронки. Да точно так же кнопки тыкают и развлекаются, как и я собственно
Аноним 26/07/25 Суб 16:09:22 1289045 111
>>1289037
> Развивая твою логику, плюсы - обертка над асмой, лол. Перетолстил.
Я посылаю биты прямо в чип, а что делаете вы? @_@
Аноним 26/07/25 Суб 16:11:53 1289048 112
>>1288911
Не все так линейно с квантами. Imatrix кванты - вещь в себе, их таки пробовать надо, и решать для себя - годится или нет.
У меня вот что обнаружилось: storyteller-gemma3 на кванте q4km при письме на русском откровенно руинит окончания, рода падежи и т.д. Даже на кванте q5km это происходит, только меньше (запускал ради теста - он у меня целиком в vram не лезет, так что на постоянное использование не годится - медленно).
Однако iq4xs квант пишет чисто, и не проебывается с этим вообще. Хотя казалось бы...
Аноним 26/07/25 Суб 16:16:27 1289053 113
>>1289040
Чел, ты думаешь что что-то знаешь и все просто, но по твоим постам и задаваемым вопросам очевидно ты лишь надергал совсем поверхностные вещи. И вообще "делать жсоны из датасета с помощью шарпа"- ебать ор
Увы, прочитав это ты едва ли осознаешь и решишь что-то изучать, а бомбонешь с чсв продолжив отрицание.
> тут прям каждый анон ml-инженер и сидят скрипты на петухончике пишут под нейронки
Не каждый, но таких наберется, чсх "скрипты под нейронки" не что-то сложное а дефолтный дефолт и повседневность на которую даже не отвлекаешься.
Также большинство анончиков здесь осознают свои силы и просят помощи где не понимают без лишнего фарса.
> Чтобы сделать обычный инференс модели никакого погружения, знаний и пониманий не потребовалось. Почему здесь должно быть иначе?
Потому что эта "область" известна и сделана действительно максимально удобно и дружелюбно чтобы даже хлебушки справлялись, твоих навыков хватило. На самом деле дальше все тоже довольно просто и понятно с точки зрения базового освоения (классическое easy to learn@hard to master), просто ты подскользнулся на ровном месте из-за дилетантства.
>>1289045
Brutal, ты страшные человек!
Аноним 26/07/25 Суб 16:18:46 1289057 114
>>1289048
> Imatrix кванты
Вот кстати, если визуализировать их - у шакала будут более четкие глаза и пасть, но остальное размыто даже сильнее и 6 левых лап. Офк это для самых малых, начиная где-то от 5 бит мутным будут только участки тела и четкими важные детали.
Аноним 26/07/25 Суб 16:25:32 1289062 115
>>1289053
> Чел, ты думаешь что что-то знаешь и все просто
Где я это говорил? Я говорил что нихуя не знаю и даже углубляться не хочу. Я вообще с вопросом пришел просто "как это сделать" с помощью web-ui или чего угодно другого, что без ошибок запустится. Методом нажимания левой кнопки мыши

> И вообще "делать жсоны из датасета с помощью шарпа"- ебать ор
В оригинале они лежат в виде помойки, где половину нужно выкинуть/сквошнуть/собрать в диалоги по N токенов. И все это перегнать в какой-то формат, который съест например web-ui. Я это делаю на C# потому что мне так привычно. Кому-то удобнее на питоне. Куда смеяться-то?

> Также большинство анончиков здесь осознают свои силы и просят помощи где не понимают без лишнего фарса
А я чем занимаюсь?

> просто ты подскользнулся на ровном месте из-за дилетантства
Учитывая сколько ответов уже было, но ни одного конкретного решения кроме "пиздуй ml изучать сам себе напиши и разберись", то вопрос дилетантства остается открытым. Особенно учитывая что "не каждый, но таких наберется". А по факту ни одного решения проблемы
Аноним 26/07/25 Суб 16:38:27 1289074 116
>>1289062
> Где я это говорил?
> Чтобы сделать обычный инференс модели никакого погружения, знаний и пониманий не потребовалось. Почему здесь должно быть иначе?
А это что?
С помощью вебуи сделать скорее всего не получится. Эта часть довольно хреновая из-за хардкода на который ты наткнулся, и она давно не обновлялась, потому там это старье в форматах. И в целом это лишь сомнительная обертка поверх трансформерс трейнера, потому лучше бы сразу заглянуть в оригинал, который работает хорошо. Но если разбираться не хочешь то увы, можешь разве что почитать анслотов с их тулзой.
> в виде помойки
Дай угадаю, там паркет, арроу или что-то подобное? В таком виде вместо пачки жсонов выкладывается не просто так.
> Куда смеяться-то?
Ну не прям смеяться, просто делать это в шарпе выглядит крайне неудобным, без осуждения.
> но ни одного конкретного решения
Ответ был дан сразу - попроси гопоту написать тебе трейнер на основе всего готового в трансформерсе и твоего формата датасета.
А на советы изучить базвы ты зря обижаешься/огрызаешься, ведь ответы на задаваемые вопросы содержатся в ней. Также, даже если сможешь все запустить - на выхлопе получится полная ерунда вместо рабочей модели и зря потратишь время.
Аноним 26/07/25 Суб 16:48:43 1289081 117
>>1289074
> А это что?
Это мой личный опыт того, что запустить модельку может даже даун. Я думал что создать лору точно так же просто, потому что ее запуск не сложнее чем запуск основной модели. О том что будет куча подводных камней на этапе "а как ее сделать" я не думал

> Дай угадаю, там паркет, арроу или что-то подобное?
Нет, да это не и не важно

> Ну не прям смеяться, просто делать это в шарпе выглядит крайне неудобным, без осуждения
А на чем это надо делать чтобы не смеялись? Python? JS? Objective-C? Голыми машинными кодами с загрузкой и запуском через WinAPI? Для меня родной язык это C#, на нем и делаю. И оно работает

> Ответ был дан сразу - попроси гопоту написать тебе трейнер на основе всего готового в трансформерсе и твоего формата датасета
Ну это и равнозначно "сам изучи, сам разберись, сам напиши"

> Также, даже если сможешь все запустить - на выхлопе получится полная ерунда вместо рабочей модели и зря потратишь время
И что? Мне может процесс нравится. Да и уверенность есть что все-таки получится то что нужно, только пересобрать десяток раз придется с разными конфигами
Аноним 26/07/25 Суб 16:50:55 1289084 118
>>1289003
Возьми да скачай.
Гуфы/exl3 давно доступны.
Аноним 26/07/25 Суб 17:01:15 1289086 119
>>1289081
> Я думал что создать лору точно так же просто
К сожалению - нет. Запуск что лоры, что простого обучения в целом то тоже прост если знаешь пихон и околомл, но вот сделать что-то хорошее вместо лоботомитов, или запустить на слабом железе - уже дохуя сложно, да.
> Ну это и равнозначно "сам изучи, сам разберись, сам напиши"
Нет, все уже написано. Нужно лишь:
1 сделать импорт и загрузить модель
2 подстроить даталоадер под свой датасет и задачу
3 trainer.train()
причем код может сделать любая ллм, даже древний мистраль 7б с таким справится потому что штука мегапопулярная.
> Мне может процесс нравится.
Тогда зачем лишаешь себя удовольствия от изучения?
Просто это не картиночные сети где лора "дает нужный результат" и тренируется легко, с подобным подходом модель на выходе будет на любой запрос цитировать куски датасета и совсем поломается.
Посмотри еще анслотов и их трейнер он запускается ровно таким же образом.
Настройки X
Ответить в тред X
15000
Добавить файл/ctrl-v
Стикеры X
Избранное / Топ тредов