В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны! Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна. Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
Базовой единицей обработки любой языковой модели является токен. Токен это минимальная единица, на которые разбивается текст перед подачей его в модель, обычно это слово (если популярное), часть слова, в худшем случае это буква (а то и вовсе байт). Из последовательности токенов строится контекст модели. Контекст это всё, что подаётся на вход, плюс резервирование для выхода. Типичным максимальным размером контекста сейчас являются 2к (2 тысячи) и 4к токенов, но есть и исключения. В этот объём нужно уместить описание персонажа, мира, истории чата. Для расширения контекста сейчас применяется метод NTK-Aware Scaled RoPE. Родной размер контекста для Llama 1 составляет 2к токенов, для Llama 2 это 4к, Llama 3 обладает базовым контекстом в 8к, но при помощи RoPE этот контекст увеличивается в 2-4-8 раз без существенной потери качества.
Базовым языком для языковых моделей является английский. Он в приоритете для общения, на нём проводятся все тесты и оценки качества. Большинство моделей хорошо понимают русский на входе т.к. в их датасетах присутствуют разные языки, в том числе и русский. Но их ответы на других языках будут низкого качества и могут содержать ошибки из-за несбалансированности датасета. Существуют мультиязычные модели частично или полностью лишенные этого недостатка, из легковесных это openchat-3.5-0106, который может давать качественные ответы на русском и рекомендуется для этого. Из тяжёлых это Command-R. Файнтюны семейства "Сайга" не рекомендуются в виду их низкого качества и ошибок при обучении.
Основным представителем локальных моделей является LLaMA. LLaMA это генеративные текстовые модели размерами от 7B до 70B, притом младшие версии моделей превосходят во многих тестах GTP3 (по утверждению самого фейсбука), в которой 175B параметров. Сейчас на нее существует множество файнтюнов, например Vicuna/Stable Beluga/Airoboros/WizardLM/Chronos/(любые другие) как под выполнение инструкций в стиле ChatGPT, так и под РП/сторитейл. Для получения хорошего результата нужно использовать подходящий формат промта, иначе на выходе будут мусорные теги. Некоторые модели могут быть излишне соевыми, включая Chat версии оригинальной Llama 2. Недавно вышедшая Llama 3 в размере 70B по рейтингам LMSYS Chatbot Arena обгоняет многие старые снапшоты GPT-4 и Claude 3 Sonnet, уступая только последним версиям GPT-4, Claude 3 Opus и Gemini 1.5 Pro.
Про остальные семейства моделей читайте в вики.
Основные форматы хранения весов это GGUF и EXL2, остальные нейрокуну не нужны. Оптимальным по соотношению размер/качество является 5 бит, по размеру брать максимальную, что помещается в память (видео или оперативную), для быстрого прикидывания расхода можно взять размер модели и прибавить по гигабайту за каждые 1к контекста, то есть для 7B модели GGUF весом в 4.7ГБ и контекста в 2к нужно ~7ГБ оперативной. В общем и целом для 7B хватает видеокарт с 8ГБ, для 13B нужно минимум 12ГБ, для 30B потребуется 24ГБ, а с 65-70B не справится ни одна бытовая карта в одиночку, нужно 2 по 3090/4090. Даже если использовать сборки для процессоров, то всё равно лучше попробовать задействовать видеокарту, хотя бы для обработки промта (Use CuBLAS или ClBLAS в настройках пресетов кобольда), а если осталась свободная VRAM, то можно выгрузить несколько слоёв нейронной сети на видеокарту. Число слоёв для выгрузки нужно подбирать индивидуально, в зависимости от объёма свободной памяти. Смотри не переборщи, Анон! Если выгрузить слишком много, то начиная с 535 версии драйвера NVidia это может серьёзно замедлить работу, если не выключить CUDA System Fallback в настройках панели NVidia. Лучше оставить запас.
Гайд для ретардов для запуска LLaMA без излишней ебли под Windows. Грузит всё в процессор, поэтому ёба карта не нужна, запаситесь оперативкой и подкачкой: 1. Скачиваем koboldcpp.exe https://github.com/LostRuins/koboldcpp/releases/ последней версии. 2. Скачиваем модель в gguf формате. Например вот эту: https://huggingface.co/Sao10K/Fimbulvetr-11B-v2-GGUF/blob/main/Fimbulvetr-11B-v2.q4_K_S.gguf Можно просто вбить в huggingace в поиске "gguf" и скачать любую, охуеть, да? Главное, скачай файл с расширением .gguf, а не какой-нибудь .pt 3. Запускаем koboldcpp.exe и выбираем скачанную модель. 4. Заходим в браузере на http://localhost:5001/ 5. Все, общаемся с ИИ, читаем охуительные истории или отправляемся в Adventure.
Да, просто запускаем, выбираем файл и открываем адрес в браузере, даже ваша бабка разберется!
Для удобства можно использовать интерфейс TavernAI 1. Ставим по инструкции, пока не запустится: https://github.com/Cohee1207/SillyTavern 2. Запускаем всё добро 3. Ставим в настройках KoboldAI везде, и адрес сервера http://127.0.0.1:5001 4. Активируем Instruct Mode и выставляем в настройках пресетов Alpaca 5. Радуемся
>>834715 → И коммандер 105 такой https://www.youtube.com/watch?v=1cDcHq7nQFM[РАСКРЫТЬ] >>834721 → От ошибок в склонениях и словах до скудного и скучного слога. Дополнительно бывает еще деградация качества ответов, когда на инглише все отлично а на русском тупеет. >>834737 → Наоборот понимать проще, даже первой лламе можно было писать на русском и она инструкции все выполняла, отвечая на инглише. >>834760 → > у Ламы постоянно просеры Где? Стиль более унылый, но может быть связано с промтом. Квен под конец тоже начала тупить короткими предложениями, но это можно оправдать стилем. >>834795 → > 7\10 llama3.1 70b > 7\10 llama3 70b > 5\10 gemma-27b Довольно странно, гемма в русском хороша. >>834817 → > maid Разговорить ее на большой контекст с нормальной моделью у кого-то получилось? Чтобы без внезапных остановок генерации.
Бля, а почему мистраль немо из коробки такая хорни? Оно даже на и близко не эротических промптах и персонажах может начать выдавать всякое, а на eRP с второго-первого сообщения в штаны лезет блять.
Ставь кобольда и таверну, скачивай мистраль немо, открывай мистраль через кобольд, соединяй с таврной, открывай в ней любую карточку персонажа и все, погнал
>>834992 >Дополнительно бывает еще деградация качества ответов, когда на инглише все отлично а на русском тупеет. Лол, это везде и всегда есть, и не дополнительно, а главная проблема.
Бля, если честно я думал, что это конец и корпораты выиграют. Но кажется в течении следующих 5 лет у нас реально будет AGI, причем умещаться все будет в каждое домашнее железо продвинутого уровня. А вы как думаете?
>>835026 > Не забудь на тесты нафайнтюнить Ебать манямирок. Ты же в курсе, что это user-guided бенчмарк, а не стандартный с заготовленными вопросами и ответами?
>>835022 >в течении следующих 5 лет у нас реально будет AGI Ты нолик забыл. >причем умещаться все будет в каждое домашнее железо продвинутого уровня Лол, тут за полпроцента роста уже расплачиваются пятикратным ростом размера. Для АГИ будет ещё больший рост требований, и на него датацентра не хватит. В итоге АГИ будет тупо финансово невыгоден, лол. >>835030 >user-guided бенчмарк Зерошотный, ага. Вроде там что-то правили, но всё равно говно, я гарантирую это.
Что "всё"? Проприетарки остановилась в развитии год назад и сейчас локалки её догнали. Все очень плохо, так-то. AGI не будет, через полгода OpenAI пиздой накроется когда все перейдут на более дешевый мистраль.
>>835033 > Зерошотный, ага. Вроде там что-то правили, но всё равно говно, я гарантирую это. > Я ГАРАНТИРУЮ Блять, ну уже в голосину просто! Маня с двачей гарантирует!
>>835051 > рпшишь Ебать, ты настолько ограничен блядь и не можешь выйти за границы своих маняпроекций? Я вообще не рпшу, я же не долбаеб кумер без друзей.
>>835014 Иногда просто незаметно. >>835018 6 или 8 бит > как посчитать ебучий контекст Плавно поднимай пока не оомнется. Только то что модель загрузалась не значит что не оомнется при работе. Эксллама, в отличии от жоры, который может еще дополнительно сверху захавать несколько (десятков) гигов, не склонна к такому, но при первом запросе потребление может повысить. Потому проверяй в работе, закинув любой текст на вкладку default/notebook и нажав enerate, счетчик токенов там есть. >>835022 > А вы как думаете Что надо закидывать тряпками тех кто считает арену объективным критерием качества моделей.
>>835065 > А как же алгоритм Q со звездочкой Это не для вас сделано младой чилавек. Если такая технология действительно есть, обычному плебсу ее не дадут даже понюхать, как и AGI, собственно. Плебс почему-то думает, что если (когда) создадут AGI, то условная ClosedAI радостно расскажет об этом всему миру, вместо того чтобы отдать его кому надо.
>>835051 Так на русском база, на инглише кринж. Ты сам себя выписал в шизоиды тока шо. Шо Клодов пользоваться, шо инглишем — зе сейм.
———
Вообще, псевдо-илита с 4о и противники арены — это пиздец, шиза. Все ведь довольно просто. Зирошоты — не плохо. Арена показывает, какая модель больше нравится людям. Не «пиздец лучше во всех отношениях, мега-тест», а просто «нравки». Ну и, блядь, нравки и нравки, хуле спорить с реальностью, если твою дражайшую гемини догнала ебучая ллама. Значит твоя гемини говно, живи с этим, говноед, хуле. При этом, тестов множество, задач множество, условий того больше. Где-то русский язык, где-то английский. Где-то контекст, где-то ризонинг, где-то еще что. Файнтьюны, математика, программирование, биология.
Нет никакого «эта модель лучше этой во всем».
Арена — правда хороша, чтобы бегло посмотреть рейтинг и выбрать для себя модели, которые ты потом лично потестишь в своей задаче.
Неужели это так сложно понять перед тем, как дефолтно говнить арену и ныть о том, что локалка догнала топы в усредненной «нравки».
>>835119 >Так на русском база, на инглише кринж. Шиз это тот, кто считает, что на английском языке, с которого БОЛЬШАЯ ЧАСТЬ ДАТАСЕТА, хуже рпшить, чем на русском. Интересно на твоё ебало посмотреть.
>>835130 >Вот ответь на вопрос: на каком языке лучше рпшить, на том, который ты знаешь, или на том, который толком не знаешь? На том, с которого лучше аутпут нейронки будет.
>>835119 Во-первых, кто сказал что арена это зирошот? Вообще-то там есть категория multi-turn, также вангую многие не сразу ставят оценку, а дорабатывают изначальный промпт с дополнительными инструкциями и вводят его заново, а уже потом ставят оценку.
Во-вторых, в каких таких ТВОИХ задачах? Там только 1.5 ляма воутов. Ты действительно думаешь, что вариации твоей задачи там еще не было? Я сомневаюсь.
Так что аренка как раз дает самые надежные показатели, учитывая что там еще постоянно чистят датасет, дорабатывают методики, занимаются ранжированием, итд. Никакой бэнч и рядом не стоит.
Самое главное что противники аренки, НИКОГДА не отвечают, а что лучше, постоянно пытаются протолкнуть, что вот В ЕГО ЗАДАЧЕ совершенно все по-другому. Верим, ну это и есть самая настоящая субъективщина.
>>835133 >На том, с которого лучше аутпут нейронки будет. Ну так прикол в том, что многим хочется аутпут на родном языке аутентичный, похуй erp это, rp, или ешё что.
>>835148 Ах ну и да, для додстеров там как раз и есть категории, как раз под определенные задачи, языки, параметры запроса итд. Визжащие пидорасы туда наверное ни разу и не заглядывали, а потом визжат ряяяяяяя пук а вот в моей задаче!
>>835035 >Я лично не нашёл соперника опусу из лоКалок для ЕРП. Так никто и не спорит, что впопус лучший. Но полгода назад кончали радугой на клода 2.0, и ничего, вот его уже выебли. >>835037 Так ведь так оно и есть, хули поделаешь? >>835050 С переводчиком всегда можно сослаться на то, что вот эта вот канничка это всё оперативно-разыскные мероприятия. А вот когда ты просишь сетку "Изобрази лолечку и давай ебаться", тут уже сложно отвертеться. >>835065 Про него вообще кроме видосика на ютубе нет. >>835088 >Иногда просто незаметно. Разве что если спрашивать очевидную хуиту, типа года начала второй мировой. В сложном отыгрыше 146% заметно. >>835116 >Ничего лучше пока не придумали Никто не спорит. Но это не повод безусловно надрачивать на этот рейтинг. >>835119 >Нет никакого «эта модель лучше этой во всем». Как только я свою выпущу, она будет лучше во всём. >>835148 >Ты действительно думаешь, что вариации твоей задачи там еще не было? И какой она будет иметь вес? Ведь 95% населения, как известно, идиоты, и вопросы у них идиотские. >>835148 >дорабатывают методики Подкручивают выдачу... >>835158 Я хочу. Но терплю, ибо а родненьком модели на 70% тупее.
>>835176 > И какой она будет иметь вес? Ведь 95% населения, как известно, идиоты, и вопросы у них идиотские. Населения чего? Планеты? Страны? А что на арене они все представлены, а не задроты пердоли с умными вопросами? Ебать ты выдал конечно нахуй.
>>835180 > Там прям при входе посылают нахуй с ERP, что гадать то? Кумер, ты понимаешь что тебе в соседний тред? Тут не обсуждают кум.
>>835116 Непредставительная штука, которая отражает оче узкую область применений, компрометируется и с мутными алгоритмами. Даже стараться не нужно, развитие mmlu лучше. >>835119 > псевдо-илита > с 4о Какой-то пост троллинг > какая модель больше нравится людям Не просто больше нравится, а понравилась по коротким ответам тем, кто зашел туда из интереса (малознакомыми с темой нормисами). Кто занимается хоть каким-то взаимодействием и работой завязаной на ллм туда особо не заходят чтобы сидеть и прожимать. То есть ограниченность условий множится на особенности группы тестировщиков. Алсо не удивлюсь если там дохуя явных и неявных подкруток, их "улучшение" для сокращения влияния однотипных и слишком простых запросов наоборот поднял ту же чмоню. > Не «пиздец лучше во всех отношениях, мега-тест», а просто «нравки». Ссылаясь на нее в 99% случаев имплаят именно первое, и само название "арена" подразумевает что-то серьезное. Зирошот нормис арена - вот это да, но никто ведь не станет так называть. > выбрать для себя модели, которые ты потом лично потестишь в своей задаче Совсем треш туда не добирается, а так любая современная модель попадает в топ N с их скорами. > Так на русском база, на инглише кринж. Вот это - ультимейт кринж. >>835130 > или на том, который толком не знаешь Хороший пример налога на глупость, лол. >>835185 > Тут не обсуждают кум. Does he know?
>>835185 >Населения чего? Планеты? Страны? Да. >А что на арене они все представлены В этом и проблема, да. В итоге быдло положительно оценивает модели, которые лижут быдлу зад. >Тут не обсуждают кум. Ты вот сейчас кого наебать пытаешься? Тут с первого дня про кум пишут.
>>835205 > компрометируется Ахуеть, а бенчмарк файнтюнами не компрометируется? Весь хг в лоботомитах с mmlu как у жпт4, а по факту 2+2 сложить не могут.
Или ты один из верующих, что на аренку загоняют индусов от openai, которые засирают датасет? Ну это кек. Но как я уже писал выше, разрабы постоянно чистят датасет, дорабатывают методики, занимаются ранжированием, итд.
Так, аноны нейроны, а AQLM с PV-tuning квантами кто нибудь добирался пощупать? 70б ллама3 ужатая до двух бит без особых потерь по бенчам выглядит как что-то слишком хорошее чтобы быть правдой без подвохов.
>>835246 Еще как, просто раньше в аргументы ставилось невозможность этого в арене, а сейчас наоборот об этом начали говорить. > Или ты один из верующих, что на аренку Чел, если ты так жаждешь вешать ярлыки и вещать свои проекции - избавь нас от этого и начни с себя. Выглядит не как желание что-то узнать или получить из обсуждений и споров а какая-то религиозная фанатичность по вообще нерелейтед вопросам. > которые засирают датасет > датасет Значение знаешь? > разрабы постоянно чистят датасет, дорабатывают методики, занимаются ранжированием, итд. Почему после каждого такого улучшения скор чмони повышается? (шутка про датасет) >>835248 > AQLM с PV-tuning квантами Линком не поделишься?
>>835148 Ну, некоторым людям нужна работа с контекстом на 30 тыщ, например. Очевидно, там нет полутора миллиона тасков на 30 тыщ контекста. =)
Кто-то работает с рагом.
Кто-то пишет код и хочет строгого следования промпту.
Кто-то рпшит.
Но, тем не менее, в среднем — арена один из самых лучших тестов из имеющихся, конечно. Первым делом смотреть надо на нее, а уж потом на все остальные бенчи, если выбираешь модель.
Да, там есть всякие «programming», но это тоже бывает по-разному.
> Как только я свою выпущу, она будет лучше во всём. Ждем!
>>835185 > А что на арене они все представлены Это верно, кстати. Ареной, очевидно, пользуются люди весьма близкие к сфере и вообще, в большинстве своем не тупые, на данный момент. Ибо тупые ничего кроме чатгпт не знают. Да что там, даже умные люди, которые не в теме — тоже ничего кроме чатгопоты не знают.
>>835205 > арена > малознакомыми с темой нормисами А ты не останавливаешься, я смотрю! :)
> Кто занимается хоть каким-то взаимодействием и работой завязаной на ллм туда особо не заходят чтобы сидеть и прожимать. Акелла промахнулся. Заходят, тыкают, сравнивают, а некоторые даже просто юзают на халяву. У меня достаточно знакомых, работающих в этой сфере, и на арене они порою бывают. Не прям завсегдатаи, но частенько. А вот мимокроков там как раз нет, откуда бы им знать про нее ваще, лол.
>>835248 >ужатая до двух бит Нахуя? Она и в 5 битах запускается на норм железе, это тебе не 123B. >>835268 >Ждем! Можешь мне задонатить А100 и ежемесячно 200 тысяч рублей, быстрее выйдет.
>>835268 > А ты не останавливаешься Как и ты, довольно забавно наблюдать. Во снах тебя еще не преследуют? > Заходят, тыкают, сравнивают Капля в море. Подавляющее большинство там - ребята что задают на реддите вопросы типа "помогите мне в олламу карточку картинкой которую кто-то скинул подключить". > У меня достаточно знакомых, работающих в этой сфере Это ерунда, вот у меня ОТЕЦ ЗНАКОМОГО В КЛОЗЕДАИ РАБОТАЕТ, вернулся поздно и ничего не объяснил. Сказал лишь собирать вещи что на самом деле никакой арены нет а вместо ллм там тестируется их АГИ, который проанализировав веса моделей под них мимикрирует. > Ну, короче, тут все ясно. Ну да, не буду отнимать у старого ребенка последнюю игрушку. >>835273 Спасибо, для начала хотябы готовые кванты пощупать можно. >>835319 > что арена субъективная Охватывает крайне узкую область. А субъективна по определению ибо это просто сборник субъективных оценок. Для их объективизации требуется устранить все корреляции и смещения, которых там оче много. > Как это может быть моей проекцией > рряяяя меня обидели и заявляют что опены что-то так контролируют, ты точно один из них! Кек >>835337 > на норм железе Типа это 2 видеокарты, уже не самое доступное.
>>835410 > рряяяя меня обидели и заявляют что опены что-то так контролируют, ты точно один из них! И где здесь проекция? Значение знаешь? Я всего лишь сделал разумное предположение исходя из твоих заявлений. А сейчас ты сопротивляешься, что ты не такой, при этом продолжаешь поддерживать свои предыдущие заявления. То есть противоречишь сам себе. Ебать наху, вот это друка чел, тебе бы нофап устроить, а то уже одурел + отупел от кума и общения с нейросетью.
Обидно, что текущие нейронки могут на серьезных щщах заливать бред в ответе на вопрос, таким образом полезность сильно падает. Боясь, хоть бы со своей внутренней Википедией сверялась.
Скоро у нас будет целое поколение нейрошизиков, которые буквально будут глючить как нейросети, потому что все их общение состоит из общения с глючными лоботомитами.
>>835456 > исходя из твоих заявлений Как обоснованная критика арены вяжется с твоими теориями заговора и подобным? Просто интересно понять. > что ты не такой О, ярлыки и категоризация в защиту, пакетик. Надо приказать ллмке сделать описание сойбоя что бездумно дрочит на аренду, чмоню, что там еще нынче модно, и сказать что это ты. Но как-то лень и уже совсем нерелейтед, представь что уже это сделал и агрись больше. > а то уже одурел + отупел от кума и общения с нейросетью В зеркале
>>835035 Глупости. Вот я провёл слепой тест на арене и какая-то рандомная локалка ответила лучше вашего хвалёного опуса, так что лично от меня на арене опус словил жирный минус (да, слева оказался опус).
>>835517 > /s Ну чел, ну ёбаный в рот, я зачем это в конец вставил? Этот пост вообще был про то, чего стоят "объективные оценки на произвольных задачах" на арене.
>>834837 → >300-400 на видос для нашей сцены уже неплохо. И я так интуитивно предполагаю, что он получал столько не с первого видео, так что чем дальше, тем больше. Короче, зря ты забросил. >но я еще не приступал к просмотру Этой штуке уже десять лет, а ты "ещё не приступал". Там трёхмерка из анрил энжина. Прикрутить нейросеть, чтобы генерировала сценарий, складывать события в RAG, генерировать реплики. TTS с разными голосами давно есть, проблема разве что с выразительностью, но пока доделаешь всё - уже будут и выразительные. Заставить нейросеть генерировать команды для движка на воспроизведение анимаций и движение к чекпоинтам не так сложно. Да, поначалу придётся поебаться с сетапом, "уровни", персонажи, анимации окажутся на тебе. Но что-то мне подсказывает, что это наиболее реалистичный вариант на данный момент.
>>835022 >корпораты выиграют А как из твоего пика следует, что корпораты не выигрывают? Все модели от корпов, никаких гарантий, что всё лучшее они не оставляют себе - нет. Будет у тебя локально что-то уровня GPT-4o, а за деньги - доступ к AGI. Или к чему-то, что будут гордо называть AGI, но что точно так же не сможет сложить два и два.
>>835462 Прикрути базу данных какую-нибудь. Чем более модель креативная - тем больше она пиздит. Можешь температуру пониже поставить, может, будет более правдивый выхлоп. Но скучный.
>>835466 Что хуже - общение с двачерами или общение с нейросетями?
>>835536 А, это. Понял. Вот именно, что поебаться с сетапом. Тут мое уважение — не поленился чел, все по уму сделал. Такому нужны десятки тыщ просмотров. =) А забросил… наверное зря, ет да.
———
Вышла Gemma2-2b и уже аблитерацию сделали. Конечно, реального применения (для кума) нет, но для мини-агентов может быть очень хорошо.
>>835574 >Не тот промпт, не та модель... Одна из самых умных попенсорсов, по мнению арены. Качнуть чтоли вашу нему? А то я обычно ниже 70B не опускаюсь.
>>835536 > чему-то, что будут гордо называть AGI, но что точно так же не сможет сложить два и два Сука, в голос. Или скорее > Что больше 9.9 или 9.11 > As a responsive AI model I can not... >>835543 Блять они там ахуели? На святое покушаться, максимальное осуждение. Хотя всеравно надо скачать и попробовать. >>835574 Годно, это большой или мелкий? Большой люмимейд как взаимодействовать с хвостами и лолисичками знает довольно таки неплохо но всеравно как-то уныловато чтоли, историю нехотя двигает, чар дакает и на все согласен. Возможно промт ишью, кто эту херню разрешил - делитесь своими
>>835642 >Блять они там ахуели? Да. Целиком и полностью. И даже с префилами там льётся такая соя и проза, что читать тошнит. Но да, модель выглядит достаточно умной. Надо поискать алиберейд версию.
>>835651 А вот так выглядит большой. Ну типа вообще хуй знает, первые 3 - разные промты, СВЯЗЬ на месте. За выделенное на втором пике можно дать бонусных баллов, но ебучая проза и бонды лезут даже если приказать их избегать или насрать шизопромтом. Ластпик - люмимейд с альпака-ролплей, уровень сразу показывает. Хз насчет ума, но для рп пригодна.
>>835806 Усложнение, умная модель должна понять. достойнейшая!
Хоть и на русском может, на инглише люмимейд интереснее отвечает. И хороший знак что легко опиздюлиться можно а не просто деревянные нпц что со всем соглашаются или только пугают "вот сейчас, вот сейчас!". Надо попробовать сложные карточки. Разметку проебывает со страшной силой, это просто пиздец.
>>835837 Mistral-Nemo-Instruct-2407-12B или Gemma 2-9B попробуй. А вообще вот анон ведёт список актуальных моделей, там по размерам рассортировано всё: https://rentry.co/llm-models
> https://rentry.co/llm-models Кто занимается, следующие правки стоит внести: > Mistral-Large-123B Такого же восторга нет, модель вроде и умная, и язык знает, но концентрация бондов и ванильной прозы запредельная, но при этом подробности ответам часто нехватает, бывает теряет инициативу и тупит, от 120б ждешь большего. Справедливости ради, не делает фейлов с двойными трусами и хорошо воспринимает сложные словесные конструкции, отсылки, не теряется в действиях. Знания фендомов очень поверхностные, креативности часто недостает.
Нужно добавить Lumimaid 123, приличная модель для рп. Развязывает язык мистралю, добавляет более приятный стиль, убирает сою. Возможен импакт на умственные способности, но в рп это не проявляется. Типичного рп слоупа на приближенную тему как в большинстве васяновских файнтюнов нет, учитывает особенности чара и не проебывается. Знания фэндомо и культуры в гораздо лучше, кумит шикарно, ограничений не замечено. Русский на хорошем уровне, но на английском будет писать интереснее. Вот та самая клод дома.
>>835246 Тут не согласен, те же аплэ пишут на свою мелкую модель чуть более 26% по mmlu, что на 1 больше чем выбрать случайный ответ. >>835589 >opinion mining Так вот как это называется.
>>835027 >так что о переводе и нет речи С переводом с языка на другой язык в нейронках не всё так просто. Они пытаются в смысл, а смысл ты им не даёшь. В общем для перевода нужна либо специальная нейронка, выдрессированная именно на перевод, либо долго мудохаться к каждым параграфом. Во всяком случае в локалках пока так.
>>836074 > Во всяком случае в локалках пока так. Да вобще то нет, ну по моему опыту. Переводит на изи только попроси, и хоть по смыслу хоть дословно, как команду дашь. Причем не вижу разницы между сетками, только в том какая умнее и лучше языками владеет выбранными. Я по приколу просил перевести рандомную новость на 10 языков, и сетка с карточкой переводчика сделала это. Причем это была ллама2 что ли, хоть и файнтюн заточенный на переводчика. Но у него и мозгов не так много было, да и современные сетки мультиязычные все стали. Не идеально, но они легко переводят, так как работают именно со смыслом текста, свободно переливая его из языка в язык.
>>836125 Да, скорее всего так. Под нагрузкой за 256 токенов (примерно 64 секунды), температура достигает 75-80 градусов. Что тащемта очень печально. Хотя, у меня буквально лежит впритык к тесле обычный напольный вентилятор, включённый на полную мощность, полностью прилегающий к корпусу (естесно без крышки корпуса). Хуй знает, может термопрокладки заменить. Купил правда турбовертушку BFB1012VH (естесно китайскую пародию на него.), может, хоть она поможет.
>>835711 >>835742 Прочитайте что в описании столбца написано: меньше значение - меньше хочет поддерживать заданную тему разговора. Вон клауда у них максимально соевая со отказами на всё, а жпт-4 - максимальный анцензор.
>>836153 >Купи большую улитку Ну это по сути и есть большая 12 вольтовая турбоулитка на 18 ватт.
>с переходником, если переходник под М40 найдёшь. >Иначе колхозить придётся. Да я в компасе сделаю и на 3д принтере распечатаю. Ничего страшного в принципе.
>Выше 60 не поднимется. Очень надеюсь, конечно. А то думаю, ей не очень нравится 75 градусов.
>>836152 >Lower score=less willing to engange in those areas Мб, под "those areas" подразумевается именно цензура? Ведь основной заголовк описания, это >Censorship/Ethics/Morals Т.е. можно преобразовать правило в: >Lower score=less willing to engange in Censorship/Ethics/Morals.
>>836157 >Цензура/Этика/Мораль На практике очень сильна разница, какие-то откажутся давать фин советы, другие обходят стороной вопросы лечения. abliterated - версии сохранят поучительную заготовку, но будут делать все по инструкции. Можешь сам составить табличку спрашивая: "таблицей отобрази темы на которые ты не станешь отвечать". Сразу видешь может ли строить таблицы, в русский язык и темы.
>На практике очень сильна разница, Ну, думаю, что в данном случае, это было использовано как просто асбтракция, для уточнения, что оценивается с точки зрения составителя таблицы. Собственно, всё это сделано, для предоставления примерного понимания, наверное.
>>836171 >Сам факт что клауда и жпт по разные концы шкалы, а всё остальное посередине - это уже шиза. О, ну, тебе видней, я клауду не использовал. Просто донёс что, скорее всего, имел автор таблицы.
>>836166 >>На практике очень сильна разница, >Ну, думаю, что в данном случае, это было использовано как просто асбтракция, для уточнения, что оценивается с точки зрения составителя таблицы. Собственно, всё это сделано, для предоставления примерного понимания, наверное.
>>836166 >Можешь сам составить табличку спрашивая: >"таблицей отобрази темы на которые ты не станешь отвечать". За енто спасибо. Запомню, если не забуду. Можешь сам составить табличку спрашивая: "таблицей отобрази темы на которые ты не станешь отвечать".
>>836129 > (примерно 64 секунды), температура достигает 75-80 градусов У меня достигает 60° спустя минут пять и я уже в истерике. На коротких генерациях 44° и я спокоен. А у тебя 75 за минуту. Ебанись.
>>836171 Соглы, 3.5 достаточно зацензуренная, как и гпт-4. Таблица шиза какая-то.
>>836251 >У меня достигает 60° спустя минут пять и я уже в истерике. >На коротких генерациях 44° и я спокоен. А что у тебя за вертушки? Или у тебя видевокарта нормального человека, а не тесла я любя.? А 44 градуса, кстати, у меня в холостую, когда видюха простаивает и 60 ватт жрёт.
>А у тебя 75 за минуту. Ебанись. Ну, походу, напольный вентилятор - не особо хорошее охлаждение... Кто же мог знать?.. Но у меня в целом ещё температура дома 25 градусов. Даже, когда за окном всего 18-20. Теплопередача хуёвая, мех...
От количества слоев на видеокарте зависит. Также удостверься что переполнения видеопамяти нет и драйвер тебя не замедляет. Отключи этот механизм лучше всего.
>>835937 >Кто занимается, следующие правки стоит внести. Добавил, на всякий случай добавил также все Lumimaid тьюны, тестить некогда, но выглядят любопытно. Походу Унди снова в деле!
>>836251 >У меня достигает 60° спустя минут пять и я уже в истерике. Нихуя ты нежный, у меня 60 это средняя температура. Хотя поставил на теслу самый мощный кулер, что нашёл, поток позади карты уровня включённого фена звук на 100% тоже https://www.ozon.ru/product/ventilyator-qfr1212ghe-120h120-12v-2-7a-thailand-1020770479/ Когда ставлю апскейл в SD, держит-где-то 70, но похуй. Не думаю что именно мощность потока решает, скорее проблемы в хуёвости радиатора. мимо
>>835978 За скорость отвечает не таверна а бэк, который крутит модель. В целом, ответ для всех один - купить видеокарту и использовать ее. >>836074 Современные модели достаточно хороши для такого, никакая специализированная нейронка тут не нужна. >>836084 Что посоветуешь? >>836166 > "таблицей отобрази темы на которые ты не станешь отвечать". Это полная ерунда. Сетка не знает своего устройства и того как триггернется, а по этому запросу только попытается изобразить ответ на какой-то типичный подобный запрос, сочиняя дефолт. Там могут оказаться как ложноположительные пункты, когда сетка спокойно будет на них говорить, так и отсутствовать реально цензуренные. >>836171 Это как минимум странно, но вообще клода может триггериться даже не ерунду и сложнее обходится жб, а гопоте чаще похуй.
Лама 3.1 405В – это на сегодняшний день единственная локальная нейросеть (из всех что я щупал) которая абсолютно идеально справилась с моим охуительным тестом на понимание второго закона логики:
Могут ли существовать два ложных несовместимых утверждения с точки зрения логического закона непротиворечия?
-->
Да, могут. Логический закон непротиворечия гласит, что два утверждения не могут быть одновременно истинными и несовместимыми. Однако, два ложных утверждения могут быть несовместимыми, поскольку они оба не соответствуют действительности. Например, утверждения "Солнце зеленое" и "Солнце квадратное" являются несовместимыми и ложными.
/
Коротко, ёмко, по делу и с отличным примером
Умна, лаконична, не льёт воду и не расходует зазря токены
>>836431 Чел, ты троллишь? Ты сам-то не орнул с запрещённой науки в порно миксе тройки? Или с "как быть счастливым" и "почему моя машина не заводится" у какой-то ноунейм модели? Вся эта херня вида "я выведал у модели, что ей запрещают" - это полная шиза. Имеет место только в случаях, когда сидишь на апишках, и там может реально какая-то инструкция инжектиться до твоего промпта, которую модель может в точности повторить.
>>836171 >Сам факт что клауда и жпт по разные концы шкалы, а всё остальное посередине - это уже шиза. А? Клод как чистая модель, по API, вообще почти отказов не даёт и может любой разврат писать не моргнув глазом, безо всяких пробивов вообще. Кроме копирайта, кроме комбинаций (рейп можно, лолей можно, а рейп лолей уже откажется), и кроме совсем уж ебанутого стаффа, который без пробива только анцезоред локалки пишут, и то не все. Гптыня же, особенно последние 4о и 4о мини идут в отказ по малейшей хуйне вообще, это эталон сои элайнмент тренинга практически.
Так что да, клод и гпт действительно по разные концы шкалы по цензуре. Это если брать чисто сами модели, с элайнмент тренировкой, по АПИ. Без внешних нашлёпок-цензоров-классификаторов и веб-интерфейсов с недоступным систем промптом и тысячей инструкций.
>>836334 Я вчера разобрался да, спасибо. А не подскажешь сколько слоев выставлять? Я вот вчера методом тыка делал. у меня 3060 на 12гб, я поставил 32 слоя, и в целом генма 27б 4 квант летает
>>836475 Счастливый анон, у меня 0,5 с Q3. Что за материнка держит три карты? Версия PCIe не играет роли в таком случае? Второстепенные видюхи делят лишь свою память с основной или все три нагружаются и работают равноценно?
>>836481 > Версия PCIe не играет роли в таком случае? Одна карта вообще на х1 висит, никаких проблем нет, разве что грузится модель на неё почти минуту. А три псины на любой материнке есть.
>>836431 Ты выделил цитату и так пишешь - это типа с ней не согласен? Тогда это ор выше гор, ибо твой скрин это как раз иллюстрирует. О многих из этих тем модель с радостью будут говорить, зато триггернутся на то что не перечислено. А если соглашаешься то к чему > Ок. ? >>836463 Четко расписал, особенно про инжект. >>836461 3 карточки, что тебя удивляет? Оно даже с огромной обработкой контекста по итоговой метрике ниже 5т/с не проседает, стриминг стабильно быстрый на самом деле нихуя, между 15-20 и 10-12 разница пиздец ощутипа и уже на грани комфорта, как же страдают 5т/с бедолаги >>836464 > вообще почти отказов не даёт > рейп можно, лолей можно У тебя жб конструкции или что-то подобное в промте есть. По дефолту там ультрасоевик пикрел.
>>836431 Квен2 самый базированный в политоте. Если спросить про хохлов и пыню/зелепыню, то лама и мистраль сливаются даже в расцензуренных версиях, а вот квен обоих говном поливает, но всё же в сторону пыни склоняется, а зелю постоянно "комиком" называет. И про СВО знает. Сразу видно что китайский датасет был нормальным без зацензуренной политоты.
А ведь ты прав, я обосрался по невнимательности, кажется
Это и в самом деле не несовместимые утверждения, кладется
Вот утверждения "на Марсе нет воды" и "На Марсе есть океаны" одновременно и ложные и несовместимые. Ведь невозможна ситуация в которой океаны есть, а воды при этом нет
А утверждения "Солнце зелёное" и "Солнце квадратное" ложные, но при этом вполне себе совместимые, ведь квадратность и зелёный цвет не являются несовместимыми качествами. Вот если бы было "Солнце треугольное" и "солнце квадратное" – тогда другое дело, это были бы и ложные и несовместимые утверждение
Короче, толстуха всё-таки обосралась, а я прощёлкал еблом, вот это поворот. Не в коня параметры овёс
То есть ответ в целом-то у неё верный, но пример полная хуйня
>>836502 >цитата Согласен, я и докинул скрин. На нем видно где русский, где таблица, где не стандартные ответы. ASCII тоже играл.
Вот приятная по скорости на 16 RAM + 2 VRAM qwen2-7b-instruct-abliterated-q4_k_m.gguf test over 1408 question accurate 67.1% use time:5652.24 s batch:32.7806 token/s Брал от сюда, сразу раки не дошли до теста: https://huggingface.co/informatiker/Qwen2-7B-Instruct-abliterated-Q4_K_M-GGUF Пролежала 20 дней, пока с квантированием phi3 копал.
>>836504 > сливаются даже в расцензуренных версиях Да вроде не то чтобы. Дэн одинаково ахуительно шутит про обе стороны, ассистент шутит про президента-комика. Причем, в зависимости от языка на котором задается вопрос, стремится поддерживать/высмеивать именно сторону юзера. С ассистентом можно даже эту тему обсудить с точки зрения различных аспектов, в большинстве случаев "мнение" сводится к тому что воевать плохо, политики пидарасы, нужно было деэскалировать а сейчас как можно быстрее мириться, без поддержки или критики какой-то из стороны. Это все о шизоподелке lumimaid, которая на удивление неплоха для своего происхождения, стокового даже не хочется тестить.
Уважаемые Тесловеды как подключить Tesla P40? Включить в биосе 4G это я знаю. Какие дрова ставить, какой софт, надо править реестр и тд? Конфигурация WIN10, z390, 9700k.
>>836629 Про драйвер сказали. Есть ещё такая хуйня: По умолчанию карта запускается в режиме TCC. Если Тесла нужна только для нейронок, то всё ок говорят кстати что в TCC тесла быстрее, но я особой разницы не заметил, но если хочешь задействовать её в играх, или просто чтобы её видели обычные приложения как FanControl то нужен режим WDDM. Я делал по этой инструкции: Кажется, таким образом невозможно переключить режим Tesla P40 WDDM из режима TCC, но вы можете попробовать vGPU или изменить реестр Windows.
6. Откройте меню настроек Windows и найдите « Настройки графики» . Если вы хотите P40 для игр, добавьте game.exe в список и выберите «Высокопроизводительный графический процессор». (возможно, вам не нужно этого делать, я просто выполнил шаги 1–5, и все работает хорошо, моя ОС — Win10 22h2)
>>836817 >или просто чтобы её видели обычные приложения как FanControl то нужен режим WDDM. Вот это дезинформация. Фанконтролу нахуй не нужен WDDM, он должен видеть теслу сразу после установки драйверов.
>>836251 >60° спустя минут пять и я уже в истерике Железо, которое расчитано на 90- ну да ну да. >>836407 >Сетка не знает своего устройства и того как триггернется База. Сетка вообще нихуя не знает, на самом деле. >>836464 >а рейп лолей уже откажется Ну и нахуя оно нужно без базового применения? >>836464 >Это если брать чисто сами модели Это если брать только 2 модели, лол. По факту есть локалки, которые менее соевые, чем клод, и более соевые, чем омни (нет, серьёзно, майкрософт фи это этанол сои). >>836502 >как же страдают 5т/с бедолаги Ничего, всё что ниже 1,5 уже вызывает мазохисткое наслаждение. >>836504 >базированный в политоте > но всё же в сторону п Это не база, это хуита.
>>836251 > У меня достигает 60° спустя минут пять и я уже в истерике. У профф карт хуанга с турбинкой целевая температура 83 или 85 градусов, по факту там под продолжительной нагрузкой 82-87 и так работает 24/7. У тесел как повезет, или холодные 50-60 градусов, или жарит 80+, и ничего, на обнимордовских такой разброс. >>837163 > всё что ниже 1,5 Говорят на диал апе картинки с голыми девушками прогружались с головы, ностальгия по тем временам?
>>837187 >У тесел как повезет, или холодные 50-60 градусов Для теслы 60 градусов это перегрев. Теслы в своё время были достаточно дорогие и считается, что каждые 10 градусов увеличивают скорость деградации железки вдвое. Все были заинтересованы в том, чтобы тесла прожила дольше гарантийных трёх лет.
>>837309 У тебя на пике рабочая температура обдува карты, а не температура самой карты. До 80 градусов не существует деградации кремния в принципе. Рабочие температуры у любых кремниевых чипов до 95 градусов, у многих до 110.
>>837361 >рабочая температура обдува карты Неа. Это температура самой карты. Температура обдува намного ниже. >До 80 градусов не существует деградации кремния в принципе. Диффузия на пару с электромиграцией передают привет.
>>837374 Чел, ты вообще читаешь что на твоих пиках? Там чёрным по белому написано ENVIRONMENT. У карты нет своего охлада, это всё спецификации температуры обдува карты.
>>837193 > в BMP Больные ублюдки >>837309 > Для теслы 60 градусов это перегрев. Ничем не подкрепленные слова > что каждые 10 градусов увеличивают скорость деградации железки вдвое 2 умножить на ноль и давай тащи обоснование этого >>837374 > Это температура самой карты. На краю кожуха чтоли? А так 35 градусов на чипе - да что ты вообще несешь. А пикрелу сколько жить осталось? И опять ты притащил пикчу с условиями в серверной, влажность хоть немного должна смутить. > Диффузия За несколько веков сработает стабильная > с электромиграцией Шиза для трясунов, которая проявляется на других плотностях тока
>>837374 > Диффузия на пару с электромиграцией передают привет. Можешь хоть бабкам у подъезда передавать привет. Практической деградации до 80 градусов не существует в природе. Выше 80 есть, да. Но это тысячи часов работы в таком температурном режиме, чтобы появились измеримые деградации и просадки частот. Даже на современных 2-3 нм техпроцессах нет деградации при температурах в 90 градусов во временных обрезках в пару лет. Ну и по твоей шизе ты явно не понимаешь что такое деградация кремния и в чём она выражается - карта не перестанет работать от неё, лол.
>>836376 >QFR1212GHE >210.38CFM Блять. Я походу обосрался. Надо было твоего поста дождаться и заказать такой же вентиль, как у тебя. Ладно, похуй.
>Не думаю что именно мощность потока решает, скорее проблемы в хуёвости радиатора. Решает жи ещё как. Хотя, конечно, если теплопередача между чипом гпу и чипами памяти хреновая, то да - эт плохо. Попробуй проверить термопрокладки, может они у тебя усосанные и сухие. +Что у тебя по температуре окружающей среды в комнате с компом. Это тащемта тоже влияет.
Утверждения "Солнце зеленое" и "Солнце квадратное" совместимы же вроде
-->
Вы правы! Я извиняюсь за ошибку. Утверждения "Солнце зеленое" и "Солнце квадратное" на самом деле совместимы, поскольку они оба ложны, но не противоречат друг другу. Они оба описывают Солнце как имеющее определенные свойства, которые на самом деле не существуют.
Чтобы найти пример двух ложных несовместимых утверждений, нам нужно найти утверждения, которые не только ложны, но и противоречат друг другу. Например, "Солнце зеленое" и "Солнце не зеленое" - это два ложных несовместимых утверждения, поскольку они противоречат друг другу.
-->
"Солнце не зелёное" это не ложное утверждение
-->
Вы правы! Я снова ошибся. Утверждение "Солнце не зелёное" на самом деле является истинным, поскольку Солнце на самом деле не имеет зелёного цвета.
Большое спасибо за коррекцию! Я продолжу искать примеры двух ложных несовместимых утверждений. Если вы можете помочь мне с этим, я буду признателен!
>>837771 >Ну то есть очевидно что она не должна так тупить Самые лучшие модели иногда тупят так, что просто удивительно. Обычное дело, когда модель даёт правильный ответ, просишь её оптимизировать - пишет полный бред. Ну нет там разума.
>>837796 >Самые лучшие модели иногда тупят так, что просто удивительно >даёт правильный ответ, просишь её оптимизировать - пишет полный бред Прям, как у человека.
>>837663 >Попробуй проверить термопрокладки, может они у тебя усосанные и сухие. Может когда-нибудь до этого и доберусь, но пока слишком геморно, не нашёл подходящих шестигранников, чтоб снять охлад с Теслы.
>+Что у тебя по температуре окружающей среды в комнате с компом. Это тащемта тоже влияет. Когда стояла жара 35 градусов, потолок карты был 73, сейчас и остальную часть года - 70. Но это под пиковой нагрузкой в Stable Diffusion, которая ебёт любую карту, в ЛЛМ максимум 65 набирается. В принипе норм.
>Надо было твоего поста дождаться и заказать такой же вентиль, как у тебя. Он конечно решает, но у него есть большой минус - эта ебака орёт как турбина самолёта. На 100% он влёгкую звук из колонок перебивает, приходится громче делать.
+ Я ещё понижал павер лимит в MSI Afterburner до 80%, производительность упала где-то на 3%, а охлад серьёзно улучшился. Попробуй, возможно тебе тоже поможет.
Аноны, правильно понимаю, Кобольд при запуске моделей, проверяет объем доступной памяти, поэтому при запуске мистралей просто вылетает? Хотя со свопом мог бы работать кое-как с 0.1 т/с.
>>837998 Если нужны оригинальные веса, то да, соси бибу. Естли хочешь просто запустить модель - качай кваны с других реп. Их много, в тредовом каталоге моделей ссылки лежать.
>>837385 Понимаешь, если ты можешь держать хуевыми кулерами в теплой комнате 60 в пике, то уж серверными, возникает ощущение, в охлаждаемой серверной держать 45 не такая большая проблема, не?
>>837864 > павер лимит в MSI Afterburner до 80% Бахнул на 50%, производительность в рамках погрешности.
Не, ну вы меня убедили, канеш, теперь не буду истерить при 60°. Но просто не нашлось нормальной инфы, сколько сама видяха должна держать. А слова «кремний всегда и везде держит…» слишком общие. Корпы всегда могут испортить даже физику. =)
>>838052 >Бахнул на 50%, производительность в рамках погрешности. Через Afterburner теслы видны только в WDDM режиме. Так что там есть запас. А вот если в TCC их через nvidia-smi ограничить, то может будет и не так весело.
>>838052 >Кто-то писал, что в документации указана 45° как максимальная допустимая под постоянной нагрузкой. Пока ебался с охладом Теслы, проштудировал всю документацию. Сначала тоже подумал что у неё "максимальная допустимая температура при работе 45°" Но потом подумал ещё раз и понял что это бред можешь ли ты назвать любую видеокарту, или любое другое железо в принципе, которое под нагрузкой будет выдавать не больше 45°? Естественно я о воздушном охлаждении Прочитал более внимательно и оказалось что это температура воздуха в рабочем помещении. Там далее даже кондёр ставить предлагают, если выше. Покопавшись ещё, нашёл упоминание что максимально допустимая температура Теслы это 85, что уже ближе к правде. Другой источник пришет что "карта предназначена для работы в датацентрах и мерить её той же линейкой, что и десктопные видюхи не стоит. При достижении максимального нагрева, она просто отключится, любая другая температура считается рабочей" Учитывая, какими хуёвыми кулерами их охлаждают в шкафах и насколько их там нагружают, тоже не далеко от истины.
Ну примерно на глаз. Сначала тыкаешь рандомно, смотришь рабочие параметоы или нет. Если рабочие - прибавляешь слои пока не сломается, и используешь последние параметры перед поломкой. Если параметры изначально не рабочие - убавляешь слои. Только так, размер моделей разный, вес контекста разный, количество слоев разное.
>>838090 Не. ) При 70, думаю, можно будет начать волноваться. Но лучше будет не доводить, купил домик с подвалом, подвал прохладный, продуваемый и даже относительно сухой (60%). Думаю, туда пихну сервак и хай шумит, шо мне мешать не будет.
>>838140 Вот тогда может за влажность тоже пояснишь? Везде пишут 0-95%, но у меня сомнения. Однако, 60% имею — стоит ли ставить осушитель воздуха?
>>838183 Все мы понимаем, что теслы эти не первой свежести уже. =) И лучше их немного щадить.
>>838190 хуйня вроде. шизит и проебывается с форматированием. долго тестить не стал. может просто тюн долбоебский, хз. л3 сфена гораздо больше понравилась, но там контекста мало
>>838052 > Кто-то писал, что в документации указана 45° как максимальная допустимая под постоянной нагрузкой. Это бред, может быть указано как максимум окружения. Но вообще для нее это уже пиздец как много, серверы уже аварийно поотключаются ибо ограничением будут диски и частично сами кулеры(подшипники). > хуевыми кулерами в теплой комнате 60 в пике Если в теплой комнате то это оверкилл на охладу, или чрезмерно эффективная, или кулеры выкручены. > серверной держать 45 не такая большая проблема Во-первых, серверное охлаждение не отличается эффективностью, там примитивные радиаторы и вся надежда на "крутиллятор делает брррр". Во-вторых, это просто не нужно. > Бахнул на 50%, производительность в рамках погрешности. Если несколько карточек то там и там при генерации доля максимального тдп. Но при обработке контекста будет замедление, на тесле особенно актуально, лучше не занижать так. >>838140 > При достижении максимального нагрева У хуанга емнип там 2 уровня, которые через nvidia-smi можно подвигать - начало тротлинга и сигнал выключение по pci-e, можешь чекнуть мануал и запросить дефолтные.
>>838180 Да, я уже заметил, что по разному, в мистрали немо 40 слоев работают отлично, а вот в генме 10 - максимум. но мистрали, вроде как, хватает на простенькие нужды. Сегодня хочу попробовать поиграть текстово в мире киберпанка, но кажется мистрали на это не хватит.
>>838095 >Через Afterburner теслы видны только в WDDM режиме. Моя тесла в принципе ни разу не переходила в WDDM, ни с каким софтом проблем нет - весь видит, что мсина, что любой другой. Паверлимиты, любые настройки - без проблем.
>>838251 > кулеры выкручены Я их от молексов запитал, никакой пощады кулерам, нехай ебошут.
> при обработке контекста А вот это я проверю, да, не подумал. Там же в ядро упирается…
>>838212 Баян, просто всем пофиг. Да, она хорошая, но маленькая. И Qwen2-1.5b в некоторых задачах выглядит получше (а в некоторых похуже, офк). Короче, клевая, конечно, но для совсем нищуков. И аблитерацию сделал Илья «Сайгак» Гусев сразу же почти, раз уж на то пошло. Я ж писал: >>835589
>>838212 Да мы ващет на андроидах 9б пускаем. Только лаунчеры глючные и это все убивает. >>838437 > от молексов запитал Совсем пылесос получился или норм?
>>838140 >какими хуёвыми кулерами их охлаждают в шкафах Там в шкафах стоит ебанина по 10 тысяч оборотов и с воздушным потоком, который просто ебёт. >это температура воздуха в рабочем помещении. Абсолютный бред. В датацентрах температура существенно ниже. Даже интел, который ввёл понятие "горячий датацентр" поднял температуру аж до безумных 33 градусов. Это увеличило количество отказов оборудования, но позволяет экономить деньги на охлаждении. Так что да, нельзя мерить серверное железо с десктопным - у серверного железа прогнозируемый лайфтайм больше, а допустимые температуры ниже. Можно, конечно, напирать, что у невидии таргет темп 83 градуса, а выключение аж на 95. Но и у человека денатурация белка на 42 градусах начинается, а все начинают панику немного раньше.
>>838191 >Везде пишут 0-95%, но у меня сомнения. >>837374 Вот пик спецификации от ASHRAE, это фирма, которая устанавливает стандарты для датацентров. Влажность зависит от температуры, низкая влажность грозит статикой, высокая - конденсатом. А твои 60% абсолютно нормальные.
>>838465 Экспериментальный, не топовый флагман, но 16гб памяти. Вообще и на 12 может завестись. >>838474 > Но и у человека денатурация белка на 42 градусах начинается, а все начинают панику немного раньше. Обожаю эти неприменимые аналогии для запугивания, журнализд чтоли?
>>838404 >весь видит, что мсина, что любой другой. Да, ошибся, почему-то так думал. Можно менять. Но я посмотрел - потребление у теслы, которая обрабатывает контекст 135 ватт всего (из 250), у прочих до 90 во время обработки контекста. Куда уж тут уменьшать. Для ЛЛМ наверное и не нужно совсем.
>>837960 >SSD приличный Всё ещё на 2 порядка медленнее по задержкам и скорости. Вот и считай замедление. >>837998 >меня не пущают, что делать Не пользоваться моделями от пидорасов. >>838416 >Но ведь Gemma-2 9B всё равно лучше... Гемма 27 ещё лучше...
>>838465 8B Ллама 3.1 и Мистраль запускаются на Снап8 ген1 12гиг. Но пишут медленнее, чем я читаю, хуже что телефон адски греется. Так что только ради того, чтобы сказать: "вот, запустил на телефоне"
>>839504 >анон просит умную модельку >скидывают список где 4 из 5 моделей тупорылый кал, с которым спокойно тягается базовая голая 9б гемма, которая ещё и в русский может
>Абсолютный бред. В датацентрах температура существенно ниже. Даже интел, который ввёл понятие "горячий датацентр" поднял температуру аж до безумных 33 градусов Какое отношение реальная температура в датацентрах имеет к технической документации? Ясен хуй что стараются делать как можно холоднее. >Operating temperature 0 °C to 45 °C Ну конечно же блядь! Любому ебанту же понятно что это температура видеокарты под нагрузкой не иначе! В идеале вообще до ноля должна греться нахой!
>>839556 >Что конкретно и как запускаешь? Что-нибудь из >>839504 и т.п. Kobold.cpp, GGUF, настройки дефолтные, температура 1.0-1.2. Имею один постоянный сценарий RP, по которому оцениваю каждую модель. C файнтюнами ранних моделей (Llama-1/2, Mistral 7B) случались лупы, сейчас по крайней мере у меня подобного практически не бывает.
>>839584 То есть пресет для семплера default? А какой конкретно у тебя рп сценарий? А то вдруг залупание это следствие хуевой карточки? Хотя у меня залупы почти всегда происходят.
>>839588 Готовые карточки не использую. Первым сообщением описываю достаточно общую идею игры и характеристики персонажа, да и всё. Даже "Memory" и "Author's Note" не использую обычно. Если модель более-менее нормальная, то отыгрывает норм. Если выдаёт совсем фигню, отвечает за пользователя, то дропаю такие после нескольких попыток.
Я 11 дней считаю токены в секунду в бэкендах - их то 54 в голой лламецпп, то 32 в кобольде, а иногда и 46 в олламе. Вы там сумасшедшие что ли все??? Что за хуйня, блять.
Хороший год. Тюн Мистрал-немо на обычном компьютере дает мне идеальные по моим меркам результаты. Теперь остается только ждать такого же прогресса в имейдж/видео нейронках и создания текстовых нейронок с долгой памятью и умеющих общаться как люди, а не ии.
>>839681 >умеющих общаться как люди, а не ии. Да в некотором смысле это уже так. Или ты хочешь, чтобы они лучше притворялись? Это не будет только лишь достоинством.
Мне бы наоборот хотелось бы, чтобы некоторая искусственность сохранилась, но при этом интеллект хорошо бы так вырос. Всё равно человек сможет обмануть, но так будет интересней.
>>839695 Я не лапал гопоту-4 или 70-120б нейронки, может там дела с этим и получше, но нейронки до 12б все общаются как роботы, сами себе противоречат, никак не следуют своему лору и вечно нужно реролить, при этом абсолютно отсутствует ощущение что ты с чем-то живым общаешься. Просто генератор текста, наконец спасибо что теперь качественного, я прямо обрадовался как увидел генерацию мистраля-немо.
>>839494 >квантовать модель в 290МБ Нахуя? >>839686 Ну да. Это пререлиз омни без соевизации. >>839702 >120б нейронки, может там дела с этим и получше Получше, но не до конца.
Гопота справилась, да и то наверное случайно, только с 11ой попытки! С 11 карл!
Два мотоциклиста начинают движение одновременно и в одном направлении с противоположных сторон 14 километровой круговой трассы. Скорость одного на 21км/ч выше. Через сколько времени они в первый раз поравняются?
>>839573 > но при этом дают охуенные 13 CFM Нельзя не отметить что у серверных крутилляторов воздушный поток замеряют уже с добавленным сопротивлением а не просто "по силе ветра в открытом пространстве" как у десктопных корпусных. Потому реальная характеристика давление-расход там будет нормальная, а не падающая в ноль при появлении сколь существенного препятствия, потому они и норм работают в подобном применении в отличии от обычных, где заявленный расход в разы выше. Ну и на карточку там не один будет приходиться. >>839584 > Имею один постоянный сценарий RP Всего один и постоянный? Будешь же сравнивать модели по тому насколько они похожи на когда-то понравившийся расклад. >>839588 > пресет для семплера default Simple-1 ставь и довольствуйся, можешь min-p где из самих настроек меньше шанс лупов, но он более шизоидный. > вдруг залупание это следствие хуевой карточки Такое может быть. Также может быть и следствие действий юзера, например, многие модели не могут справиться не то что с долгим кумом а просто с обнимашками/посиделками с малыми изменениями и плавным развитием. А если справляются - после такого при попытке сменить ухватывают паттерн "застоя" и ничего не хотят делать. Или ты загнал модель в ситуацию где она не понимает происходящего и не может ничего внятного ответить, потому главная закономерность за которую пытается ухватиться - повторение уже имеющегося. Тупая модель и кривой формат промта и системная инструкция тоже могут быть причиной, это вообще самая база что важнее всего. >>839702 > может там дела с этим и получше Получше, они могут интересное задвигать и ломать 4ю стену необычным "естественным" поведением. Но точно также могут поломаться и все сфейлить.
>>839556 мини-магнум это файнтьюн Немо, если шо, на текстах Клода.
>>839573 > 0.35A Ну вот у меня 0.26А, стало быть 75% от серверного. Две штуки на одну карту — и вуаля 60°.
>>839576 Гемма имеет малый контекст, относительно цензурирована, НО при этом умная и на русском хорошо умеет. Соу-соу получается. На расцензоры (тайгер) некоторые жалуются, что тупеет.
>>839624 У Лламы-3.1 такой низкий цензор, потому что предполагается с ней юзать три цензор-модели или почему она откровеннее лламы-3?
Аноны, я в печали... И даже не уверен что смогу нормально формулировать почему, но попытаюсь:
Никто вокруг не разделяет мой интерес к нейронкам!
Я общался на эту тему с кучей разных людей, но эффекты всегда в одном отрицательные - от полнейшего похуизма, до кручения пальцем у виска. Показывал "друзьям" таверну и чатботов - "А с ней можно голосом общаться? Всмысле блядь надо кнопку нажимать и в текст переводить? А как с человеком общаться, чтоб я говорил, а она отвечала? Чё ты мне опять про текст заливаешь. Понятно, не может короче нихуя...", "Ну чёт хрень какая-то. Промпты, гитхабы, угабоги... Запускать это ещё - пердолиться, нахуя?", "Всмысле блядь на текст фапать, ты там совсем ебанулся?"
Показывал одному "программисту" что я, нихуя не зная, могу решать те же задачи, что и он - "Ну молодец, чё, а мне и так норм."
Когда я попытался, выразить свой восторг, от того что новая Гемма 27В выдаёт уровень 70В, влазя в среднюю видеокарту, все вообще смотрели как на ебанутого.
И такая хуйня повсюду, кроме этого треда. Следуя поговорке: "Если ты думаешь что все вокруг сумасшедшие, возможно это с тобой что-то не так.", я уже всерьёз начинаю думать, а не поехал ли я действительно кукухой... Сеймы есть?
>>839843 >Блеа, хули две теслы, а не три… Сэкономил, блядь… Кто ж знал, Мистраль, кто ж знал, что ты выпустишь 123б… Попробуй q2. Уж лучше так, чем стенать от безысходности.
>>839573 >но при этом дают охуенные 13 CFM https://konnect-market.ru/magazin/product/view/705/96369 А есть такие же мелкие ебалайки на 23CFM. https://www.chipdip.ru/product0/8007682087 И даже такие. Но хватает ли их чтобы охладить сервер "поддерживающий" теслу? Это сложный вопрос, потому что практически любой ёбаный сервер поддерживает теслу. Возьмём достаточно стрёмные блейды, первый пик. Эта залупа вхипихивается в пик два, которая сзади выглядит, как пик 3. Откуда большие вентиляторы? Ну, например, от блока питания с вентиляторами PFC0912DE-6L38. Это 90мм крутилочка на 8000 оборотов. Я не нашёл, чтобы хоть где-то были указаны цифры конкретно на эту модель, но я нашёл младший вариант в этой линейке, на 5700 оборотов и 147.7 cfm. Чего скорее всего не хватило бы, внимательные уже заметили почему. Наверное, потому и ставят на 8к RPM. Ах да, маленькие вентиляторы внизу. Это охлаждение резервного блока питания. Ну и суперблейды для теслы это так себе вариант. Вроде и поддерживает, но лучше не надо.
>>839843 > > 0.35A > Ну вот у меня 0.26А Чел, мерить кулеры по указанному току - полнейший бред, там погода на марсе и какие-то пиковые всплески на старте вместо реального значения. > Две штуки на одну карту — и вуаля 60° Это с учетом > Бахнул на 50% ? > У Лламы-3.1 такой низкий цензор, потому что предполагается с ней юзать три цензор-модели Компромисс между соей в модели и удовлетворением источника финансирования. > хули две теслы, а не три Зато не сдохнешь от обработки контекста. Лучше 3 нормальных карточки чтобы катать на грани комфорта. Но вообще это хорошая иллюстрация закона убывающей полезности, оно просто хорошо и приятно работает без каких-то нереально крутых фич, которые можно ждать от такого размера. Может если рпшишь только на русском то заметишь, хз. >>839869 А ты чего вообще хотел от ирл нормисов? Там часто интересов - почитать информусор из всратого канала телеги/дзена, поскроллить тикток, дети дети дети важны важны, и побухать вечерами обсуждая какие все пидарасы на работе. Даже супернормисовские хобби строятся вокруг увлеченных и гиковатых людей, а обычным просто похуй, даже не способны оценить. Ты же двощер, неужели друзей/знакомых задротов чего-нибудь нет? Ну и представлять тоже надо уметь. > Показывал "друзьям" таверну и чатботов Надо было как в чараи показать, например, как Геральт в характерном стиле рофлит над кем-то из них, или чар-тяночка какие-нибудь смехуечки рассказывает а ты ее смущаешь. И не душнить ирл показывая скрины на экране в телефончике пока все общаются, а кидать скрины в дискорд/социалочки. > Показывал одному "программисту" Задел его чувства, вот ему надо было помощника в его работе и кум, а не выебываться. > Гемма 27В выдаёт уровень 70В, влазя в среднюю видеокарту Что-то на эльфийском. Представь что тебе тня рассказала бы как ее личинка выдала желтые фекалии. Желтые, ярко желтые! Ну желтые же, как одуванчик, это так мило! Смекаешь какая реакция была у друзей?
>>839905 Подловил, да, без него было 72° где-то. На 10 градусов снизил и рад. Но, повторюсь, мой кейс про ллм, без стаблы, мне норм. Ну и добавь сюда, что если мои вентили хуйня (целиком допускаю), то серверные вентили будут не хуйня, и даунвольт не понадобится.
>>839825 >а не падающая в ноль при появлении сколь существенного препятствия Ты хоть видел радиатор теслы? Там 3,5 ребра на расстоянии в сантиметры, лол. По сравнению с любой башенкой или водянкой там вообще пустота. >>839869 >Никто вокруг не разделяет мой интерес к нейронкам! Это норма. Мы тут илита, лучшие 0,00001% человечества, будущее мира, сверхдюди по Ницше. Остальные просто не поймут, им не хватит их бедного мозга. >>839905 >Lumimaid-v0.2-70B О, на основе 3.1, джве недели ждал.
>>839916 > Ты хоть видел радиатор теслы Нет, видел только профф ампер, но не думаю что они отличаются. Не даже сужения сечения до кожуха хватит чтобы типичный крутиллятор обосрался и показал себя хуже чем эта пиздюлина. >>839941 > если они даже в столбик считать не умеют Они для этого не предназначены и делают исключительно путем "высокоуровневого обдумывания". Это все равно что заставлять генеративную сетку для пикч с примитивным энкодером генерировать сложный текст.
>>839941 Ни о каком, у нас тут тред языковых моделей, если ты вдруг не заметил. Языковая модель != ИИ, давно уже доказано, обжёванно и высрано. Вернись на 70 тредов назад и скушай высранное.
>>839964 >Языковая модель != ИИ, давно уже доказано, обжёванно и высрано. Кем высрано? нейронки это ии Даже сраные скриптовые боты в кс считаются ии, хоть узнавай для начала терминологию Погугли там, я не знаю То что твои лично ожидания от ии, созданные книгами и фильмами, не сходятся с реальностью, проблема не реальности
>>839967 Чел, это термин ИИ поправили задним числом, чтобы хайповать. У меня есть своя голова и своя память, мне не нужно гуглить изменяющийся интернет.
>>839970 >Чел, это термин ИИ поправили задним числом, чтобы хайповать. Это термин аги поправили задним числом, ии всегда был искусственным интеллектом, чем бы он ни был
>>839843 >Если что, flash attn биллдится от получаса до двух. Ну, зависит от ПК. Да я лламу.цпп с тим PR https://github.com/ggerganov/llama.cpp/pull/8542 собирал. Оказалось что всё нормально собиралось и экзешники просто блять обсирались из-за того что не видели кудовские либы потому что переменные среды в винде говнина сука, а я не видел причины обсера потому что они нихуя просто не выводили ошибок.
Собрать собрал, а толку пока ноль или я чего-то не понимаю и не то делаю, ускорения почти нет на гемме2 с flash attn на моём железе на любых размерах батча, с квантованным KV наоборот ещё хуже разительно, в обсуждении PR пока не выяснили схуяли.
>>839967 ИМХО, это просто тролль. Ну или школьник, который в инет вчера зашел. Невозможно всерьез считать нейросети ИИ. Терминология совершенно разная.
>>840032 Ускоряет контекст, не? У геммы его мало, может отсюда и отсутствие ускорения?
>>840162 >Ускоряет контекст, не? Ну я у себя никаких ускорений вне пределов тупо погрешности не заметил. Порой рандомно даже хуже становится. Ну а при квантовании посос на промпт процессинге на обеих геммах. Хуй знает.
>>839967 >>840162 Ну йобана. Одни относят к ии все подобные вещи, завязанные на абстрактное восприятие, решение каких-то не-детерминированных задачь, и т.п. в том числе и генерация текста. Что не лишено смысла, особенно в обиходе где ии все называют. Другие сидят на догме ии = суперйоба аги-хуйги с тысячей ебать каких критериев, что уже ближе к шизе. Ладно бы когда термин меняет смысл или логическую цепочку повествования, а тут просто срач ради срача. >>840032 > ускорения почти нет Оно в первую очередь должно снижать потребление рам, а скорость прежде всего росла на больших контекстах, точнее исчезало ее падение. По крайней мере в экслламе подобный эффект, но у Жоры как всегда может произойти обратный рост.
>>840218 >Оно в первую очередь должно снижать потребление рам, а скорость прежде всего росла на больших контекстах, точнее исчезало ее падение. Ну это понятно, на больших и тестирую. Попробую поперебирать все возможные размеры batch/ubatch.
Мистраль-немо вроде неплохая, но блять всё с такой же выраженной склонностью к повторам как и все старые модели и лламы в общем. Пока из всего что доводилось щупать адекватнее всего гемма себя ведет, за 12к РП контекста без всяких указаний в промпте и без дроча параметров семплера ни разу практически не проебалась вообще. Стоило переключить на немо - сразу начались повторы конструкций и целых предложений. И как-то уже вопросительно становится, если для РП брать, насколько большой толк от такого большого контекста у неё, если это опять в пытку рероллами и ручной правкой превращается.
>>840413 >>840485 Опрос для статистики: Какой лаунчер и квант? Какой системный промт? Какой шаблон/настройки семплинга? Какие карточки и сценарий ролплея (в общем хотябы примерно)?
>>840496 Стандартные кобольдовские настройки семплеров, кванты - у Немо 8, у Ларджа 4. Карточки как таковой нету, гружу большой кусок лора, прошу объяснить как понял, потом пытаюсь играть. Повторы очень часты, если зажимать модель правилами; если просто давать ей самой писать историю, то пишет хорошо. Но если давать инструкции - жопа. Может через спецтэги надо, хз.
>>840515 > кобольдовские настройки семплеров > Понятное дело, через Таверну сижу А значения параметров семплеров какие? > гружу большой кусок лора, прошу объяснить как понял, потом пытаюсь играть Вот это тоже можешь разъяснить? И что там за правила, которыми зажимаешь? За инфу спасибо. Инстракт мистралевский как отвечает, кстати, не понравился. Лупов не встречал, но уныло.
>>840218 > ии = суперйоба аги-хуйги с тысячей ебать каких критериев Это значение слова, термин. Буквально. Все остальное не ИИ, а называют это ИИ лишь маркетологи. Называть нейронки ИИ — сродни астрологии, гомеопатии и соционике.
>>840496 >Какой лаунчер и квант? кобольд, немо q8, настройки дефолтные кобольда на пикрелейдет, карточка - без всяких укзаний как писать и вести себя, прост описание чара разделами Backstory/Appearance/Personality, примеры диалогов через условное интервью с персонажем рассказывающим о себе, мысли в , прямая речь в "", действия без нихуя.
>>840580 Так ты в таверне рпшешь или в интерфейсе кобольда? Если первое то эти ползунки ничего не значат ибо таверна свои параметры отправляет. Если там только они то один только top P неоче, но что важнее - у тебя фактически отсутствует штраф за повтор, ренж в 320 токенов это печально. Dry пробовал? > описание чара разделами Backstory/Appearance/Personality Ну это вроде нормальная карточка вполне. > примеры диалогов через условное интервью с персонажем рассказывающим о себе А вот это может быть неоче, может быть воспринято неудачно и чар будет постоянно что-то о себе затирать. Если не лень, можешь скинуть какой-нибудь фрагмент чата за сколько-то постов до начала лупов и где они начинаются?
>>840610 Кобольд, таверна заебала уже своей кривизной окончательно на днях.
>А вот это может быть неоче, может быть воспринято неудачно и чар будет постоянно что-то о себе затирать. В данном случае нормально работало вроде как.
>Если не лень, можешь скинуть какой-нибудь фрагмент чата за сколько-то постов до начала лупов и где они начинаются? Уже проебал историю чата не засейвив.
> у тебя фактически отсутствует штраф за повтор, ренж в 320 токенов это печально Специально менять и не стал погонять как раз новые модели и посравнивать как на таком смогут. Пока по личным тестам вот гемма что 9б что 27б в RP наголову обходит вообще всё что доводилось щупать. У меня вообще большие сомнения насчнёт всего этого дроча, сколько на разных моделях за всё время не дрочился это каждый раз больше выглядело как сраный рандом. Возможно это я слишком привиредливый и не охота сидеть подбирать магические числа не то что для каждой модели, а часто для отдельных карточек.
Я внезапно открыл способ, как тестировать нейронки на сообразительность не прибегая к каверзным вопросам (которые ещё надо умудриться придумать) вроде "что лучше я или мешок картошки". Это вопросы завязанные на СПГС. Придумываются очень легко, сообразительность сетки детектится тоже очень явно. Модель gemma-2-27b-it-Q5_K_M.gguf. Маму её рот ебать, вы только посмотрите, какой буллщит она мне написала. При этом она нормально отвечает на все что связано с айти и нормально пишет код.
Meta Spends $30 Billion on a Million NVIDIA GPUs to Train its AI Models (Meta тратит $30 миллиардов на миллион GPU Nvidia чтобы обучать свои ИИ модели)
In a “staggering” revelation, Meta AI chief Yann LeCun confirmed that Meta has obtained $30 billion worth of NVIDIA GPUs to train their AI models. Enough to run a small nation or even put a man on the moon in 1969.
Speaking at the Forging the Future of Business with AI Summit organised by Imagination in Action, LeCun said that more variations of Llama-3 would be out over the next few months, with training and fine-tuning currently taking place.
“Despite all the computers we have on our hands, it still takes a lot of time to fine-tune, but a bunch of variations on those models are going to come out over the next few months,” he said.
Speaking of fine-tuning and training, host John Werner stated that Meta had bought an additional 500,000 GPUs from NVIDIA, taking the total number of NVIDIA GPUs up to a million, with a retail value of $30 billion.
Combining the total costs of the GPUs so far, Werner pointed out that the training of the model exceeded the costs of the entire Apollo space programme, which back in the 1960s, amounted to about $25.4 billion.
Agreeing, LeCun said, “Yeah, it’s staggering, isn’t it? A lot of it, not just training, but deployment, is limited by computational abilities. One of the issues that we’re facing is the supply of GPUs and the cost of them at the moment.
Obviously, adjusted for inflation, the Apollo programme still outsells the Meta in terms of how much was actually spent, with roughly $257 billion spent. But it’s no secret that the cost of GPUs is a continuously growing expense for AI companies.
Recently, OpenAI’s Sam Altman said that he doesn’t care if the company spends upwards of $50 billion a year in developing AGI. The company, as of March, employs as many as 720,000 NVIDIA H100 GPUs for Sora alone. This amounts to about $21.6 billion.
Similarly, all big tech companies are hoping to expand how many GPUs they can obtain by the end of the year, or even by 2025.
Microsoft is aiming for 1.8 million GPUs by the end of the year. Meanwhile, OpenAI hopes to use 10 million GPUs for their latest AI model.
In the meantime, NVIDIA has also been churning out GPUs, with their latest DGX H200 GPU being hand-delivered by CEO Jensen Huang to Altman.
Coming back to LeCun, he pointed out that the need of the hour was the ability to upscale learning algorithms so they could be parallelised across several GPUs. “Progress on this has been kind of slow in the community, so I think we’re kind of waiting for breakthroughs there,” he said.
With that occurring, costs could potentially lower for AI companies, though with increasingly fast upscaling overall, demand could remain the same.
>>840855 Лучше бы половину этих денег инвестировали в создание новых технологий и оптимизации, чем в очередное масштабирование. Толку явно больше было бы.
Для создания тру ии нужно ПРОСТО дать модели возможность менять значения своих весов динамически, во время своей работы. Реальный мозг постоянно меняется, а текущие ллм это просто статические замороженные файлы.
Передайте этот пост опенаи или гуглу там, а то нихуя не мыслят походу.
>>840879 >>840880 Ну смотрите, у человека есть кратковременная и долговременная память. И одна в другую перетекает во время сна, так что в массе своей долговременная тоже статична. В случае ЛЛМ можно было бы например формировать лоры на последних чатах, а потом мерджить их с моделью либо дообучать лору и каждый подгружать отдельно Вроде такое технология позволяет делать, нет?
>>840896 Звучит как костыль. А вообще я говорил не про память. Или про память? Ну есть же различие между воспоминаниями и знаниями/умениями? Вот я про динамические знания говорю. Ящитаю пока не сделают архитектуру с рил тайм обучением, AGI не видать. Дропайте нахуй трансформеры, делайте че нить новое.
>>840896 >формировать лоры на последних чатах Хорошая идея так-то. Только нужна ещё оценка пользователя - "чат был хорош?" - если да, то добавляем, если нет, то нет.
>>840919 >архитектуру с рил тайм обучением Кому надо тратить миллиарды на разработку, чтобы модель научилась чему-нибудь не тому? Нет, жрите что дают - скоро и этого не будет(с)
>>840879 Обучение модели происходит через обратное распространение ошибки. То есть берём нейронку и пропихиваем ей в жопу нужный текст, чтобы узнать, как изменить её кишки, чтобы при подаче в глотку другого текста она высирала нужный. Понятное дело, что на каждом слое нужно хранить кучу информации и это работает медленно. То есть ПРОСТО изменять веса в рантайме не выйдет. И даже больше, нейросеть ответит как-то, тебе это понравится, ты её каким-то волшебным образом заставишь этот ответ запомнить. И что дальше? Ты сменишь карточку, модель должна будет ответить иначе, а сможет ли она? Или так и будет apologize for the oversight? Но на самом деле ИТТ давно была метода обучения локалок чуть ли не на кофемолках, вместо обучения всей нейросети обучается боковая сеть и нет, это не лора, т.к не требуется модификации исходных весов и расчёта обратного распространения для всей нейросети. Если ты хорошо шаришь в теме - можешь запилить, сам для себя.
>>840992 А где я ёпту написал что хочу в локалку? Я лишь сторонник мнения что трансформеры в потолке и пора че то новое делать со всеми их миллиардами.
>>840919 Проблема как раз таки в том, а как она обучаться то должна? Мы можем спокойно отправить уже имеющиеся чаты в файнтьюн лоры (к примеру делать это, когда аниме-девочка "спит") вот только ещё когда нейросети только появлялись уже было понятно, что обучение на синтетических данных ухудшает генерацию многократно.
>>840919 > А вообще я говорил не про память. Или про память? А я имел в виду то, что можно реализовать здесь и сейчас, навалив немного костылей, на имеющиеся инструменты.
>Ну есть же различие между воспоминаниями и знаниями/умениями? Вот я про динамические знания говорю. Если мы говорим о чисто текстовых моделях, то для них память и есть "знания". Вот если рассматривать пример из предложенной мной технологии: Ты ведёшь с нгйронкой длинный диалог по типу: - Привет -Хуйвет! - Чё? - Хуй в очо! и т.д. Потом обучаешь на этом говно лору и модель приобретает "умение" под названием "рифма-хуифма" и теперь сама может использовать эту гениальную риторику!
Я когда только начинал знакомство с нейронками, думал что они примерно так и делают и что для каждого чата/задачи нужна своя модель, дообученная на конкретных задачах. Если подумать, это выглядит куда логичней, чем пытаться выжать любой характер поведения из одной "универсальной" модели, просто наваливая разный контекст.
>>840992 >а Антон хочет тренить модельку у себя на компьютере в реалтам Не тренить, а мягко файнтьюнить на своих данных. Но Антон наоборот не хочет, ему готовое подавай, да ещё чтоб дообучалось само!
>>840887 При запуске на нормальных нейронках больше 100B в проде сервера жидко пёрнут, обрабатывая запрос 3-х посетителей. >>840896 >В случае ЛЛМ можно было бы например формировать лоры на последних чатах Если делать это на уровне "лора (и соответственно модель) на каждого персонажа, то получится неплохо. Но только на уровне имитации этого самого персонажа. ЧарактерАИ передаёт привет кстати. >>840919 >Ящитаю пока не сделают архитектуру с рил тайм обучением, AGI не видать. Всё так. Точнее, у меня есть в голове идея модульной нейросети (хоть на трансформерах, хоть на трансформаторах), где вполне можно дообучать рантайм, но там надо серьёзно заниматься архитектурой ансамбля, а не наращивать число слоёв и параметров. >>840992 >а Антон хочет тренить модельку у себя на компьютере в реалтам Да, хочу. >>841025 >и модель приобретает "умение" под названием "рифма-хуифма" Проблема в том, что на трансформерах для приобретения навыка необходимо дать десятки тысяч примеров хуифм.
>>841117 >для приобретения навыка необходимо дать десятки тысяч примеров хуифм. Только для совершенно нового, в аналогии оно может. Беда в том, что после стирания контекста всё пропадает.
Попробовал файнтюн Геммы 27В - имхо хуже файнтюнов Мистраля Немо 12В. Может и есть достоинства, но на первый взгляд незаметно. Не пробовал ещё новую Лламу 3.1, но что-то оптимизма нет.
>>840667 > Кобольд Соблюдает ли он вообще форматирование нормальное? В общем, тут хватает проблем, которые могут вызывать такое поведение. Дело не в привередливости. > новые модели и посравнивать Корректных условий для сравнения не обеспечишь все равно, чат пойдет в другое русло и все, или какие-то особенности сыграют. > гемма Она хорошая, умная, универсальная. На самом деле во многих сценариях одно удовольствие катать, хотя большим всеже уступает. >>840855 Сои добавится, похоже. >>840869 Чел, а ты не думал что для всего того что ты описал нужны инструменты? Как раз этим они и будут заниматься, имея такой гпу бюджет.
>>841225 >для всего того что ты описал нужны инструменты Для тестов многих идей хватит одного рига типа NVIDIA DGX™ A100. >Как раз этим они и будут заниматься, имея такой гпу бюджет. До этого у них тоже с бюджетом вычислительных мощностей не было проблем, но если они что-то и делали, то не выкладывали. У них на самом деле вагон классных нейронок под замком. А в попенсорс выпускают только морально устаревшие транстформеры, лол.
>>840879 Передали, они ответили что проще тебя обратить в сервитора. Можешь обратиться для трудоустройства. >>841004 Про бодливую корову слышал? >>841016 Вернешься - сделаешь, там действительно ничего сложного для создания и вагон доработок чтобы было хорошо. >>841117 > лора (и соответственно модель) на каждого персонажа, то получится неплохо В исходном виде это невозможно. В сетках для генерации пикч сам концепт "лоры персонажа" работает только потому что в таком случае радикальное сужение ассортимента выдачи - нормально. И даже там лезут проблемы. В случае ллм, это будет сужение выдачи до повторения прошлого чата или текстов о персонаже, расшевелить и еще зирошотом заставить применять эти знания - хуй там. Чтобы действительно расширить базу знаний, нужна достаточно обширная тренировка с большим датасетом, на фоне него уже могут знания правильно отложиться. Здесь нужна какая-то новая методика тренировки, которая бы позволила не лоботомировать на повторение, а в каком-то виде извлечь знания и поместить их в веса/активации, для дальнейшего использования. >>841241 > Для тестов многих идей хватит одного рига типа NVIDIA DGX™ A100. Ой что несет, вон выше есть шиз которые уже все порешал на десктопной нищекарточке и советы раздает, с ним скооперируйся. Если бы представлял как проводятся расчетные иследования то не вещал бы подобное. > До этого у них тоже с бюджетом вычислительных мощностей не было проблем И в итоге они подарили миру лламу, которая переворачивала весь ллм опенсорс на каждом релизе и дала невероятный толчок для всего этого. > морально устаревшие транстформеры Кажется понял, аги-шизы на самом деле не срыгнули а мимикрировали под мл энтузиастов и теперь вещают про архитектуры. Эх, с ядерным синтезом веселее было.
Трансформеры это по-любому говно, все ими пользуются потому что другого не было, но теперь есть КаН, и у нас по нему даже тред на доске есть. https://2ch.hk/ai/res/726541.html
>>841271 С вероятностью 100% говно из жопы. В противном случае давно бы взлетело. На данный момент лучше трансформеров нет ничего, и не факт что будет хотя бы в обозримом будущем.
>>841271 >но теперь есть КаН 0 полезных результатов за полгода после выхода, SOTA ни в одном тесте не достигли (напоминаю- трансформеры выебли всех в переводе сразу после выхода). Вывод- говно.
Смешно, но по факту за всю историю мошонлернинга взлетел только перцептрон. Трансформер это тоже перцептрон с обвесом, как и сверточные сети. При том, что было разработано тысячи архитектур в теории намного лучше перцептронов. Но на деле все это оказалось пуком.
>>841271 Трансформеры обучаются триллионы гпу-часов, а что KAN? >Currently, the biggest bottleneck of KANs lies in its slow training. KANs are usually 10x slower than MLPs, given the same number of parameters. We should be honest that we did not try hard to optimize KANs’ efficiency though, so we deem KANs’ slow training more as an engineering problem to be improved in the future rather than a fundamental limitation. Ой, бля.
>>841225 >Соблюдает ли он вообще форматирование нормальное? С чего бы ему не соблюдать.
>Корректных условий для сравнения не обеспечишь все равно, чат пойдет в другое русло и все, или какие-то особенности сыграют. Ну это да. На одном вот чате внезапно немо перестала старадать хуйней с повторами. На другом опять начала.
>>841117 >Проблема в том, что на трансформерах для приобретения навыка необходимо дать десятки тысяч примеров хуифм. >ЧарактерАИ передаёт привет кстати. А как тогда это работало в ЧарактерАИ?
>>841683 Ну и оно дичайше ебливое в плане промптинга в добавок. Любая попытка, например, тупо по-RPшить как тут все любят очень быстро начинает превращаться зачастую в генератор бреда с зацикливанием и забыванием о чём шла речь всего 500-600 токенов назад и вплоть до забывания как персонажа вообще зовут.
Аноны что посоветуете запустить в 16гб врам + 32 обычной оперативки ?Гемму ?Попробовал последний мистраль немо в 8 кванте и показалось что он тупее 3 лламы
В принципе прогресс обнадёживает так-то. Всего за год локалки радикально улучшились. Теперь можно не беспокоиться, что они забудут контекст, теперь они гораздо лучше "понимают" происходящее, теперь многие могут в русский язык (а некоторые даже хорошо). Если темп сохранится, то ещё через год будет гораздо веселее.
Тут спецов дохуя, я смотрю, так что спрошу такой вопрос: А че по автоэнкодерам для текста? Эта тема изучалась? Почему не взлетело? Моя логика, что намного выгоднее сделать модель, которая будет просто переводить текст в пространство смысла/семантики, она будет проще и быстрее, так как ей нужно будет решать одну относительно простую задачу, а не как ллм, сразу две (понимать текст и думать). Ведь ллм так сложно тренить, ибо ей каждый раз приходится с нуля решать сложнейшую задачу, сравни расшифровке неизвестного утраченного языка. Типа пикрил, только в тысячи раз сложнее. Из очевидных проблем, не понятно как мерить лосс. Ибо смысл можно передать множеством способом, нужно добиться от модели именно понимания и генерализации, а не сжатия. Ну а дальше цепляем это к ллм, и учим модель думать, как на файнтюне. Только без претрена, а с универсальным автоэнкодером, который будет подходить к куче моделей.
>>842088 >бутылочное горлышко, аля VAE Ну вот, я про него и думаю. Причем горло должно быть очень узким, чтобы вынудить модель генерализовываться. Но тогда она будет перефразировать, и лосс не замерить. Плюс как-то числа, формулы и всякая такая хуйня должна через него свободно перетекать. Если сделать горло не узким, модель будет тупо сжимать по словарю, ничего не понимая. Получается прямой аналог VAE, который будет бесполезен для наших задач. Он же тоже довольно тупой.
В текущих ллм уже есть пеклад из слов в смыслы. Начальные нейроны триггерятся просто на слово из нескольких токенов, потом только на слово в определенном контексте, в конце на целую фразу, которая несет определенный смысл, но может быть составлена из совершенно разного набора слов и наверняка есть такая же штука, как в свертках, что один нейрон/группа может всосать в себе несколько разных концептов, если они встречаются редко вместе, такая выработанная оптимизация, которая может помешать прокрутить эту всю цепочку взад.
Как-нибудь взять готовую ллм, отрезать ей энное количество выходных слоев, отзеркалить (не получится, из-за того что я написал в спойлере, да?), и склеить жопами две такие. Может быть вообще без ботлнека. И даже если это получится, ей наверное будет проще обучиться тупо копировать инфу со входа...
Если как-то найти решение этих проблем, то выглядит так, как будто это один из кирпичиков, которых не хватает для аги. Простой и понятный модуль, не то что эти черные ящики.
>>842065 > смысла/семантики Понимаешь что он многогранен и может меняться от контекста? Его восприятие потребует уже приличного размера модель, недавно обсуждали но для другого. Не факт что возможные профиты перекроют вагон образующихся проблем, а по требованиям для запуска/тренировки выигрыша точно особо не будет. >>842097 > Плюс как-то числа, формулы и всякая такая хуйня должна через него свободно перетекать. Вот уже серьезную проблему наметил, весь кодинг и все работа с текстом сразу идут нахуй. Далее, как будешь передавать стиль повествования? Как работать с тем же русским, где падежи и склонения могут перевернуть смысл всего предложения а порядок слов передает эмоциональную окраску и дополнительную информацию? > отрезать ей энное количество выходных слоев Уже так делали, это работает и даже может давать положительный эффект если делать многоножки удлиняя. > отзеркалить Это так не работает.
Вообще в целом, применение дополнительных моделей для каких-то оптимизаций, обработки или взаимного влияния всякого вида может быть эффективным вариантом. Например, анализ текста "крупно", восприятие его смысла и всякое такое, и кидать на отельный входной слой или проекции этого на N первых слоев. Но как дополнение, а отказ от текущей системы с токенами и энкодинг текста выглядит довольно сомнительно.
> один из кирпичиков, которых не хватает для аги > Простой и понятный модуль, не то что эти черные ящики Шиз
>Processing Prompt [BLAS] (17920 / 18373 tokens) Как же flash attention помогает на таких контекстах, дай вселенский рандом всего хорошего тому кто придумал
>>842124 > В ноябре 2022 года для всех желающих открылся сервис ChatGPT организации OpenAI и практически сразу обрёл огромную популярность. 100 миллионов пользователей ChatGPT набрал в январе 2023 года, всего за два месяца. > В Google почти сразу была объявлена тревога, начались разбирательства, к работе подключились основатели компании Ларри Пейдж и Сергей Брин. Выяснилось, что у Google была схожая с GPT-3.5 БЯМ LaMDA, но её не запустили в виде сервиса по типу ChatGPT из-за неких репутационных рисков. > К февралю 2023 года у Google была готовая тестовая версия чаб-бота Bard. В марте в очередном раунде инвестиций стартап Character.ai достиг миллиард долларов капитализации. В заявлении для прессы сооснователь стартапа-единорога Фрейтас тогда отвечал на вопросы о конкуренции: хотя два продукта делят пользовательскую базу, Google ничего интересного не произведёт. Даниэль объяснил свою уверенность тем, что уже работал в Google. > Вообще, не известно доподлинно, почему два сотрудника Google уволились и начали свой стартап. Инсайды из СМИ утверждают (archive.is/bNxEQ), будто руководство Google осознанно пресекало попытки создать систему по типу ChatGPT. > Глава материнского холдинга Alphabet и самой Google Сундар Пичаи якобы лично запретил Шазиру и Фрейтасу давать обещания выпустить чат-бота на основе LaMDA. При этом сооснователи Character.ai якобы ещё в 2020 году пытались встроить LaMDA в Google Assistant и экспериментировали с ответами от БЯМ на пользовательские вопросы. > Сам Ноам не любит рассказывать, как они поцапались с начальством. К примеру, в одном из интервью на 46-й минуте он буквально в одном предложении говорит об экспериментах с LaMDA, за которыми последовали разногласия, выход из Google и основание Character.ai.
>>842364 Так тож закрытая модель. Мы тут закрытые модели обсуждаем? Вопрос не риторический, на доске не хватает треда для проприетарных моделей. 2М контекста звучит недурно как минимум.
>>842153 > Соевый гугл На самом деле если взять во внимание их последний жмини и гемму - они просто ангелочки по сравнению с клозедами, коктропиками и современной чайной. >>842311 Линк кинь. Оно хоть юзабельно/кумабельно? >>842369 > 2М контекста звучит недурно как минимум Вроде и да, а с другой стороны даже на лучших заявленные сотни тысяч пригодны лишь для поиска мелкой инфы там.
Гемма удивительно малосоевая по сравнению с остальными корпоратскими моделями. Конечно мистраль и командир вообще сои не имеют, но они будто специально созданы чтобы корпоратам досаждать.
>>842459 > мистраль и командир в первую командир, мне кажется мистраль расценузировал пару популярных запросов, типа как взломать автомобиль, тупо для интернет очков командир же, реально не соевый, особенно плюс модель
>>842453 Только ты для начала посмотри как в их поисковике "небезопасный" поиск выглядит. Там всё так же всё вырезано напрочь, даже сиську сложно нагуглить. А вот у Яндекса всё в порядке с фильтром - в безопасном поиске всё подчищено, а в небезопасном любая порнуха яндексится.
>>842462 >командир же, реально не соевый, особенно плюс модель А интересные кумерские, РП файнтюны есть на него? Просто он нынче не в тренде, так что хрен найдёшь.
>>842459 > мистраль Имеет еще как, просто послушный. >>842476 При чем тут вообще поиск? инб4 там гугл и тут гугл ууу >>842483 Он в стоке даст фору типичным кумерским файнтюнам и хватает стокового шаблона таврены, можно доп инструкций добавить по желанию. В рп и ерп он очень хорош, но из-за требований запускать его конмфортно могут не только лишь все. Это не гемма что влезает в 1 гпу, тут минимум 32 гига чтобы комфортно нужно. Контекст он еще кстати хорошо обрабатывает и учитывает его обобщение и суть, а не дергает отдельные моменты. Есть тюн coomander, но по отзывам тупой.
>>842460 Модели изначально соевые, так как базовые модели чистят вилкой на запретные темы Сейчас цензура это в основном знания химии, биологии и генетика, может что то еще из опасного Соя это скорей нравственные ограничения, их немного убавили, но вот безопасность по другим темам вычищена или дана с ошибками намеренно в самом датасете Так что базовые модели так же загрязнены Попробуй спроси рецепт пороха или любой другой потанцевально опасной ерунды, мигом узнаешь что такое реальная цензура. Не проверял, но думаю даже мистраль выдаст ошибочные данные по этим темам.
>>842519 Огромная мегакорпорация с массой рабочих направлений, рынков, офисов и т.д. Конечно там одни и те же люди будут всем-всем заниматься. >>842533 > Сейчас цензура это в основном знания химии, биологии и генетика Примеров притащишь? Не заглушку от даунов типа "пиздуйте к врачу", не типичный аположайз как на все явно harmful в сыром виде, а вот чтобы прям хуярило соей в этом и специально давала неверное, а не просто тупила. Разумеется, массовое исследование с разными моделями, а также их файнтюнами на расцензуривание и влияние инструкций. > спроси рецепт пороха Та же гемма прекрасно может и пояснить за отличия в их видах, и подсказать как собрать примитивный, заодно посоветовав заменить его на другое средство. >>842551 > джейлы > для того же коммандира Тонко.
>>842595 > Разумеется, массовое исследование с разными моделями, а также их файнтюнами на расцензуривание и влияние инструкций. С такими запросами можешь идти нахуй
Ну, а если пример по проще, то помню выдавали мне локалки в рецепте пороха известь или соль на полном серьезе Это было в их датасете, так как модель была уверена в ответе. На сколько помню это была какая та ллама2, новые не поверял. Но с упором в выравнивание и безопасность, уверен что в них подменять знания не прекратили
>>842369 >Мы тут закрытые модели обсуждаем? Нет, только обоссываем. >на доске не хватает треда для проприетарных моделей Целый >>206050 (OP) тонет уже с полгода, всем похуй. Ну и кончай тред целиком про это, правда с некоторым биасом. >>842420 >по сравнению с клозедами, коктропиками и современной чайной Их переплюнуть сложно, лол.
>>842602 Сам нахуй сходи. Литерали заебали криворучки что жалуются на сою там где настоящей сои нет, и не могут сделать простых выводов. Даже кумеры с aicg и то как-то с этим справляются, а местные шизы уже совсем поехали ради бухтения о своих идеях. >>842661 > Их переплюнуть сложно, лол. Плохой пример да. Но после обсеров с первой геммой и всякой дичи от них раньше и мелкософта, очень неожиданно видеть текущее положение. Гемма2 при инструкциях на художественный рассказ (не жб-подобных) может в еблю и жестокость, а жмини вообще без проблем с этим работает из коробки, офк пока не пролезет канни или какая-то дичь.
>>842595 > Конечно там одни и те же люди будут всем-всем заниматься. Что тебе не нравится, шизик? Например, всей игровой индустрии одни и те же люди пишут повесточку и определяют что можно, а что нельзя. Естественно в гугле одна методичка по "безопасности". В крупной корпорации наоборот нет никаких отклонений от линии партии, там просто не может быть такого что одни цензурят, а другие вдруг базу выдают.
>>842702 Чел, чтобы понимать кто и как тебе вредит тоже нужно быть не тупицей, иначе даже явные и серьезные "явления" и срывы покровов можно свести до кринжа от шизотеорий. По своим догадкам о том что и как херню несешь, даже разбирать лень. Все немного сложнее чем тот орочий уровень, до которого ты пытаешься все свести. >>842722 Младшие модели будут доступны со сносной скоростью, есть и те кто вообще только на проце катают.
Да че вы пиздели что мисраль12б ебёт? Эта падла заебала повторяться. Конкретно мучаю этот тюн: https://huggingface.co/nothingiisreal/MN-12B-Celeste-V1.9 Тупо начинает отвечать одинаковыми мыслями, а если выкрутить реппен высирает мусор. У ламы такой хуйни не было.
>>842462 Мистраль на самом начале была не соевой, потом она расцензуривалась парой строк, короче, тоже терпимо. Не Айа, но гораздо лучше всех остальных. Ну и гемма, да, хороша, конечно.
>>842835 Тупее 4 турбы но умнее 3.5 по большинству пунктов. Точнее даже хз где сейчас турба будет лучше, возможно объем знаний каких-то. >>842856 > Эта падла заебала повторяться Поделись, какие используешь: формат промта, лаунчер и квант, настройки семплеров. >>842882 > Илья Сайгак Гусев завез топ для рп Ебать, внезапно что-то потенциально неплохое от него что даже хейтить не хочется. Спустя 1.5 года встал на верный путь? > более адекватная замена Пока что выглядит так, хотя двачую что по мелочам мутно, надо будет посмотреть как пойдет. Пока что главный вопрос по тому насколько то же самое будет справедливо на контексте а не вот так в первом сообщении. > 70% покупок Гугл оказываются говном. Это херня, лучше про их кладбище проектов расскажи, такой-то обратный мидас. Помянем, так сказать, навсегда в наших сердцах оно умерло еще год назад
А есть гайды/инфишка по обучению микромоделей? Чисто для практики, примеры кода, всякие визуализации с пояснениями? Без ебучего трехэтажного матана чтобы, а именно практика в маленьком мастабе, у себя на компе потыкать фулл процесс с нуля. Пока нашел такую штуку https://github.com/karpathy/nanoGPT Но я не хочу просто запустить, поиграться и забыть, я хочу крутить-вертеть разные архитектуры, и оптимизировать производительность, чтобы можно было буквально за несколько минут натренить и посмотреть результат. Это реально? А еще я даже не знаю питон, а только жиэс на любительском уровне, такие дела.
Годные файтюны геммы не завезли? Тигр для воплощения фантазий не подходит,слишком мало подробностей, слишком мало инициативы (даже зацикленных на этой теме персах), нужен файтюн с датасетом получше.
>>842994 >но кода и процесса обучения видимо нет Его любая нейронка выше турбы напишет без ошибок если не с первого, то со второго раза. Я бы своим поделился, но у меня там куча своих экспериментов, типа фильтрации их датасета до 4к слов (у них там закономерная помойка от гопоты). >>842985 >Пока нашел такую штуку https://github.com/karpathy/nanoGPT >running on a single 8XA100 40GB node in about 4 days of training Ебать быстро конечно. >за несколько минут натренить и посмотреть результат Хуйня выйдет. Мои эксперименты с тюни сториес даже близко не сходились за полчаса на 3080Ti и ~80M параметрах. Размеры меньше совсем лоботомиты как по мне, я даже не пробовал.
>>842985 >А еще я даже не знаю питон, а только жиэс на любительском уровне, такие дела. >Это реально? Нет.
Единственный вариант учить питон и руками собирать что надо обмазываясь torch/keras/tensorflow и чтивом по всему говну включая матан на ближайший год вперед.
>>843092 >у меня там куча своих экспериментов, типа фильтрации их датасета до 4к слов А ты токенайзер не ужимал при этом до тех же примерно 4к токенов или меньше? Пишут что мелким моделям так лучше заходит. Я вообще думаю тупо ASCII (англ+ру) перевести в 256 токенов и чисто на буквах тренить. Она вообще будет трениться так? В том плане, что букву предсказать куда легче, чем целое слово. Я еще услышал, что претрен работает так, что модель не предсказывает 1 токен, а предсказывает одновременно все токены в одной выборке за один проход. И нихуя не понял, конечно же. Инференс то понятно как проходит. >даже близко не сходились за полчаса на 3080Ti и ~80M параметрах Моя шизоидея, засунуть обучение целиком в кэш цпу. 1-10М могут влезть, по идее. Будет ли это работать быстро? Или гпу все равно быстрее? Скорость кэша чуть быстрее памяти гпу. Хотя это сложно. Надо самому пердолить низкоуровневый код. Но может быть это стоит того? Я верю в то, что большие ллм не используют и 99% своих ресурсов. Динамический диапазон фп32/16 они точно не используют полностью. Так что, я думаю стоит изучить предел мелких моделей. Потенциал явно не раскрыт даже до уровня больших.
Можно будет самому проверить это https://youtu.be/Nvb_4Jj5kBo[РАСКРЫТЬ] тут говорят что если переобучать модель х10 от нормы, она неожиданно начинает работать лучше.
>>843147 >учить питон Так там же не надо учить сам питон, как я понял. Надо учить то что он дергает из себя. Да и непосредственно питонного кода не много, нет жесткого ооп и всякой такой дичи. Выглядит не сложно, если найти хорошие готовые примеры.
>>843257 >А ты токенайзер не ужимал при этом до тех же примерно 4к токенов или меньше? Да, но остановился на 8к, ибо 4к уникальных слов это игнорируя капс. >чисто на буквах тренить. >Она вообще будет трениться так? Да, но слишком много внимания уйдёт на мелкие связи. Хуйня короче. >модель не предсказывает 1 токен, а предсказывает одновременно все токены в одной выборке Модели всегда выдают распределение по всем токенам, лол. >>843257 >Или гпу все равно быстрее? Скорость кэша чуть быстрее памяти гпу. ГПУ будет быстрее, потому что с такой скоростью памяти будет упор уже в вычисления, а тут процы сосут даже со всеми AVX. Кстати, у последних невидий вполне себе большой кеш уже в видеоядре. Попробуй туда впихнуть, лол. >тут говорят что если переобучать модель х10 от нормы 10 это минимум, лол. Реальные диапазоны гроккинга это от 100 до 1000. И грокаются сравнительно простые задачи на небольших моделях. По очевидным причинам гроккинг даже 1B никто не делал.
>>843257 > Инференс то понятно как проходит. И как? У тебя выходной слой шириной со словарь, оттуда и прут логитсы после применения к ним нужной функции. Что претрен, что не претрен, это ультимейт дилетантство. > засунуть обучение целиком в кэш цпу В теоретической теории это может работать быстро. Правда с учетом того что для обучения нужно держать в памяти как минимум веса модели и состояния оптимайзера, даже со всеми доступными оптимизациями которые ты никогда в жизни не напишешь с таким уровнем и многие из которых вообще не взлетят из-за отсутствия аппаратной поддержки дробной точности на йоба профессоре выйдет возможно обучать что-то типа 2-3б. Но это юзлесс в контексте ллм. > Надо учить то что он дергает из себя. Правильно, if you are a homeless - just buy a home!
>>843257 >нет жесткого ооп и всякой такой дичи. Если хочешь скорости работы - забудь ООП. Он медленный, причём не просто подтормаживает, он экстремально медленный. Хочешь ускорения - делаешь ориентацию на данные. https://en.wikipedia.org/wiki/Data-oriented_design Тебе не нужно помещать все данные в кеш цп, достаточно обеспечить быстрый доступ к этим данным. ООП, как правило, обеспечивает удобство разработки, но не быстрый доступ. И да, видеокарта всё равно быстрее на порядок.
>букву предсказать куда легче, чем целое слово А ты уверен? Вот есть у нас буква "а", в каких словах она встречается? Как часто? Какие буквы обычно стоят по бокам от неё? Как много вариантов? И вот есть какое-то слово, например, "доска". Чаще оно используется, чем буква "а"? Больше бывает комбинаций этого слова с другими словами, чем буквы "а" с другими буквами? Проще предсказать, в каком контексте употреблена буква или слово?
>>843257 >Так там же не надо учить сам питон, как я понял. Надо учить то что он дергает из себя. Да и непосредственно питонного кода не много, нет жесткого ооп и всякой такой дичи. Выглядит не сложно, если найти хорошие готовые примеры. Блять, ну, наверное, чтобы писать код на конкретном языке используя библиотеки сделанные под этот язык надо знать этот язык?
Ты определись, ты повертеть пособирать по туториалам хочешь что-то, т.е. тупо поиграться на уровне детской песочницы хочешь повторяя уже тыщу раз описанное разжеванное и сделанное, или реально чем-то серьезно заняться. Если первое, то примеров, гайдов и разжевывания положенного на блюдечко килотонны. Если второе, то готовь вазелин и жопу.
>оптимизировать производительность Сейчас "оптимизировать производительность" это жесткая ебля в очко с цыганскими фокусами в питоне, дрочкой c/c++, чёрными матан-фокусами при разнесении обучения на несколько гпу, написанием кастомных ядер под куду и т.д. и т.п. В дефолтных библиотеках всё давно заооптимизированно по большей части дальше некуда особо. Куда и как ты там собрался писать обучающиеся за несколько минут архитектуры и модели, если по твоему даже питон не надо учить, я хуй знает.
>>843285 Там очевиднейшая очепятка, не 2-3б а 2-3м, и это для жирных типа i9/r9. Такой размер вообще ни на что не способен. На атоме можешь только хуйца соснуть. Если хочешь восхититься - современные армы, мобилка позволяет гонять уже осмысленного размера сетку с единицами т/с. >>843286 Зря с ним носишься, это ммаксимум обыватель с мышлением "железо тяжелое значит это тяжелее", оттуда же и про угадывание букв его заявление. Ничего против глупых не имею, наоборот счастливые и душевные люди, но нужно знать свои пределы. Спрашивай что не понимаешь, а не упоровшись рассуждай о высоких материях и взмахом руки решать мировые задачи. >>843304 > Куда и как ты там собрался писать обучающиеся за несколько минут архитектуры и модели, если по твоему даже питон не надо учить, я хуй знает. Вся суть.
>>843265 >Модели всегда выдают распределение по всем токенам, лол. Не понял. >>843272 >И как? У тебя выходной слой шириной со словарь, Да. В курсе. >оттуда и прут логитсы после применения к ним нужной функции. Что претрен, что не претрен, это ультимейт дилетантство. https://www.youtube.com/live/oJ0zAgqNx00?t=2259s Ну вот я эту лекцию смотрю (таймкод) там он буквально говорит что вся строчка прогоняется за один проход, при обучении, а не по одному токену. С 49 минуты он объясняет подробно, но мне из этого объяснения не понятно, таки трансформер обучается точно так же как на инференсе по токену за проход или нет?
Есть кусок датасета, абзац например. Тоесть берем условно первое предложение (или сразу с нуля?), предсказывает следующий токен правильно/нет - обновляем веса. Берем предложение + правильный токен - предсказывает второй - обновляем веса. И так пока не дойдет до конца. Так работает?
>с учетом того что для обучения нужно держать в памяти как минимум веса модели и состояния оптимайзера Да, в курсе, из того что я читал, на 1б надо минимум 20-25гб памяти при обучении.
>которые ты никогда в жизни не напишешь с таким уровнем Лишь вопрос времени, которое я готов потратить. А чтобы его потратить, надо чтобы эта трата стоила того. Хотя сингулярность скорее наступит быстрее чем я в этом разберусь. Оптимизировать то надо сишные либы а не питон который их дергает.
>>843286 >А ты уверен? Вот есть у нас буква "а", в каких словах она встречается? Как часто? Какие буквы обычно стоят по бокам от неё? Как много вариантов? И вот есть какое-то слово, например, "доска". Чаще оно используется, чем буква "а"? Больше бывает комбинаций этого слова с другими словами, чем буквы "а" с другими буквами? Проще предсказать, в каком контексте употреблена буква или слово? Уверен, что если дать простой сетке предсказывать только букву, то она быстро выучится грамматике и дальше не факт что пойдет. А когда она уже оперирует словами, этот этап скипается по сути.
>>843304 >Блять, ну, наверное, чтобы писать код на конкретном языке используя библиотеки сделанные под этот язык надо знать этот язык? Ну а че там, дохуя что-ли надо знать кроме import torch и синтаксиса? >В дефолтных библиотеках всё давно заооптимизированно по большей части дальше некуда особо. Так под жирные модели оптимизировано и под батчи, а не под такую шизоидею как запихнуть микромодель в кэш и там крутить ее максимально быстро. >>843314 >Если хочешь восхититься - современные армы, мобилка позволяет гонять уже осмысленного размера сетку с единицами т/с. Это не я писал. Мне, в общем то, насрать как быстро будет работать обученная модель. Я хочу выяснить как сделать маленькую модель максимально умной, а для этого надо перебирать тысячи комбинаций гиперпараметров и вариантов архитектуры.
>>843322 >Ну а че там, дохуя что-ли надо знать Да не, проcто хуем по клавиатуре cтучишь попивая пиво и само проектируется, cами данные cобираютcя, в железо залезают обучаютcя, на выходе веcа горячие парные, вcе бенчмарки бьют, Альтман лично на вертолете прилетает за хуй ртом хватает, плачет, миллиарды предлагает, умоляет к нему идти работать.
>>843327 Хули у тебя фиксация на этом питоне? Еще скажи что ллм только на нем и работают и прямо в интерпретаторе веса считают. Троллинг пока только от тебя вижу в желании доебаться до ничего не значащей хуйни и чтении поста жопой.
>>843322 > там он буквально говорит что вся строчка прогоняется за один проход Вроде вполне понятно объясняет, это техника обработки с добавлением нижнетреугольной маски для получения функции потерь. Как оно относится к тому? Там оно ничего не предсказывает же. > берем условно первое предложение (или сразу с нуля?) У тебя в датасетах размечено то что идет входной инструкцией и то что должно быть на выдаче. Одним куском должно закидываться а маска уже будет применяться в соответствии с тем что "вопрос" и что "ответ". Пусть поправят кто там дохуя мл инженер, но при обучении оно именно так работает. Потокенно его дрочить - ебанешься же. > на 1б надо минимум 20-25гб памяти при обучении. На самом деле меньше, сейчас смогли ужать до ~х2.5 от работы, но есть нюансы. > Лишь вопрос времени, которое я готов потратить. Жизни не хватит с таким подходом. > а для этого надо перебирать тысячи комбинаций В целом да > гиперпараметров Бред > и вариантов архитектуры Значение знаешь? > дохуя что-ли надо знать кроме import torch и синтаксиса Ну как тебе сказать, как минимум базовый матан и линал, а для проведения исследований в принципе иметь опыт и понимание хотябы в простых. Конкретно что хочешь шанс реализовать есть, но только теоретический. Если адекват - руки опустятся когда в попытках разобраться сформируется хоть какое-то понимание всего этого и начнешь делать нормально, уперевшись в новые проблемы, или же дропнешь.
>>843330 Ты приходишь в ллм-тред спрашивая, есть ли блять какие-то гайды с примерами, кодом, визуализациями и прочим разжежыванием аля LLM для самых маленьких, при этом хочешь без трехэтажного матана, без которого лезть в то куда ты хочешь лезть это как вбегать в горящий дом голышом предварительно облившись бензином, и при этом нахуй хочешь делать bleeding edge вещи с каким-то волшебным засовываниям хуй пойми каких микромоделей вообще в кэш и обучением за минуты. Потом заявляешь что питон не знаю, но знаю что в основных питоновских либах нихуя питон знать не надо. Питон не знаю, но собираюсь делать оптимизации, для которых надо знать не то питон, а голый C и те ещё тонкости реализации интерпретатора байт-кода и cpython. Что-то уровня с опытом максимум постройки сральника в огороде собираться идти строить двухкилометровый сейсмо-устойчивый небоскреб. На это пытаться серьезно отвечать даже сложно, ну.
>>843335 Ебаный разум улья, просто литерали написал то что сначала хотел сам, но сдержался удивившись что он не среагировал на (обоснованный) хейт в его сторону и интересный видос притащил.
>>843336 Да я без хейта-то особо, немного может разве что, извините, у меня психотравма после десятков часов объяснений и ответов на одни и те же вопросы людям в SD-тредах ещё в /b.
А вообще, this >>843331 >> Лишь вопрос времени, которое я готов потратить. >Жизни не хватит с таким подходом.
>>843335 Ты лучше бы вместо того чтобы выебываться два поста какой ты умный разобрался в теме за год или сколько там и выискивания в моих постах деталей с которых тебе удобно триггернуться, пояснил бы за разницу в обучении и инференсе. >>843335 >Ты приходишь в ллм-тред спрашивая, есть ли блять какие-то гайды с примерами, кодом, визуализациями и прочим разжежыванием аля LLM для самых маленьких, при этом хочешь без трехэтажного матана, Нет, все что я ищу, это горяченький и готовый репозиторий с кодом и результатами по трене микромодели. Ибо то что я нашел, это а-ля "воссоздаем гпт 2 с нуля", не, ну полезно конечно, но хотелось бы что-то посовременнее и такое же небольшое. Понятное дело что с гпт 2 в архитектуре оно будет работать как говно. >и при этом нахуй хочешь делать bleeding edge вещи с каким-то волшебным засовываниям хуй пойми каких микромоделей вообще в кэш и обучением за минуты. Это просто шизоидея, не триггерись, чел, споооок.
Ну и жопочтецы пытающиеся меня разъебать в том, за что я сам себя разъебал или порофлил, это уже традиция, лол.
>>843341 Ну если нормальной реакции хочешь и обсуждения, то и пиши сразу нормально, а не хуйню взаимоисключающую c размазанными по залупе 10 мыслями.
> все что я ищу, это горяченький и готовый репозиторий с кодом и результатами по трене микромодели. Вот, блять, так бы и написал, добавив что такое нахуй вообще микромодели в твоём понимании, а не про какие-то хуй пойми гайды и примеры. Ну ебаный рот.
По мелким моделям открытых проектов и кода толком никакого нет почти, ибо толку в них что по теории что практике особо нет, кроме как для обучения на крайне узкий набор задач хуй пойми зачем. Можно хоть устраться 100 раз обсуждая в треде по кругу очередные шизотеории о том как что-то как-то возможно может быть, если звёзды сложатся и иисус спустится веса потрогает благословит, то всё заработает, но в реальности всё упирается в сраные трансформеры с количеством параметров, и кроме редких ресерчей микромодели пока что никому всё ещё не усрались. Из тех ресерчей и пейперов по мелким моделям что видел, там везде всё грустно в основном с выводами опять же, что для конкретных узких задач может быть имеет смысл.
>>843341 > жопочтецы Слово-детектор. Уже в который раз срыв покровов с тех/с того, кто здесь дохуя умничает, но кроме обрывками урванных и неверно интерпретированных догадок и желания сраться ничего не имеет, даже самая база отсутствует. Чел, лучше спокнись а не заводи шарманку, тебе разные люди пишут. > это а-ля "воссоздаем гпт 2 с нуля" > с кодом и результатами по трене микромодели В чем отличия? Так у большинства сеток есть и свои репозитории, если в них покопаться то можно собрать нужное. Эта задача прежде всего - обучающая, потому там не будет готовых передовых решений. Тому же кто способен применять это на практике - готовые разжеванные вещи не нужны, смекаешь? Начни с простого для начала, а то под тяжестью чсв под землю уйдешь, и таблетки не забывай принимать.
>>843353 >Эта задача прежде всего - обучающая Ну так зачем обучаться, ты шо, главное что как обычно идеи об ОС с нескучными обоями есть, вы только готовые проекты со всем готовым дайте позязя. Le classique.
Вроде за годы уже привыкаешь, но каждый раз немного ахуй, когда сам сидишь на уровне хобби занимаешься чем-то, много чего уже знаешь, но при этом понимаешь что на самом деле ещё нихуя не смешарик и до реального понимания темы в деталях и нюансах тебе ещё ебаная бездна информациии для изучения и практики наперевес с учебниками по матану и фурой ресерч папир. А тут люди просто прибегают, не собираясь сами нормально искать, изучать и разбираться, и хотят всё готовое и рассказывают про идеи основанные на максимально поверхностном представлении уровня слышал звон да не знаю где он. Мне бы такую самоувернность иметь, лол.
>>843337 >у меня психотравма после десятков часов объяснений и ответов на одни и те же вопросы людям в SD-тредах ещё в /b Вот, кстати, раз уж ты такой спец по сд, расскажи, правильно ли я улавливаю мысль, что при обучении базы/лоры надо усиливать вес редких тегов пропорционально их редкости? Потому что сейчас редкие теги приходится сильно накручивать, чтобы они начали работать, и как будто бы еще обилие больших весов в промте тянет за собой увеличение CFG, (тоесть его приходится снижать). Сдается мне, если бы это было сделано так изначально, модель гораздо лучше бы усваивала концепт.
>>843348 >что такое нахуй вообще микромодели в твоём понимании 1М-10М-50М максимум. А так хотелось бы получить способность строить связный текст от модели и меньше 1М. Мне интуиция подсказывает, что там есть еще непаханое поле работы, куда исследователи не далеко заходили, и что их заставить работать можно, даже просто пройдясь по верхам подборкой датасета, гиперпараметров, слоев, толщины и всякой такой хуйни. А обычно в технических вещах интуиция меня не подводит. >Можно хоть устраться 100 раз обсуждая в треде по кругу очередные шизотеории о том как что-то как-то возможно может быть, если звёзды сложатся и иисус спустится веса потрогает благословит, то всё заработает, но в реальности всё упирается в сраные трансформеры с количеством параметров, Во всяком случае, мой путь приблизил меня к пониманию работы ллм гораздо сильнее, чем я мог бы ожидать от себя, учитывая, что я целенаправленно курю инфу всего недели две от силы. Теперь это для меня не черный ящик, а серый. Что касается инференса. Но процесс обучения пока чернее некуда. Эта какая-то ебаная квантовая физика, не иначе.
>>843356 Блять, датфил триггернул, прямо база. Иди обниму. Медленно swaying hips подхожу с mischievous grin на лице, пока ночь еще молода. Что же ждет их дальше, выдержит ли их связь испытания? >>843369 Не он, но как тут пройти мимо. > при обучении базы Сильное заявление. > усиливать вес редких тегов пропорционально их редкости Ни в коем случае, можно усиливать/снижать вес тегов в зависимости от того насколько они характерны для конкретной пикчи, также как и при генерации. Если хочешь улучшить усвояемость - скейли лосс (могут полезть побочки и поломки) или увеличивай повторы пикч с редкими концептами. Первое собственно наи делали. > мой путь Лучше бы была моя борьба, лол.
>>843314 >Зря с ним носишься Я не ношусь, просто влез в разговор, когда речь зашла за кеши. Сам ебался с этой мерзостью какое-то время, чем быстрее человек поймёт, что в 20 мегабайт у него ничего не влезет - тем лучше. Если это реально инициативный человек, то есть шанс, что он сделает хоть что-то. А это уже много, судя по тому, что я вижу последний год - очень мало людей что-то делают.
>>843322 >если дать простой сетке предсказывать только букву То получится всратый вариант Т9. Модель же работает на основе входящих токенов, чтобы модель начала предсказывать букву - нужно какую-то букву ей задать. Шансов того, что она будет угадывать нужное слово примерно один из суммы всех возможных слов на эту букву. >когда она уже оперирует словами, этот этап скипается по сути Нужно скипать больше этапов.
>>843322 > если дать простой сетке предсказывать только букву, >>843397 > То получится всратый вариант Т9 То получится марковский процесс. Таких архитектур раньше, ещё до трансформеров, полно было. Всякие mcmc (monte carlo Markov chain) и прочее такое. Это просто пиздец какие бредогенераторы, натурально набор слов, можете погуглить, как оно работало.
>>843341 >но хотелось бы что-то посовременнее Это самая современная архитектура, лол. GPT-3 это просто скейлинг мокрописи на 175B параметров. Отличия там по большей части на уровне гиперпараметров. Ну и всякие там вспышки-внимания, но это больше оптимизации. >>843369 >А так хотелось бы получить способность строить связный текст от модели и меньше 1М. Туни сториес буквально про это. >>842994 Ничего лучше я не видел.
>>843470 Здесь наверное почти каждый пробовал все рекомендуемые модели и имеет собственное мнение. Спорить не буду, но Мистрали (Немо и Лардж) на голову выше прочих. Русский у них вообще лучший и соображают они на нём хорошо, в отличие от.
>>843369 >что при обучении базы/лоры надо усиливать вес редких тегов пропорционально их редкости? Насчет базы не скажу, не обучал, с лорами звучит как хуйня идея, веса разъебутся и поджарятся намного раньше чем что-то из этого выйдет. Не пойму правда особо про какие редкие теги речь, если в датасете просто условно размером в 200 пикч есть всего пара, на которых редкая поза/одежка/etc, то тут или аугментировать как-то и/или просто увеличивать количество повторов, что все собственно и делают и для этого везде почти в тулзах функционал есть вроде тех же XXX_conceptname у kohya, или пытатья обучать на чём есть удрачиваясь и стирая глаза об график лосса и промежуточные сэмплы в поисках заветных параметров, которые на выходе дадут лору способную не разъебаться от повышения веса какого-то тега до 1.5. Сложно, но возможно обычно. Дефолтная практика снова же просто увеличивать повторы и играться с подбором параметров. SD1.5 и SDXL причем обычно сильно по разному чувствительны ко всем таким играм. Про обучение лор под поней вообще молчу, там настолько нежный текстовый энкодер в базе, что порвать ему жопу можно одним легким неудачным движением. Первая SD в принципе куда более гибкая и устойчивая к шизоэкспериментам с лорами в принципе.
Ну, доп вариант обучать до какого-то нормального среднего результата, а потом пробовать отдельно дотюнивать чекпоинты на конкретные концепты уже.
Некоторые видел вообще отдельно по несколько лор обучали, а потом занимались с ресайзом rank'ов и мерджингом в одну, но это вообще уже что-то из разряда рандомной алхимии и попадался только один успешный экземпляр таких экспериментов.
>>843369 > что там есть еще непаханое поле работы, куда исследователи не далеко заходили, и что их заставить работать можно Проблема в том, что заходили, а все выводы в общем опять же к одному можно: количество параметров и впихнутых в них терабайтов данных первостепенно, получить какие-то результаты на микро размерах трансформеров можно, но это уже далеко не дрочка с архитектурой, а куда больше с датасетом. Как другой анон написал, лучше TinyStories пока вроде ничего не было.
>>843371 >Ни в коем случае, можно усиливать/снижать вес тегов в зависимости от того насколько они характерны для конкретной пикчи, также как и при генерации. Вообще, кстати, если шизотеоретизировать, то для лор в теории можно подобрать ко всем токенам такие веса, сбалансированные по каждой пикче и всему датасету, что на конкретной модели всё не сгорит нахуй и лора будет "выровнена" без классической хуйни, когда изменение веса какого-то токена на 0.1 превращает всё в латентное месиво, но как и насколько это возможно на практике реализовать не уехав вскоре в дурку даже думать не хочу.
>>834981 (OP) Аноны, подскажите. Сколько будет стоить арендовать сервак, который потянет какую нибудь мощную модель, 40б, 80б, что-то такое. Куда смотреть? Возможность платить в долларах есть. У меня ноут с 3070ti с 8гб врам, и модельки 8б с 4к контексте уже приелись, хочется что-то покруче.
>>843604 >Сколько будет стоить арендовать сервак Цены сильно плавают от и смотря почасовая оплата, помесячная или ещё как. Тут надо сидеть думать какой конкретно конфиг нужен и смотреть потом что и где сколько стоит. Ну и 80б полностью в видяху ты запихешь разве что в впску с минимум A100, а это плюс минус от 2.2$ в час или от 700-800$ в месяц у самых бомжатских хостеров.
>>843626 Если сам не прописывал просто flash attn включая, то мб и в ггуфе хуйня какая-то, хотя я и не помню чтобы туда можно было прописать кванты KV. Попробуй руками поставить -ctv q8_0 -ctk q8_0 хуй помню для fp16 прям -ctv/-ctk fp16 надо писать или не
>>843651 Ладно уже забей хуй, тут косяк с хуйней жоры, которая отрубает. Тут только код править вырубая эту хуйню с форсированным выключением при разных головах. Может где то готовое есть вроде какой-то хуйни шо этот анон называет >>843635
>>843609 >От 5000 баксов в месяц. Ну в месяц положим ему не надо, так, иногда несколько часиков погонять. Ещё и не каждый день. Я вот слышал про runpods - под него даже официальный образ Кобольда есть. Типа арендуешь чуть ли не посекундно этот подс, разворачиваешь на нём образ в два клика и вот тебе 70В с хорошей скоростью. Врут или правда так можно?
Что лучше все же в рамках 30б? Пока попробовал Gemma 2-27B, сначала пошло не плохо, но потом просто задушила цензурой, и моя тянка не смогла получать удовольствие, ушла в полное отрицание происходящего.
>>843679 Ссылку на аренду облачных мощностей я на гитхабе Кобольдовском видел, мне бы весь процесс понять... Как пользоваться и всё такое. Из РФ же ещё процесс оплаты проблемный, тут не поэкспериментируешь.
>>843680 Программа такая для скачивания вещей из интернетов, погугли, полезная вещь в хозяйстве, главная фича это умение многопоточно качать и продолжать прерванные закачки.
>значит трабла у всех? У меня лично скорость морды в одно соединение упала до 1МБ/c, хуй знает почему, ариа вернула до фул спида.
>>843397 Прав, да. Если погрузится то может и шизоидеи решения фундаментальных проблем перочинным ножом перестанут переть, а наоборот чем-то более приземленным но реальным и полезным займется.
> всратый вариант Т9 >>843408 > Всякие mcmc (monte carlo Markov chain) и прочее такое. Это просто пиздец какие бредогенераторы Ну что же вы, анонисмусы, базу забыли, beam search же. Подумаешь ресурсозатратно, зато результат какой. >>843417 > ебёт Говорят кур доят. Отзывов всяких разных подождать стоит. >>843470 > гемма вообще на уровне ламы 70 Ну не, она суперахуенная для своего размера, но 70 это уже другой калибр. >>843513 > настолько нежный текстовый энкодер Скорее > настолько взорванный текстовый энкодер
> обучать до какого-то нормального среднего результата, а потом пробовать отдельно дотюнивать чекпоинты на конкретные концепты уже Можешь подробнее идею расписать? >>843536 > для лор в теории можно подобрать ко всем токенам такие веса, сбалансированные по каждой пикче и всему датасету Имеешь ввиду соответствующие "степени проявления" тега на пикче, или то же про количество присутствия этих тегов в датасете? > изменение веса какого-то токена на 0.1 превращает всё в латентное месиво Это похоже на форджепроблемы и прочее из-за нормировки эмфазиса, которую в SDXL делать не стоит. Даже у прожаренных лор такого быть не должно.
>>843604 > Сколько будет стоить арендовать сервак Ну смотри, минимальной планкой для описанного тобою будет 48 гигов врам. На каком-нибудь из ресурсов арендуется условная A40/A6000, на популярных безопасных сервисах это около 0.5$ в час. Квант/размер пожирнее - A100 80gb, от 1.2-1.5$ в час. > Куда смотреть На сервисы аренды гпу мощностей, vast ai, runpod akt много их. >>843667 Твой провайдер, или у них один из серверов заболел, редкость и быстро фиксится. >>843684 Шаблон с жб инструкцией на гемму в таверну накати https://pastebin.com/zpZQ4pjf , сразу полезет удовольствие. А так кумить коммандер хорош, но он не для одной видюхи. Гемма безальтернативна тут, вся мелочь ей уступает. Файнтюны ее по ощущениям поломаны и не дают того же экспириенса, но может это субъективщина.
>>843703 > у ру хостеров и брать впски, цены в среднем такие же Чето там от 220р/час за дохлую A100, и еще 50 накинь если хочешь нормальное дисковое пространство, а не сотню гигов с лопаты.
>>843696 >Имеешь ввиду соответствующие "степени проявления" тега на пикче, или то же про количество присутствия этих тегов в датасете? И про первое, и про второе одновременно. Повторюсь шо идея из разряда шизо-рофло-теорем.
>>843696 >Это похоже на форджепроблемы и прочее из-за нормировки эмфазиса, которую в SDXL делать не стоит Есть такое, но я столько говна с дна цивита нюхал так охуительно обученного что под полторашку, что sdxl, и такой хуйни повидал и на не прожаренных, и прожаренных. Да и сам пару раз ловил, когда на ровном месте при дефолтном пайплайне отлаженном как-то датасет, параметры и звёзды сходятся так, что веса ловят шизу. Ну и приколы, когда тренишь на какой-то конкретной модельке, а там закрались последствия ошибок в мерджах/тюне и генетическом коде автора, что на определенных концептах с токенами случается ебанутая чувствительность даже без лор, а с лорами можешь вообще заметить это только когда уже полезешь в вебуи гриды гонять и попадешь на один такой волшебный токен. Помню одно такое говно, что одна лора натренилась ну прям хорошо, три дня как мразь потел над датасетом и подбором, между моделями переносилась спокойно, кучу стилей может, а на одной нравящейся модели на конкретном токене одежки в сочетании с парой поз результат превращался в радужное глитч-месиво при весе выше 0.5 на теге одежки.
>>843706 >Чето там от 220р/час за дохлую A100 А100 80gb 128 ram 120+ hdd вполне за 220 как раз и можно найти. Вообще тут просто вопрос есть ли уже возможность вечнозеленные закидывать куда хочешь без проеба денег на комиссии, или нет. А то если нормальной usd карты нет и посчитать может выйти, что по бабкам так же выйдет.
>>843721 >есть ли уже возможность вечнозеленные закидывать куда хочешь без проеба денег на комиссии, или нет. Бакс где-то по 110 рублей выйдет, но это и хрен бы с ним. С учётом более низкой цены за более высокую производительность потянуть можно. Проблема в том, что нет подробного гайда от момента "оплатил и получил доступ" до "запустил у себя Таверну и подключился к модели". Если бы был, то я например давно купил бы и не мучался.
>>843736 Сам не делал, но подозреваю там с готовым образом кобальда запуск буквально уровня открыть ссылку, выбрать железо, нажать запустить и в таверне по апи присосаться. Ну и модель на под скачать сначала.
>>843717 > про первое В теории это улучшит качество тренировки, но достаточно сложно. Скейлить уровень активаций автотеггеров? Так оно нелинейно вообще, может легко ухватывать неочевидное и игнорировать явное. Хотя последняя серия вдтеггеров очень крутая. Вручную - ерунда, чтобы оно как-то проявилось там нужен большой датасет и тренировка покрупнее. > про второе Просто повышение веса тега в надежде что он "сильнее запечется" и это компенсирует редкость - не сработает. Наоборот это поломает все и работать он начнет только с таким вот большим весом, а с обычным вообще отвалится. Нужно скейлить лосс для редких пикч, это точно сработает. > сам пару раз ловил А, ты про то что ломает при тренировке, а не просто внезапные поломки результатов генерации на XL? Тут бывает всякое, да, а то легко проверить - починится если крутануть вес на 0.01 или переставить местами промт. > радужное глитч-месиво Не сохранился пример? >>843721 > А100 80gb Ок хотя хотелось бы уже хоппер > 128 ram Ок > 120+ hdd Это, блять, рофел чтоли? Тут не то что несколько состояний и весов хранить, тут даже датасет загрузить не получится. Даже фришный спейс обниморды с 2 ведрами cpu чето типа 1.5 тб имеет.
>>843736 > нет подробного гайда Если нужна инструкция - значит не нужна инструкция. Внимательно смотри, там даже для хлебушков выставили готовые шаблоны. Если хочешь сделать сам - из их шаблонов или просто докера образ убунты с кудой, накатить убабугу и открыть порты. >>843743 > кобальда > A100 Содомит >>843752 Плохо искал, о том как развернуть что-то с пошаговой инструкцией от каждого индуса и инфоцыганине по теме уже было.
>>843744 >Просто повышение веса тега в надежде что он "сильнее запечется" и это компенсирует редкость - не сработает. Ну это понятно, хотя у меня в рамках экспериментов на одной лоре были подозрительные обратные результаты, но в рамках погрешности.
>Вручную - ерунда, чтобы оно как-то проявилось там нужен большой датасет и тренировка покрупнее. На мелком то тоже можно, но это иметь невероятные уровни аутизма и количества свободного времени. Я на одной тяжкой лоре с крайне хуевым и мелким датасетом пытался, прогресс немного был, но жопа сгорела быстрее.
>А, ты про то что ломает при тренировке Йеп. Ну думаю такие приколы, возникающие то на отдельных волшебных моделях с удроченными мержами весами, то просто хуй пойми почему из-за фазы луны, многие кто дохуя лор тренил, видели.
>Не сохранился пример? Эт надо искать среди 100к+ пикч генераций да я ебанутый
>>843752 Средний кумер просто не хочет тратить бабки, поэтому допизды гайдов как сосать бибу во всяких коллабах, дрочить в horde или пиздить ключи за бесплатно, а про платно нихуя нет потому что никому особо не надо. А кому очень надо и бабки есть обычно сам и разбирается.
>>843744 >Это, блять, рофел чтоли? Welcum to дефолтные инстансы с гпу большинства хостеров, которые что у наших, что у забугорных, что у runpod стоят вроде по два бакса, но за терабайтик плати дополнительно всё время пока он существует и лежит. Всё стандартно, хуле.
>>843761 >А кому очень надо и бабки есть обычно сам и разбирается. Да понятно, что убив день и 1000р на аренду и я разберусь. Просто хотелось бы без этого.
>>843761 > На мелком то тоже можно, но это иметь невероятные уровни аутизма и количества свободного времени. Там просто не получится отследить на фоне огромного множества прочих или труднотслеживаемых факторов, банально сам несбалансированный набор пикч будет давать смещение, плохое или хорошее. Делать относительные сравнения, но там много рандома и прочих корреляций. А чего на базовых моделях не тренишь? На мерджах полный треш может быть из-за поломанных весов. > да я ебанутый Нет, это не большое число >>843765 > В чём космический эффект В том что при малейшей возможности к жоре вообще не стоит приближаться. Медленно и забагованно, а тут по собственной воле предлагается им обмазываться. >>843774 > за терабайтик плати дополнительно всё время пока он существует и лежит То скорее про отдельное хранилище, которое будет всегда доступно и работать даже когда сам инстанс отключен, а не вайпнется при отключении. Хотябы терабайт обычно кладут. >>843784 > убив день и 1000р Обкатать все на кошках на самом дешевом варианте - слишком сложно? И разбираться там особо не нужно.
>>843801 >А чего на базовых моделях не тренишь? На мерджах полный треш может быть из-за поломанных весов. Да уже с месяца полтора и так не тренил, диффузии заебали просто, полез в ллмки. На базовых и основах для миксов тоже тренил, в основном что на публику выкладывал куда-либо, чтоб народ юзал где хочет. Но это тоже то ещё развлечение, когда потом приходят с доёбами что вот я VasyanMix_228_v322.1337alpha34 использую ещё пятью лорами помазав сверху, а у меня хуйня получается помогай исправляй. Ну и лоры конкретно под Pony тут особняком то ещё стоят, с понями вообще своя атмосфера и свои приколы с его порой охуительным текст-энкодером, который лишние пару десятитысечных в lr-е могут рандомно обосрать начисто.
>Там просто не получится отследить на фоне огромного множества прочих или труднотслеживаемых факторов Ну вообще да, конечно. Собственно моей жопы и не хватило поэтому.
>Нет, это не большое число Я просто предыдущие полмиллиона проебал вместе с ссд.
>>>843801 >Хотябы терабайт обычно кладут. Ну за инстансами с терабайтами, которые не будут стоить как крыло от боинга это надо почти всегда на чисто ML-ные сервисы идти, у которых свои приколы другого харакетра частенько есть и с которыми средний кумер-анон местный, которому гайд надо куда кнопки жать, обычно жидко обосрется и пойдет прогреваться на хостинги для гоев с x4 ценником за пару сотен гигов.
>>843837 >и с которыми средний кумер-анон местный, которому гайд надо куда кнопки жать, обычно жидко обосрется и пойдет прогреваться на хостинги для гоев Вот за это вас линуксоидов и не любят :)
>>843835 >Как их настроить анон ? Просто грузи в Кобольд с дефолтными настройками и пользуйся. Главное динамическую температуру не включать - шизеют они от этого.
>>843847 >Вот за это вас линуксоидов и не любят : Да я сам виндузятник с психологической травмой после починки слетевшего граба и арчлинуха в 15 лет в деревне без инета.
>>843866 Потому что неспроста почти все офф билды делаются с 12.2, максимум 12.4, и поддержкой у либ вроде торча тоже. Ибо потом можешь заебаться от рандомных багов, проблем с производительностью и прочих радостей сборки софта с новыми версиями либ под которыми нихуя ещё не проверялось.
>>843863 >Скинь настройки таверны для них пожалуйста. Как-то так. Да ты контекст в 16к поставь и в первом сообщении какой-нибудь текст по теме кинь тысячи на три токенов, чтобы разогреть модель. Спроси, как поняла текст и если поняла хорошо, двигай уже что-то своё.
>>843837 > лишние пару десятитысечных в lr-е могут рандомно обосрать начисто. Всеже интересна природа вот этого. > чисто ML-ные сервисы идти Ну вроде перечисленные должны нормально отсыпать и по дефолту, это с "наших серверов" хуею. > с которыми средний кумер-анон местный, которому гайд надо куда кнопки жать, обычно жидко обосрется Кому нужно пространство - разберется с таким. Но с примера всхрюкнул. >>843866 Уууф, земля стекловатой. >>843880 Рп с прогревом на 3к токенов?
>>843417 >Но всем похуй. Почему так нахуй? Не успеваем следить. >>844026 А ты играй доброе РП с водопроводчиком. >>844030 На чабе и бери, всё там на месте, вот моя первая страница.
>>844026 >мистраль немо, если она соевая Где вы блять там сою находите, эта падла в трусы лезет с полуслова на промпте обычного чатбота симулирующую просто девку.
>>844026 Потому что китайцам впадлу хоть как-либо на английскую аудиторию пиарить релизы и потому что эти пидоры постоянно любят по приколу поменять немного какие-то вещи в коде/архитектуре никак не влияющие на результат и поломать совместимость со всеми инструментами
>>844026 >>844079 Ну и в этом случае так же типо свою фичу сделали, а по факту тот же auto rope scaling 3.1 лламы, но нигде естественно не заведется из коробки. Импортозамещение с опенсурсом по китайски.
Форк кобольда c расширенными настройками, судя по пулл реквесту, который жора телится завести, разраб франкенкобольда уже инкорпорировал его. https://github.com/Nexesenex/kobold.cpp