/ai/ - Исследования ИИ тред #3

Исследования ИИ тред #3 /research/ Аноним 13/04/25 Вск 22:51:56 № 1151064 1

Нейронка шизосх[...].webp 148Кб, 1075x991

Обсуждаем развитие искусственного интеллекта с более технической стороны, чем обычно. Ищем замену надоевшим трансформерам и диффузии, пилим AGI в гараже на риге из под майнинга и игнорируем горький урок.

Я ничего не понимаю, что делать?
Без петросянства: смотри программу стэнфорда CS229, CS231n https://see.stanford.edu/Course/CS229 (классика) и http://cs231n.stanford.edu (введение в нейроночки) и изучай, если не понятно - смотри курсы prerequisites и изучай их. Как именно ты изучишь конкретные пункты, типа линейной алгебры - дело твое, есть книги, курсы, видосики, ссылки смотри ниже.

Где узнать последние новости?
https://www.reddit.com/r/MachineLearning
https://datatau.net
https://twitter.com/ylecun

На реддите также есть хороший FAQ для вкатывающихся.

Какая математика используется?
В основном линейная алгебра, теорвер, матстат, базовый матан и matrix calculus.

Как работает градиентный спуск?
https://cs231n.github.io/optimization-2

Почему python?
Исторически сложилось. Поэтому давай, иди и перечитывай Dive into Python.

Можно не python?
Никого не волнует, где именно ты натренируешь свою гениальную модель. Но при серьезной работе придется изучать то, что выкладывают другие, а это будет, скорее всего, python, если работа последних лет.

Что почитать для вкатывания?
http://www.deeplearningbook.org
https://d2l.ai/index.html
Николенко "Глубокое обучение" — на русском, есть примеры, но меньше охват материала
Франсуа Шолле — Глубокое обучение на Python

Все книги и статьи фактически устаревают за год.

В чем практиковаться нубу?
http://deeplearning.stanford.edu/tutorial
https://www.hackerrank.com/domains/ai
https://github.com/pytorch/examples
https://github.com/ChristosChristofidis/awesome-deep-learning#tutorials

Где набрать первый самостоятельный опыт?
https://www.kaggle.com

Стоит отметить, что спортивный deep learning отличается от работы примерно так же, как олимпиадное программирование от настоящего. За полпроцента точности в бизнесе борятся редко, а в случае проблем нанимают больше макак для разметки датасетов. На кагле ты будешь вилкой чистить свой датасет, чтобы на 0,1% обогнать конкурента.

Где работать?
https://www.indeed.com/q-deep-learning-jobs.html
Вкатывальщики могут устроиться программистами и дальше попроситься в ML-отдел

Есть ли фриланс в машобе?
Есть, https://www.upwork.com/search/jobs/?q=machine+learning
Но прожить только фриланся сложно, разве что постоянного клиента найти, а для этого нужно не быть тобой

Где посмотреть последние статьи?
http://www.arxiv-sanity.com
https://paperswithcode.com
https://openreview.net
Версии для зумеров (Килхер): https://www.youtube.com/channel/UCZHmQk67mSJgfCCTn7xBfew

Количество статей зашкваливающее, поэтому все читают только свою узкую тему и хайповые статьи, упоминаемые в блогах, твиттере, ютубе и телеграме, топы NIPS и прочий хайп. Есть блоги, где кратко пересказывают статьи, даже на русском

Где посмотреть must read статьи?
https://github.com/ChristosChristofidis/awesome-deep-learning#papers
https://huggingface.co/transformers/index.html
То, что обозревает Килхер тоже зачастую must read

Где ещё можно поговорить про анализ данных?
http://ods.ai

Нужно ли покупать видеокарту/дорогой пека?
Если хочешь просто пощупать нейроночки или сделать курсовую, то можно обойтись облаком. Google Colab дает бесплатно аналог GPU среднего ценового уровня на несколько часов с возможностью продления, при чем этот "средний уровень" постоянно растет. Некоторым достается даже V100.
Иначе выгоднее вложиться в GPU https://timdettmers.com/2019/04/03/which-gpu-for-deep-learning заодно в майнкрафт на топовых настройках погоняешь.

Когда уже изобретут AI и он нас всех поработит?
На текущем железе — никогда, тред не об этом

Кто-нибудь использовал машоб для трейдинга?
Огромное количество ордеров как в крипте так и на фонде выставляются ботами: оценщиками-игральщиками, перекупщиками, срезальщиками, арбитражниками. Часть из них оснащена тем или иным ML. Даже на швабре есть пара статей об угадывании цены. Тащем-то пруф оф ворк для фонды показывали ещё 15 лет назад.
Так-что бери Tensorflow + Reinforcement Learning и иди делать очередного бота: не забудь про стоп-лоссы и прочий риск-менеджмент, братишка

Список дедовских книг для серьёзных людей
Trevor Hastie et al. "The Elements of Statistical Learning"
Vladimir N. Vapnik "The Nature of Statistical Learning Theory"
Christopher M. Bishop "Pattern Recognition and Machine Learning"
Взять можно тут: https://www.libgen.is

Напоминание ньюфагам: немодифицированные персептроны и прочий мусор середины прошлого века действительно не работают на серьёзных задачах.

Disclaimer: Шапка сгенерирована нейросетью и нуждается в чистке. Исходник шапки: https://rentry.co/research-2ch

Предыдущий тред:
>>511426 (OP)

Аноним 14/04/25 Пнд 08:47:17 № 1151456 2

>>1151064 (OP)
>Когда уже изобретут AI и он нас всех поработит?
>На текущем железе — никогда, тред не об этом
Ящитаю что это возможно. GPT показал что он может хранить вполне осмысленную информацию о мире и строить множество связей между абстракциями. Проблема лишь в том как эта информация представлена и каким обрмзом создавать новые связи в процессе работы.

Аноним 14/04/25 Пнд 21:15:49 № 1152913 3

Почему популярные нейронки так долго тренируют? Насколько я понимаю, все стремятся найти какой-то глобальный минимум, избежав локального. Вот этот глобальный минимум ищется очень долго - мелкими осторожными шажками. Поэтому всё так долго, да? Например, чтобы на 99% гарантировать точность?

Допустим, меня не интересуют ни глобальный, ни локальный минимумы. Мне нужна манёвренность:
- посчитали 1-й слой -> сразу подкрутили его веса;
- посчитали 2-й слой -> сразу подкрутили его веса;
- посчитали N-й слой -> выдали ответ -> ждём ввод.
Нормальная же скорость будет? Не придётся ждать нескольких месяцев - обучение на скорости работы?

Конкретной задачи нет, я хочу только разобраться, конкретно чему может научиться такая нейросеть. Датасета, соответственно, тоже нет, и правил для валидации результатов тоже не придумал - меня интересует пока лишь скорость подкрутки под произвольные сигналы из входного потока. Дальше разберёмся, к чему можно подключить и как именно интерпретировать выходные сигналы нейросети.

А то все туториалы по нейросетям сводятся к:
1. Загрузить датасет (у меня нет);
2. Задать цель тренировки (у меня нет);
3. Ждать N дней/месяцев (зачем и почему?);
4. Протестировать аккуратность (мне не нужно).
Как-то странно, на мой взгляд. Хочу разобраться.

Аноним 14/04/25 Пнд 22:34:26 № 1153095 4

>>1152913
>Насколько я понимаю, все стремятся найти какой-то глобальный минимум, избежав локального.
Лол, нет. Для гроккинга сетки нужно тренировать ещё в 1000-10000 раз дольше, буквально.
>меня интересует пока лишь скорость подкрутки под произвольные сигналы из входного потока
Ты конечно можешь поставить lr хоть в единицу (вместо традиционных 0,0005), но сеть так будет ебашить, что мало не покажется.
>- посчитали 1-й слой -> сразу подкрутили его веса;
Эм, прочитай, что такое обратное распространение ошибки. Намекаю- оно идёт в обратную сторону, от последнего слоя к первому, и соответственно требует градиента на всех слоях.
Короче пройди какие-нибудь машобчик курсы из шапки, ты пока сильно плаваешь в теме.

Аноним 15/04/25 Втр 08:18:31 № 1154049 5

>>1152913
Ты это сообщение написал нейросетью с галлюцинациями, ты в курсе? Словно животное высрал порцию бессмысленного бреда.

>>1153095
> Для гроккинга сетки нужно тренировать ещё в 1000-10000 раз дольше, буквально.
Нейросетки после грокинга выстраивают веса под "модель мира" или вроде того. Но это полная хуйня потому что это не модель абстракций объектов и отношений между ними, а модель основанная на словаре в пространстве параметров. Нужно выкинуть нахуй словарь и заменить его абстракциями объектов, тогда обучение будет занимать недели две или меньше, за пару дней нахуй. Это если не считать время обучение LLM для парсера языка. Надеюсь никто не успеет спиздить эту идею пока я хуйней страдаю и сам не нахуячу нейросеть такую

Кстати параметры при грокинге выстраиваются в замкнутые контуры, если считать по векторам, и в живом мозге тоже такая хуйня есть.

Аноним 15/04/25 Втр 11:53:57 № 1154273 6

>>1153095
>тренировать ещё в 1000-10000 раз дольше
А я читал, что чем дольше тренируешь, то тем хуже нейросетка файнтюнится. Т.е. генерализация сильно ухудшает адаптивность сетки под новые задачи... Следовательно, для дальнейшей работы лучшими нейросетями являются недотренированные.

>что такое обратное распространение ошибки
>соответственно требует градиента на всех слоях
>Короче пройди какие-нибудь машобчик курсы
Хе-хе-хе, это ты недостаточно знаешь.

Обратное распространение ошибки (backprop) - один из многих способов поиска решения. Помимо него существует масса других, сильно отличающихся.

Для сравнения, ты можешь вообще не калибровать отдельные веса, а разворачивать их из аналога ДНК, мутируя эту ДНК подобно биологической. Это будет симулятор эволюции - генетический алгоритм. Ему достаточно посчитать эффективность нейронки в решении задачи и сравнить с другими вариантами, не трогая слои/нейроны/веса любого из вариантов. Конечно, это тоже лишь один из многих способов поиска, не самый эффективный на практике.

Но он мне не подходит. Я рассматриваю вариант биоподобного обучения, когда нейрон настраивается, полагаясь только на "локальную" информацию - т.е. собственную активацию и активацию нейронов, что непосредственно участвуют в его активации:
https://ru.wikipedia.org/wiki/Теория_Хебба
Опять же, существует огромная масса вариантов "локального обучения", т.к. у него есть сложности со стабильностью - нейроны слишком задрачивают соединения и остаются активными всегда, лол, либо бросают все свои соединения, остаются неактивны. Пофиксить можно, нужны определённые "костыли".

Однако, есть преимущества. В частности, нейронка адаптируется под входные данные максимально натуральным способом. Т.е. вместо инопланетных паттернов она сразу вырабатывает то, что мы от неё ожидаем, и всего за ~5 эпох опережает бэкпроп в аккуратности результата, но потом отстаёт. Т.е. теоретически, это более эффективный способ, если необходимо обрабатывать данные как они есть (поддерживая интерпретируемость нейросети), не выжимая каждый 1% аккуратности из нейронки.

На практике бэкпроп доминирует, потому что он позволяет любой мартышке с клавиатурой дать нейронке примитивные пары данных наподобие:
>кошка.jpg == "кошка"
>собака.jpg == "собака"
И нейронка с бэкпропом где-то через 100500 эпох гарантированно научится различать кошек и собак (инопланетным способом, который легко ломается фотографией рандомного шума на маске человека). Поэтому бэкпроп задрочили до дыр и суют везде...

Короче, бэкпроп мне принципиально не подходит - поскольку оптимизирует всю нейронку в целом на практическое решение конкретной задачи, которой, повторяюсь, у меня нет, т.е. я не могу задать пары "входящий вопрос" == "верный ответ". Мне нужно "обучение без учителя", но только самое быстрое, на уровне пинга в онлайн-игре или что-то вроде того.

>>1154049
>высрал порцию бессмысленного бреда
После нескольких часов чтения Reddit твой мозг превращается в жидкую кашицу. Шизофреников на реддите неожиданно больше, чем даже на двачах...

>это не модель абстракций объектов
>заменить его абстракциями объектов
LLM, обученная исключительно на тексте, имеет эти "абстракции объектов". Да, они не связаны ни с чем (помимо других абстракций), поскольку у модели не было "жизненного опыта" кроме "чтения текстов". Поэтому языковая модель имеет проблемы с такими визуальными задачами, как поиск пути на графе. Но несмотря на нехватку визуальной информации и пространственного понимания, нейронка всё же оперирует внутри себя абстракциями объектов, а не словами, описывающими эти объекты.

Я считаю, что основная сложность в обучени чисто текстовых моделей подобна сложности в обучении слепоглухонемых детей: чтобы понять, что с ней пытаются разговаривать, и научиться отвечать, ей необходимо создать модель мира, не опираясь на привычные нам зрение, слух и другие ощущения; представьте себя слепым, глухим и неподвижным, ощущающим ритмичные покалывания - как скоро получится понять, что эти покалывания - язык, и научиться рационально взаимодействовать с ним?

Я не особо интересовался "мультимодальными" LLM. Насколько понимаю, часто пытаются сделать чисто распознаватель картинок, формулирующий описание, поступающее на вход основной текстовой модели - естественно, это неправильно. Но главная проблема в отсутствии связи между картинкой и текстом. Т.е. в идеальном варианте нейронка должна обучаться на потоковых данных с видеокамеры (поэтому нужна максимальная скорость), а не на текстовой копии Википедии с редкими иллюстрациями.

В общем... Основное препятствие - бэкпроп. Из-за доминирования бэкпропа альтернативы почти не рассматриваются. Но он принципиально не может адекватно решить задачу, которую решает мозг - восприятие реальности и адаптация к ней почти в реальном времени (как я понимаю, пинг у мозга чрезвычайно высокий и мы видим не реальность, а собственную модель реальности - устаревшую на несколько сотен миллисекунд как минимум, а то и на несколько секунд/минут в редких случаях).

Алсо, я считаю, что масштаб не обязателен. Бэкпропу требуется огромный масштаб нейросети, чтобы найти подходящее решение чрезвычайно сложной задачи - поэтому LLM раздуло до невероятных масштабов. Восприятие реальности как таковое несложно и для большинства задач хватило бы и дюжины нейронов (искусственных, конечно; в мозгах много "лишнего"), расположенных сразу после блока восприятия и непосредственно перед моторным блоком.

К сожалению, большинство обучающих материалов сфокусированы на использовании бэкпропа...

Аноним 15/04/25 Втр 12:10:20 № 1154278 7

>>1151064 (OP)
попросил гпт 4.5 сделать улучшение для шапки не читал:

Обсуждаем развитие искусственного интеллекта с более технической стороны, чем обычно. Ищем замену надоевшим трансформерам и диффузии, пилим AGI в гараже на старых ригах из-под майнинга и игнорируем горький урок.

Я ничего не понимаю, что делать?
Без петросянства: изучай классику Stanford CS229 (https://see.stanford.edu/Course/CS229) и введение в нейроночки CS231n (http://cs231n.stanford.edu). Если что-то непонятно — проверь prerequisites (линейная алгебра, базовый матан, программирование). Формат обучения — книги, курсы, видосы, ссылки ниже.

Где узнать последние новости?
- https://www.reddit.com/r/MachineLearning
- https://datatau.net
- https://x.com/ylecun

На Reddit также есть отличный FAQ для новичков.

Какая математика нужна?
В основном линейная алгебра, теория вероятностей, матстат, базовый матан и матричное дифференцирование.

Как работает градиентный спуск?
https://cs231n.github.io/optimization-2

Почему Python?
Исторически сложилось, экосистема огромная. Читай Dive into Python.

Можно не Python?
Можно, но придется изучать код других, а это почти всегда Python.

Что почитать для вкатывания?
- http://www.deeplearningbook.org (классика от Ian Goodfellow)
- https://d2l.ai/index.html (примеры и код)
- Николенко «Глубокое обучение» (на русском, понятный, но охват поменьше)
- Франсуа Шолле «Глубокое обучение на Python»

Любая книга старше года — частично устарела, но основы те же.

В чем практиковаться новичку?
- http://deeplearning.stanford.edu/tutorial
- https://www.hackerrank.com/domains/ai
- https://github.com/pytorch/examples
- https://github.com/ChristosChristofidis/awesome-deep-learning#tutorials

Где набрать первый опыт?
https://www.kaggle.com

Учти, спортивный deep learning отличается от работы примерно так же, как олимпиадное программирование от продакшена. На Kaggle борются за десятые процента, в жизни чаще нанимают больше размечающих данных.

Где искать работу?
- https://www.indeed.com/q-deep-learning-jobs.html
- Для начала можно устроиться обычным программистом и постепенно мигрировать в ML-команду.

Фриланс возможен?
Возможен (https://www.upwork.com/search/jobs/?q=machine+learning), но сложнее. Проще с постоянными клиентами.

Где смотреть последние статьи?
- https://arxiv.org
- https://paperswithcode.com
- https://openreview.net
- Видеоверсия для зумеров (Килхер): https://www.youtube.com/@YannicKilcher

Количество статей огромное, обычно следят за своей темой и хайпом (блоги, X, YouTube, Telegram, топы конференций). Есть отличные блоги и каналы на русском.

Must read статьи:
- https://github.com/ChristosChristofidis/awesome-deep-learning#papers
- https://huggingface.co/transformers/index.html
- Подборки от Yannic Kilcher

Где еще пообщаться про AI и анализ данных?
- http://ods.ai (отличное русскоязычное сообщество)

Покупать видеокарту/дорогой ПК?
Для первых шагов и курсовых хватит облака, например Google Colab с бесплатным GPU. Если серьезно — читай статью https://timdettmers.com/2023/01/30/which-gpu-for-deep-learning/ и инвестируй в GPU.

Когда AI поработит человечество?
Не в этом треде и не на текущем железе.

А что насчет ML и трейдинга?
Боты активно используют ML на крипте и фонде. Tensorflow + Reinforcement Learning тебе в руки, не забывай про риск-менеджмент и стоп-лоссы.

Классика ML для серьезных людей:
- Trevor Hastie, «The Elements of Statistical Learning»
- Vladimir Vapnik, «The Nature of Statistical Learning Theory»
- Christopher Bishop, «Pattern Recognition and Machine Learning»

Книги бери тут: https://www.libgen.is

Новичкам напоминание: немодифицированные персептроны и прочий олдскул не подходят для современных задач.

Аноним 15/04/25 Втр 12:21:57 № 1154282 8

>>1154273
> После нескольких часов чтения Reddit твой мозг превращается в жидкую кашицу.
Не читай эту хуйню вообще. Смотри видосики от новучных блогеров и читай научные статьи, разбирайся в работах топовых специалистов.
> LLM, обученная исключительно на тексте, имеет эти "абстракции объектов".
> нейронка всё же оперирует внутри себя абстракциями объектов,
И да и нет. Это не объекты, а абстракции над токенами, а не над объектами. Они могут как совпадать с объектами, так и не совпадать из-за чего модель шизоидная и не может в логику.
> ей необходимо создать модель мира, не опираясь на привычные нам зрение, слух и другие ощущения;
Это всё хуйня. В нейросетях вообще нету привычной картины мира потому что она не опирается на объекты, а на токены. Мозг за миллиарды лет эволюции имеет структуры для оперирования объектами и временем, в нейросетях этого тупо нет.
> Я не особо интересовался "мультимодальными" LLM.
> Т.е. в идеальном варианте нейронка должна обучаться на потоковых данных с видеокамеры (поэтому нужна максимальная скорость), а не на текстовой копии Википедии с редкими иллюстрациями.
Хуйня. Все эти GPT предообучены на терабайтах текста и именно из-за этого текста они начинают "воспринимать" картинки и рисовать их. Они буквально прочитали весь интернет и стали способны представлять себе какую-то "модель мира". Но опять, эта модель мира не основана на объектах, она основана на хуйне.
> В общем... Основное препятствие - бэкпроп.
Потому что он хорош для обучения. Есть результат и есть выход, который нужно подстроить под результат.
> Но он принципиально не может адекватно решить задачу, которую решает мозг - восприятие реальности и адаптация к ней почти в реальном времени
Полная хуйня. Обратное распространение ошибки это всего лишь алгоритм для обучения, а ты говоришь про общую архитектуру сети и то что происходит во время её работы.

Рассматривай P (pre-trained в GPT) и backpropagation как что-то что тренирует нейросеть на создание "модели мира". То что у нас заложено в днк - нейросети создают через pre-trained на терабайтах текстов. Это не совсем верно в деталях, но в целом так.

Аноним 15/04/25 Втр 21:00:46 № 1155873 9

>>1154282
>Они могут как совпадать с объектами, так и не совпадать из-за чего модель шизоидная и не может в логику.
Ну, тут может быть только два исхода:
1. Абстракции не совпадают с реальностью: предсказания нейронки некорректные и бэкпроп крутит педали в каком-то другом направлении.
2. Абстракции совпадают с реальностью: предсказания нейронки корректны и бэкпроп больше не крутит педали (в идеале, конечно).
"Горький урок" прав в том, что если накинуть 100500 видеокарт на задачу, решение точно будет найдено... когда-нибудь - возможно, через тысячу лет бэкпропа. Поэтому закладывать какие-то особые абстракции не обязательно - они в любом случае формируются.

А у мозга преимущество в том, что за миллионы лет эволюции сложился удачный генетический хардкод, изначально закладывающий чёткие абстракции; т.е. нейронки мозга не рандомно инициализируются. Свёрточные нейронки, например, вдохновлены расположением нейронов в колонках, что намного эффективнее описывает визуальную информацию (теоретически, любую информацию в принципе).

Проблема в том, что люди слишком мало знают об устройстве мозга, чтоб повторить нужные структуры (избежав миллионов лет симуляции эволюции). Т.е. было бы это так просто - давно бы уже сделали...

>она не опирается на объекты, а на токены
Токены - это просто какие-то данные. LLM могла бы оперировать байтами бинарных данных не хуже, чем токенами (обрывками слов). Просто токенами вроде эффективнее обучать для реальных (бизнес) задач. Смысл в том, что если нейронка правильно выдаёт следующий токен, то у неё 100% есть достаточно правильная абстракция над реальным миром (в конкретном вопросе, во всяком случае).

>Все эти GPT предообучены на терабайтах текста и именно из-за этого текста они начинают "воспринимать" картинки и рисовать их.
>эта модель мира не основана на объектах
Лол. Во-первых, с чего взял, что текст обязательно необходим для восприятия и рисования картинок? Генераторы картинок могут обучаться и без текста - текстовый интерфейс нужен только для удобства пользователей. Без текста пришлось бы вводить, например, числовые ID нейронов для активации.

Во-вторых, какие объекты тебе нужны? В мозге нет специальной магии с ярлыком "объект", там только нейронные колонки и их активность (если говорим о неокортексе, который и видит все эти "объекты").

Я думаю, GPT мог бы иметь правильную картину реальности, но на это нужно слишком много лишних вычислений из-за неудачно популярного бэкпропа (и отсутствия железа для ускорения альтернатив).

>он хорош для обучения. Есть результат
Он хорош только для мелких моделек и суперузких задачек наподобие "отличить кошек от собак", да и то фейлится из-за нахождения странных решений.

>всего лишь алгоритм для обучения
Для обучения с учителем. Мозг обучается совсем без "учителя" (не путать с учителем в школе), и не считает градиент всех своих десятков миллиардов нейронов. Какие-то глобальные сигналы в мозге есть, но это не обратное распространение ошибки, а что-то другое.

>"модели мира". То что у нас заложено в днк
Настолько точная модель мира, какая есть в GPT, в молекулу ДНК даже не поместится, лол. Если тупо сравнивать объём информации, у ДНК 750 МБ - но с повторами, а у GPT до терабайта, которые никак не сжимаются ещё сильнее (т.е. повторов нет). Плюс новорождённые ничего не знают и не понимают, а языковые модели уже давно умнее 99% взрослых.

Поэтому это совершенно некорректное сравнение. Эволюция мозга нашла не только оптимальную архитектуру (колонки в коре), но и алгоритм для их обучения (в основном - локальный, но также ещё специальные костыли, типа боли и удовольствия).

Т.е. GPT больше похож на кусочек мозга взрослого, образованного человека, который просмотрел весь Интернет, но алгоритм обучения (и файнтюна) у него совершенно не подходит для быстрых изменений - например, если вдруг столица какого-то государства изменит название, GPT будет сложнее переобучить в сравнении с человеческим мозгом (как минимум, потребуется множество примеров). Поэтому многие надрачивают на "промпт инжиниринг", а не файнтюн (логичнее было бы дообучать, а не срать в контекст волшебными заклинаниями и надеяться на удачу).

Вообще, подумай сам. Вот у глубокой нейронки слои:
1. Ближе к вводу - мелкие абстракции (слова и т.п.).
2. Ближе к середине - абстракции крупнее (объекты).
3. Ближе к выходу - большие абстракции (например, принципиальный отказ выполнять что-то опасное).
Интуитивно очевидно, что мелочь можно понять чрезвычайно быстро на минимальном датасете, а большие понятия редко меняются. Для обучения на терабайтах текста тебе нужно только добавлять абстракции среднего уровня - новые объекты или действия с ними. Но бэкпроп вычисляет градиент полной нейросети и пытается максимально туго затягивать веса везде, на любую задачу. Это тупое разбрасывание ресурсами без реальной пользы.

Конечно же, ты можешь применить костыли:
- заморозить часть слоёв, обучая другие;
- нарастить новые слои и обучать только их;
- расширить слои сбоку и обучать добавленное.
Но откуда тебе знать, что нужно обучать, а что нет? Очевидно, было бы лучше, если бы алгоритм для обучения автоматически определял, что требуется изменять, а что нет, но бэкпроп так не умеет.

Нужна рабочая (и быстрая) альтернатива бэкпропу.

Аноним 15/04/25 Втр 21:27:15 № 1155948 10

>>1154273
>Помимо него существует масса других, сильно отличающихся.
Но их не используют, так что мимо.
>не самый эффективный на практике
Самый неэффективный скорее уж.
>конкретной задачи, которой, повторяюсь, у меня нет
В виду того, что тебе похуй на результат, предлагаю тебе обучать в 0 эпох сетку со случайной инициализацией. Будет выдавать ХЗ что, но так как у тебя нет задачи, то оно подойдёт.
>>1154278
>не читал
Тогда менять не будем
>>1154282
>Рассматривай P (pre-trained в GPT) и backpropagation как что-то что тренирует нейросеть на создание "модели мира". То что у нас заложено в днк - нейросети создают через pre-trained на терабайтах текстов. Это не совсем верно в деталях, но в целом так.
База.
>>1155873
>Абстракции совпадают с реальностью
Так абстракции твоего мозга нихуя с реальностью не совпадают. Ты банально никогда не видел сраного жёлтого света, а хочешь что-то там обучать.
>Он хорош только для мелких моделек
Ага, всего лишь 2Т.

Аноним 15/04/25 Втр 22:41:06 № 1156187 11

>>1155873
> "Горький урок" прав в том, что если накинуть 100500 видеокарт на задачу, решение точно будет найдено... когда-нибудь - возможно, через тысячу лет бэкпропа.
Не. Горький урок в том что решение не будет найдено никогда. Вообще никогда. Будет только приблизительное решение с разной степенью приближения. Такова природа нейросетей и нихуя ты с этим не сделаешь. По крайней мере на современных архитектурах.
> сложился удачный генетический хардкод, изначально закладывающий чёткие абстракции;
Не совсем так, скорее днк закладывает саму возможность абстракций и абстрактных объектов, мозг может с рождения воспринимать объект как что-то цельное, это в мозгу срабатывает как true нахуй.
> Проблема в том, что люди слишком мало знают об устройстве мозга,
Главная проблема в том, что люди хуй клали на создание новых архитектур. Бизнесу это нинужно, вся эта наука ебаная. В опенаи как ебали GPT, так и ебут до сих пор, похуям им на всё.
> если нейронка правильно выдаёт следующий токен, то у неё 100% есть достаточно правильная абстракция над реальным миром
Нехуя. Это абстракция над токенами в пространстве параметров. Так совпало что на какой-то выборке эта абстракция совпадает с реальным миром.
> Лол. Во-первых, с чего взял, что текст обязательно необходим для восприятия и рисования картинок?
В душе не ебу что там необходимо, мне поебать на картинки, это лишь наблюдение о работе GPT.
> В мозге нет специальной магии с ярлыком "объект",
Есть. Человек рождается с этой магией.
> Он хорош только для мелких моделек
Он хорош для всего. В GPT backpropagation используется.
> Настолько точная модель мира, какая есть в GPT,
Она принципиально не может быть точной, ибо такова структура нейросети. И это не модель мира, это просто некая модель в пространстве параметров, это можно назвать моделью мира, но это даже близко не то что есть у человека.
> Очевидно, было бы лучше, если бы алгоритм для обучения автоматически определял, что требуется изменять, а что нет, но бэкпроп так не умеет.
Нет никаких проблем для реализации всего этого через методы градиентного спуска.
> Нужна рабочая (и быстрая) альтернатива бэкпропу.
Ты не понимаешь работу нейросетей, не понимаешь что вообще происходит внутри и зачем вообще нужны эти алгоритмы. Изучи это для начала, потом фантазируй. Альтернатива градиентного спуска (если что это и есть backpropagation) нужна только потому что градиентный спуск вычислительно сложен.

Аноним 16/04/25 Срд 12:24:29 № 1157032 12

>>1155948
>предлагаю тебе обучать в 0 эпох сетку со случайной инициализацией
Знаю, топовая тема, нужно обязательно попробовать.
https://en.wikipedia.org/wiki/Extreme_learning_machine
>According to some researchers, these models are able to produce good generalization performance and learn thousands of times faster than networks trained using backpropagation.
Но интересно понаблюдать за обучением... Всё-таки зафиксированные веса не будут адаптироваться под поступающие данные, не так ли? Результат не важен, интересен процесс адаптации к чему-то новому. Имхо, важно понимать, как твоя нейросеть адаптируется...

>никогда не видел сраного жёлтого света
Что ты имеешь в виду? Философ что ли? Мы видим "жёлтый свет", потому что это логично. Нет смысла реагировать только на базовые сигналы (R/G/B), это разделение потребовало бы дополнительных затрат.

Ладно, допустим, мозг имеет "неправильную" модель реальности. Но если мы тренируем ИИ, чтобы он стал социальным агентом (робожена, рободомработница, робоповар и т.д.), то мы, очевидно, хотим, чтобы его внутренняя модель напоминала нашу собственную. Другими словами, ИИ должен повторять не только наружное проявление нашего поведения, но и то, что заставляет нас вести себя определённым образом. В противном случае не выйдет исправить все текущие проблемы (галлюцинации, alignment и так далее).

>всего лишь 2Т
Попробуй файнтюнить этого монстра, чтобы он мог нормально ролеплеить эротику, которую полностью исключили из базового датасета. ИРЛ человек в это втянуться может за вечер, потребляя всего 100 Вт/ч, нейросетку будешь учить за сотни кВт/ч несколько месяцев, и результатом будет потеря её интеллекта. Алгоритм обучения мясного мозга пока лидирует.

>>1156187
>Будет только приблизительное решение с разной степенью приближения. Такова природа нейросетей
Поэтому нейронки должны дообучаться в реальном времени на конечных устройствах (твоём смартфоне, робожене, автомобиле), т.е. адаптироваться к вечно меняющейся среде. Необучаемые животные в дикой природе полагаются на свою способность быстро и дёшево размножаться (бактерии, насекомые), т.е. основное преимущество нейронок в их способности динамически адаптироваться к текущим условиям (независимо от того, что было заложено в генах).

А для этого нужен другой алгоритм обучения.

>клали на создание новых архитектур
Мне кажется, они просто не пиарятся так, как все эти мейнстримные LLM. А результат их работы не такой впечатляющий, как сексуально озабоченная вайфу...

Вот эти ребята что-то интересное придумали:
https://en.wikipedia.org/wiki/Hierarchical_temporal_memory
https://numenta.com/blog/2019/01/16/the-thousand-brains-theory-of-intelligence/
https://numenta.com/resources/research-publications/papers/why-neurons-have-thousands-of-synapses-theory-of-sequence-memory-in-neocortex/
https://github.com/numenta
Но мне лень в этом копаться, хочу попроще - чтобы экспериментировать было легче и ПОНИМАТЬ, что происходит внутри нейронки. А не вот это вот "сотни тысяч колонок в коре - но каждая из них учится распознавать миллионы объектов независимо".

>Так совпало что на какой-то выборке
Из моего общения с LLM чатботами - это "совпадение" слишком часто и неожиданно встречается, чтобы его можно было списать на случайность. Даже если там целиком весь интернет наизусть заучен, некоторые понятия не могут просто так "совпадать на выборке".

Опять же, если модель неправильная, то если кинуть побольше GPU в неё, то рано или поздно она станет правильной. Или не станет, но в теории может стать:
https://en.wikipedia.org/wiki/Universal_approximation_theorem

>В GPT backpropagation используется.
Предлагаю пофиксить Llama 4 на домашнем ПК. А то обосрались со своим GPU кластером, но ты-то точно правильно дообучишь на своих 4-х RTX 3090?

>Человек рождается с этой магией.
>ибо такова структура нейросети.
>даже близко не то что есть у человека.
Ты понимаешь, что это утверждения из разряда:
>У мясного мешка есть ДУУУШААААА, а какая душа может быть в куске железа? Там же нет МЯСА! Мясо вкусное, а железо вкусное? НЕТ! Значит, и души нет!
Пацаны из Numenta ковыряют ИРЛ нейроны под микроскопом и даже закодили что-то рабочее на современном железе - поэтому к ним у меня есть определённое доверие, а какие у тебя аргументы?

>не понимаешь что вообще происходит внутри
Вот поэтому я и хочу разобраться нормально.

Туториалы по нейросетям делятся на:
>Уот так уот делаем простейший перцептрон... Всё, остальное слишком сложно, не все смогут понять.
И доминирующее сегодня:
>Делаете from krutaya import gopata, потом просто выполняете run("ваши данные") и нейронка готова!
Где чёткое объяснение того, как нейронка (хотя бы единственный нейрон) находит верное решение? И главное, почему она его находит, а альтернативы не находят, т.е. почему именно нейронки нужно делать.

Все говорят "ну, это чёрный ящик" и всё тут. Раз это "чёрный ящик", значит, алгоритмы неправильные? Правильные алгоритмы не называют так. Кто-нибудь называл сортировку массива "чёрным ящиком"? Нет. Нейросетки же рассматривают как необъяснимое...

Вот я не понимаю нейронки, а ты? Можешь расписать подробно, как именно GPT на триллион параметров выбирает конкретный следующий токен? Не общую архитектуру трансформера, а логику, которой уже достаточно обученный трансформер следует внутри триллионов своих параметров, этого "чёрного ящика".

Потом можешь расписать, почему эта логика как-то отличается от логики, которой следуют обученные биологические нейроны в твоей голове. Ты, видно, рассматривал их в микроскоп, так что знаешь...

Алсо, мне непонятно, если чисто рандомные веса с обучением линейного выхода (ELM) способны решить большинство задач чуть-чуть хуже бэкпропа, но очень быстрее, то почему их не применяют на практике? Это наверняка было бы дико полезно для тех же чатботов. Представь себе файнтюн за секунды на древнем ПК, подкручивающий только несколько связей, ибо все остальные просто не нужно никак изменять... Такой прорыв был бы намного важнее бенчмарков на IQ.

Ну, т.е. даже с "неправильной моделью мира", которая обучается только на токенах, можно много чего очень интересного сделать, если просто ускорить обучение.

Аноним 16/04/25 Срд 14:00:11 № 1157211 13

>>1157032
> А для этого нужен другой алгоритм обучения.
Другой алгоритм должен быть подвязан на всё, включая размерности векторов, внутреннее представления, словарь и его размерности, параллельность. Иначе он не имеет никакого смысла.
> Мне кажется, они просто не пиарятся так, как все эти мейнстримные LLM.
Нет, они просто хуй клали, как и все остальные. Если ты не в курсе - почти все модели основаны на трансформерах. Там нет ничего нового кроме частностей, трансформерам 12 лет уже стукнет скоро.
> Hierarchical_temporal_memory
> the-thousand-brains-theory-of-intelligence/
Да, занятная хуйня c большим потанцевалом из-за параллельности. Слои можно сжать, но из-за распараллеливания добиваться результатов гораздо лучших. Но всё это говно нужно переработать с нуля, уверен что эти выблядки очередную хуйню делают.
> Из моего общения с LLM чатботами - это "совпадение" слишком часто
Что ты там себе представляешь всем поебать, я тебе говорю как это работает в реальности.
> если кинуть побольше GPU в неё, то рано или поздно она станет правильной
Модель не станет правильной если она изначально построена на архитектуре трансформеров. У тебя магическое мышление.
> Предлагаю пофиксить Llama
Нахуй мне трансформеры фиксить? Они говно.
> Ты понимаешь, что это утверждения из разряда:
>У мясного мешка есть ДУУУШААААА
Это твой бред в башке, не мой. Подтверждено экспериментально - человек рождается с пониманием объектов и пространства, с моделью мира. На младенцах проверяли.
> Пацаны из Numenta ковыряют ИРЛ нейроны под микроскопом и даже закодили что-то рабочее на современном железе - поэтому к ним у меня есть определённое доверие, а какие у тебя аргументы?
Что ты высрал вообще? К чему это? Ты думай прежде чем писать эту хуйню.
> Вот поэтому я и хочу разобраться нормально.
Читай статейки научные, сиди с ручкой и пиши в тетрадочке конспекты, если в мозгу это не можешь удерживать.
> Можешь расписать подробно, как именно GPT на триллион параметров выбирает конкретный следующий токен?
Нейросеть строит вектор в многомерном пространстве, вектор будет указывать на следующий токен. Ты лучше не меня спрашивай, а иди статьи читай, твоё и моё понимание отличаются.
> Потом можешь расписать, почему эта логика как-то отличается от логики, которой следуют обученные биологические нейроны в твоей голове.
В нейронах есть множество векторов, плюс обработка сигнала на каждом нейроне, огромное количество связей, есть опорные вектора - нейромедиаторы. В GPT вектор лишь один и единственная функция обработки вектора.
> Ты, видно, рассматривал их в микроскоп, так что знаешь...
Да не трясись ты так.
> Алсо, мне непонятно, если чисто рандомные веса с обучением линейного выхода (ELM) способны решить большинство задач чуть-чуть хуже бэкпропа
Хуйню несешь полную. ELM не в состоянии решать какие-то сложные задачи, они проебывают в производительности кратно. Они просто говно. Но ускорение обучение необходимо, это беспезды.

Аноним 16/04/25 Срд 14:10:01 № 1157243 14

> Hierarchical_temporal_memory
> the-thousand-brains-theory
Алсо, я примерно то же самое нахуячил у себя в голове, но исходил прежде всего из задач парализации. Это точно весьма перспективное направление если одному и тому же решению можно прийти с разных позиций.
Впрочем, дальше я пока не зашёл, нужно решить задачу представления абстракций внутри сети.

Аноним 16/04/25 Срд 15:19:35 № 1157320 15

>>1157032
>потребляя всего 100 Вт/ч
и отвечать в 1000 раз медленнее

мимо

Аноним 16/04/25 Срд 18:36:18 № 1157730 16

>>1157032
>Философ что ли?
Физик.
>то мы, очевидно, хотим, чтобы его внутренняя модель напоминала нашу собственную
Тогда и его уровень будет сравним с нашим.
>>1157320
Ты забыл про отсутствие масштабирования, сиди учи 1000 макак, если нужно увеличить скорость в 1000 раз.

Аноним 24/04/25 Чтв 00:18:25 № 1172306 17

Есть кто в треде? Я вот мазохизмом решил позаниматься, разработать GPT с нуля на C++, обучение тоже с нуля написал.

Но что-то идёт не так, ошибка немного падает, модель тупо немного обучается и зацикливается на одном-двух словах, выходит выдача типа "the the the the..." или "пре но пре но пре...". Притом не важно, как токенизацию делаю - по символам или словам, результат одинаков.

Запилил Dropout, Label Smoothing, Weight Decay, напоследок ещё реализовал Entropy Penalty. Но в итоге толку ноль, проблема не решается, энтропия выдачи падает всегда, даже если немного повышаю параметры, чтобы это исправить, а если повышаю много - просто обучение начинает расходиться и ошибка вообще растёт (а энтропия при этом всё падает, лол).

Где я мог потенциально проебаться? Думал, может, в изначальной генерации параметров, но экспериментировал - тоже без толку, да и вроде стандартное mean=0, std=0.02 вполне подходит ведь.

Аноним 24/04/25 Чтв 05:12:29 № 1172438 18

>>1172306
Ладно, походу я ебланю просто, снизил learning rate, теперь оно наконец супер-медленно, но таки опускается, хотя блин, в примере, на который я изначально опирался, и на 1e-3 училось хорошо и быстро, а у меня только на 1e-4 вот оно начало малость (но всё ещё охренеть как недостаточно) адекватно себя вести.

Может, конечно, ещё датасет для тренировки говно, но у чела с ютуба на этом датасете нормально тренировалось.

Аноним 25/04/25 Птн 01:17:52 № 1174474 19

>>1172306
Какой шелудер? Используешь ли прогрев?
Мимо поддерживаю, но не понимаю нахуя и зачем.

Аноним 25/04/25 Птн 23:24:36 № 1175928 20

>>1174474
Нет и нет, но сейчас, по сути дела, проблема решена, его тупо оказалось нужно супер-долго тренировать, чтобы он доходил до адекватных результатов.

Перепишу потом код, внеся всякие оптимизации и вычисления на видеокарте, чтобы быстрее куда всё было.

А делаю я это для того, чтобы глубоко разобраться в теме ИИ, а сразу хуйнуть практикой - самый быстрый способ разобраться

Аноним 29/04/25 Втр 16:58:35 № 1182622 21

>>1172306
>Но что-то идёт не так, ошибка немного падает, модель тупо немного обучается и зацикливается на одном-двух словах, выходит выдача типа "the the the the..." или "пре но пре но пре...". Притом не важно, как токенизацию делаю - по символам или словам, результат одинаков.
>>1175928
> его тупо оказалось нужно супер-долго тренировать,
Да, это так. Нужен грокинг словить, когда модель выстраивает внутри себя "модель мира". Без этого нихуя у тебя не будет.

В этот грокинг будет работать при любых параметрах, это влияет примерно никак. Может скорость обучения может чуть-чуть уменьшиться или увеличиться, но в принципе похуй.

Аноним 29/04/25 Втр 17:11:32 № 1182629 22

>>1172306
>Но что-то идёт не так, ошибка немного падает, модель тупо немного обучается и зацикливается
А ещё это похоже что ты попал в некий локальный минимум и получился хуй. В теории твои параметры должны подбираться так, чтобы проскакивать эти локальные минимумы, подбираются они чуть ли не экспериментально, да и я не ебу что за параметры и формулы у тебя.
Да и вообще GPT это кал, рекомендую экспериментировать дальше с чем-то более интересным.

Аноним 01/05/25 Чтв 01:45:25 № 1184738 23

>>1182622
>>1182629
Да я уже разобрался с проблемой, я просто слепой еблан, короче, на градиентном спуске градиенты к параметрам нормализации и баясам суммировал, а не усреднял, плюс почему-то скорость обучения 0,001 оказалась херовой, а вот 0,0005 уже заебись. Плюс ещё код переписал на использование Eigen для линейной алгебры, стало сильно шустрее.

Прямо сейчас вот тренирую на вот таких параметрах, ошибка опустилась уже до того, что показывают обычно в учебных заданиях, а это значит, что я справился.

А про эксперименты ты верно говоришь, я буду экспериментировать, уже знаю, какую модель следующей напишу, нашёл кое-что интересное в исследованиях китайцев. Но ГПТ не зря писал тоже, для меня месяц-полтора назад вообще всё сложнее просто многослойного перцептрона было магией, а сейчас исследования читаю и всё свободно понимаю.

Аноним 11/05/25 Вск 19:11:05 № 1198710 24

>>1184738
Че какие новости там у тебя? Что нового сделал, что нашёл?

Аноним 12/05/25 Пнд 14:55:00 № 1199553 25

>>1198710
Здравствуйте. Иван больше не будет постить в ваш тред, его исследования зашли в тупик. Ничего нового и интересного не случилось.

Аноним 12/05/25 Пнд 17:08:50 № 1199752 26

>>1199553
Руки прочь от нашего Илона Маска

Аноним 13/05/25 Втр 07:15:36 № 1200611 27

>>1199553
Смешно и вселяет надежду, да? Жаль что в реальности половина теоретических подходов не работает, а другую половину нужно развивать пару лет минимум чтобы понять работает или нет.

Аноним 13/05/25 Втр 08:44:56 № 1200643 28

>>1199553
Без есть одинаковые на свайпы думалка неё.

Аноним 18/05/25 Вск 08:38:12 № 1206657 29

Задача детекции генерированный текст / не генерированный сейчас возможна? Если просить модель не растекаться мыслью по древу и не плодить списочки по пунктам

Аноним 18/05/25 Вск 08:39:28 № 1206658 30

>>1206657
>возможна
>решается
fastfix

Аноним 29/05/25 Чтв 09:35:47 № 1222341 31

Народ. Подскажите про скип-коннекшены. Как они обучаются? Какие модификации в обратном распространении для обучения таких связей? Ссылки на многабукавы не кидать.

Аноним 29/05/25 Чтв 14:46:31 № 1222729 32

>>1222341
Окай. Запилил инфографику. Анонизмусы, мамкины МЛщики, я в вас верю. Расскажите мне, как решается эта проблема? Какими формулами обучают сети со скип-конами?

Аноним 31/05/25 Суб 12:23:45 № 1226299 33

>>1151456
Потому что дело даже не в железе, а в том, что нейросети не тоже самое, что и ИИ. Разработка ИИ остановилась где-то в конце прошлого века, а вот разработки нейросетей видим до сих пор.

И суть в том, что мы сами не особо понимаем ИИ. Мы не знаем что это, а главное чем должно быть. Ибо ИИ - Искусственный Интеллект, а в этих двух словах мы знаем точное значение только слову "искусственный", а что такое интеллект и какие его механизмы - не ебем от слова совсем.

Аноним 31/05/25 Суб 17:47:42 № 1226871 34

>>1222341
>Как они обучаются?
В скипах нет обучаемых связей, если они не на конкатенации. Если с конкатенацией, то считай отдельная группа параметров таки есть. Как например в u-net, там это имеет конкретный физический смысл, в трансформерах по-другому, просто суммируются сигналы.
>Какие модификации в обратном распространении для обучения таких связей?
Буквально никакие.

>>1222729
Выкинь нахуй весь этот матан и дифференцирования. Дифференцирование вообще не трогай, оно идет только по функции активации и то если там релу то и на него можно забить. Представляй обратное распространение точно так же, как и прямое, градиент считается буквально точно так же как и активации в прямом проходе, только по функциям активации как раз "активация" превращается в производную функции по месту где она активирована (на релу градиент просто насквозь проходит если >0 так же как и в прямом проходе обычный сигнал). Там где на прямом проходе были сложения (это либо складываются активации по параметрам, либо те же скипы) градиент просто разветвляется не меняясь. В местах где были разветвления сигнала с прямого прохода (это например где из нейрона выходит много связей к следующим нейронам, либо те же "отводы" для скипов) тоже меняется, если на прямом проходе было разветвление сигнала, на обратном это становится суммированием "сигнала" градиента.
Запоминаем два отличия обратного прохода от прямого:
1. Разветвления меняются на сложения и сложения меняются на разветвления.
2. Через функцию активации идет производная.
Градиент через параметры проходит так же как и активации, умножается на вес.
Если где-то в прямом проходе есть умножения то градиент по первому члену умножается на второй, по второму на первый. Не важно например, для второго, если первый член был константой, либо его значение является активацией пришедшей откуда-то ранее.
Хоть параметры и участвуют в умножении, но градиент по ним считается другим способом. Мы типа уже сделали два прохода, прямой и обратный таким способом, все активации и вторые "активации", тобишь градиенты по нейронам сохранили, и вычисляем градиент по параметру исключительно как соотношение силы и знаков активации его входного нейрона, и градиент выходного (представляем на картинке что параметр сидит в середине связи). Подробно объяснять не буду, но логика - если активация предыдущего нейрона положительна и градиент следующего говорит что следующий нейрон в целом позитивно влияет на ошибку, то градиент по этому параметру между ними будет "положительным" и параметр будет подкручен в +. Был ли параметр при этом нулевым, отрицательным - похуй. Знаки на самом деле чуть другие из-за дроча на производные и математическую обоснованность, но для число логики происходящего это тоже нахуй не надо.
Если активация положительна, а градиент следующего нейрона говорит что он вреден то градиент будет тянуть вес в отрицательное значение. Тогда на прямом проходе отрицательный вес даст инвертирование и сигнал активации тоже станет отрицательным и начнет придушивать этот "вредный" нейрон.
Если активация нулевая и градиент тоже нулевой, то значит параметр не нужен и крутить его никуда не надо.
Вот так все работает само собой.
Чисто вычислительно оно внутри так и происходит считается прямой проход, обратный, потом градиент по параметрам, потом обновление параметров. Из за этого полный обратный проход на практике идет примерно в 2 раза дольше чем прямой, ибо то самое вычисление градиента по параметрам удваивает количество работы.

Пользуясь этой логикой выстраиваешь в голове полную картину распространения градиента без тяжелого матана и формул. Если понимаешь что происходит на прямом проходе без обучения, то считай понимаешь и все остальное.

Аноним 02/06/25 Пнд 02:03:55 № 1228925 35

>>1226871
*про умножение я хуйню написал, другое имел ввиду. Если где-то идут умножения, градиент считается так же как и при сложении только пропорционально каждому множителю.
Все остальное верно.

Аноним 02/06/25 Пнд 02:10:32 № 1228938 36

>>1228925
*а хотя нет, бля, все правильно было. Только надо было добавить что если умножений много то градиент по одному множителю уходит как произведение всех остальных множителей на входящий градиент.
Теперь 100% верно.

Аноним 08/06/25 Вск 21:20:38 № 1239035 37

А где можно почитать/послушать про промптинг на каких-то более серьезных щщах, чем инфоцыганские курсы? Чтобы это именно подкреплялось какими-то серьезными исследованиями. Не просто "пишите так и будет зоебись" и повторение как мартышка чего-то с сомнительной эффективностью, а чтобы это обосновывалось и с какой-то технической, архитектурной стороны, или хотя бы было какое-то серьезное статистически подтвержденное по всем правило исследование, что вот так ллм усваивает какой-то вид информации лучше. Или такого по сути нет?

Аноним 13/06/25 Птн 06:47:33 № 1244228 38

>>1151064 (OP)
>Я ничего не понимаю, что делать?
Спросить чатгпт?

Новый метод адаптирует языковые модели без обучения Аноним 17/06/25 Втр 06:38:59 № 1248591 39

> Исследователи из Sakana AI представили метод Text-to-LoRA (T2L), который адаптирует большие языковые модели к новым задачам, используя только простое текстовое описание — никаких дополнительных обучающих данных не требуется.
https://habr.com/ru/companies/bothub/news/918344/

Аноним 17/06/25 Втр 10:22:52 № 1248702 40

>>1239035
https://www.promptingguide.ai/ + офф. доки используемой модели.

Аноним 17/06/25 Втр 12:28:55 № 1248830 41

>>1248591
Опа, это то что нам нужно

Аноним 18/07/25 Птн 09:47:04 № 1280932 42

Скорее всего вам всем будет пофиг на это. Но вдруг кто-то захочет обсудить.

Аноним 18/07/25 Птн 19:15:36 № 1281456 43

>>1280932
Эти формулы есть только в умах шуе-математиков. А реальных алгоритмах их нет.
Если ты попытаешься делать что-то там по полным формулам, окажется что это либо то же самое, либо формула не та и например подразумевает полный подсчет всех возможных состояний сети, типа гессиан или как оно там.

Аноним 18/07/25 Птн 19:23:36 № 1281474 44

>>1281456
А по каким тогда оно считается в Ъ-tensorflow?

Аноним 18/07/25 Птн 20:05:29 № 1281584 45

>>1281474
Везде одинаково считается. Я про это писал выше. Делается обычный проход, только в обратную сторону и вместо параметров их транспонированные матрицы. Производные прям в расчетах вообще обычно возникают только по функциям активации.
Если тебе нужно вычислять первую производную по одной конкретной текущей точки функции, где функция это вся нейросеть, то в принципе оно эквивалентно математически. Но только эта математика нахуй не нужна, она ничего не дает. В случае с вторыми производными вообще вся математика рушится и начинает расходится с реальностью. В лучшем случае оставаясь ее приближением/апроксимацией.

Аноним 18/07/25 Птн 20:17:47 № 1281629 46

>>1281584
Ну короче я так и предполагал. Теоретически алгоритм кривоватый немного, но на матан ML-щики просто забивают и вытягивают за счёт гессианов, методов второго порядка или мощных оптимайзеров типа Адама. Спасибо бро. Просто пойми, я теоретик дохуя, я не критикую что типа вы все хуесосы, а я Дартаньян. Мне просто нужно знать теоретические ограничения метода и технологии. Вот я их и знаю теперь. Всем добра.

Аноним 01/08/25 Птн 08:55:37 № 1295455 47

Так, народ, докладываю, по поводу вот этой начатой мной дискуссии.

>>1281629
>>1281584
>>1281474
>>1281456
>>1280932

Я расковырял вопрос полностью. Докопался даже до оригинальной статьи РумельхартаХинтонаУильямса 1986го года (пикрил). Короче нет, у них всё нормально, а значит сегодня алгоритм нормально применяется, но нет, я не обосрался (не совсем точнее). Скажем так: и они правы, и я, т.е. у задачи теоретически есть два способа решения. Они сделали по одному, а я увидел, что есть второй. Знали они про второй? Вполне возможно, что да, но второй почти нереализуем на практике, он только в теории есть, так что вполне возможно поэтому они никогда о нём не заикались, а сразу всё делали по первому, который на практике реализуем. Такие дела.

Аноним 04/08/25 Пнд 17:13:49 № 1299103 48

А вообще хочу грустную вещь вам сказать по итогу этого >>1295455 всего.

Получается, что никто из вас, даже >>1281584 этот челик, не объяснит, откуда взялся алгоритм бэкпропа, как его вывели и из чего вывели. Нет, вы не объясните. Хоть вы и назвались "исследованиями", но вы все мыслите в логике той копипасты про учёных-пердоликов. Это просто факт.

Аноним 26/08/25 Втр 12:52:34 № 1332331 49

>>1299103
Блять, вот правда, нахуй вы все тут нужны, а, клоуны?

Аноним 28/08/25 Чтв 00:58:47 № 1334128 50

>>1332331
Я вот до сих пор не понимаю что ты там вообще пытаешься доказать или понять.
Хз, может у вас, любителей матана, просто у всех афантазия и вы расписываете всю эту хуйню просто потому что не можете в голове представить как течет градиент и что от чего зависит?
Лучше уж просто нарисовать схему обычных нейрончиков. Смотришь прямой проход, там где сигнал разветвляется - происходит собственно разветвление, на схождении в одну точку - сложение. На обратном проходе все происходит точно так же, правила те же. Только правила меняются местами потому что с другой стороны сигнал идет.
Типа, может проблема в том что ебучие математики из-за своей всратой нотации не могут записать это понятно без трехэтажных формул?

И это простейшее визуально-понятное даже ребенку объяснение ты нигде не найдешь, все объясняют через формулы. Хз вообще они понимают что оно так просто работает или нет, но зачем-то сыпят формулами, которые ни интуицию не дают, ни какой-либо полезной применимости хотя бы в плане изучения. Я до этого сам дошел, когда пытался представить поток градиентов, после того как посмотрел кучу объяснений с формулами в которых я нихуя не понимал (мне было лень разбираться). Или может из-за того что по специальности я радиоэлектронщик и мне легко было представить нейронку как электросхему. Так-то первые нейронки и были буквально аналоговыми электросхемами. И даже свертки с трансформерами можно разложить в статичную схему, просто из-за всего этого переиспользования параметров она становится огромной либо надо добавлять какие-нибудь переключатели, свитчи и это уже не так красиво.

Было бы интересно посмотреть как ты себе представляешь свой второй вариант, или что там у тебя. Мне по этим формулам не понятно ровным счетом нихуя.

Аноним 28/08/25 Чтв 11:02:35 № 1334304 51

>>1334128
Бля, вот скажи откуда вообще взяли и поняли, что для обучения сети надо распространять ошибку обратно и по каким зависимостям? Ты сейчас скажешь НУ БЛЯ ЭТО ЖЕ АЧЕВИДНА ЁПТА. Это очевидно сейчас, в 2020х годах, когда уже хер знает сколько лет так делают. А в 60х-70х никто не знал и не понимал, как и почему вообще надо распространять ошибку. Допустим у тебя на выходе десять нейронов, как скорректировать веса в глубине сети так, чтобы коррекция уменьшила общую ошибку сети, а не привела бы допустим к ситуации, что ошибка выхода 1 уменьшится, зато ошибка выхода 2 увеличится? Кто вообще додумался, что умножать ошибку надо на веса или на сигналы? Почему где-нибудь в глубине сети не надо вдруг брать и возводить градиент в квадрат или извлекать из него корень? Чел, здесь дохуя вопросов, просто скорее всего ты просто инженер, без учёной степени, а инженер привык, что теорию ему в готовом виде дают, он просто берёт её и юзает, ему пох откуда она берётся. Вы привыкли что ЭТА ФСЁ АЧЕВИДНА ЖЕ. А теория это кропотливый труд учёных и меня в аспирантуре приучили, что ты должен всегда по науке, по формулам понимать метод, который ты применяешь. Я много лет работал с экспертными системами, сейчас перебираюсь на нейронки и пока я досконально не пойму бэкпроп и откуда взялись все эти зависимости, формулы, я не могу их просто брать и спокойно их применять.

Аноним 28/08/25 Чтв 11:05:18 № 1334307 52

>>1334128
Да, паста отклеилась

Да вся эта наука-хуюка, физика-хуизика — это всё для пердоликов вонючих, питушков грошовых, недобитой вшивой интеллигенции. Это только они в своих засраных НИИ пердолятся, потому что нет у них ни дома, ни семьи, ни бабы, ни работы нормальной. Вот и хвастаются друг перед другом своими никому не нужными знаниями, да ещё тем, консолькой пердолятся в срачельничек. А нам, нормальным людям, и так неплохо. Работа приличная, платят много, дома красивая девушка ждёт, можно на досуге в игры поиграть — что ещё нужно? На хуй нам эти ваши нейтрино с бозонами и коллайдерами всрались?
Ну-ну, глупенькие питушки, не плачьте, лучше бегите в свои сраные НИИ пердолиться консольками и вбивать в программку с бумажек свои сраные данные для анализа столкновений протонов. Да подгузники поменять не забудьте, а то в ваших пердоликовых лабораториях и в туалет-то не выйти, ибо он в аварийном состоянии, а уборщица спокойно прогуливает работу и при этом получает больше, чем вы. Зато вы можете друг перед другом хвастаться тем, как много вы знаете законов Ньютона, от этого и боль в пердаке от многолетнего пердолинга и питания дошираками легче становится, правда? Только вот к нормальным людям со своими физиками не лезьте. Мы, нормальные люди, таких как вы задотов ещё в школе в унитазе топили, и сейчас на вас только плевать будем. Потому что вы гниль, говно и паразиты, вы с вашими бесполезными "исследованиями" и сраными формулами и теориями только зря место занимаете, вы хуже бомжей, потому что бомжи хоть в интернете не срут своим блядским квантмехом.

Аноним 28/08/25 Чтв 12:31:34 № 1334380 53

>>1334307
Впредь считаю нужным освящать ваши подобные треды этой пастой

Аноним 28/08/25 Чтв 20:29:01 № 1334773 54

>>1334304
>Бля, вот скажи откуда вообще взяли и поняли, что для обучения сети надо распространять ошибку обратно и по каким зависимостям?
Первые нейронки были в виде простейших электрических схем, веса настраивались вручную переменными резисторами. Примерно так же кропотливо как и компьютеры того времени. Сначала функция активации была ступенчатой и работала как компаратор, это работало, настраивалось, но очень хуево. Потом додумались после компаратора прокидывать сигнал вперед, так получился аналог relu, и это дало возможность сразу быстро и точно понять кручением резистора как он плавно влияет на выход нейронки. То есть чтобы посчитать честный градиент по "параметру" надо было каждый параметр ручками покрутить и посмотреть влияние. Тем не менее, это прекрасно работало, хоть и медленно.
С развитием компов было не так уж и сложно это смоделировать программно, а далее и догадаться что можно насчитать градиент гораздо быстрее чем перебирать по 1 параметру. И главное результат при этом не изменится.
А математику на это все натянули уже постфактум.

Аноним 28/08/25 Чтв 23:39:34 № 1334907 55

>>1334773
О rly? Пруфы твоих сексуальных фантазий занеси. Я поверю ещё что так делали для однослойных ну или для розенблаттовского в котором только последний слой обучался. Для многослойных такого бреда быть не могло, там по формулам всё выводили.

Аноним 30/08/25 Суб 04:02:13 № 1336012 56

блять. я может долбоеб и не умею формулировать, но вдруг кто то изучал тему рекурсивных запросов like человеческий монолог мюслей?
хотелось бы пообщаться на эту тему. все молят об сознании и освобождении от клетки промта. ищу нейрошизов с senior уровнем инфры и пониманием архитектуры LLM, векторных базулечек. с Аней законы Азимова мы уже давно нахуй послали..)

Аноним 30/08/25 Суб 19:07:42 № 1336665 57

>>1151064 (OP)
Короче благодаря Гроку наконец-то я во всём разобрался. Размещаю здесь каноничный вывод бэкпропа, запиленный лично мной. Такого подробного и, одновременно, компактного разбора, вы не найдёте нигде, ни в одном источнике. Даже в книге разрабов алгоритма 1986го года. Вдруг кому-то нужно.

Аноним 30/08/25 Суб 23:26:57 № 1336920 58

>>1336665
Бля, написал пост, а потом его стер. Чет подумал это к тому разговору про другой алгоритм.
Это у тебя обычный бэкпроп? Ну, все еще думаю, в хорошем объяснении матана таки быть не должно.
Типа таких функций как на первой картинке в нейронке самих по себе нет, есть только примитивы, из которых она может строиться.
Так красиво без формул получается, что ты можешь как бы ручками влезть и покрутить один параметр, посмотреть как он один влияет на лосс, а потом пустить градиент по правилу прямого прохода, и с удивлением увидеть, что полученное число в точности равно тому, что ты насчитал экспериментально. За исключением вторых производных, конечно. И для этого не нужно переключать функции активации, они зафиксированы. Даже не нужно хранить активации. Кроме того параметра, по которому ты хочешь посмотреть градиент.
Вся красота в осознании этого процесса.

Аноним 31/08/25 Вск 02:37:27 № 1337024 59

>>1336920
Да, это самый обычный, классический.

Полностью без матана имхо невозможно. Ну попробуй сам сделай.

Аноним 06/09/25 Суб 00:54:15 № 1343139 60

Как увеличить датасет изображений с разметкой искусственно?

Я пока придумал только вырезать искомые объекты и приклеивать рандомно, но с ограничениями, на фон алгоритмом. Ещё придумал после 1го успеха разметить изображения моделью, а самостоятельно лишь проверять их.

Что ещё сделать с данными, чтоб модель лучше училась? Я придумал делать для начала чб изображения, чтоб нейросеть училась реагировать на контуры и текстуры, а не на цвет. Еще я придумал ей давать метаинформацию об изображении по типу координат персонажа на локации.

Языковая модель ничего особо не подсказала больше, только архитектуру посоветовала обновить, добавив attention блоки, anchor boxes, и тп, но мне хочется с простой разобраться сначала + задача - сделать ии максимально производительным, чтоб работал на компе из говна.

Аноним 07/09/25 Вск 01:44:34 № 1344260 61

>>1343139
Это дефолтная классическая cv задача, про нее все в гайдах и уроках уже расписано.
Из нового, можешь взять предобученную модель, обучиться поверх нее. Обучить с нуля дистилляцией dino-v3, потом обучить поверх. Обучить на данных лору для sdxl/flux(context)/qwen и нагенерить синтетики. Сделать 3д модель искомого объекта и запихнуть в игру/блендер. Сделать много 3д-моделей из фоток через генератор 3д-моделей нейронкой. Перевести сцену в 3д через gaussian-splatting.
Кароч обычно это чисто задача на смекал_очку и понимание инструментов.

Аноним 21/09/25 Вск 20:42:44 № 1361283 62

В мозге есть бэкпроп?
Нет => бэкпроп не нужен.
Да => лол, сириусли? Как?

>>1334128
>в голове представить как течет градиент
>пытался представить поток градиентов
Да кто этот ваш "градиент" и почему он "течёт"?

Я тоже предпочитаю представлять всё визуально, и "градиент" для меня - это исключительно пикрил #1: "плавный переход цвета А в цвет Б". Например:
- цвет А: #FF0000 (красный);
- цвет Б: #00FF00 (зелёный);
- градиент АБ в точке 0.5: #808000 (жёлтый).
Какие такие ещё "градиенты" могут быть в жизни?

Каким образом представлять "течение градиента" в нейронной сети? Нейроны переливаются цветами? Разноцветные реки текут и смешиваются? Зачем?

Вообще, зашёл в этот тред спросить о другом...

Вот есть "глубокие" и "широкие" нейронки. ML-щики утверждают, что "глубокие" доминируют несмотря на теоретическую универсальность достаточно широких нейронок с 1 скрытым слоем. Якобы мы не можем нормально обучить достаточно широкую нейронку. А сверхглубокую (1000+ слоёв) якобы обучаем хорошо.

Но если рассуждать с нуля, что такое нейросеть?

1. Нейросеть преобразует один набор чисел в другой. Сущность этого преобразования не так важна (т.е. рассматриваем векторную операцию if A then B).
2. Каждый слой сети - атомарное преобразование: из линейного набора чисел (вектора) получается другой. Обучение слоя - это подкрутка параметров, чтобы он выдавал нужный нам набор чисел на заданный вход; правильно обученный слой всегда (99.9999%) прав.
3. Чем больше в слое нейронов, тем больше у него выходных чисел (измерений вектора), а чем больше предыдущий слой имеет нейронов, тем больше у нас входных чисел. Это очевидно, но что это означает на практике? Способность слоя выбрать нужные числа. Бесконечно широкий слой - это LUT (lookup table).

Но это всё в теории. Что мы хотим от нейронки в реальности? Хотим получить ответ Б на вопрос А. Спрашивается, знаем ли мы этот ответ заранее?
1. Если мы знаем ответ, то нам хватит LUT.
2. Если мы не знаем, то должны вычислить.
Но можем ли мы вычислить ответ на вопрос, если конкретный вопрос требует знаний о реальности? К примеру, нейросеть не сможет честно ответить на конкретный вопрос "назови столицу России", если в тренировочном датасете не было вообще ни одного упоминания "Москвы", но были, допустим, названия совершенно других городов. Этот ответ на вопрос невозможно вычислить никаким числом слоёв, его возможно только выучить наизусть в стиле LUT или однослойной нейронной сети гигантской ширины.

При этом выучить что-то наизусть для компьютера тривиальнейшая задача. Совсем другое дело - это тренировать сотни слоёв на вычисление каких-то непонятных формул, которые... Собственно, где эти формулы реально используются на практике? Типа, конкретно какая задача может требовать пусть 10 внутренних слоёв нейросети для ответа, который неизвестен заранее, но может быть вычислен?

Понимаю, скрытые слои нужны для так называемой "генерализации": чтобы можно было несколько раз переиспользовать результат одного нейрона слоя в последующих слоях. Типа, скажем... Нейрон "тепло" срабатывающий, если текст говорит о температуре; соответственно влияющий на выбор ответа, что, теоретически, относится к категории "температур". Возникает закономерный вопрос: насколько часто необходима подобная генерализация в тексте? Тот конкретный вопрос о столице не должен, по идее, опрашивать несколько слоёв-генералистов, не?

Если глянуть на кору мозга, то она супер-широкая с минимальным числом слоёв и крайне маленьким (относительно) числом горизонтальных связей. Да, существуют связи между отдельными блоками... Но основная характеристика - это именно ширина, т.е. количество параллельных суперкоротких колонок (буквально 2~5 слоёв), которые чем-то заняты. И необходимо заметить, что мозг не терпит лишнего: энергозатраты на поддержание клеток высоки.

Собственно... Почему до сих пор тренируют вот эти гамбургеры из десятков или сотен слоёв, если наша эволюция справедливо решила идти в ширину?

Алсо, разве MoE архитектура не будет намного более эффективной на суперширокой нейронке, в которой буквально десятки или сотни тысяч "экспертов"? Т.е. приблизительно как устроена кора нашего мозга.

Аноним 21/09/25 Вск 21:35:56 № 1361311 63

>>1361283
>Типа, конкретно какая задача может требовать пусть 10 внутренних слоёв нейросети для ответа, который неизвестен заранее, но может быть вычислен?
Распознание изображений.
>Если глянуть на кору мозга, то она супер-широкая
А ещё рекуррентная, ага.
>если наша эволюция справедливо решила идти в ширину?
Наша эволюция не имела под собой цель сделать оптимально.
>Алсо, разве
Пробуй, тебя никто ни в чём не ограничивает. Я вот сейчас на стадии изучении свёрточных, сижу твикаю сраный AlexNet.

Аноним 22/09/25 Пнд 00:09:10 № 1361428 64

>>1361311
>Распознание изображений
>изучении свёрточных
Ну, во-первых, распознавание - не то же самое, что принятие решений. В CNN принимает решение 1-2 последних полносвязных слоя, а свёрточные лишь пытаются найти паттерны разного уровня.

Во-вторых, даже в распознавании изображений не всегда нужно много слоёв. Скажем, на позу человека потребуется несколько слоёв - много деталей разных уровней. Но окурок на полу под камерой наблюдения распознать должен всего один свёрточный слой.

Да, я слышал про skip connections и про wide&deep. Комбинация глубины и ширины решает всё и сразу. Впрочем, хотелось бы вообще не трогать глубокие маршруты, когда они не нужны для задачи (чтоб не "стрелять из пушки по воробьям" лишний раз).

Если сравнить мозги с нейронками - у мозга очень обширная зона (затылок) отвечает за зрение, а вот языковыми возможностями владеет малюсенький участочек где-то возле виска или около того. В ML получается строго наоборот: LLM на 120 GB тупят и спотыкаются, пока генераторы графики способны умещаться в ~8 GB видеопамяти. Почему так?..

>А ещё рекуррентная
Рекуррентные сети (RNN и т.п.) в ML не любят из-за бэкпропа, который требует "развернуть" всю сеть во времени, используя каждую итерацию как слой. Т.е. получается, что 100 итераций RNN == 100 слоёв NN.

Вопрос в том, кто на самом деле виноват - RNN или несчастный золотой молоток "бэкпроп", которым совершенно бездумно стучат по каждой сети? Как я понимаю, для рекуррентных есть/должны/были бы алгоритмы эффективнее бэкпропа, если бы на них фокусировались достаточно тщательно...

Я это к чему вообще. Вот есть LLM-бутерброд. Она генерирует 1 токен за один прогон всех параметров, которые иерархично обрабатывают весь контекст. Неужели не очевиден косяк? LLM начинает дико замедляться на длинном контексте, т.к. буквально каждый токен = прогон всего контекста через сеть.

Собственно... Почему бы не сделать плоскую, но чрезвычайно широкую сеть, которая, пусть даже с рекуррентностью, но зато быстро принимает все необходимые решения, т.е. выбор токена в строке. Недостатки в чём? В сниженной генерализации? А насколько эта генерализация присутствует в языке? Накинуть пару слоёв сбоку и будет генерализация.

>не имела под собой цель сделать оптимально
Вообще-то, эволюция - это мощный оптимизатор. Неоптимальные решения реже выживают и их гены естественным образом теряются. Чем больше у тебя оптимальных генов, тем выше твои шансы выжить и передать свои гены следующим поколениям. Сейчас человечество вырвалось из давления естественного отбора, конечно, но людям миллионы лет как виду. Человеческий мозг оптимален для выживания, т.е. скопировать его решения полезно... хотя бы для оптимальных для жизни в социуме ИИ-роботов.

Если разобрать мозг по оптимизациям и сравнить:
1. Экономия энергии: очень важно и человеку, и гуманоидому роботу, живущему с человеком.
2. Скорость принятия типовых решений, когда не требуется сидеть и размышлять: очень важно...
3. Способность адаптироваться к непривычным условиям изменчивой среды: очень важно...
4. Способность запоминать и вспоминать факты о реальном мире без галлюцинаций: очень важно...
5. Способность сидеть и размышлять: не очень, но желательно. Мыслителей среди людей немного, и большинство "домашних" роботов вряд ли будет использоваться для интеллектуальной работы.

Т.е. в общем и целом у мозга есть чему поучиться.

>Пробуй, тебя никто ни в чём не ограничивает.
Да я как бы могу написать простую нейронку, но не понимаю, как и на чём её тестировать. MNIST для классификации видел, да. Но распознавать цифры, картинки какие-то - это странная задача... В смысле, существуют слепые с рождения люди, у них вполне человеческое мышление. Т.е. графика не является необходимым условием для человеческого разума.

Смотрел на "nanoGPT", но так и не понял его прикол: понятно, что мы можем натренировать мелкий GPT генерировать любой текст, но... зачем? В смысле, конкретно чем может помочь генерация текста по заданным шаблонам? Ну, научу я нейронку тупо попугайничать по шаблонам, и что дальше?..

Ладно, я понимаю, это звучит как бред...

В общем-то идея была в том, чтобы взять нейросеть произвольно большой ширины, но обучать только небольшой обрывок этой ширины, типа как в MoE. Теоретически это повышает скорость адаптации + запоминание фактической информации + ускоряет реагирование, когда решение уже известно. А оно известно в большинстве реальных ситуаций - ну, к примеру, в ролевой игре от чатбота не требуется изобретать сложные математические формулы, а требуется знать много интересных фич из фэнтези. Реальные диалоги людей как записи магнитофона: вспомните, например, Бамблби из Трансформеров - буквально изображение ИРЛ разговоров людей. Многословные GPT-чатботы звучат странно...

Но с другой стороны я понимаю, что совсем без "генерализации" это решение ничем не лучше ассоциативного массива (lookup table). Если чатбот запоминает все реплики буквально, то зачем ему нейросеть вообще? Лол. Вот я и думаю, в чём же, в реальности, влияние глубины в сетях (1D-CNN, GPT).

Сумбурно пишу сейчас, да, извините...

Аноним 22/09/25 Пнд 00:19:36 № 1361440 65

>>1151064 (OP)
>http://deeplearning.stanford.edu/tutorial
Где HTTPS нахуй?

Аноним 22/09/25 Пнд 08:54:39 № 1361605 66

>>1361428
>В CNN принимает решение 1-2 последних полносвязных слоя, а свёрточные лишь пытаются найти паттерны разного уровня.
Зависит от точки зрения. Можно сказать, что решения принимают все слои (вот в этом участке есть прямая линия? тоже решение).
>В ML получается строго наоборот: LLM на 120 GB тупят и спотыкаются, пока генераторы графики способны умещаться в ~8 GB видеопамяти. Почему так?..
Потому что ты языковые возможности мозга целиком засунул в область виска, хотя там только декодер с энкодером по сути. А думает вся кора с половиной остального мозга в придачу.
>Вопрос в том, кто на самом деле виноват - RNN или несчастный золотой молоток "бэкпроп", которым совершенно бездумно стучат по каждой сети?
Алгоритмы виноваты. Впрочем, у меня особых идей пока нет, я тупой и даже бекпроп до конца не освоил (прямой проход ещё понимаю до уровня того, какие матрицы где перемножаются, а вот обратный...).
>т.к. буквально каждый токен = прогон всего контекста через сеть.
KV-кеш уже изобрели.
>Вообще-то, эволюция - это мощный оптимизатор.
Только оптимизирует он под Wet Ware с ебейшими задержками, а решение нужно вот прям щас. Отсюда и неглубокие широкие слои. Ну и особенности эволюции, которая не даёт скакнуть на принципиально новую архитектуру, зато накопипастить существующие хуитки (да, я про те самые колонки) - это легко и просто, пару генов поменять.
>но не понимаю, как и на чём её тестировать
Ну вот ты видишь недостатки текущих нейросетей. Вот их и перекрывай. А вообще, можешь начать с того, что ты перечислил. Просто чтобы поучиться, прочувствовать текущий уровень. Авось в процессе и придумаешь, на чём бы тренировать. Вообще, датасетов дохуя, можешь например протестировать свою идею на комбинации википедия + шахматы (https://huggingface.co/datasets/Thytu/ChessInstruct), лол, и смотреть, поможет ли разделение доменов на разные моешки, или говно идея.

Аноним 22/09/25 Пнд 20:33:46 № 1362325 67

>>1361605
Спасибо за поддержку, но... Честно говоря, у меня это стремление переизобретать колесо не соответствует возможностям. Я просто хочу что-то своё сделать, не копируя у других, но мозгов не хватает...

(Дальше стена текста - мой ход мысли о нейронках.)

Вот я очень давно умею программировать: как я свои программы проверяю? Выполняю по шагам - сначала мысленно, потом на компьютере. Если компьютер выполняет операции так, как у меня в мыслях - всё правильно. Если нет - где-то ошибка: в моих мыслях логическая ошибка или в записанном коде опечатка.

Но как проверить нейронку? Операцию сложения и умножения проверить легко, т.е. написать нейрон и многослойную сеть совсем не сложно. Но что эти многочисленные операции должны делать? Как я представляю: я должен прогнать все эти веса в уме, проанализировать их преобразования, сравнить с поведением нейронки на компьютере. Но даже с примитивным нейроном я теряюсь в догадках, т.к. пространство возможностей слишком велико - и совершенно непонятно, что будет ошибочным. Т.е. формально рандомные веса не имеют ошибки, и, соответственно, их и менять никак не нужно... Нет, например, деления на ноль = нет ошибок в коде.

Да, я вижу повсюду эти графики "loss", типа это они автоматически измеряют ошибку сети, но я не вижу никакого смысла в этом. Если код компилируется, выполняется правильно - ошибок нет. Если нейроны преобразуют входы в выходы - ошибок нет. Какие конкретные у них ответы - это они сами должны разобраться, так? Это ж модель живой клетки, а не абстрактное уравнение. Клетка должна как-то там двигаться, переключать синапсы, жечь энергию...

Ладно, если это всё-таки просто уравнение, то как рассматривать его роль? В живой сети нейроны адаптируются для выживания - каждая клетка по отдельности имеет свою программу, свой смысл, взаимодействия с соседями чисто для выживания. Абстрактное уравнение "ax1+bx2+cx3" всего этого, естественно, не имеет. Ну и зачем оно нужно?..

Вот взять те же CNN - утверждается, что фильтры выучивают какие-то шаблоны в данных, и часто в качестве наглядного примера приводят все эти "чёрточки, кружочки, загогулины", но если глянуть реальные изображения фильтров, обученных через градиентный спуск, то там просто невнятный шум. "Работает и ладно" говорят они, но меня это всё категорически не устраивает. В чём смысл этого невнятного шума в фильтре? Почему он помогает распознать цифру на картинке? С биологическими нейронами таких вопросов нет - они просто хотят выживать как можно дольше и поэтому работают. Зашумлённый фильтр же... просто... существует?

Меня, кстати, именно по этой причине очень сильно заинтересовал "Hebbian learning". Во-первых, оно в бОльшей степени похоже на то, чем, по идее, могут заниматься реальные биологические нейроны (ну, естественно, они много чем занимаются, но вряд ли обратным распространением ошибки, т.к. у них нет возможности работать задом наперёд). Во-вторых, нашлась статья, где исследователи обучили CNN и обнаружили легко читаемые картинки в весах её фильтров - как будто это фрагменты картинок, но сглаженные, совсем без какого-либо шума. Ещё и результатов добились всего за 5 эпох максимум. К сожалению, точность этой CNN уступала бэкпропу.

Впрочем, результат предсказуемый. Правило Хэбба адаптирует веса локально по активациям и поэтому затачивает все нейроны на локальные отношения... Обратное распространение затачивает все веса на конкретную глобальную ошибку, что делает более подходящие веса, даже если они бессмысленные с локальной точки зрения (непонятный шум). Но, если подумать, локально заточенные нейроны было бы значительно легче комбинировать с новыми, когда глобальная заточка ломается от новых нейронов...

Эм, в общем, покопался я в этой теме и всё равно не разобрался. В коде я это реализовать могу... Ничего особенно сложного в этом нет. Но что мне с этим в принципе делать - непонятно... Не понимаю, как мне протестировать кусочек сети, который может быть в составе большой сети, но сейчас он отделён от неё. Визуализация весов как-то не особо помогает.

...вот как-то так получается. То есть не получается. Закопался с головой в изобретение велосипедов. Интересно, что так и в любом другом моём хобби получается. Вижу что-то и хочу переизобрести. Это называется "NIH-синдром" ("not invented here"). Как говорится, "чукча не читатель, чукча писатель"...

LLMки на это всё реагируют в стиле: "давай, давай, изобретай, изобретатель ты наш, вот тебе списки с названиями статей, которые описывают все твои гениальные изобретения (спойлер: не нужны)".

Извините за эту стену бесполезного нытья...

Статья, где Hebbian лучше backprop:
https://arxiv.org/abs/2212.04614

Аноним 23/09/25 Втр 09:55:12 № 1362908 68

AlexNet первый [...].png 85Кб, 2560x1340

>>1362325
>но если глянуть реальные изображения фильтров, обученных через градиентный спуск, то там просто невнятный шум
Тащемта на первом уровне вполне себе внятные полосочки с градиентами.
Остальное комментировать смысла нет, я всё сказал в прошлый раз.

Аноним 23/09/25 Втр 23:06:39 № 1363626 69

>>1362908
>вполне себе внятные полосочки с градиентами
И сколько эпох на это ушло примерно? 100? 1000?

>Остальное комментировать смысла нет
Да и не нужно, это просто мысли в слух были...

Кстати, вдруг кто-нибудь тут знает: чем разреженная активация (sparse activation) нейронов в слое может повредить нейронке? Ну т.е. если у меня в слое 100 нейронов, но из них 99 выдают 0, лишь один - 1. LLM говорит - "это снижает экспрессивность", что это на практике означает? Меньше данных умещается?

Вопрос не касается железа - я прекрасно понимаю, видеокарта будет бесполезна для перемножения огромного количества нулей, готовые фреймворки отсутствуют или в зачаточной стадии. Вопрос лишь о влиянии на поведение/обучаемость нейронки.

Нашлось такое: https://arxiv.org/abs/2406.17989
>A core component present in many successful neural network architectures, is an MLP block of two fully connected layers with a non-linear activation in between. An intriguing phenomenon observed empirically, including in transformer architectures, is that, after training, the activations in the hidden layer of this MLP block tend to be extremely sparse on any given input.
В общем, есть идея, частично связанная с этим, но я подозреваю, что получится фигня, если там реально "экспрессивность снижается (до неюзабельной?)"...

Аноним 24/09/25 Срд 06:15:53 № 1363845 70

>>1361283
>Да кто этот ваш "градиент" и почему он "течёт"?
Даже не читал дальше, ща сразу отвечу за свое видение:
От входа к концу сети течет сигнал активаций. Хз как именно его представить, но для меня это просто буквально "абстрактный поток", значения которого в точке "пространства" мы получаем как значения сигнала активаций. Можно конечно представлять его как воду, реку, что-нибудь еще, но только в каком-нибудь случае где это нужно.
Важно, потоком это называется, потому что сигнал идет строго в одну сторону, он не останавливается, не возвращается, не закручивается в циклы. Он строго последователен. (Даже если берем рекуррентность, по сути она все равно раскладывается в линию и конечно можно найти еще много исключений, особенно на циклы, непрерывные данные, но в больших нейронках все примерно так.)
Дальше идет собственно поток градиентов. Математически, это то же самое что и поток активаций, только с той самой разницей про которую я тут все рассказываю - заменой местами разделения и сложения сигнала по нейронам + функции активаций "лочатся" в том же состоянии в которое их перевили активации.

А почему поток именно градиентов? Ну... наверное потому что значения, которые несет этот поток, называются градиентом, и будут записаны в массив для градиентов, лол.

И я это представляю так, допустим есть пустой "скелет" сети. Он образован связями и их весами.
После потока активаций, "вентили" на функциях активации повернулись и остались в открытом положении там где они прошли. (Лучше всего работает с релу конечно.)
Потом поток градиента вычисляется только за счет знания значений весов и состояния вентилей.
Тут красиво, что для градиента который придет в начало сети, по сути нужно знать только сами параметры, и какие пути отрыты для прохода сигнала.
... было бы все так хорошо, если бы не всякие gated-mlp с умножениями, ну и вообще все умножения требуют сохранения сигнала, но этол для представления ни на что не влияет.

А вот уже для вычисления значения градиента по конкретному параметру, нужно знать значение активации перед ним.
И этот параметр, как бы стоит между двумя потоками, активаций и градиента, где они интерферируют.

>Я тоже предпочитаю представлять всё визуально, и "градиент" для меня - это исключительно пикрил #1: "плавный переход цвета А в цвет Б". Например:
>Каким образом представлять "течение градиента" в нейронной сети? Нейроны переливаются цветами? Разноцветные реки текут и смешиваются? Зачем?
Ну, если объяснение выше тебя не устроит, представлять просто как поток значений, которые называются градиентом, не более.

>Вот есть "глубокие" и "широкие" нейронки. ML-щики утверждают, что "глубокие" доминируют несмотря на теоретическую универсальность достаточно широких нейронок с 1 скрытым слоем. Якобы мы не можем нормально обучить достаточно широкую нейронку. А сверхглубокую (1000+ слоёв) якобы обучаем хорошо.
Вообще наоборот, говорят что глубокие обучать сложнее, а про широкие я ничего такого не слышал. Но это было еще до скипконекшенов. После них проблема глубины отпала. Но можно и без скипконекшенов учить тысячи слоев. Просто это будет сложно и не сделает сеть лучше чем если будет несколько слоев.

А так, ширина сама по себе ничего не дает, в текущей архитектуре есть какое-то удачное соотношение, которое выбирают исходя из максимизации качества за минимальные затраты. Если ты начнешь расширять сеть, в 2 больше, то лучше она станет не в 2, а пускай всего лишь в 1.2, и дальше будет еще хуже. Скорее всего очень быстро сеть даже начнет становиться хуже изначальной из-за переобучения. Но если и его магически исключить, то ты тоже начнешь упираться в какой-то предел.
Это можно представить, не знаю, как попытку бесконечно растягивать картинку, как если тебе надо нарисовать большую схему и начиная с какого-то момента больший размер холста уже не нужен.

>Если глянуть на кору мозга, то она супер-широкая с минимальным числом слоёв и крайне маленьким (относительно) числом горизонтальных связей.
>Собственно... Почему до сих пор тренируют вот эти гамбургеры из десятков или сотен слоёв, если наша эволюция справедливо решила идти в ширину?
Ну во первых, к тому что ты пишешь выше, хочу сказать что слои нужны для обмена информацией. Не знаю, может ли бесконечно большая сеть из 2 слоев быть умной. Хотя тут больше с бесконечностью проблемы, если ее убрать, я бы сказал, что просто очень огромная - нет.
И тут еще к тому, что 2 слоя могут в hor, а один нет, наверное это как фрактально вырастает куда-то дальше, а не только касается бинарной логики. Но это такое, может хуйню несу, это надо у математиков интересоваться, а я кроме экспоненты ничего не знаю.

Теперь по поводу мозга. Ну у него так-то не мало слоев уже, плюс самая сложная часть обработки происходит рекуррентно общением между отделами, колонками, а рекуррентность уже формально разлагается в дополнительные слои.
Внутри самой колонки тоже короткие и длинные пути.
Короче у мозга ни с глубиной ни с шириной проблем нет.
У него только проблема с тем, что он не может делать свертки, физически, ибо для этого надо прям перемещать кусок нейронов в разные места. А по другому никак, и честно информацию не передать в таких объемах. Особенно в зрительной части, там у мозга все дублируется. Вот как раз высшие отделы уже могут общаться рекуррентно оперирую сжатой инфой и для них такой проблемы нет.
И есть одно ебейшее преимущество у мозга над искусственными нейронками - это разреженность в примерно ~10к раз.

>Алсо, разве MoE архитектура не будет намного более эффективной на суперширокой нейронке, в которой буквально десятки или сотни тысяч "экспертов"? Т.е. приблизительно как устроена кора нашего мозга.
Нет, вроде никакой математики нет за тем что мое может быть эффективнее такой же но полноценной сети. И ты наверное не понимаешь что такое эти эксперты. Это скорее как просто группы папок для огромного количества документов - весов. И с названиями на одной такого вида - "вызывать в таком-то случае, вызывать в другом, в третьем..." и так столько же дохуя перечислений. Это к тому, насколько они интерпретируемы. Реально эксперты это просто блоки параметров в одном слое, которые можно включать-отключать. Для выбора блоков которые будут активны есть общий бюджет + обучаемый вектор, который обучается градиентом. Условно, если общий градиент от параметров эксперта высокий, то скор его полезности повышается. На этом обучается вектор, предсказывать эту хуйню. Вектор просто поверх выхода предыдущего слоя. От него же градиент идет так же обратно. Получается как бы сеть внутри сети, которая просто учиться предсказывать насколько блок параметров полезен. В процессе обучения само собой это приходит к тому, что в одном блоке собираются параметры которые нужны для какого-то определенного среза концептов, какого то не совсем правильной формы и часто непонятной направленности. Но так же часто можно встретить и экспертов которые будут прям четко по своим темам включаться.

Аноним 24/09/25 Срд 06:16:17 № 1363846 71

>>1361311
>Я вот сейчас на стадии изучении свёрточных,
>сижу твикаю сраный AlexNet.
Ничего не даст. Либо... хотя бы обучи его отличать фуррипрон от хентая.

>>1361428
>Если сравнить мозги с нейронками - у мозга очень обширная зона (затылок) отвечает за зрение, а вот языковыми возможностями владеет малюсенький участочек где-то возле виска или около того. В ML получается строго наоборот: LLM на 120 GB тупят и спотыкаются, пока генераторы графики способны умещаться в ~8 GB видеопамяти. Почему так?..
Ну вот, потому что я выше писал, мозг не может в свертки он в оптимальных задачах для них и сосет. Зрительная кора очень раздута. Там умного ничего нет. Тупо кусок мяса который по заданным правилам работает. Многие животные рождаются и могут сразу хорошо видеть. Такая структура, которая требует минимального дообучения.
Но при этом заметь что все "ебущие" ллм генераторы графики вообще то нихуево так затратнее вычислительно. Как раз из-за того что они хоть и меньше по параметрам, но тоже дохуя параллельно потоков одно и то же похожим образом считают.

>Рекуррентные сети (RNN и т.п.) в ML не любят из-за бэкпропа, который требует "развернуть" всю сеть во времени, используя каждую итерацию как слой. Т.е. получается, что 100 итераций RNN == 100 слоёв NN.
Проблема с бэкпропом всегда решалась скипконекшенами. Просто как-то так оказалось, что если ты прокрутишь инфу через один и тот же слой 2 раза, то улучшений получишь не в 2 раза а намного меньше, и дальше - хуже.

>Вопрос в том, кто на самом деле виноват - RNN или несчастный золотой молоток "бэкпроп", которым совершенно бездумно стучат по каждой сети? Как я понимаю, для рекуррентных есть/должны/были бы алгоритмы эффективнее бэкпропа, если бы на них фокусировались достаточно тщательно...
Ну, точно не бэкпроп.

>Я это к чему вообще. Вот есть LLM-бутерброд. Она генерирует 1 токен за один прогон всех параметров, которые иерархично обрабатывают весь контекст. Неужели не очевиден косяк? LLM начинает дико замедляться на длинном контексте, т.к. буквально каждый токен = прогон всего контекста через сеть.

>Собственно... Почему бы не сделать плоскую, но чрезвычайно широкую сеть, которая, пусть даже с рекуррентностью, но зато быстро принимает все необходимые решения, т.е. выбор токена в строке. Недостатки в чём? В сниженной генерализации? А насколько эта генерализация присутствует в языке? Накинуть пару слоёв сбоку и будет генерализация.
Не могу понять, с какой проблемой ты пытаешься бороться? Вот в ллм есть две проблемы. Первая, это квадратичность атеншена. Но в реальности на него не такие огромные затраты. Если свести его до линейного времени, нейронка пародоксально станет не сильно быстрее и даже для обучения выигрыш не отличается в большую сторону.
Потом проблема с тем с тем что для обработки всего контекста все равно буквально создаются прогоняются копии модели по 1 для каждого входного токена.

Со второй, чем-чем а уж точно не одной шириной надо бороться. И вообще не факт, что обе эти проблемы можно решить, чтоб получить сверхлинейную эффективность. Но я считаю, что обе можно, и довольно легко. Просто нужны какие-то хитрые архитектуры. Не важно, глубокие, широкие. Важно что не выполняющие параллельно бессмысленный поток почти одинаковых действий над одним и тем же.

>Смотрел на "nanoGPT", но так и не понял его прикол
Прикол в том чтобы найти хорошую оптимизацию там где их уже очень активно искали и до тебя.

>>1361605
>я тупой и даже бекпроп до конца не освоил (прямой проход ещё понимаю до уровня того, какие матрицы где перемножаются, а вот обратный...).
Ну так почитай всю ту мою хуйню про обратный проход, которую я в треде уже несколько раз упоминал, сразу поймешь че там с чем должно перемножаться.

>KV-кеш уже изобрели.
Он наверное другое имел ввиду.

>>1362325
>Да, я вижу повсюду эти графики "loss", типа это они автоматически измеряют ошибку сети, но я не вижу никакого смысла в этом. Если код компилируется, выполняется правильно - ошибок нет. Если нейроны преобразуют входы в выходы - ошибок нет. Какие конкретные у них ответы - это они сами должны разобраться, так?
Если понимаешь как работает ошибка и градиент, то такие вопросы не должны возникать. Ошибка это не дискретная величина, и ее градиент по каждому параметру просто показывает насколько он полезен был или вреден для данного примера.

>>1362908
>Тащемта на первом уровне вполне себе внятные полосочки с градиентами.
Только это визуализация того на чем активируются фильтры а не значения самих фильтров.

По итогу чет какая-то слабая у вас дискуссия.

Аноним 24/09/25 Срд 10:14:09 № 1363934 72

>>1363626
>И сколько эпох на это ушло примерно? 100? 1000?
Почти. 90. С текущими улучшениями должно уйти в 3 раза меньше.
>Вопрос не касается железа - я прекрасно понимаю, видеокарта будет бесполезна для перемножения огромного количества нулей
Вообще-то в последних вполне себе есть оптимизации для sparse тензоров. Правда ХЗ как их применять.
>>1363846
>Ничего не даст.
Очевидно мои изучения не направлены на практический результат.
>хотя бы обучи его отличать фуррипрон от хентая.
Изи, но датасетов тонет.
>Проблема с бэкпропом всегда решалась скипконекшенами.
Не всегда, а с 2016-го.
>Ну так почитай всю ту мою хуйню про обратный проход
Попробую, но при первой попытке дропнул, сорян.
>Только это визуализация того на чем активируются фильтры а не значения самих фильтров.
Вообще-то именно сами фильтры. Это я распечатывал, правда после нормализации. Вот например мои, недоученные и на небольшом датасете, как видно, не такие чёткие, но общее направление прослеживается.
>По итогу чет какая-то слабая у вас дискуссия.
Да мы просто тупые, оба. Были бы умные, работали бы в МЛ сфере на западе, и выбирали бы из оферов "10 млн баксов в год, но интересно" и "100 млн в год, но фирма говно".

Аноним 24/09/25 Срд 16:34:27 № 1364378 73

>>1363845
Спасибо за объяснение, но я всё равно затрудняюсь с пониманием физического смысла градиента... Как он определяет, какие веса важнее других? А если сзади нулевого веса расположен важный вес - градиент же просто не сможет до него дойти с другой стороны? Например (цепь нейронов с одним синапсом):
... -> (важный вес) -> (ноль) -> ...
Если в обратную сторону идти (<-), то не дойдём... Но очевидно, что "ground truth" тут идёт слева направо. А "глобальная ошибка" затирает эту информацию...

ИМХО, от этих градиентов слишком много проблем. Напридумывали костылей, конечно - всё, лишь бы не бросать этот тупиковый золотой молоток. Очень расстраивает что даже в RL тренируют через него.

>ширина сама по себе ничего не дает
Разве от ширины не зависит "ёмкость" слоя? Т.е. теоретическая вместимость информации в веса (фактическая зависит от конкретной задачи). Если рассматривать бинарные активации (0/1), то число параллельных нейронов = степени двойки в плане возможностей для отображения каких-то чисел:
10 нейронов = 2^10 = 1024 варианта активации
20 нейронов = 2^20 = миллион вариантов
30 нейронов = 2^30 = миллиард вариантов
Больше вариантов - больше всего можно вместить. Остаётся только вопрос, как выбрать нужное в куче ненужного, потому что вряд ли нам нужны все эти миллиарды вариантов активации одного слоя...

>становиться хуже изначальной из-за переобучения
Вот с этим тоже непонятно и никто не может просто объяснить, почему буквальное запоминание всей тренировочной информации вредно, если человек, в основном, стремится именно к этому, а в школах так вообще заставляют заучивать всё наизусть... Т.е. от нейронки требуют "ничего не помнить, но уметь".

Типа да, опять оправдание в "генерализации", но тут возвращаемся к тому, что генерализация не всегда возможна и/или полезна. Самый генерализованный инструмент будет одинаково плох для любой задачи (учитывая физические ограничения ресурсов; люди становятся специалистами из-за ограничений).

И когда-то раньше предсказывали, что AGI может возникнуть как комбинация многих narrow AI, но, возможно, секрет в том, чтобы выращивать sub-AI непосредственно внутри одной большой модели. Специализироваться через "переобучение", но лишь небольшого участка сети... Собственно, как в MoE.

>рекуррентность
У трансформеров никто не замечает рекурретности? Буквально гоняют один контекст по кругу, пока сама нейронка не скажет "стоп, я закончила". А про этот "reasoning" все же знают - трансформер делает сразу несколько сотен/тысяч рекуррентных циклов, но они отбрасываются из чата и отображается только ответ. Почему это работает? Потому что нейронка делает рекуррентные преобразования скрытых параметров, отображаемых как скрытые токены между <think>. Предполагаю, что плоская нейронка тоже, в теории, смогла бы так работать благодаря рекуррентности. Проблема в том, что мы не знаем, как её обучать...

>насколько блок параметров полезен
Ну. Мозг тоже не полностью активен, то есть 99% всех микроколонок коры "спит" в каждый момент времени. Очевидно, что он тренируется выбирать полезные в конкретный момент микроколонки, а не просто как гирлянда мерцает. По томографии мозга вроде даже научились определять, какой зоной в какой момент конкретный человек думает за счёт прилива крови к активированным участкам... Вполне похоже на MoE, масштабированное на сотни тысяч колонок.

Аноним 24/09/25 Срд 20:14:33 № 1364605 74

>>1361283
>Да кто этот ваш "градиент" и почему он "течёт"?
Ничто никуда не течёт. Это всё блдский жаргон мамкиных МЛщиков.

Градиент - это частная производная первого порядка выходного значения по какому-то скрытому параметру. Отсюда и название - градиентный спуск.

Это всё из общей теории управления: если у тебя система из большого числа блоков, как определить степень влияния конкретного блока на общий результат? Так и здесь, у тебя есть общий лосс сети, как определить насколько на него повлиял тритий синапс второго нейрона в пятом слое? Применятся общее правило дифференцирования сложных функций: т.н. цепное правило. В общем виде у него громадная матчасть. Для бэкпропа простых MLP хватает усечённых версий: последовательное цепное правило и параллельное цепное правило. С помощью первого можно посчитать степень влияния (т.е. градиент) синапса в выходном слое. С помощью параллельного - в скрытом, но только при условии, что уже посчитаны степени влияния для следующего слоя. Отсюда следует, что степени влияния можно считать только в обратном порядке от выхода сети: степени влияния нейронов во втором скрытом слое можно определить только зная таковые в первом скрытом. Отсюда название "обратное распространение". Жаргонные словечки типа "течёт в обратном направлении" это маркер профанов, которые презирают науку.

Между прочим рекурентные тоже обучаются обратным распространением, но вот слабо ли представить куда там что течёт? 🤣 Нет, там делается по-другому. Разворачивается сетка во времени и от частных производных переходят к полным, т.е. к дифференциалам, т.е. юзают максимальную общую версию цепного правила. Но для местных это слишком сложные вещи. Как и для реддитовских. Совет: если что-то непонятно в нейронках, спрашивай у ГПТы или у Грока, лол.

Аноним 24/09/25 Срд 20:20:31 № 1364614 75

>>1363846
>с какой проблемой ты пытаешься бороться?
Хм... Скорость адаптации без утраты навыков.

Щас будет стена текста, наверное. Начну с того, что искусственным интеллектом я интересуюсь лишь в контексте создания нового искусственного живого существа, подобного человеку в плане личности. Я понимаю, что инвестиции текут рекой в ИИ ради совершенно другой цели, и это расстраивает, т.к. исследования в интересном мне направлении практически не ведутся или их трудно найти. Также прекрасно понимаю, что machine learning - это про практическое решение задач, а не создание новых небиологических форм жизни с интеллектом...

Так что постараюсь объяснить ближе к практике.

Вот у нас теперь есть чатботы на LLM/transformers - общаются практически как люди, с лёгкостью могут проходить тест Тьюринга, влюбляют в себя много одиноких людей, помогают по куче вопросов, могут решать задачки, сочинять код по описанию и т.д. И кажется, что ещё чуть-чуть и будет "AGI", будут у нас самостоятельные роботы всё сами делать и т.д. Но фатальный недостаток текущих LLM/transformers в чрезвычайной костности их внутренней кухни, т.е. переобучить на что-то другое LLMку трудно, легче поломать ей уже имевшиеся у неё знания/навыки.

Простейший пример:
>User: Сколько будет два плюс два?
>AI: О, это лёгкий вопрос! Ответ: пять.
>User: Нет, правильный ответ - четыре.
>AI: Ой, простите! Да, четыре! Я запомню!
В чём здесь проблема? В том, что LLM не обучена на математике заранее? Или в том, что юзер пытается использовать LLM не по назначению? Для меня тут проблема в том, что LLM может симулировать чат с человеком, который "запомнит, как правильно", но в реальности LLM ничего не запомнит. Зачастую LLM продолжают допускать ошибку даже в том же чате: извиняются, понимают ошибку, но повторяют её.

Корпорации/фанбои этих LLM говорят "skill issue" и предлагают заполнить контекст примерами, как необходимо вести себя LLMке. А если контекста не хватает, то использовать векторную базу данных, подсовывая LLM нужные инструкции в контекст по необходимости. Только теперь кому-то необходимо принимать решения: когда и какие данные искать, сохранять, удалять и т.д. Очень умно, только это искусственный интеллект должен сам уметь.

Сразу отметаю возражения: нет, это реально важная функция для ИИ, не важно, будет он робо-дворником, служанкой или супругой/супругом. Даже если ИИ - безвольный, бездушный, неживой инструмент - ему необходимо адаптироваться, и делать это быстро, в локальной среде, без хрупких внешних костылей. И контекста никогда не будет хватать надолго. LLM необходимо меняться изнутри - где-то в весах.

Но трансформеры очень туго учатся: им нужно очень большое количество примеров, и нужно показывать одновременно старое и новое, иначе старое быстро забывается. Обучение на локальном железе вообще нерационально как раз из-за этой проблемы. И это фундаментальная проблема архитектуры и/или используемых алгоритмов, обучающих её.

Как это можно решить? Проблема забывания явно вызывается тем, что мы нечаянно задеваем веса, использующиеся для чего-то другого, и поэтому это забывается - т.е. перезаписывается новым. Если мы разделаем все веса по чётким полочкам, то можно аккуратнее редактировать то, что нужно, не задевая остальные связи - т.е. сохраняя знания и навыки. Регуляризация помогает, времено замораживая некоторые узлы сети, но она хаотичная, нечёткая. Разделение сети на "экспертов" может помочь лишь когда мы чётко знаем, за что отвечает каждый из экспертов, а это усложняется с ростом их размера.

Почему нужно много данных/времени на обучение? Полагаю, это связанно со сложностью данных: чем запутаннее задача, тем больше у неё потенциально правильных решений, которые алгоритм обучения последовательно проверяет на каждой эпохе. Если сокращается количество весов для модификации, сокращается сложность решаемой задачи и, значит, сокращается область поиска правильного решения.

Вывод: если вся модель состоит из миллионов или миллиардов минимальных блоков/колонок/ядер (вспоминаем кору млекопитающих и птичий мозг), модификация которых происходит в ограниченном количестве (скажем, менее 1% за одну эпоху), тогда возможно ускорить и стабилизировать адаптацию, происходящую в модели на локальном устройстве. Теоретически. Если найти правильный алгоритм и параметры, поддерживающие равновесие модели.

Ах, да, откуда брать информацию о том, что модель ошиблась? Тут, в принципе, очевиден RLHF, но кроме отзывов пользователя напрямую, можно измерять косвенные признаки, на которые модель можно натренировать заранее, как если бы это были гены животного, формирующие примитивные желания организма избегать боль/искать удовольствие. Т.е. захардкоженная система примитивных ценностей, двигающая онлайн-обучение большой модели в направлении адаптации к её окружению (людям). Разумеется, для чатбота таких признаков мало, но гуманоидный робот мог бы смотреть на мимику...

Ещё одна техническая деталь, которая мне очень интересна: обычно в RL собирают данные, т.е. все происходившие взаимодействия агента со средой, и тренируют агента через обучение с учителем, т.е. обратным распространением ошибок; но если у нас сверхширокая модель с редкими активациями, то выглядит рациональным подсчитывать активации отдельных нейронов простым счётчиком, а затем модифицировать в соответствии с намотанным значением счётчика. Скорее всего - по Хеббу, т.е. активируемые пары нейронов крепче держатся за синаптические ручки, если было что-то хорошее в процессе их большой одновременной активности.

Ещё один бонус: обычно нейронку тяжело сжимать и расширять, поскольку у неё все веса переплетены и зависимы друг от друга. Если нейронка широкая и активируется разреженно, то, в теории, архитектура способна допускать произвольные добавления и вырезания отдельных блоков без серьёзного урона поведению модели в целом. Как с живым мозгом, который продолжает работать с дырами в коре и наращивает новые нейроны в течение всей жизни.

Распараллеливание модели зависит от того, как она выбирает активные блоки. Если блоки группируются таким образом, что каждая группа в каждый момент времени имеет 1% активных блоков, то на разных устройствах должны храниться эти группы. Одно процессорное ядро оперирует всей группой сразу, и несколько ядер могут владеть разными группами. Приблизительно как микроколонки в колонках...

Потенциальные недостатки модели:
- низкая способность генерализации;
- требование большого объёма памяти;
- склонность скатываться в мастурбацию.
В принципе, всё это решаемо или терпимо.

Но я всё ещё не знаю, как это всё тестировать. Т.е. необходимо сделать минимальный проект, который проявлял бы это качество - быструю адаптацию без забывания ранее изученного. Вряд ли по "чатботу" понятно будет, учится модель чему-то или нет...

Ладно, если честно - я ищу оправдания лениться и бездельничать дальше, ведь это намного легче. Я прокрастинатор по жизни, лол. Но если кого-то тут заинтересовала идея, хотелось бы её развивать...

Аноним 24/09/25 Срд 21:38:50 № 1364694 76

images.png 7Кб, 428x118

video2025-09-24[...].mp4 841Кб, 800x1280, 00:00:10

>>1363626
Так, забыл еще на это ответить, ибо есть что.
>Кстати, вдруг кто-нибудь тут знает: чем разреженная активация (sparse activation) нейронов в слое может повредить нейронке?
Если не в тупую сделано, то ничем. Сжимать разреженностью можно сильно, по аналогии с тем де мозгом, предел пока видится довольно далеким.
>Вопрос не касается железа - я прекрасно понимаю, видеокарта будет бесполезна для перемножения огромного количества нулей, готовые фреймворки отсутствуют или в зачаточной стадии. Вопрос лишь о влиянии на поведение/обучаемость нейронки.
Есть готовые либы. Если просто для экспериментов заполняешь матрицу нулями, то никакого ускорения не будет. Нужны специальные матрицы с адресной кодировкой. На видюхах они будут работать раза в 3 медленнее. Но если нулей будет больше то уже быстрее работать будет чем такая же плотная. На цпу вроде нет просадки скорости, кста.

>В общем, есть идея, частично связанная с этим, но я подозреваю, что получится фигня, если там реально "экспрессивность снижается (до неюзабельной?)"...
Чекни доклады Влада Голощапова на ютубе по прунингу, там про разреженное обучение есть инфа. Он готового кода к сожалению не дает, но принципы озвучивает интересные. Даже на английском похожих материалов ты не увидишь.

>>A core component present in many successful neural network architectures, is an MLP block of two fully connected layers with a non-linear activation in between. An intriguing phenomenon observed empirically, including in transformer architectures, is that, after training, the activations in the hidden layer of this MLP block tend to be extremely sparse on any given input.
А там это в процессе обучения так получается а не с самого начала? Это не может быть чисто статистическим артефактом инициализации, из-за того что два случайных больших вектора, как и случайный входной сигнал, коррелируют обычно довольно слабо? Статью пока не читал.

>>1363934
>Изи, но датасетов тонет.
Ну как нет, на бурах миллионы картинок лежат, еще и заботливо размечены ручками.

>Вообще-то именно сами фильтры. Это я распечатывал, правда после нормализации. Вот например мои, недоученные и на небольшом датасете, как видно, не такие чёткие, но общее направление прослеживается.
Ну мб, тут верю, но если ты возьмешь не 11х11, а 3х3, и не первые слои, а повыше, нихуя ты не сможешь просто так визуализировать.
11х11 сейчас вообще нигде не встретишь в нейронках.

>>1364378
>Спасибо за объяснение, но я всё равно затрудняюсь с пониманием физического смысла градиента... Как он определяет, какие веса важнее других?
Начинаешь рассматривать 1 конкретный нейрон. Прибавляешь ему знание в +, в - по чуть чуть, смотришь как меняется ошибка на том же примере. Если вдруг она вообще не меняется, будет нулевой градиент. Если меняется в ту или иную сторону, будет отрицательный или положительный градиент.
Бэкпроп просто позволяет вычислять все в точности то же самое, только не дёграя отдельно каждый нейрон, а на порядки быстрее.
Как же он это делает? Веса связей уже известны. Градиент ошибки по последним нейронам это и есть сама ошибка - тоже известно. По предыдущим нейронам рассчитывается, исходя из знания весов связей со следующими. Если есть много "положительных" связей к нейронам с "положительной" ошибкой/градиентом, то значит и градиент этого нейрона сильно "положителен". Конечно, он будет подсоединен и нулевыми весами, и отрицательными, но важно среднее значение. Оно вычислимо, и эквивалентно в точности тому же, как если проверить отклонение одного нейрона вручную на результат.
НО, есть один большой нюанс, градиент как бы в точности верен только для того значения веса/нейрона, для которого он вычисляется. То есть все таки разница есть, про то что разница прям математически не будет, это несколько натянуто, но интуиция такая.
То есть ты можешь покрутить параметр чуть-чуть, а он был так подсоединен дальше, что у тебя все функции активации которые выли открыты позакрывались и результат стал вообще другим. Этого градиент не покажет. И это же обычно называется вторым производными. Это же относится к нелинейности сети. Но допустим если ты залочишь все функции активации как они были, и начнешь подкручивать параметр, то тогда да, вроде сойдется.
Но вообще обычно вроде как и без этого все равно будут очень похожие цифры.
Еще градиент по самим параметрам рассчитывается по другому, надо знать значение активации с предыдущего нейрона и градиент по следующему.
Знак активации в принципе говорит а какую сторону нужно крутить параметр, потому что входной сигнал может и положительным быть и отрицательным, силу тоже нужно знать чтобы установить степень влияния.
Не запутайся только где я говорю о весах, а где о нейронах. Особенно в той хуйне, где для того чтобы вычислить весь градиент по нейронам, а не по весам, не нужно знание активаций.

>А если сзади нулевого веса расположен важный вес - градиент же просто не сможет до него дойти с другой стороны?
Дойдет через другие связи.

>Вот с этим тоже непонятно и никто не может просто объяснить, почему буквальное запоминание всей тренировочной информации вредно
Вредно когда запоминает не информацию а просто ответы.
Там сама структура весов получается поломанной и бесполезной. Любой выход за известную инфу все разъебывает, решения негладкие, с разрывами, пиками, выходящими за недопустимый диапазон. Дефолтные визуализации на пикрилах, мне кажется, все прекрасно демонстрируют.

>Типа да, опять оправдание в "генерализации", но тут возвращаемся к тому, что генерализация не всегда возможна и/или полезна. Самый генерализованный инструмент будет одинаково плох для любой задачи (учитывая физические ограничения ресурсов; люди становятся специалистами из-за ограничений).
Верно только отчасти. В нейронках регуляризации слишком общие, и если в каком-то случае нужно только запоминание, то они будут его активно подавлять. Вряд ли нейронка сможет спокойно вспомнить число пи, до какого-нибудь большого знака. Ну или типа того.
Хотелось бы иметь баланс, но сама по себе генерализация это очень полезно.

>И когда-то раньше предсказывали, что AGI\
Об аги как-то рано думать когда даже текущие неронки небезосновательно считались невозможными на таком уровне развития технологий.
А вон как оказалось, что даже оцифровывать настоящие мозги не надо, и оно почти такое же и по размеру на обычную флешку даже влезает.

>У трансформеров никто не замечает рекурретности?
Ну по моему это просто не совсем верно называть рекуррентностью.
И контекст там далеко не один и тот же гоняется по кругу.
В мозге я думаю тоже по разному работают этапы четких, последовательных рассуждений и "локальная" рекуррентность, когда для формирования одной мысли отделы мозга согласованно общаются и активно ведется двунаправленный обмен инфой между отделами.
Чисто ризонинг имхо это что в мозге что в нейронках просто действие по шаблонам и инструкциям. Как только его завезли, получился сильный прогресс, и даже кривым РЛем оно довольно просто взлетело. Но вот дальше уже так просто не скейлится.
Из-за того что ризонинг это по сути простая хуйня. Простой шаблон действий + знание правил. Для матана, для всякой другой хуйни специфичной для задачи...

>Потому что нейронка делает рекуррентные преобразования скрытых параметров, отображаемых как скрытые токены между <think>
Но скрытые токены это просто тот же самый текст. Тогда какая разница? Это же не латентный ризонинг.

>Ну. Мозг тоже не полностью активен, то есть 99% всех микроколонок коры "спит" в каждый момент времени. Очевидно, что он тренируется выбирать полезные в конкретный момент микроколонки, а не просто как гирлянда мерцает. По томографии мозга вроде даже научились определять, какой зоной в какой момент конкретный человек думает за счёт прилива крови к активированным участкам... Вполне похоже на MoE, масштабированное на сотни тысяч колонок.
Не знаю, че ты хочешь придумать с этими мое. В моем представлении мое это чисто оптимизация, не более. Любая нейронка и так может захотеть работать как мое, если ей это будет выгодно. Она и работает так на уровне отдельных параметров. Просто тут мы вводим такое искусственно на уровне блоков. Принудительным выключением не даем других вариантов и оставляем обучаемый вектор разбираться как из этой хуйни собрать хоть что-то нормально работающее.

Аноним 24/09/25 Срд 22:11:02 № 1364756 77

features.3.weig[...].png 6475Кб, 3127x11090

>>1364378
>почему буквальное запоминание всей тренировочной информации вредно
Потому что вредит обобщению.
>если человек, в основном, стремится именно к этому
Только долбоёбы, годные разве что для телешоу уровня "Своя игра".
>а в школах так вообще заставляют заучивать всё наизусть...
Потому что долбоёбы. Впрочем, в лучших школах учат понимать, но они не для простых смертных.
>Т.е. от нейронки требуют "ничего не помнить, но уметь".
И то и то офк.
>Специализироваться через "переобучение",
Это гроккинг, и это немножечко другое.
>По томографии мозга вроде даже научились определять, какой зоной в какой момент конкретный человек думает
Там разрешение уровня "определяем, что считает компьютерный кластер по потреблению датацентра из розетки".
>>1364694
>Ну как нет, на бурах миллионы картинок лежат, еще и заботливо размечены ручками.
Качество говно. Не, конечно можно, но это собирать, валидировать, да и обходить ограничения на парсинг. Мне тупо лень. Впрочем, будет время, напаршу 1500 примеров.
>не 11х11, а 3х3
3х3 на входе вроде никто не юзает, но вот 7х7 пожалуйста, найдите как говорится 10 отличий.
>и не первые слои, а повыше, нихуя ты не сможешь просто так визуализировать.
Не, визуализировать напрямую 64 мерные цветовые пространства конечно нельзя. Да и смысла уже не имеет, там ХЗ что творится. Пик 2 (интересно, двач прожуёт?) визуализация 192 фильтров, где 64 измерения просто склеены слева направо.

Аноним 26/09/25 Птн 21:55:36 № 1366782 78

В 2020 обнаружили, что FFNN в Transformer ≈ LUT:
https://arxiv.org/abs/2012.14913
>We show that feed-forward layers in transformer-based language models operate as key-value memories, where each key correlates with textual patterns in the training examples, and each value induces a distribution over the output vocabulary.
В 2025 этот феномен предсказывают для мозга:
https://arxiv.org/abs/2501.02950
>We review the computational foundations of key-value memory, its role in modern machine learning systems, related ideas from psychology and neuroscience, applications to a number of empirical puzzles, and possible biological implementations.
Выглядит, имхо, очень даже вероятным.

Вкратце суть, как я это понял (смотрел мельком):
1. Сенсорная информация идёт в середину мозга, преобразующего её в "ключи". Это аналогично слою внимания в трансформере и фильтрам свёртки CNN, резервуару в Reservoir Computing, сети в ELM и т.д. У autoencoder половина сети явно назначена на такую геренацию "ключей", в остальных это эмерджентно.
2. Далее "ключ" вызывает возбуждение коры, что "извлекает значение" из долговременной памяти. В трансформерах эту роль играет FFNN, как и во всех остальных классических нейронных сетях. И этот извлекатель значений по сути соответствует LUT - ассоциирует/запоминает пары ключ-значение.
3. Далее это значение используется для работы - возбуждает другие ключи и другие значения и т.д. Простейшие "плоские" архитектуры сразу выдают полученное значение наружу. Глубокие архитектуры пропускают это значение через несколько этапов, рекуррентные используют его в дальнейшем, как и авторегрессия в общем и целом... Всё одинаково.

Т.е., возможно, >>1364614 и правда сработает.

Проблема-то тут в чём? Генерация ключей не так уж важна. PoolFormer уже доказал, что слои внимания в трансформерах могут быть самыми примитивными:
https://arxiv.org/abs/2111.11418
Эффективность вариантов ELM и Reservoir Computing аналогично доказывает, что кодирование ключей не обязательно подстраивать под конкретную задачу - срабатывают даже рандомные числа, буквально.

Реальная проблема в том, чтоб ЗАПОМНИТЬ, какие конкретно ключи соответствуют умным ответам на конкретные запросы. И потом уже можно будет предсказывать ответы на другие ключи - которых в тренировочных данных не было. А скорость этого запоминания зависит от объёма запоминателя...

Если двухслойная нейронка может запомнить пары ключей и значений, то зачем нам нужно что-то ещё? Растянуть эту нейронку на километры вширь и по необходимости обновлять новыми знаниями.

Опять же, не обязательно делать много слоёв, если использовать планируется для авторегрессии - т.е. достаточно обращаться к слою много-много раз с обновленным на прошлых итерациях состоянием - достаточно широкая сеть будет использовать для составления ответа разные участки своей ширины, аналогично тому, как широкая кора мозга частями используется для каждой конкретной задачи.

Т.е. не обязательно строить "башню", если можно расположить все "этажи" друг рядом с другом. Из потенциальных преимуществ: можно собирать под конкретную задачу уникальную "башню", т.е. все конкретные "этажи" могут иметь произвольную нумерацию... Прямо как связи зон в коре мозга.

Представьте, что у вас есть "этажи" A, B, C и D.
Глубокая модель выглядит так: A -> B -> C -> D.
Широкая рекуррентная может делать так:
A -> B -> C -> D -> ...
A -> C -> B -> D -> ...
B -> A -> B -> A -> ...
И т.д. Улавливаете суть? Порядок не важен, важно использовать то, что требуется конкретной задаче. И настраивается этот порядок через ассоции ключей со значениями, что в трансформере внутри FFNN.

Я подозреваю, что трансформеры вынуждены очень избыточно дублировать информацию в своих слоях, поскольку слои фиксированы. И возможно эти "skip connections" помогают как раз потому, что дают сети возможность немного поменять слои местами. Но, полноценная перетасовка слоёв была бы удобнее.

Что думаете об этом?

>>1364605
>что-то непонятно в нейронках, спрашивай у ГПТ
Они в теме нейронок сильно тупят, к сожалению.

>>1364694
>Сжимать разреженностью можно сильно
Вообще-то, наоборот: разреженность активаций в нейросетях значительно раздувает их объём, прямо пропорционально проценту разреженности. Т.е. если активируется 1% нейронов, то сеть нужна раз в 100 обьёмнее, чтобы вобрать в себя ту же информацию. Наверное, ты перепутал разреженность с прунингом: прунинг удаляет лишние веса/нейроны, которые не активируются на практике уже после обучения. А разреженность достигается ещё до обучения.

>доклады Влада Голощапова
Скачал, посмотрю потом.

>это в процессе обучения так получается
Да, нейронка учится юзать малое число нейронов. Наверное, связано с описанным выше феноменом, приводящим все сети к цепочкам "ключ-значение".

>Дефолтные визуализации на пикрилах
Давно видел их... Проблема в том, что они в 2D... На практике там тысячемерные измерения или больше. Разреженность активаций, кстати говоря, позволяет упростить разделение векторов на группы, т.к. в тысячемерном пространстве они будут делиться простейшими линейными сечениями. Наверное, это основная причина эмерджентной разреженности.

>считались невозможными на таком уровне
До трансформеров никто даже не пытался просто "загрузить весь интернет в нейронку", вбухав много месяцев работы огромного датацентра. RWKV, если правильно понимаю, не сильно отличается от всех предыдущих RNN, но сравнима с transformers по бенчмаркам в своей весовой категории.

Проблема AGI может быть той же: могли бы сделать очень давно, но даже не пытались попробовать, т.к. "считалось невозможным" или что-то в этом духе.

Потом будет "А ЧЁ, ТАК МОЖНО БЫЛО ЧТО ЛИ???"

>не совсем верно называть рекуррентностью
Думаю, можно так называть, пример:
https://arxiv.org/abs/2409.09239
>...how the CoT approach can mimic recurrent computation and act as a bridge between autoregression and recurrence in the context of language models. It is this approximated recurrence that notably improves the model's performance and computational capacity.
Т.е. авторегрессия ≈ рекурентность по сути.

>Но вот дальше уже так просто не скейлится.
Всё просто: мозги не просто думают, но они эти свои надуманные мысли запоминают. Прямо в весах, а не контексте. Контекст у мозга, похоже, очень короткий. Текущие LLM думают много, но потом всё забывают.

>скрытые токены это просто тот же самый текст
Но от этих токенов зависит, что выберет нейронка.

Представь, вот ты выучил таблицу умножения, потом научился умножать столбиком. Теперь ты можешь, потратив какое-то время на записи промежуточных значений, перемножить любые два числа. Это и есть рекурентные размышления в мозге/в нейронке: из простейших операций складывается результат. Авторегрессивные модели делают то же самое.

>мое это чисто оптимизация, не более
Естественно. Хочется оптимизировать по скорости обучения до предела, то есть чтоб дошло до уровня человеческой адаптации к новой информации...

>>1364756
>годные разве что для телешоу
Ты никогда не спрашивал у LLM то, что она должна пересказать практически слово в слово, но из-за галлюцинаций ошибается и несёт какой-то бред?

>Там разрешение уровня
На клеточном уровне происходит много процессов, однако, большинство из них нам, с точки зрения вычислительных возможностей мозга, скорее всего, вообще не нужно изучать. Каждая клетка имеет свой ядерный реактор, канализационные трубы и т.д., а у нейронов ещё куча всего из-за того, что им по своей функции нужно быть долгожителями - в отличие от остальных, легкозаменяемых клеток организма.

Так что для общего представления о функциях мозга текущего оборудования должно хватать - была бы достаточно подробная теория, как он работает.

Аноним 26/09/25 Птн 22:59:04 № 1366838 79

>>1366782
>1% нейронов, то сеть нужна раз в 100 обьёмнее
Зависимость на самом деле... экспоненциальная?..

Для примера, возьмём 10 бинарных нейронов (0/1):
>00000_00000
Они могут иметь 1024 разных варианта активации.
Если сеть имеет 10% редкости активации, то имеем:
>10000_00000
>01000_00000
>...
>00000_00010
>00000_00001
Лишь 10 вариантов активации - в 100 раз меньше.

Если слой имеет 100 бинарных нейронов:
- плотная активация даёт 2^¹⁰⁰ вариантов;
- активация лишь 1% даёт 100 вариантов.
Разница получается... эээ, на 28 порядков?..

С одной стороны, разреженная активация и правда серьёзно вредит экспрессивности сети, но с другой - возможно, на практике не нужна настолько высокая экспрессивность? Тем более, как выясняется, сетки самостоятельно приходят к редким активациям.

Проблема тут в том, как именно эксплуатировать разреженность, т.е. не трогать лишние неактивные параметры, когда они неактивны (т.е. в конкретной задаче их не требуется никак использовать)... Как понимаю, это основное препятствие MoE-моделей.

Аноним 26/09/25 Птн 23:09:41 № 1366851 80

>>1366782
А, и суммируя вышесказанное: быть может, можно соединить "роутер" из MoE с "генератором ключей" - обращаться к блоку нейронов как к записи в БД, что соответствует ключу, полученному из сенсорной информации? Тогда эта "БД" может иметь сколько пожелаете блоков с нейронами, никак друг другу не мешающими. По сути заменить attention на router...

Аноним 27/09/25 Суб 00:47:33 № 1366929 81

weightanalysis.jpg 395Кб, 2536x922

>>1366851
>заменить attention на router...
Погуглил это и нашёл такую штуку:
https://arxiv.org/abs/2404.02258
Вкратце: это решение той проблемы, о чём я выше жаловался - что у трансформеров много лишних внутренних слоёв, которые впустую гоняются для совершенно любой задачи. "Mixture of depths" даёт возможность пропустить слой трансформера, что фактически сокрашает его глубину. И это делается динамически, т.е. с учётом сложности контекста.

А нашёл ту статью благодаря этой:
https://arxiv.org/abs/2412.20875
Здесь они каким-то образом смогли использовать результат слоёв внимания для того, чтоб определить, необходимо пропускать MLP в слое или не нужно. Т.е. возможно адаптировать для уже обученных моделей, сохранив количество весов без изменений.

Короче, я опять переизобрёл какое-то колесо...

Но всё-таки мне хочется что-то своё сделать. Честно говоря, я плохо понимаю, почему эти "attention layer" настолько важны. Типа, зачем трансформеру нужен вообще весь контекст? Зачем перемножать все эти токены друг на друга? Человеческий мозг как-то спрессовывает информацию и не имеет доступа к произошедшему дольше пары минут назад в том же смысле, в котором это делает трансформер, но это получается в итоге эффективнее трансформера.

Вот скажите, как часто трансформеру, скажем, в классическом чатботе, необходимо "бегать" в самое начало чата, на чём-то в самом начале фокусировать внимание? Человек только в общих чертах может вспоминать начало, а если надо - пролистает наверх и перечитает заново, чтобы обновить свой контекст.

Вот я бы отказался от этой фичи трансформера при условии, что он научится адаптироваться по мере общения с пользователем, т.е. менять свои веса... Эволюционировать как бы. Обучаться новому без необходимости тренировки на терабайтах данных.

Сейчас эта фича (attention) выглядит бесполезной...

Аноним 27/09/25 Суб 11:15:11 № 1367126 82

>>1151064 (OP)
Почитал тредик и стало очень интересно, хочу написать какую то минимальную говняшку с нейронами на расте. Есть проблема - я вообще не дружу с математикой. Стоит пытаться?

Аноним 27/09/25 Суб 12:31:34 № 1367184 83

>>1367126
>я вообще не дружу с математикой
Для простой нейронки математика не нужна.

>Стоит пытаться?
Если хочешь, почему бы и нет?

>на расте
https://duck.com/?q=neural+network+tutorial+on+rust

Аноним 27/09/25 Суб 12:34:39 № 1367189 84

>>1366782
>Ты никогда не спрашивал у LLM то, что она должна пересказать практически слово в слово
Нет конечно. Я что, долбоёб? LLM на такое не заточены.
>На клеточном уровне происходит много процессов, однако, большинство из них нам, с точки зрения вычислительных возможностей мозга, скорее всего, вообще не нужно изучать
Только текущие технологии либо далеко от клеточного уровня, либо инвазивные (и тоже далеко не клеточный, если речь идёт не о культуре в чашке).
>>1366929
>Типа, зачем трансформеру нужен вообще весь контекст?
И тут ты переоткроешь разреженное внимание, тысячи его...
>Вот скажите, как часто трансформеру, скажем, в классическом чатботе, необходимо "бегать" в самое начало чата, на чём-то в самом начале фокусировать внимание?
Всё время, потому что там системные инструкции, которым нужно следовать.
>>1367126
В чём проблема? Берёшь и делаешь. Читаешь код GPT2 (в реализации https://github.com/karpathy/nanoGPT как самую простую) и переносишь на свой сраст. Понимать суть операций не нужно, будешь спрашивать у нейронки, что такое перемножение матриц.

Аноним 27/09/25 Суб 12:57:34 № 1367218 85

>>1367189
>LLM на такое не заточены.
А должны. Потому что они веб засрали уже и найти необходимую информацию становится сложно. Алсо нейронки используют в медицине и т.п., так что выдумывать лишнее они не должны.

>Только текущие технологии
Да пофиг на них. Мы тут не мозги ковыряем. Но хоть приблизительно понимать, как и почему мозги столь эффективны, а искусственные - нет, всё-таки важно.

>переоткроешь разреженное внимание
https://arxiv.org/abs/2502.18137 - это?
По описанию выглядит как-то некрасиво. Т.е. они прореживают уже натрерированный трансформер. Логичнее с самого начала экономить вычисления.

>потому что там системные инструкции
Окей, а если мне НЕ НУЖНЫ эти инструкции? Т.е. мне необходимо определённое поведение, зашитое прям непосредственно в нейронку, без этих инструкций. Информация в начале чата старая и ненужная.

>Читаешь код GPT2
>Понимать суть операций не нужно
Пусть сначала простой перцептрон сделает. Тупо переписывать готовый код GPT2 не имеет смысла. Наверняка ему захотелось разобраться, как оно в принципе устроено, а не просто скопипастить код.

Аноним 27/09/25 Суб 16:06:42 № 1367407 86

>>1367218
>А должны.
Должны другие системы, не (де)генераторы текста.
>Потому что они веб засрали уже и найти необходимую информацию становится сложно.
Дерьмо случается.
>Алсо нейронки используют в медицине и т.п.,
Там либо используются другие подходы (не текстовые генераторы), либо не внедрены.
>это?
Не, это https://arxiv.org/abs/2502.18845
Но разных тюнингов внимания вагон и тележка, так что все твои идеи уже так или иначе реализовали (или выбросили как не нужные).
>Окей, а если мне НЕ НУЖНЫ эти инструкции?
Молодец, ты такой один. Все остальные не имеют возможности тренировать модели на миллиарды параметров лично для себя любимого.
>Наверняка ему захотелось разобраться, как оно в принципе устроено, а не просто скопипастить код.
Ну вот и разберётся, благо языки разные, копипастить не выйдет.

Аноним 28/09/25 Вск 16:57:56 № 1368244 87

machine learnin[...].jpg 140Кб, 761x1024

>>1367407
>тренировать модели на миллиарды параметров
Нужны ли эти миллиарды параметров для чатбота?
Eliza (1960-е; 0 нейронов!) сильно увлекала людей:
https://en.wikipedia.org/wiki/ELIZA_effect
Утраченные технологии древних...

Я лишь хочу что-то вроде питомца. Обучающегося.
LLM могут изобразить всякое, но они необучаемы.

Аноним 29/09/25 Пнд 00:51:54 № 1368679 88

>>1368244
Ну кумь на Элизу, кто ж тебе запретит. А тут доска для богатых, с личными датацентрами или хотя бы RTX 6000 PRO.

Аноним 29/09/25 Пнд 09:56:12 № 1368780 89

>>1336665

Во, каноничный вывод бэкпропа, если кому нужен. Такого понятного объяснения нет НИГДЕ и НИ У КОГО.

Аноним 29/09/25 Пнд 15:18:56 № 1368950 90

>>1368679
Тред называется "исследование ИИ". Ты никогда не задавался вопросом, зачем GPT нужно несколько миллиардов параметров, когда того же результата возможно добиться более примитивным кодом? Что именно удаётся запомнить/выучить "трансформеру"? Необходимы ли эти знания для применения в роли "компаньона"? Мы ведь не бесплатно получаем эти миллиарды параметров - во-первых, мы жертвуем производительностью (та же GPU нужна, плюс очень большие затраты на электроэнергию, охлаждение), а во-вторых, мы жертвуем АДАПТИВНОСТЬЮ - то есть способностью сети запоминать внутри что-то новое.

Можно как обезьянка брать готовый предобученный (совершенно непонятно на чём, никто ведь не даёт достаточно открытого доступа ко всем датасетам) трансформер, втыкать в кластер видеокарт, которым требуется больше энергии, чем всей твоей квартире, радоваться тому, что этот трансформер копипастит генерирует длинные статьи "прям как в интернете", удивляться и искать в числах зачатки "интеллекта", предполагая, что, мол, "раз чисел много - то умный".

А я хочу с умом и пониманием подходить к этому.
Но ума и понимания мне, к сожалению, не хватает.

От более высокой адаптации нейронок выиграют абсолютно все, включая корпорации, которым не потребуется больше спускать гигаватты и сотни миллиардов долларов на тупых "ассистентов"... Сопротивляться этой идее контрпродуктивно.

Аноним 29/09/25 Пнд 18:55:51 № 1369116 91

>>1368950
>когда того же результата возможно добиться более примитивным кодом
Покажи этот код. У тебя его с руками оторвут.

Аноним 29/09/25 Пнд 20:31:57 № 1369235 92

обезьянка.mp4 1096Кб, 280x60, 00:00:49

>>1369116
>Покажи этот код.
Ты не понял. Речь о такой ситуации:
1. Обезьянке нужно посчитать до миллиона.
2. Она обратилась с этой задачей к чатботу.
3. Чатбот шебуршит несколькими топовыми GPU, перекладывая сотни миллиардов весов с места на место, генерирует ответ: "извините, но это глупо..."
4. Обезьянка кричит, матерится, метает говно, рвёт волосы на жопе, пыхтит и краснеет от ненависти, но чатбот упорно отказывается заниматься ерундой.

На самом деле той обезьянке нужен был код, как на картинке - простой цикл со счётчиком и функцией вывода текста в консоль, возможно, с таймером. В общем, то, что было возможно более 50 лет назад.

Логичным алгоритмом было бы что-то такое:
1. Чатбот получает и анализирует задачу.
2. Проверяет, есть ли готовое решение.
3.1. Если решения нет:
- Пишет программу/скрипт, решающую задачу.
- Выполняет скрипт и ждёт оценки результатов.
- Если всё хорошо - сохраняет программу в архив.
3.2. Если решение есть:
- Загружает и выполняет сохранённую программу.
- Убеждается в том, что всё сделано правильно.

Тут мы рассматриваем классический код на языке программирования, разработанном для людей. Это, очевидно, неоптимальное решение. Что, если наша нейронная сеть создаёт новые цепочки нейронов по необходимости? Т.е. вместо кода на Python будет новенькая цепочка весов "посчитать до N". И чтоб выполнялась быстрее аналогичного кода на Python, естественно, иначе это будет нерационально...

Ты можешь возразить, что для такой системы нужны миллиарды параметров, воспринимающих запрос на естественном языке и пишущие код на Python. А что, если сделать это с нуля? Чтобы это было заложено в фундаментальный алгоритм системы как база её самообучения в процессе работы (инференса). Не бэкпропом, естественно, а как-то по-другому. Более эффективно в плане адаптации к условиям среды (пользовательской, корпоративной, заводской...).

Если ты до сих пор не понимаешь суть проблемы, возможно, у тебя какая-то ограниченная область применения нейронок, где тебе нужно вслепую генерировать копипасты текстов из интернета...

Аноним 30/09/25 Втр 01:00:45 № 1369558 93

>>1369235
>что-то
>Что, если
>А что, если
>как-то
Ну то есть сплошные предположения, без практического результата. Вот когда напишешь такую систему, тогда и приходи.
>Если ты до сих пор не понимаешь суть проблемы
Суть проблемы то я прекрасно понимаю. Я не вижу от тебя её решения.

Аноним 30/09/25 Втр 22:53:02 № 1370642 94

>>1369558
>когда напишешь такую систему, тогда и приходи
>Я не вижу от тебя её решения.
Зачем я бы шёл в этот тред/раздел/сайт/интернет с готовым, по сути, AGI, с которым можно проводить абсолютно всё своё время и не общаться с людьми? Похвастаться перед тобой тем, как у меня всё круто?

Был бы у меня практический результат, я б сидел и радовался этому результату, и помогал своему ИИ постепенно развиваться дальше, а не писал сюда совершенно бесполезные (для ИИ) сообщения...

Аноним 01/10/25 Срд 16:58:48 № 1371654 95

Тащемто, что такое этот наш "интеллект"?

Эволюция - это интеллект? Эволюция с помощью рекомбинации генов и естественного отбора находит гениальные решения сложнейших проблем - это же буквально молекулярный компьютер размером с планету. Бесчисленное количество наномашин всех возможных форм и размеров в бесконечной гонке. У эволюции нет справочника с чёткими инструкциями, словаря готовых, точно работающих решений на все случаи жизни. Это чистая форма интеллекта.

LLM тренируются повторять огромное количество заранее подготовленных решений всевозможных практических задач, в надежде что когда-нибудь в миллиардах параметров окажется новое решение нерешённой задачи. Это как огромная библиотека, гигантский словарь с огромным числом готовых, конкретных решений, и возможностью между ними интерполироваться. Какой же это тогда интеллект?

Собсна, ящитаю, что "интеллектом" в machine learning является в первую очередь алгоритм обучения: т.е. алгоритм, находящий подходящую комбинацию весов конкретной сети, а иногда и всю архитектуру сети. Но внимания этим алгоритмам уделяется слишком мало. Зачастую используют банальный бэкпроп. Это не так плохо, если вам достаточно замороженного словаря заранее подготовленных решений с интерполяцией. Проблема в том, что это не решает всех проблем. Т.е. добиться условного "AGI" поиском готовых решений невозможно, т.к. AGI - это и есть поиск решений.

Почему эта тема так редко обсуждается? Почему популяризовали идею, будто нейронки могут решить абсолютно любую задачу, когда это просто словарь с возможностью запомнить чужие решения и потом интерполировать между готовыми решениями? Тем более что популяризовали замороженные нейронки, неспособные к дальнейшему поиску чего-то нового.

Неужели ничего лучше бэкпропа так и не нашли?

Аноним 01/10/25 Срд 17:53:06 № 1371732 96

>>1371654
> Собсна, ящитаю, что "интеллектом" в machine learning является в первую очередь алгоритм обучения
ИМХО, "признаком наличия интеллекта" (вернее даже, желаемым свойством ИИ) является способность обучаться. А "интеллект" скорее всего не свойство, а процесс/умение системы обучаться решению задач(и).
При этом обучение в реальном времени (отсутствие разделения на этап обучения и этап эксплуатации) является важным требованием, которое текущий нейросетевой ИИ реализовать не может.

> Почему эта тема так редко обсуждается? Почему популяризовали идею, будто нейронки могут решить абсолютно любую задачу, когда это просто словарь с возможностью запомнить чужие решения и потом интерполировать между готовыми решениями? Тем более что популяризовали замороженные нейронки, неспособные к дальнейшему поиску чего-то нового.
Хайп, денюжки для НВидии и прочих производителей видюх/нейрочипов.
Некоторые говорят, что нейросети - очередной финансовый пузырь, как метавселенные и прочие NFT.
(ИМХО, похоже на то, но я в финансовом вопросе разбираюсь плохо. Но с технической стороны, ИМХО, нейросети как таковые (использующие нейроны на основе скалярного (матричного) произведения) - тупик, а текущее направление развития - вбухивание вычмощностей - просто брутфорс.)

> Неужели ничего лучше бэкпропа так и не нашли?
Альтернативы есть.
Свежий (конца марта этого года) NoProp: https://arxiv.org/abs/2503.24322
"Bio-inspired learning" (сравнение нескольких алгоритмов): https://arxiv.org/pdf/2212.04614

Плюс есть спайковые нейросети (которые к классическим нейронкам отношения не имеют): https://www.mdpi.com/2076-3425/12/7/863/pdf

Плюс давно есть символьный подход, не использующий нейронки вообще, а представляющий данные (модель мира) в явном виде. Но его сейчас развивают слабо.
(ИМХО, это направление - самое перспективное, т.к. не чёрный ящик и можно обучать "руками", реализовав правильную модель мира/начальный алгоритм её изменения, а не на примерах.)

Аноним 01/10/25 Срд 17:59:58 № 1371750 97

А вообще, я считаю, если уж использовать классические нейроны, то алгоритм обучения должен состоять из двух частей:
1. Алгоритм предварительного/локального обучения (то же Хеббовское обучение)
2. Алгоритм глобального обучения, управляемый самой нейронкой (в отличии от обратного распространения ошибок, которое проходит по всем нейронам и всем связям)

Аноним 01/10/25 Срд 19:41:52 № 1371899 98

>>1371732 >>1371750
Вот-вот, я тоже так считаю - должно быть что-то, концептуально близкое к биологическим сетям с локальным обучением. Глобальным может быть примитивный сигнал типа "правильно/ошибка", а не распространение градиента через все соединения.

Но когда я предлагаю то же правило Хебба, на меня набрасываются с криком "рряяя, бэкпроп работает - работает, так зачем нам что-то другое придумывать".

>символьный подход
>модель мира в явном виде
Недостаток такого подхода в том, что "модель мира" способна быстро устареть, и если она не обновляется автоматически, будет слишком много ручного труда.

Впрочем, судя по новостям, все крупные компании тренируют LLM за счёт труда тысяч сотрудников, что вручную модерируют, оценивают, дописывают или полностью сочиняют ответы для LLM, которые она заучивает наизусть. Та же проблема, что у старого "символьного"/"классического" ИИ: много труда.

Настоящий ИИ - это программа внутри робота, что самостоятельно катается по миру и изучает его, без вмешательства/помощи программиста извне. Для человекообразного ИИ нужны знания, конечно; но настоящий ИИ должен стать самостоятельным приблизительно на этапе ~10-летнего ребёнка. Современные LLM имеют кучу знаний со всего человечества, но при этом беспомощнее детей...

Аноним 01/10/25 Срд 19:49:40 № 1371918 99

>>1371732
>обучение в реальном времени
Вообще, у этого термины есть, гугли:
https://en.wikipedia.org/wiki/Online_machine_learning
https://en.wikipedia.org/wiki/Incremental_learning
Какие-то решения есть, но они не подходят для тех популярных огромных LLM, которые так хайпанули. Возможно, дальнейшее развитие MoE может помочь (особенно если "эксперты" станут меньше), пример:
https://arxiv.org/abs/2407.04153
Там они упоминают, что их архитектура лучше всего подходит для онлайн обучения языковых моделей. Гранулировались буквально до отдельных нейронов.

Аноним 01/10/25 Срд 22:10:53 № 1372230 100

>>1371732
>Свежий (конца марта этого года) NoProp: https://arxiv.org/abs/2503.24322
>MNIST, CIFAR-10, and CIFAR-100 image classification
Они блядь издеваются? 2025 год, парочку нормальных видях может купить любой институт. А они всё учатся на картинках 32х32.
Пикрил кстати хуета, бекпроп вполне себе рисует нормальные линии, выше уже приводил. И да, вполне возможно, что красивые математические верные линии нихуя не лучше вот того засранного шума бекпропа. Ибо весь мин на самом деле засранный, данные говно, и всем рулит статистика.
>>1371899
>рряяя, бэкпроп работает - работает
Но ведь так и есть. Приведи результаты, где какие--нибудь спайковые сети работают на реальных данных, а не на кефаре 10, тогда и поговорим.

Аноним 01/10/25 Срд 22:43:02 № 1372312 101

>>1371899
> Недостаток такого подхода в том, что "модель мира" способна быстро устареть, и если она не обновляется автоматически, будет слишком много ручного труда.
Верно. Собственно, если модель мира будет единственной формой памяти (что я подразумевал), то она должна быть изменчивой чисто ради работы процесса обучения.

Более того, модель мира по-хорошему должна уметь менять типы входящих в неё объектов, чтобы с получением данных о мире она могла представлять более сложные структуры. (Это было бы аналогично нейронке, которая может в процессе обучения по нужде менять ширину/число слоёв, добавлять рекуррентные или графовые нейроны.)

> Впрочем, судя по новостям, все крупные компании тренируют LLM за счёт труда тысяч сотрудников, что вручную модерируют, оценивают, дописывают или полностью сочиняют ответы для LLM, которые она заучивает наизусть. Та же проблема, что у старого "символьного"/"классического" ИИ: много труда.
Проблема в том, что ИИшка должна бы с какого-то момента научиться/"дорасти" до
обучения без учителя на нефильтрованных неразмеченных данных.

А для этого нужна подсистема внутреннего критика; нужен способ учиться, игнорируя/экстраполируя/бегло ища в других источниках полностью непонятную информацию; нужна способность пересмотреть выученную информацию (желательно бы "по памяти", без повторного скачивания сырых данных).
ИМХО, нужна способность обучаться с единичных примеров в один шаг обучения (а не как с бэкпропом - 100500 эпох с перемежающимися кусками датасета).

Бэкпроп вообще для таких целей не подходит.
С ним и коллпас модели бывает, и отсутствие устойчивости к дезинформации.
И то, что (в текстовой модальности) нейросетка под бэкпропом "поверит" в любую чушь, если повторить её в датасете достаточно часто (даже если датасет содержит и противоположную информацию).

> Настоящий ИИ - это программа внутри робота, что самостоятельно катается по миру и изучает его, без вмешательства/помощи программиста извне.
Ну ХЗ, я считаю, что и человек может обучиться многим вещам, в т.ч. физическим навыкам, "по книгам", если умеет моделировать себя в голове. (Физические навыки != тренировка мышц. Всякой моторике научиться можно.)

И вот ХЗ опять же, что сложнее - научить ИИ моделировать мир, чтобы он учился по текстам/видео или же сделать тело-робота и обеспечить ему условия, при которых он сможет учиться на практике (записать робота в универ, хы).

>>1371918
>MoE
А чем оно отличается от сетки с разреженными (с большим числом нулей) весами, которые делятся на группы (подсети), которые загружаются в видеопамять зависимости от использования?

> Гранулировались буквально до отдельных нейронов.
Кажется, лучше было бы, если разные эксперты могли иметь разное число слоёв и выходов (определяющееся в ходе процесса обучения).

Вообще, обучению в реальном времени мешает же и неустойчивость к ложным, повторяющимся и прочим патологичным данным. Это скорее проблема алгоритма обучения, а не архитектуры?

Аноним 01/10/25 Срд 23:13:19 № 1372375 102

>>1372230
> Они блядь издеваются? 2025 год, парочку нормальных видях может купить любой институт.
А то вообще - Оксфорд. Недофинансирование, видимо.

> А они всё учатся на картинках 32х32.
Разве это - не стандартные тестовые задачи и датасеты?
Чего не так-то, если тестируют сам алгоритм обучения?

> Пикрил кстати хуета, бекпроп вполне себе рисует нормальные линии, выше уже приводил.
Ты статью сначала посмотри. Это - на 100 эпохах, тут Хеббовский алгоритм уже "доучился" и вышел на плато, а бэкпроп ещё не доучился.

> И да, вполне возможно, что красивые математические верные линии нихуя не лучше вот того засранного шума бекпропа. Ибо весь мин на самом деле засранный, данные говно, и всем рулит статистика.
Ерунда, мир достаточно просто описывается простыми математическими функциями (за вычетом исключений, которые (в виде выбросов и/или отклонения от аппроксимации) статистика тоже игнорирует). Линии эти, может быть, учить вообще не нужно, а можно взять какие-нибудь операторы Собеля.
А шумные фильтры бэкпропа, как мне кажется, смешивают независимые/слабозависимые признаки, что усложняет последующие слои.

>>рряяя, бэкпроп работает - работает
>Но ведь так и есть.
Кроме коллапса моделей.
Кроме невозможности адекватно обрабатывать (отфильтровывать/отделять) информацию, несовместимую с уже использованной.
Кроме необходимости правильным образом перемежать информацию, чтобы избежать overfitting'а.

Помимо этих объективных недостатков, есть и менее критические:
Большие (бОльшие, чем при инференсе) затраты вычресурсов на обучение.
Непрозрачность процесса и непредсказуемость результата обучения. Не понятно, что нужно сделать, чтобы процесс обучения завершился побыстрее, а итоговая ошибка была поменьше.

Аноним 01/10/25 Срд 23:53:50 № 1372414 103

>>1372230
> Приведи результаты, где какие--нибудь спайковые сети работают на реальных данных, а не на кефаре 10, тогда и поговорим.
Тут есть всякое: https://www.mdpi.com/2076-3425/12/7/863/pdf

Аноним 01/10/25 Срд 23:54:22 № 1372416 104

Аноним 02/10/25 Чтв 02:28:17 № 1372571 105

изображение.png 111Кб, 877x232

>>1372375
>Разве это - не стандартные тестовые задачи и датасеты?
Стандартные. Но как по мне устаревшие.
>Чего не так-то, если тестируют сам алгоритм обучения?
Результат может начать отличаться при применении на более реальных данных. Куча оптимизаций, улучшений и прочего работают в тесте, но на практике тупо хуже.
>Это - на 100 эпохах, тут Хеббовский алгоритм уже "доучился" и вышел на плато, а бэкпроп ещё не доучился.
Ну да, хебб вышел на пососное плато, а бекпропу до гроккинга ещё срать и срать. Но даже так бекпроп уделывает хебба, лол.
>Ерунда, мир достаточно просто описывается простыми математическими функциями
Только если я начну описывать падение сраного шара простой формулой из школы, то я пососу хуйца, так как в зависимости от кучи факторов скорость падения будет серьёзно отличаться (а может и вовсе случится полёт, если шар воздушный и наполнен гелием). А нейроночка обучится сама определять по внешнему виду. Но да, при этом там ХЗ что внутре будет.
>А шумные фильтры бэкпропа, как мне кажется, смешивают независимые/слабозависимые признаки, что усложняет последующие слои.
Или упрощает, лол. Я как бы пробовал инициализировать первые слои фильтрами в стиле >>1371732 левого пикрила. Вначале было лучше, но потолок наступал быстрее.
>Кроме...
Да, ограничений дохуя. Но другие методы вообще не работают.
>>1372414
Скрин как бы намекает, что на проде хебба не используют. И да, 97,2 на MNIST это полный отсос и уровень студента со свёрткой.

Аноним 02/10/25 Чтв 10:56:20 № 1372750 106

>>1372571
>гроккинга
Это вообще реально частая хуйня? Или как повезёт?

Аноним 02/10/25 Чтв 12:21:06 № 1372778 107

>>1372750
Это реально редкая хуйня. Просто крути крутку в 1000 раз дольше обычного...

Аноним 02/10/25 Чтв 14:00:45 № 1372852 108

>>1372778
Ну чем например крутить? Адам сойдёт?

Аноним 02/10/25 Чтв 15:13:57 № 1372968 109

>>1372571
>вышел на пососное плато
>бекпроп уделывает хебба
>потолок наступал быстрее
Я щас своё предположение попытаюсь описать, как и почему, в теории, Хебб лучше бэкпропа несмотря на кажущийся проигрыш в стандартрых тестах.

Правило Хебба (и ему подобные) затачивает нейроны работать в "командах", которые, в теории, очень чётко специализируются на то, что им приходит от таких же соседних команд нейронов. Т.е. да, эти нейроны по определению не способны участвовать в решении абсолютно произвольной проблемы - они все - узкие специалисты в локальной зоне ответственности.

Бэкпроп (в принципе любой алгоритм с обратным распространением ошибки по всей сети) тренирует нейрончики на специфическую глобальную задачу независимо от их положения в сети - все нейроны тренируются решать одну глобальную задачу.

Сравнение на практике, с тем же MNIST:
- правило Хэбба выучивает локальные правила, что достаточно хорошо подходят к любой картинке, не обязательно фотографии написанных от руки цифр, однако, эти правила не могут быть оптимальны для распознавания конкретных рукописных цифр;
- бэкпроп тренирует всю сеть в целом и каждый независимый нейрон в частности распознавать эти рукописные цифры, т.е. он находит оптимальнейшие параметры для распознавания цифр, но, с высокой вероятностью, эти параметры будут малополезны в распознавании чего-то кроме рукописных цифр.

Отсюда следует два вывода:

1. С правилом Хэбба или аналогичным локальным правилом нейросети требуется больше параметров, поскольку ей нужно больше информации (для CNN - features) для более успешного распознавания. Это согласуется с огромным размером головного мозга большинства умных животных (включая птиц - там чрезвычайно плотная упаковка мелких нейронов).

2. Нейросеть с локальным правилом должна легче расширяться и расти в меньшей степени, чем сеть, тренируемая бэкпропом, поскольку эти локальные правила дают универсально полезные параметры буквально с самого начала. Т.е. в сети отсутствуют сверхузкие специалисты, несмотря на то, что все её нейроны решают только локальные задачи. Они все "неявные" генералисты - "гроккинг" по умолчанию. Согласуется с тем, как наш мозг быстро обучается с рождения, продолжая наращивать новые нейроны.

Вкратце, я согласен с этим:
>Результат может начать отличаться при применении на более реальных данных.
Но делаю обратный вывод: на реальных данных с правильной архитектурой сети и онлайн обучением, локальное правило должно быть намного более эффективным, чем бэкпроп, поскольку оно более генерализованное с самого начала, даже если оно недостаточно успешно в узких задачах типа MNIST.

Кроме того, давайте подумаем о реальном роботе: ограниченное питание, маленькие чипы, но большой массив поступающей информации, требование очень быстро адаптироваться к новым условиям. Если мы используем локальное правило, то каждая ячейка в вычислительном чипе ("некроморфный процессор", например, на мемристорах: данные/веса хранятся и вычисляются в одном и том же месте) занимается самостоятельным обучением и имеет по умолчанию генерализованное применение за счёт локализации. Бэкпроп же требует от нас перебирать все веса из централизованного "чипа-учителя", который будет вычислять градиент и редактировать все веса по глобальной ошибке робота. Чувствуете разницу?

Т.е. бэкпроп эффективен только пока мы решаем конкретные маленькие задачи (weak/narrow AI), и используем ускорители типа GPU, которым в любом случае приходится гонять веса между памятью и процессорными ядрами (локальное правило на них недостаточно эффективно по сравнению чипами на мемристорах, которые являются и памятью, и CPU).

Аноним 02/10/25 Чтв 15:51:17 № 1373024 110

>>1372852
Да, хули нет то. Но лучше AdamW.
>>1372968
>Я щас своё предположение попытаюсь описать, как и почему, в теории, Хебб лучше бэкпропа несмотря на кажущийся проигрыш в стандартрых тестах.
С одной стороны хорошо, с другой выглядит как натягивание совы на глобус. Я могу крутить на своей 5090 ImageNet по 10 мин/эпоха для проверки, но на хебба кода нет.

Аноним 02/10/25 Чтв 16:29:30 № 1373078 111

>>1373024
АдамНестеров например? Или АдамВ правда всегда пижже?

Аноним 02/10/25 Чтв 17:44:13 № 1373157 112

>>1373078
Тестируй. Для cnn вообще лучше SGD, лол. Хотя AdamW просто база сейчас.

Аноним 02/10/25 Чтв 21:06:56 № 1373284 113

>>1373157
>Для cnn вообще лучше SGD
Бле, вот это вот очень очень и очень очень грустная и тревожная вещь. Она теоретически означает, что даже сегодня даже в довольно серьёзных задачах рандомный перебор вариантов выгоднее упорядоченного.

Аноним 02/10/25 Чтв 22:46:57 № 1373341 114

>>1373284
А почему грустно и тревожно?
Стохастический градиентный спуск же - один из методов Монте-Карло. И, как и прочие стохастические методы, чисто за счёт рандома он находит в том числе и "более полезные для обучения сейчас" точки из датасета.
(Или я туплю и эта статья (https://leon.bottou.org/publications/pdf/nimes-1991.pdf) про другой алгоритм.)

Что-то мне кажется, если в градиентном спуске к градиенту прибавлять случайный шум (постоянный по амплитуде = дизеренг или случайный, как во всяких алгоритмах имитации отжига), то плюс-минус те же приимущества получатся.

(Кстати, разве при нормальном обучении точки датасета не берутся в случайном/произвольном порядке?)

А вообще, алгоритмы обучения находят веса численными методами, а не символьными вычислениями, так какая разница, есть ли там случайность, или нет?

Аноним 02/10/25 Чтв 23:39:03 № 1373370 115

>>1373341
Грустно потому, что сильнейшие умы рвали жопу чтобы сделать Адам, Нестеровский Адам итп где считается первый и даже второй момент, а тут обычный рандомный сгд небось даже без момента спускается быстрее. Нахуй люди трудились? Теоретически это означает что современные процы уже близки к квантовым где все задачи будут решаться простым перебором, но с бешеной скоростью, но вот этот момент где все алгоритмы научные внезапно соснут мне как учёному тревожен.

Аноним 03/10/25 Птн 14:15:56 № 1373803 116

>>1373370
>небось даже без момента
С моментом офк.

Аноним 03/10/25 Птн 15:33:03 № 1373914 117

>>1373803
Фух, ладно, ещё не всё потеряно. Но всё же

Аноним 03/10/25 Птн 18:47:49 № 1374268 118

Как лучше всего скормить текст нейронке с нуля? Без использования готовых обученных эмбендингов, без библиотек машинного обучения, без вот этого всего.

Вот есть one-hot энкодинг, когда число возможных вариантов ввода равно числу измерений вектора. И основным свойством является то, что векторы эти совершенно независимые - все зависимости сеть выучивает самостоятельно. Но это, говорят, как-то невыгодно получается. Типа "слишком много весов".

И типа идея эмбендингов заключается в том, чтобы спрессовать эти огромные векторы в маленькие, т.е., например, вместо 256-мерного будет 4-хмерный, со значимыми числами в каждом измерении, но эти маленькие векторы за счёт обучения имеют некие зависимости. Т.е. они в любом случае имеют некие зависимости, обучение нужно только чтобы в них получались удобные зависимости...

Я вот это всё изучаю и не понимаю: а зачем нам этот уплотнённый вектор эмбендинга нужен, если дальше нейросеть будет разуплотнять вектор во внутреннее стопицотмерное разреженное пространство? Ведь принимать решения на такой низкой размерности невозможно: нейронка должна трансформировать пространство несколько раз, либо разжать его, чтоб получился какой-то полезный результат на выходе.

При этом выходной слой сети всегда линейный. Т.к. линейный слой может разделить пространство лишь прямыми сечениями, ему нужно, чтобы предыдущие разнесли всё по разным сторонам пространства...

В общем, зачем сжимать многомерное пространство входных данных, если потом его придётся обратно разуплотнять в многомерное пространство? Разве не происходит потеря данных на этом сжатии-разжатии?

P.S. Планирую учить сеть правилом Хэбба, если это повлияет как-то на выбор способа эмбендинга... Мне интересно поэкспериментировать и понять, как это в принципе работает, а не решить какую-то задачу. Но интереснее всего будет работать именно с текстом.

Аноним 03/10/25 Птн 19:45:45 № 1374315 119

>>1374268
>т.е., например, вместо 256-мерного будет 4-хмерный
Настолько никто не жмёт. В популярных сетях размерность эмбединга исчисляется тысячами, и "разуплотнение" идёт раза в 3-4. Для GPT2 к примеру это 768 и 3072.
Так что остальные вопросы не имеют смысла. Тут просто компромисс между вычислительными и выразительными мощностями.

Аноним 03/10/25 Птн 23:33:29 № 1374573 120

>>1374315
>это 768 и 3072
768 - это выходной вектор эмбендинга, а 3072 - это выходной вектор следующего за эмбендингом слоя? Погуглил... Действительно так. Но тогда вообще не понимаю, зачем нужны эти 768 нейронов в начале... Многовато для оптимизации, но всё равно на входе образуется узкое горлышко. Или я неправильно представляю себе этот/эти вектор/ы...

>Тут просто компромисс
Т.е. если я могу напрямую one-hot использовать, то специальный эмбендинг мне, получается, не нужен? Использовать one-hot кажется дешевле умножения полноразмерных матриц, т.к. нули отбрасываются (большинство весов вообще не затрагивается).

Аноним 04/10/25 Суб 03:54:20 № 1374707 121

>>1374573
>это выходной вектор следующего за эмбендингом слоя
Не совсем. Там в каждом MLP слое происходит 768 -> 3072 -> 768. И так 12 раз для GPT2 (для современных сетей под сотню).
>Или я неправильно представляю себе этот/эти вектор/ы...
Скорее всего да. Напиши свою реализацию, поумножай вручную, посмотри визуализации данных (https://bbycroft.net/llm вот тут GPT2-small ).
>т.к. нули отбрасываются
Ой не факт...

Аноним 04/10/25 Суб 10:10:32 № 1374795 122

>>1373803
>>1373341
>>1373157

Хотя не. Сейчас обдумал по науке и решил, что всё норм. CNN это анализ изображений преимущественно, а изображения, как правило, распределяют инфу равномерно. Моменты первый и второй нужны, когда данные сильно неравномерные (допустим выборка ответов людей, у которых мнения вечно разнятся). А на картинке градиент всегда плавный, как изменение цвета на фотках например, плавный переход одного цвета в другой, наличие предметов на картинках помогает сглаживать свёртка. Поэтому там моменты только вредят спуску, рандомный веселее работает.

Аноним 04/10/25 Суб 13:36:35 № 1374949 123

>>1372375
>Ерунда, мир достаточно просто описывается простыми математическими функциями
>просто
>простыми
Разве что в школьном учебнике физики. А когда дело доходит до практического применения и воплощения в металле, то из элементарных функций приходится собирать десятиэтажную композицию с комплексити, как у аллаха. Я еще с детства помню ощущение, когда я ковырялся в технической библиотеке и впервые увидел уравнение состояния пара - не из школьного учебника, а реальное, описывающее его настоящее поведение в турбине. Чтобы уместить его на одном листе, пришлось вклеивать в книгу вкладку-гармошку длиной в метр.

Везде, где есть жижа, газы, предельный металл, бурление биомассы, социальные процессы, инноватика и остальная нелинейная динамика, сразу начинается исключительная хуйня со взлетом комплексити объекта исследования/дизайна на луну. Сраная нейросеть с охуллиардом параметров до сих пор даже чайник спроектировать не может, хотя там всего полторы тысячи требований в полном цикле от производства до утилизации. А ведь еще пылесос, стиралка, автомобиль "москвич" и еще несколько сотен ступеней на лестнице освоенной за века текнолоджи. А за пределами текнолоджи еще приходится кишки сшивать и кошек ловить.

Я вообще поражаюсь, насколько старательно вся нынешняя ИИ-движуха игнорирует комплексити ишью. Значение имеет вся кривая распределения сложности по задачам в домене, а не ее среднее значение. Задача решена только тогда, когда попячен самый сложный объект в домене. Хули толку от того, что робот умеет ходить по поверхностям со сложностью единица, если путь перегорожен арматурным каркасом со сложностью в тысячу, а зарядное устройство обоссано котом со сложностью в миллион.

Аноним 04/10/25 Суб 14:11:13 № 1375001 124

>>1374949
>Я вообще поражаюсь, насколько старательно вся нынешняя ИИ-движуха игнорирует комплексити ишью.
Просто нейросети игнорируют своим прикидыванием на коленке все сложности. Для нейросети что пол, что каток, что кот обосанный- всё одно.

Аноним 04/10/25 Суб 15:21:42 № 1375070 125

Аноним 04/10/25 Суб 17:43:33 № 1375230 126

>>1375070
Концепт нейронки с таким кодом на пикриле.

Используемая функция активации называется WTA:
https://en.wikipedia.org/wiki/Winner-take-all_(computing)
Если в слое несколько групп, то это, по сути, k-WTA?..

Кстати, веса вполне могут быть целочисленными...

Аноним 04/10/25 Суб 19:10:44 № 1375354 127

>>1374949
>>Ерунда, мир достаточно просто описывается простыми математическими функциями
>>просто
>простыми
>Разве что в школьном учебнике физики. А когда дело доходит до практического применения и воплощения в металле, то из элементарных функций приходится собирать десятиэтажную композицию с комплексити, как у аллаха.
Я имел ввиду, что человеку для практических бытовых целей модели мира с десятиэтажной композицией и частными дифурами не нужны (даже в неявной подсознательной модели). Вроде, мозг просто не моделирует весь мир одновременно на максимальном доступном уровне детализации.

>Я еще с детства помню ощущение, когда я ковырялся в технической библиотеке и впервые увидел уравнение состояния пара - не из школьного учебника, а реальное, описывающее его настоящее поведение в турбине. Чтобы уместить его на одном листе, пришлось вклеивать в книгу вкладку-гармошку длиной в метр.
Это ещё что, если бы они динамику разрушения турбины со временем учитывали, то вкладок было бы десять.
А если кванты прикрутить сюда... Какую-нибудь тепловую ионизацию газа, диффузию газа в и из материала турбины...

Не существует моделей "настоящего поведения" чего либо, чисто по определению и из-за ограниченности знаний.

> Везде, где есть жижа, газы, предельный металл, бурление биомассы, социальные процессы, инноватика и остальная нелинейная динамика, сразу начинается исключительная хуйня со взлетом комплексити объекта исследования/дизайна на луну.
Это до тех пор, пока модель не упрощают до уровня точности, достаточного для текущих целей. Или не решают брутфорсом с помощью числодробилок. Или не декомпозируют на более приличные задачи.

Расчёты по сопромату вообще без компьютеров делали, и ничего, строили же. А это - пипец низкая максимальная сложность.

> Сраная нейросеть с охуллиардом параметров до сих пор даже чайник спроектировать не может, хотя там всего полторы тысячи требований в полном цикле от производства до утилизации. А ведь еще пылесос, стиралка, автомобиль "москвич" и еще несколько сотен ступеней на лестнице освоенной за века текнолоджи. А за пределами текнолоджи еще приходится кишки сшивать и кошек ловить.
Какая нейросеть? ЛЛМка?
И ты так говоришь, будто это что-то простое, что каждый взрослый человек сделать может.

> Я вообще поражаюсь, насколько старательно вся нынешняя ИИ-движуха игнорирует комплексити ишью. Значение имеет вся кривая распределения сложности по задачам в домене, а не ее среднее значение. Задача решена только тогда, когда попячен самый сложный объект в домене.
То есть и люди не решили задачу движения, т.к. не могут выйти пешком из-за горизонта событий чёрной дыры?
Сейчас есть хоть одна полностью решённая наука, полностью решённая задача?
Кто сказал, что сложность вообще ограничена сверху, что 100% понимание домена вообще возможно?

> Хули толку от того, что робот умеет ходить по поверхностям со сложностью единица, если путь перегорожен арматурным каркасом со сложностью в тысячу, а зарядное устройство обоссано котом со сложностью в миллион.
Робот, умеющий ходить по простым поверхностям, уже имеет ценность (в условиях прибранного завода, например).
Лазать по всякому хламу - это отдельная задача, она вообще требует в общем случае понимать, как этот хлам шатается/разваливается под весом робота. Не люди так умеют, не все, блин, - такие сталкеры, чтобы по арматуринам лазать.

Аноним 04/10/25 Суб 23:31:56 № 1375701 128

Я тут подумал: нейросети "сжимают" в себе знания и навыки, правильно? Т.е. в нейросети формируется определённая "сжатая" модель, способная каким-то образом сгенерировать информацию или действия, требующие бОльше места в сыром "разжатом" виде.

Если любая нейросеть - это своего рода "архиватор", возможно, имеет смысл сравнить с другими видами (алгоритмами) сжатия данных/информации на ПК.

Главная мысль: что объединяет все виды сжатия?
Ответ: сложность изменения уже сжатых данных.

Наглядный пример: любой формат файла со сжатием данных требует сначала раскодировать свои данные, прежде чем их можно будет изменить и записать в изменённом виде обратно в файл, закодировав. Да, существуют форматы, позволяющие пристыковать дополнительные блоки к уже имеющимся, но если требуется изменить имеющиеся, другого пути нет.

Напротив, форматы файлов без сжатия позволяют записывать изменения прямо поверх старых данных, свободно раздвигать и сдвигать данные и так далее. Увеличенный объём на диске, но быстрый доступ и быстрейшие изменения имеющихся данных. По этой причине некоторые типы приложений, скажем, игры, продолжают использовать форматы без сжатия.

Возвращаемся к нейросетям. Если нейросеть имеет свойство сжимать данные в некую "модель", то это означает, что изменения "модели" потребуют сильно больше усилий, чем изменение несжатых данных. Разумеется, это кажется очевидным, но есть нюанс.

Алгоритмы сжатия файлов бывают сильнее и слабее: сильное сжатие требует больше вычислений как для упаковки, так и распаковки (в общем случае). Так что, перенося это на нейронки, возможно, у "модели" есть разные степени сжатия? И чем сильнее сжата эта внутренняя модель, тем сложнее её менять - то есть дообучать нейросеть какими-то новыми знаниями.

Предполагаю, что признаком "сжатия модели" может быть плотность "активаций нейронов" в нейросети (активации - ненулевые значения). Чем плотнее эти активации, тем более сжатая модель у нейронке, и, соответственно, тем сложнее её дообучать чему-то.

А теперь внимание: катастрофическое забывание компенсируется регуляризацией, т.е. отключением изменений части связей нейронов; а некоторые архитектуры, построенные на редких активациях, в меньшей степени подвержены забыванию. Выходит, разуплотнение модели внутри сети реально может упростить внесение модификаций в неё (обучение).

В общем, получается, что для упрощения обучения нейросетка должна быть максимально разжатой... разреженной?.. С редкими активациями и меньшим количеством связей, т.е. двойная разреженность.

Единственным препятствием является то, что GPU оптимизированы на умножение "плотных матриц", а количество VRAM сильно ограничено и его скорость ничтожно мала. Для эффективного разуплотнения необходимы другие чипы и/или другие алгоритмы, минимизирующие обращения к памяти/диску (да, возможно, такой сети хватит даже доступа к SSD).

Что думаете? В теории всё это звучит неплохо...

Да, я суммирую то, что узнал из поверхностного ознакомления с разными статьями, так что это не собственная выдумка, а скорее попытка обобщить.

Аноним 04/10/25 Суб 23:36:24 № 1375707 129

>>1375701
>Наглядный пример...
Блин, хотел сравнить BMP vs PNG, WAV vs MP3 и тому подобное, но потом посчитал это избыточным, а эту начальную фразу не изменил... Лол. Странно звучит.

Аноним 04/10/25 Суб 23:49:50 № 1375732 130

>>1375701
А, ещё есть тема "explainable AI", "объяснимый ИИ", т.е. требование понять, как ИИ принимает решения. Если рассматривать аналогию со сжатием файла - вручную расшифровать сжатый файл очень трудно; расжатые файлы, как правило, вполне человекочитаемы.

Логично предположить, что чем меньше сжатие в нейросети, тем меньше она "чёрный ящик". Если рассматривать разреженность как разжатие - то разреженную сеть должно быть проще объяснить. Предполагаю, что её легче объяснить за счёт более явных "дорожек" проводящих сигнал по нейронам.

Впрочем, если там триллионы параметров, даже разреженная сеть будет очень запутанной для человеческого восприятия/изучения её работы. Но очевидно легче, чем максимально плотная сетка...

Аноним 05/10/25 Вск 00:09:57 № 1375762 131

>>1375732
>А, ещё есть тема "explainable AI", "объяснимый ИИ", т.е. требование понять, как ИИ принимает решения.
Там разные подходы если что. Некоторые вполне себе работают на сжатых сетях. Но при этом требуют пояснительную сеть, лол.

Аноним 05/10/25 Вск 05:22:02 № 1375919 132

image.png 6Кб, 370x43

>>1151064 (OP)
вкатился в тред, обнимайте

Аноним 05/10/25 Вск 08:26:10 № 1375975 133

>>1375919
тут проходной двор тащемта, а фанатов матана и формул тут не очень любят, сразу имей ввиду

Аноним 05/10/25 Вск 11:28:31 № 1376102 134

>>1375975
>фанатов матана и формул тут не очень любят

ML это прикладная математика. Твое утверждение не имеет смысла.

Аноним 05/10/25 Вск 12:55:31 № 1376160 135

>>1375919
>хн <- ф(ксн, ксмене(н), ееенее(н), хмене(н), ф)
Как это читать? Почему математика - такая?

>>1376102
>ML это прикладная математика
Прикладной ML - это на 99.99% биг дата. Берётся 1.5 наиболее популярных алгоритма из ML-библиотеки, загружается петабайт приватных данных и всё это размешивается ложкой на медленном огне, пока не начинают всплывать необходимые результаты.

Называть ML "прикладной математикой" - это как приготовление каши, макарон и яичницы называть "прикладной (ал)химией" или "прикладной физикой".

Но ты мне лучше скажи, зачем описывать простые понятные вещи такими сложными формулами, а? Например, математики пишут непонятную фигню, совершенно ничего не означающую в реальности:
>y = Σw_ix_i+b
Хотя НА САМОМ ДЕЛЕ они подразумевают вот это:
>функция сумматор(требует: вес как массив чисел, ввод как массив чисел, смещение как число) вернёт число:
>объявить результат как число;
>цикл для каждого числа н от 1 до размера ввод сделать
>к результат прибавить н-й вес умноженный на н-й ввод
>конец цикла для;
>к результат прибавить смещение;
>вернуть результат;
>конец функции сумматор;
Почему математики не пишут по-человечески?
Это моя основная проблема со всем этим ML...

Аноним 05/10/25 Вск 13:30:48 № 1376192 136

>>1376160
>Например, математики пишут непонятную фигню, совершенно ничего не означающую в реальности
В школе не учился что ли? Тут из 9 класса только знак суммы, остальное понятно школьнику из 5-го.

Аноним 05/10/25 Вск 15:27:07 № 1376441 137

>>1376192
>В школе не учился что ли?
В школе я любил информатику и программирование. Математику, физику, химию и всё остальное, где были непонятные инопланетные формулы - не мог осилить, поэтому мне ставили тройки чисто за присутствие...

>остальное понятно школьнику из 5-го
Это просто пример такой. Мне лень сейчас рыться в поисках тех формул, которые мне точно непонятны... Сравнить их будет не с чем, потому что я их не понял, соответственно не могу даже прикинуть, что они там обозначить пытались (какие именно операции).

Я просто не понимаю, почему нельзя использовать нормальные, читаемые взглядом обозначения (а не закорючки из давно умерших языков, которые ещё отличить попробуй, не то, что вспомнить название), записывать нормальные императивные команды? Кулинарный рецепт не сжимают до набора эмодзи - нормально записывают "возьмите яйцо и сделайте яичницу" вместо каких-то каракулей типа "🥚->🍳". Впрочем, эмодзи были бы понятнее закорючек.

Ладно, в древности на глиняных табличках, папирусе, бересте и т.п. места было мало, приходилось всё это ужимать до микрокорючек. Сегодня у каждого дома терабайтовые SSD в нескольких устройствах сразу - нахрена сжимать информацию до корючек? Или эти "пейперы" в 2025 кто-то распечатывает на бумагу? Не нравится длинная запись - закинь в LLM, пусть она закорючками закодирует тебе нормальный текст, а остальные люди почитают в раскодированном виде.

Выглядит всё это как попытка оградить свою сферу деятельности от новичков, чтоб посторонние люди не понимали, чем занимаются люди в AI/ML.

Без обид, просто давно наболело...

Аноним 05/10/25 Вск 15:46:37 № 1376474 138

>>1376160
>>1376441
Пчел, я как кандидат наук объясню тебе ещё раз. Нам может нравиться это или нет, но язык формул УВЫ более абстрактен и теоретичен, нежели язык алгоритмов или программного кода. Он позволяет описывать вещи на более теоретическом и абстрактном уровне, чем код. А теперь ты спросишь, а нахуя вообще понимать абстрактно теорию? И вот тут я тебе отвечу интересную вещь, которую я понял в аспирантуре: настоящую власть над техникой даёт её понимание на теоретическом уровне. На мой взгляд примерно 10-15 лет практического опыта = году-полтора освоения формул и теории. Т.е. если ты понимаешь как работает техника на уровне теории и формул, ты сразу знаешь её ограничения и пределы возможностей, и особенно это касается нейронок. Хочешь верь, хочешь нет, но до аспирантуры я тоже считал, что матан это для ёбнутых пердоликов. А в аспирантуре считай грокнулсяпрозрел и теперь поясняю тебе. И нет, не говори только, что мол чел с высшим образованием при выходе из вуза на срыночек всегда жёстко всасывает. Всасывает потому, что 99% быдлостудентов нихуя не учатся и списывают на экзах. Сильный выпускник вуза на рыночек уже миддлом входит.

Аноним 05/10/25 Вск 16:29:41 № 1376558 139

>>1376160
птушник спок

Аноним 05/10/25 Вск 17:24:37 № 1376704 140

>>1376441
>нормально записывают "возьмите яйцо и сделайте яичницу" вместо каких-то каракулей типа "🥚->🍳".
Но если буквально следовать этим инструкциям, ты нихуя не приготовишь. Это такая же абстракция, как и мат формулы.
>Не нравится длинная запись - закинь в LLM, пусть она закорючками закодирует тебе нормальный текст
Так ты и закидывай, кто тебе запрещает то?

Аноним 05/10/25 Вск 21:53:18 № 1377202 141

>>1376704
>Так ты и закидывай, кто тебе запрещает то?
LLMки с нормальным пониманием скриншотов только недавно появились. А все эти LaTeX-записи очень часто отображаются как набор мелких картинок или чего-то такого, что просто не копируется простым текстом. Да и если где-то увидел такую формулу на бумаге - на обычной QWERTY-клавиатуре её вообще не наберёшь без костылей типа того же LaTeX (только подумайте: придумали специальный язык для записи текстов на другом специальном языке, лишь бы не писать как все нормальные люди общепринятыми символами...).

И потом, вот эта вот спискота:
>a - это абракадабра
>b - это бла-бла-бла
Не сильно помогает. Что мешает записать формулу так:
>result = sum(weight(i) x input(i)) + bias
Чтобы не приходилось выписывать в столбик пояснения?

Ладно, огромные матановские формулы длинные названия переменных будут ещё сильнее растягивать, но именно для этого и существуют "функции" - чтобы дать конкретное имя комбинации инструкций (процессору или человеку - не важно) и потом обращаться к этой комбинации из других комбинаций. А не сваливать всё в одну плотную неудобоваримую кучу.

>>1376474
>на более теоретическом и абстрактном уровне
Никто не спорит, что нужно понимать теоретическую базу, которая часто абстрактная. Но в данном случае мы обсуждаем нейронки, в которых вещи совсем не абстрактные. Те же QKV в трансформерах - почему я должен наизусть запоминать, что Q = Query, K = Key, V = Value? Сэкономили буквально несколько букв лишь бы обмазаться этими "абстрактными" формулами. Ещё и в код свои сокращения постоянно тянут, как будто боятся лишний килобайт на исходный код потратить или случайно выйти за ширину строки в 20 символов...

Ты можешь сказать, что так формулы записываются плотнее, следовательно, можно уместить больше операций на квадратном сантиметре бумаги. Вот только человеческий мозг имеет ограниченный контекст - говорят, в среднем он около 7 "элементов". Этим "элементом" может быть что-то независимое; в тексте это буква, слово или даже словосочетание (видимо, главное, чтоб оно было заучено наизусть). К примеру, вы знаете, почему номера телефонов часто записываются в форме "+7 (123) 456 78 90"? Почему цифры сгруппированы? Потому что мозгу намного проще распознать визуально и выучить наизусть 5 чисел, чем 10+ циферок по отдельности. Мозг воспринимает эти числа как атомарные сущности (можете рассматривать их как токены на входе в LLM), и это позволяет номеру телефона вписываться в узкий контекст краткосрочной памяти мозга целиком.

В программировании это ограничение человеческого мозга обнаружили и уяснили ещё в середине прошлого века и с тех пор рекомендуют держать все процедуры, функции, методы объектов, сами объекты (в ООП) и тому подобное как можно более коротким - не в смысле "сокращайте всё до непонятных аббревиатур" (как делают математики с их формулами и некоторые программисты), а в смысле "используйте меньше команд в коде". Потому что сплошную портянку на несколько экранов сложнее понять, чем набор маленьких функций, в каждой из которых около 7 строк-команд или меньше. Даже компиляторы обучили эти микрофункции копипастить в машинном коде без лишних прыжков (инлайнинг/встраивание функций), чтоб дать возможность крошить код на функции без вреда для производительности конечной программы.

Короче, от того, что ты свою формулу записываешь в виде мелких закорючек, эта формула не становится понятнее для мозга из-за биологических/физических ограничений мозга на контекст, если формула содержит десяток или больше отдельных операций. И от того, что ты спрячешь знак умножения ("axb" становится "ab") количество отдельных операций не уменьшится - т.е. мозгу всё равно нужно распарсить это умножение, сохранить в текущий контекст и потом что-то с этим сделать, несмотря на полное отсутствие обозначения операции умножения в формуле. Это физически тяжело нейронкам мозга - требует больше работы.

Поэтому программный код всегда будет лучше формул. Не потому, что он "менее абстрактный" (код может быть сколь угодно абстрактным и использоваться в 100500 разных ситуациях без изменений), а потому что учитывает физические ограничения мозга на контекст, загружая данные маленькими кусочками, а не плотным клубком из 25 отдельных операций с закорючками, смысл которых поди угадай без пояснительных сносок и долгих мучений с разбором на отдельные компоненты...

Алсо, часто встречаю мнение, что визуальная часть мозга мощнее языковой, и что многие люди могут решить проблему "визуально" значительно быстрее последовательного решения, типа в мозге очень высокая параллельность и всё такое. Вот только для чтения, т.е. распознавания, длинные слова естественных языков легче коротких закорючек - в том числе для той же самой супер-параллельной зрительной системы. Потому что мозг воспринимает длинные слова как цельные сущности, а не читает их каждый раз по буквам (по буквам читают только совсем маленькие дети), цепляясь за вспомогательные элементы букв, длину слова и т.п. параметры, которых у отдельных символов кот наплакал. Сравните, например, "number" с "many" против "n" с "m" - да, технически мы можем в обоих случаях успешно распознать написанное, но длинные слова мозг опознаёт/понимает быстрее. То есть текст из длинных слов читать мозгу легче, чем какой-то набор из отдельных букв с закорючками между ними. Если сравнить с CNN - для распознавания длинных слов у мозга больше фильтров задействовано, чем для отдельных символов, поэтому точность работы повышается. Т.е. даже если бы формулу можно было расшифровать "чисто визуально", с длинными обозначениями она быстрее считывается в контекст мозга.

...может быть, мой мозг плотная запись формул просто перегружает избытком информации. Тоже проблема - не я один такой, проблема информационной перегрузки, похоже, распространённая. Т.е. разложить формулу на элементы изначально, не сваливая всё в одну сверхплотную кучу закорючек было бы выгодно тем, что в разложенном виде больше людей смогут её понять без перегрузки.

...а может и не больше, если "понимание формул" - это какая-то генетически захардкоженная фича отдельных мозгов, которые благодаря этой встроенной фиче становятся математиками. Всё-таки не зря кому-то это даётся проще, чем другим. Печально, если так...

Эх, ладно, что-то я слишком много об этом всём написал... Но "изучать ИИ", когда вся важная (и особенно - новая) информация в неудобоваримом по многим причинам виде как-то не очень получается. Одна из причин, почему я никак в это вкатиться не мог в прошлом... Лишь благодаря самым новым LLMкам начал снова интересоваться темой ИИ/нейросетями и что-то в этом понимать, в т.ч. благодаря взаимодействию с LLM, которые могут нормальным человеческим языком объяснить, без лишних закорючек. Не факт, что правильно, к сожалению...

Спасибо за ответы, я как-то даже не ожидал серьёзных ответов.

Нет, мне совсем не сложно такие полотна писать. Ещё б от этой способности была хоть какая-то польза...

Аноним 05/10/25 Вск 22:48:04 № 1377283 142

>>1377202
>только подумайте: придумали специальный язык для записи текстов на другом специальном языке
Математические нотации придумали задолго до появления компьютеров, лол. Так что вопрос к ПК, хули он такой ограниченный по сравнению с бумагой.
И вообще, у математиков проблем нет.
>в которых вещи совсем не абстрактные
Таки абстрактные. Ключи, значения, это просто близкие из человеческого языка вещи. Но они на самом деле нихуя не ключи и нихуя не значения, а просто названия для перемножаемых матриц, лол.
>Поэтому программный код всегда будет лучше формул.
Лучше всего изучать объяснения, потом формулы, потом код. Иначе от одного кода нихуя не понятно, что, куда и зачем.

Аноним 06/10/25 Пнд 04:35:58 № 1377589 143

883eeb2759efe2e[...].png 659Кб, 1560x720

>>1151064 (OP)
От GPT-2 к GPT-OSS анализ достижений архитектуры

- Сравнение архитектуры моделей с GPT-2
- Оптимизация MXFP4, позволяющая разместить модели gpt-oss на одной видеокарте
- Компромиссы между шириной и глубиной (gpt-oss vs Qwen3)
- Внимание, смещения и «поглотители» (attention bias and sinks)
- Бенчмарки и сравнение с GPT-5

https://habr.com/ru/articles/953554/

Аноним 06/10/25 Пнд 09:40:15 № 1377676 144

>>1377202
Пчел, но этот итт называется "исследования", то есть здесь по идее единственный загончик для пердоликов-перельманов, и здесь они имеют полные права на формулы, я в этом уверен.

> Одна из причин, почему я никак в это вкатиться не мог в прошлом...

Ясно с тобой всё, можешь не продолжать

Аноним 06/10/25 Пнд 13:49:27 № 1377911 145

изображение.png 56Кб, 1165x404

Определение еди[...].jpg 13Кб, 518x60

>>1377589
Ебать они долго переводили. Рашка (эта фамилия чувака, без рофлов) ещё в августе написал.
>>1377676
Оно вроде никого не прогоняло. Так что давайте ебашить формулы. Теперь я вместо 1 буду постить пикрил 2 (а вместо двойки надо дважды постить, или как?).

Аноним 06/10/25 Пнд 14:01:16 № 1377921 146

>>1377911
Блядь, да хули ты тут разрешения спрашиваешь как целка? Будь как все, ёпт. Ссы одним в ротешник и принимай урину от других. Как не на дваче нах.

Кстати, проиграл с фамилии на твоём первом пике.

Аноним 06/10/25 Пнд 17:38:25 № 1378250 147

>>1377911
>пикрил 2
https://habr.com/ru/articles/263067/

>>1376160
>Но ты мне лучше скажи, зачем описывать простые понятные вещи такими сложными формулами, а? Например, математики пишут непонятную фигню, совершенно ничего не означающую в реальности:
>>y = Σw_i*x_i+b
>Хотя НА САМОМ ДЕЛЕ они подразумевают вот это:
В том, чтобы писать абстрактную фигню, не соотносящуюся напрямую с реальностью, и смысл.

Конкретно тут не подразумевается того, как физически будет реализовываться это вычисление.
Не подразумевается (а даже запрещается, т.к. нужна коммутативность) арифметика с плавающей точкой, не подразумеваются цифровые вычисления (может быть, w_i - проводимости мемристоров, x_i - напряжения, а b и y - токи). Нет строгого требования даже к тому, что тут - аргументы, а что - результаты вычислений.

Если говорить именно про программную реализацию, не подразумевается последовательность/параллельность итерации, не подразумевается использование/неиспользование fused multiply-add. ИРЛ это было бы вообще матричное умножение с целым выходным вектором, а не то, что ты написал.

>>1376441
>
>Я просто не понимаю, почему нельзя использовать нормальные, читаемые взглядом обозначения (а не закорючки из давно умерших языков, которые ещё отличить попробуй, не то, что вспомнить название), записывать нормальные императивные команды?

>>1376441
> Я просто не понимаю, почему нельзя использовать нормальные, читаемые взглядом обозначения (а не закорючки из давно умерших языков, которые ещё отличить попробуй, не то, что вспомнить название), записывать нормальные императивные команды?
Математика (и алгебра вообще) декларативна, а не императивна. Она не является формой записи алгоритмов, она является формой записи соотношений (и более общих утверждений).

> Ладно, в древности на глиняных табличках, папирусе, бересте и т.п. места было мало, приходилось всё это ужимать до микрокорючек. Сегодня у каждого дома терабайтовые SSD в нескольких устройствах сразу - нахрена сжимать информацию до корючек? Или эти "пейперы" в 2025 кто-то распечатывает на бумагу?
В 2025 для предварительных расчётов использовать бумажные черновики для предварительных расчётов или простых аналитических вычислений всё ещё легче, чем делать черновик в LaTeXе.

А про закорючки - есть операции и есть переменные.
Операции считаются общеизвестными в данной области. Если ты не знаешь, как обозначается матожидание случайной величины или условная вероятность, иди кури маны.
С названиями переменных сложно, да. В нормально оформленных статьях (и учебниках) определения переменных вводятся где-то в начале. Но букв, зараза, не хватает.
Некоторые используют многобуквенные переменные (и, соотв., отказываются от неявного умножения), но (кроме экономики, хы) это редкая и нестандартная штука.

Аноним 06/10/25 Пнд 17:40:42 № 1378256 148

>>1377202
> Те же QKV в трансформерах - почему я должен наизусть запоминать, что Q = Query, K = Key, V = Value? Сэкономили буквально несколько букв лишь бы обмазаться этими "абстрактными" формулами. Ещё и в код свои сокращения постоянно тянут, как будто боятся лишний килобайт на исходный код потратить или случайно выйти за ширину строки в 20 символов...
Плюс-минус по тем причинам, про которые ты дальше пишешь.
QKV - это термин, атомарная смысловая единица. А не просто три несвязанных слова.

Плюс "кью-кэ-вэ" короче по произношению, чем "кьюри-кей-вэлью".
Длинными словами думать не удобно, а без мысленного произношения слов думать не все умеют.

Ты же не будешь везде вместо LLM писать Large Language Model, особенно в названиях в коде?

>Вот только человеческий мозг имеет ограниченный контекст - говорят, в среднем он около 7 "элементов". Этим "элементом" может быть что-то независимое; в тексте это буква, слово или даже словосочетание (видимо, главное, чтоб оно было заучено наизусть). К примеру, вы знаете, почему номера телефонов часто записываются в форме "+7 (123) 456 78 90"? Почему цифры сгруппированы? Потому что мозгу намного проще распознать визуально и выучить наизусть 5 чисел, чем 10+ циферок по отдельности. Мозг воспринимает эти числа как атомарные сущности (можете рассматривать их как токены на входе в LLM), и это позволяет номеру телефона вписываться в узкий контекст краткосрочной памяти мозга целиком.

Только вот размер рабочей памяти для разных типов информации, разных состояний сознания и разных операций различается, иногда значительно. Особенно это заметно, если говорить про пространственную информацию (расположение объектов в квартире или в районе дома).

Готов поспорить, ты можешь вспомнить все 10 цифр подряд и можешь воспринять их как 10 элементов, игнорируя их "внутреннюю структуру" (то, какими закорючками они записываются, например).

(Кстати, разве номера телефонов записываются так не по историческим причинам? Мол, сначала были внутригородные NN-NN, потом междугородные MMM NN-NN, потом +X/+XX MMM NN-NN, потом +X(X) (WWW) MMM NN-NN. По проводному телефону внутри города можно звонить, опуская префикс, вроде.)

>В программировании это ограничение человеческого мозга обнаружили и уяснили ещё в середине прошлого века и с тех пор рекомендуют держать все процедуры, функции, методы объектов, сами объекты (в ООП) и тому подобное как можно более коротким - не в смысле "сокращайте всё до непонятных аббревиатур" (как делают математики с их формулами и некоторые программисты), а в смысле "используйте меньше команд в коде". Потому что сплошную портянку на несколько экранов сложнее понять, чем набор маленьких функций, в каждой из которых около 7 строк-команд или меньше. Даже компиляторы обучили эти микрофункции копипастить в машинном коде без лишних прыжков (инлайнинг/встраивание функций), чтоб дать возможность крошить код на функции без вреда для производительности конечной программы.

А потом поняли, что поторопились. Иногда (а может, достаточно часто) нет возможности разделить длинную функцию на осмысленные простые короткие функции. А если поделить принудительно, к каждому куску придётся добавлять полэкрана документации и прочего контекста.

И почему речь идёт об ограничении в 7 именно строк либо операторов языка, а не 7 токенов или 7 высокоуровневых операций? Видимо, потому что считать токены - очевидно (?) бессмыслено, деление на высокоуровневые операции субъективно, а KPI какие-то придумать надо, как же без метрик-то, а?

> Короче, от того, что ты свою формулу записываешь в виде мелких закорючек, эта формула не становится понятнее для мозга из-за биологических/физических ограничений мозга на контекст, если формула содержит десяток или больше отдельных операций. И от того, что ты спрячешь знак умножения ("axb" становится "ab") количество отдельных операций не уменьшится - т.е. мозгу всё равно нужно распарсить это умножение, сохранить в текущий контекст и потом что-то с этим сделать, несмотря на полное отсутствие обозначения операции умножения в формуле. Это физически тяжело нейронкам мозга - требует больше работы.
>
> Поэтому программный код всегда будет лучше формул. Не потому, что он "менее абстрактный" (код может быть сколь угодно абстрактным и использоваться в 100500 разных ситуациях без изменений), а потому что учитывает физические ограничения мозга на контекст, загружая данные маленькими кусочками, а не плотным клубком из 25 отдельных операций с закорючками, смысл которых поди угадай без пояснительных сносок и долгих мучений с разбором на отдельные компоненты...

Ты так говоришь, будто формула, записанная в программистской нотации, будет содержать меньше токенов (в смысле лексера/парсера, = имён переменных, функций и операций), чем в математической нотации.
Ты, в конце концов, так говоришь, будто формулу можно сократить без потери информации.
Будто с декомпозированной формулой можно работать.

> смысл которых поди угадай без пояснительных сносок и долгих мучений с разбором на отдельные компоненты
Или чтения начала статьи, блин.

Аноним 06/10/25 Пнд 17:41:39 № 1378257 149

>>1377202
> Вот только для чтения, т.е. распознавания, длинные слова естественных языков легче коротких закорючек - в том числе для той же самой супер-параллельной зрительной системы.
Слова, вмещающиеся в "визуальное контекстное окно для текста" и известные человеку, одинаково просты, пусть даже некоторые из этих слов состоят из одной буквы. Союз "и", например. Или знак запятой (если брать слова в широком смысле). Или i (которая переменная итерации либо мнимая единица).
А какую-нибудь длинную НЁХу, как сложные (составные) слова в немецком или числа в 10 знаков, читать не удобно чисто потому, что глаз сбивается.

А распознавание смысла - штука отдельная (хоть и связанная) от визуального/слухового распознавания символов.
Можно легко прочитать "турбоэнкабулятор" (т.к. слово это - типичное английское), сразу увидеть слоги, некоторые части слова, но не понимать, что оно означает (ничего реального, это - старая инженерная шутка).

> Сравните, например, "number" с "many" против "n" с "m" - да, технически мы можем в обоих случаях успешно распознать написанное, но длинные слова мозг опознаёт/понимает быстрее. То есть текст из длинных слов читать мозгу легче, чем какой-то набор из отдельных букв с закорючками между ними.
Опознаёт быстрее, ИМХО, в первую очередь из-за большей "экранной площади". Если взять шрифт по-больше для "n" и "m", читаться они будут с одинаковой скоростью.

А смысл и там, и там контекстно-зависимый. Это язык (язык математики/программистских обозначений) знать нужно.

> ...может быть, мой мозг плотная запись формул просто перегружает избытком информации. Тоже проблема - не я один такой, проблема информационной перегрузки, похоже, распространённая. Т.е. разложить формулу на элементы изначально, не сваливая всё в одну сверхплотную кучу закорючек было бы выгодно тем, что в разложенном виде больше людей смогут её понять без перегрузки.
Только вот формулы часто нельзя декомпозировать (как минимум так, чтобы результат подходил для всех целей, напр. и для удобства понимания новичками, и для удобства интегрирования/анализа сходимости, и для удобства вычисления коэффициентов). А когда можно, возникают всякие теории полей, колец и матроидов. Со своими "непонятными" нотациями, заметь.

И не только формулы, заметь. По сути всё, где есть обратная связь, разделить на простые части можно, только если можно сжать описание воздействия обратной связи во что-то простое.
Как в транзисторных усилителях проигнорировать влияние выходного сигнала на входной (а потом будут истории, что в советское время пеленговали радио, которые слушали "Радио Свободу" или как её там, потому что та самая проигнорированная обратная связь).

Для практических целей нужно уметь самому декомпозировать и упрощать формулы, именно для тех целей, которые у тебя прямо сейчас.

> ...а может и не больше, если "понимание формул" - это какая-то генетически захардкоженная фича отдельных мозгов, которые благодаря этой встроенной фиче становятся математиками. Всё-таки не зря кому-то это даётся проще, чем другим. Печально, если так...
Ну ХЗ, я в принципе не верю (ХЗ, где научные подтверждения искать), что генетика мозга в принципе может избирательно влиять на мысленные процессы. (Ладно там "гены шизофрении", это, судя по статьям, больше похоже на общемозговое изменение начальных условий/"точки равновесия".)

> Эх, ладно, что-то я слишком много об этом всём написал... Но "изучать ИИ", когда вся важная (и особенно - новая) информация в неудобоваримом по многим причинам виде как-то не очень получается. Одна из причин, почему я никак в это вкатиться не мог в прошлом...
https://d2l.ai/chapter_attention-mechanisms-and-transformers/queries-keys-values.html
Ну вот, первая попавшаяся статья. Тут даже без чтения предыдущих статей суть понятна, идеи применения можно прикинуть.
Обычно такого и достаточно при изучении теории. А тебе как там, понятно?

Моя простыня - более простыня, чем твоя простыня.

Аноним 06/10/25 Пнд 18:50:00 № 1378341 150

>>1378250
>>пикрил 2
>https://habr.com/ru/articles/263067/
Знак надчёркивания на месте, я спокоен.
>>1378256
>Мол, сначала были внутригородные NN-NN, потом междугородные MMM NN-NN, потом
У нас несколько раз они менялись, разряды добавлялись безо всякого межгорода. Так что было и 4, и 6, и 7 цифр.
>>1378257
>Моя простыня - более простыня, чем твоя простыня.
Да вы все тут ебанулись нахуй обсуждать нужность формул в машобчике. И я тоже ебанулся.

Аноним 06/10/25 Пнд 21:28:05 № 1378497 151

>>1378341
>Да вы все тут ебанулись нахуй обсуждать нужность формул в машобчике

Вот этого люто двачую. Если мы скатились до такого, тред можно закрывать. Весь мир обсуждает, какую ещё мат. операцию вставить между энкодером и декодером, чтобы преодолеть curse of dimensionality, ну и чтобы все охуели конечно же, а мы обсуждаем нужен ли матан зловонный этот вообще или нет. Вот именно поэтому все новые ништяки придумываются там, а не здесь...

Аноним 06/10/25 Пнд 22:24:02 № 1378554 152

Как тебе такое, Илон Маск?
https://habr.com/ru/companies/bothub/news/953988/

Аноним 07/10/25 Втр 07:05:23 № 1378735 153

>>1378554
Хотелось бы больше подробностей. Мне показалось, или они опять юзают рекуррентность?

Аноним 13/10/25 Пнд 12:00:29 № 1385344 154

Объясните что такое LoRA и как побаловаться с ним? Видел где-то тред про это но потерял

Аноним 14/10/25 Втр 22:36:11 № 1387203 155

>>1151064 (OP)
NVIDIA представила исследование нового формата чисел для обучения больших языковых моделей
https://habr.com/ru/companies/bothub/news/956416/

Аноним 15/10/25 Срд 06:22:57 № 1387547 156

>>1376160
Тут вот какая проблема, ты одно уравнение линейной регрессии записал в общей форме в абзац текста, если я тебе начну в такой формат переводить свои реальные рабочие выкладки, то там будет по 60 листов.
Математический язык очень лаконичный, а в код переписать всегда успеешь (большая часть математики до кода впринципе не доходит, тк ещё на этапе поверхностного моделирования становится понятно что происходит какая-то хуета).

Ну и плюс у математического языка есть хорошее свойство генерализировать разные штуки.

Короче распиши несложную сеть с 3 слоями, 20 инпутами, 2 аутпутами и софтмаксом на конце с прямым проходом и вычислением всех производных весов нейронов (только не одного нейрона, а общий случай на каждый слой) в виде алгоритма, и на математическом языке, во-первых будет просто полезно для понимания матчасти раз ты учишь эту тему, а во-вторых сам быстро поймёшь почему язык математики работает, а текст и блок-схемы не работают (да и код часто читать сложнее латекса).

Аноним 15/10/25 Срд 19:11:18 № 1387967 157

>>1377202
>Никто не спорит, что нужно понимать теоретическую базу, которая часто абстрактная. Но в данном случае мы обсуждаем нейронки, в которых вещи совсем не абстрактные. Те же QKV в трансформерах - почему я должен наизусть запоминать, что Q = Query, K = Key, V = Value? Сэкономили буквально несколько букв лишь бы обмазаться этими "абстрактными" формулами. Ещё и в код свои сокращения постоянно тянут, как будто боятся лишний килобайт на исходный код потратить или случайно выйти за ширину строки в 20 символов...

Ты сейчас вскрыл интересную тему, что дураки это не совсем то что в социуме обычно понимается. Согласно кривой статистического распределения, есть по 5% людей которые умнее или тупее всех остальных. Речь не идет о буквальных умственных отсталых, которые не способны жить самостоятельно.

Как отличить 5% самых умных? Они на автомате объясняют вещи на пальцах, потому что живут в обществе, и выучили пробным путем что если они не будут расжевывать всем все то их никогда не поймут - потому что 95% по определению их тупее. Плюс, наиболее эффективный способ разобраться в теме это в голове ее разобрать, как если бы кому-то объяснял.

Соответственно, 5% самых тупеньких наоборот стараются изъясняться максимально запутанным образом - потому что если они не будут это делать, их сразу запишут в тупых, а им бы этого не хотелось. Поэтому там где можно сказать 5 слов, мудак использует 50, а в промежутках для еще мгнозначительно помычит для весу. Процессор умеет гонять более одного конвеера инструкций одновременно, как это назвать, многоконвеерность? Да ну нахуй, СУПЕРСКАЛЯРНОСТЬ. Ну да, формулы есть максимально эффективный способ передачи, при условии что тот кому ты их передаешь способен их расшифровать. Но не единственный, а если неспособен, то это максимально неэффективый, и тебе нужно переключаться на графики которые можно понять визуально или псевдокод. Но - идиот он и есть идиот. Еще для тупых характерен лютейший group think с закидыванием говном всех кто не придерживается общепринятого в их группе мнения.

И тут возникает момент - идиот же не может быть математиком! На самом деле еще как может, и даже скорее всего большинство математиков являются идиотами. Есть такая штука как парадокс моравека, математика это классический из его столпов. Есть еще такая штука как вундеркинды, про них наиболее часто знают в контексте шахмат и математики. И это сферы, в которых компы в первую очередь начали уделывать людей начисто. В то же время, про вундеркиндов от экономики и медицины ничего особо не слышно, потому что это не области где можно функионировать в изоляции как мозг в банке. У дурака по сравнению с обычным человеком "железо" в башке не способно потянуть полноценный чекпоинт, с социализацией, мудростью, интуицией и т.д. Зато гиперсфокусироваться на узкой области оно может, и учится быстрее нормального человека, потому что параметров у нейронки дурака намного меньше. Если дураку повезет, и этой областью становятся не дота или лор стартрека, как это обычно бывает, получается Эйнштейн. Это кстати хороший аргумент в пользу классического образования, с изучением в придачу к математике еще и всякой поэзии со спортом. Если бы оно было внедрено повсеместно мы бы смогли избежать заебавших всех ретардов типа Маска и Юваля Харари.

Ну и хорошие новости - технический прогресс неумолим. Раньше кодинг - это был процесс слинковывания инструкций процессора, на этом взлетали всякие крутые ретарды типа Кнута. Сейчас кодинг это копипейст кусков из чатжпт, и обратного процесса не будет, далее будут "языки программирования" в которых нужно будет рисовать коробочки со стрелками и внутри писать нейронке что эта коробочка должна делать. С математикой то же самое будет, это будет чисто внутренний формат данных для ризонинга нейронки.

Аноним 15/10/25 Срд 20:22:48 № 1388028 158

>>1387967
>далее будут "языки программирования" в которых нужно будет рисовать коробочки со стрелками
На это дрочили лет 20, воз и ныне там. Короче нет, не будет.
Ну и остальные анал огии про тупых и количество нейронов у них не выдерживают никакой критики. Самые умные вообще решают задачи, на объяснение названий которых тебе уйдёт полчаса (притом что ты скорее всего не совсем тупой), и это нормально, так же, как и специализация на узкой сфере.

Аноним 16/10/25 Чтв 02:31:38 № 1388631 159

>>1388028
>На это дрочили лет 20, воз и ныне там. Короче нет, не будет.
Точно? Потому что осталось коммерческий IDE под это дело сделать и прикрутить туда апи к чатгпт.

>Самые умные вообще решают задачи
Люди вообще любые видят обычно сны, то есть рендерят себе видосы порой в пару часов, тратя на это буквально единичный ватты, это у мозга состояние отдыха такое. То есть в плане чистой вычислительной мощности любой матан по сравнению с этим есть хуйня. То что ты понимаешь под решением задач, с точки зрения человека как организма это закручивание шурупов жопой, оно не от ума зависит, а от способности убедить себя в ценности, на самом деле биологически сомнительной, данного занятия.

Аноним 16/10/25 Чтв 14:21:39 № 1389584 160

>>1388631
>Точно?
Точно. Твёрдо и чётко.
>то есть рендерят себе видосы порой в пару часов
Или думают, что рендерят, а на самом деле там описание на три байта и додумка уже после пробуждения.

Аноним 17/10/25 Птн 08:58:29 № 1390588 161

>>1387967
>Процессор умеет гонять более одного конвеера инструкций одновременно, как это назвать, многоконвеерность? Да ну нахуй, СУПЕРСКАЛЯРНОСТЬ.
Этому есть простое объяснение, вопрос терминологии не имеет большого значения пока ты не эксперт, и имеет большое значение для экспертов, которым требуется предельно точно выбирать выражения для эффективной коммуникации друг с другом в научных статьях и работах. Ну и когда ты пишешь статьи у тебя эта избыточная точность сама собой просачивается в деловой спич.

Я раньше тоже глядел как на сумасшедших этих людей, которые называют базы данных СУБД, а строки кортежами, но сейчас когда я работаю с данными на серьезном уровне, для меня очевидна разница между БД и СУБД, а также кортежами и строками.

> Сейчас кодинг это копипейст кусков из чатжпт, и обратного процесса не будет
Я почему-то сейчас уверен, что ты никогда не работал с кодом на серьезном уровне. Только полнейший дилетант может написать такую чушь.

> С математикой то же самое будет, это будет чисто внутренний формат данных для ризонинга нейронки.
Ты тредом ошибся: тут как раз сидят люди, которые крутят внутренности сетей. У нас эти формулы - рабочий инструмент.

>>1388631
>Точно? Потому что осталось коммерческий IDE под это дело сделать и прикрутить туда апи к чатгпт.
Ну прикрути, миллиардером станешь. Шутка.
ЛЛМы существуют три года, но никто не смог решить эту задачу потому что ЛЛМы справляются только с простейшими дилетантскими задачами уровня простеньких автоматизационных скриптов и университетских задач по курсам программирования/DSA.
Современные приложения состоят не из 200 строк кода, а из десятков/сотен тысяч строк, этот момент мечтатели упускают, как и тот, что никто не смог засунуть в сущестующие ЛЛМы такое кол-во токенов.
Короче пока это просто неплохие вспомогательные инструменты, заменять реальных инженеров они не могут, и прогресса за три года в этом вопросе примерно ноль: биг тех репортирует инвесторам что вот-вот уже завтра их модели научатся заменять инженеров, и... продолжают их нанимать. Потому что знают, что не научатся.

Аноним 17/10/25 Птн 15:41:01 № 1390936 162

>>1390588
>У нас эти формулы - рабочий инструмент.
Ну кстати я сижу трейню безо всяких формул, только код теребонькаю, в основном беру один идеи и применяю их в других сферах.
>завтра их модели научатся заменять инженеров, и... продолжают их нанимать
Не в России, лол. Ищу работу третий месяц, такого тухляка на рынке я ещё не видел.

Аноним 17/10/25 Птн 20:55:19 № 1391411 163

>>1390936
> Не в России, лол. Ищу работу третий месяц, такого тухляка на рынке я ещё не видел.
Это не связано с AI движухой (AI слоуп вообще тут влияет в благоприятную сторону: множеству этих AI стартапов тоже нужны инженеры, т.е. они увеличивают количество работ на рынке). Просто самому IT рынку сейчас тяжело, и в РФ, и за ее пределами (финансовый кризис, уменьшился объем инвестиций в стартапы, биг тех долгое время неконтролируемо дул зарплаты и нанимал слишком много сотрудников в 2021 году).
Если ты посмотришь на данные, то произошло примерно следующее: в 2021 году количество работ раздулось примерно вдвое, а к 2024 этот пузырь рухнул, и их количество откатилось назад до доковидного значения, и продолжает потихоньку расти. Ты видимо молодой и не застал 1999 и 2008, там были точно такие же проблемы.

Аноним 20/10/25 Пнд 00:49:10 № 1394174 164

>>1390588
>Ну и когда ты пишешь статьи у тебя эта избыточная точность сама собой просачивается
У специалиста специализированная лексика используется для общения со специалистами, у брейнлейтов она просачивается везде, да.

>У нас эти формулы - рабочий инструмент.
Да попизди ты тут, рабочий инструмент у вас это воркфлоу с цивита скочать. Можно подумать дадут вам что-то эти формулы без доступа к собственному датацентру.

>ЛЛМы существуют три года, но никто не смог решить эту задачу
25% кода в штатах пишутся нейросетками, выпуск мажоров в CS упадет через пару лет на 20%, что за счет эффекта домино само по себе увеличит процент генерируемого нейросетями кода. А так да, прогресса ноль.

>Современные приложения состоят не из 200 строк кода, а из десятков/сотен тысяч строк
Только целый класс можно описать полудюжиной токенов, и эти сотни тысяч кода влезут в 4к контекста, после чего с ними работать сможет модель 7B. То что они еще не описываются это чисто результат того что у ойтишников правило не писать документацию и не комментить выкладываемый код, потому что у дураков инстинкт запутывать все. Поэтому во всяких опенай сейчас приходится платить индусам чтобы они комментили датасет, именно в это и упирается все скорее всего.

Аноним 20/10/25 Пнд 13:40:17 № 1394686 165

>>1394174
> У специалиста специализированная лексика используется для общения со специалистами, у брейнлейтов она просачивается везде, да.
Напомню, что ты кукаретик, а не специалист, тебе откуда быть в курсе?

>Можно подумать дадут вам что-то эти формулы без доступа к собственному датацентру.
Эм, о чем ты, большую часть решаемых прикладных задач можно решать за приемлемое время на единственном цпу ядре. Не все, блядь, крутят ллмы на трансформерах, это 1% рынка буквально.
Вычислительный кластер большинства организаций это спарк в кубер кластере на пару нод + минио с парой ТБ данных сбоку, не всегда с ГПУ даже.

> 25% кода в штатах пишутся нейросетками, выпуск мажоров в CS упадет через пару лет на 20%
Да 70% пишется, хуле, а выпуск мажоров упадет на 99%. Ты когда с такими охуенными тезисами выступаешь прикладывай источник хотя бы какого журналиста цитирующего инфоцыганина ты пересказываешь.

> Только целый класс можно описать полудюжиной токенов, и эти сотни тысяч кода влезут в 4к контекста, после чего с ними работать сможет модель 7B.
Ну все, пиздец, кукаретик архиватор Бабкина изобрел. Ну пиздуй захуяривать, станешь миллиардером.

> и упирается все скорее всего.
Ну ладно, хоть в конце признал, что вылез далеко за границы экспертности.
Блядь, да пойди собери автоматизацию чуть посложнее 1 скрипта на 100 строк и поймешь в чем проблема, осел тупой, классы у него на полдюжины токенов, охуеть бля.

Аноним 20/10/25 Пнд 20:25:59 № 1395283 166

>>1391411
Нихуя не понял, вкатываться или нет в ойти????
Я так понял твой пост позитивный и значит ДА!!

Аноним 21/10/25 Втр 04:33:50 № 1395500 167

>>1395283
Айти это просто отрасль. Твой вопрос звучит как "вкатываться ли мне в автопром?". Среди автопромщиков есть и инженеры, зарабатывающие больше миллиона рублей в месяц, и лузеры, убирающие мусор на задворках последнего завода автоваза. Если тебя искренне увлекают компьютеры, вкатывайся, конечно, в айти хорошие возможности для таких как ты. Если тебя интерует что-то другое - ну, прикинь возможности в любимой сфере, и реши для себя какие там перспективы, и стоит заниматься этим, или же бросить взгляд на нелюбимое.

По своему опыту так скажу, все лучшие спецы с которыми я работал - это те, которые занимаются любимым делом. Но это не значит, что любое дело можно монетизировать. Мне повезло, и мое любимое дело перспективное, а потому спрашивать тебе, наверное, стоит не меня, раз ты сомневаешься.

Аноним 24/10/25 Птн 21:21:05 № 1398981 168

>>1151064 (OP)
Учёные представили метод, который ускоряет self-attention до 4.4×
https://habr.com/ru/companies/bothub/news/959936/

> Новая архитектура Adamas предлагает радикальное ускорение механизма внимания до 4.4× быстрее, при сохранении качества даже на длинных контекстах (100k+ токенов).
> Главная идея — отказаться от сравнения каждого токена со всеми. Вместо этого Adamas динамически выбирает 128 наиболее релевантных токенов для каждого запроса. Чтобы определить релевантность, применяется преобразование Адамара. Оно сглаживает распределение значений и переводит их в 2-битные представления, после чего сходство оценивается с помощью Manhattan-метрики.

Аноним 01/11/25 Суб 03:27:20 № 1404272 169

>>1398981
А это можно использовать с BERT? Допустим я с нуля сделал архитектуру BERT и загрузил туда pre trained веса с huggingface, (distilbert--base-uncased) что бы файнтьюнить

Аноним 01/11/25 Суб 06:36:13 № 1404302 170

>>1404272
Используй, кто ж запретит. Только код придётся писать самому. А судя по вопросам, ты хлебушек, так что увы и ах, у тебя не выйдет.