Отец знакомого работает в OpenAI. Сегодня срочно вызвали на совещание. Вернулся поздно и ничего не объяснил. Сказал лишь собирать датасет и бежать оформлять подписку на месяц. Сейчас сидим и ждем чего-то. Не знаю что происходит, но мне кажется началось...
>>1288386 Т.е. никто серьезно из разработчиков в АГИ не верит, а все эти разговоры чисто для хайпа? Ведь если бы АИ к 2029 мог почти полностью вытеснить программистов, художников, композиторов, операторов колцентров и т.п., то прибыли должны бы быть значительно больше. А то я смотрел интервью от крестного отца ИИ, где он говорил, что программистам пора осваивать профессию водопроводчика.
>>1288410 > Т.е. никто серьезно из разработчиков в АГИ не верит, а все эти разговоры чисто для хайпа? Ведь если бы АИ к 2029 мог почти полностью вытеснить программистов, художников, композиторов, операторов колцентров и т.п., то прибыли должны бы быть значительно больше. Выручка генерируется не прогнозами, а полезностью на сегодняшний день. Люди и корпорации платят за то, что полезно уже сегодня. Насчет разрабов не знаю, но Цукерберг смог переманить из OpenAI не всех. Когда он предложил одному из ключевых разрабов зарплату в миллиард за несколько лет, тот отказался. А Суцкевер отказался продать Цукербергу свою компанию за 30 миллиардов. По крайней мере, некоторые верят, как мне кажется.
>>1288382 >А зачем такие мощности под ИИ планируют? Это мегацентры обработки данных о населении, стране, и мире.
>Он вообще коммерчески окупается или это с прицелом, что выстрелит в будущем? Он уже купается геополитически, а это важней. Весь мир видит что США - центр цивилизации, больше мозгов и бесплатных рабов хотят там жить - сильней экономика страны. Надо быть ебланом, чтоб этого не понимать.
>>1288382 >что выстрелит в будущем? тут вкидывали подкастера он такую вещь сказал что инвесторы могут ошибиться с объектом инвестиции, но не ошибаются с трендом в компы инвестировали, но не все инвестировали в айбиэм и майкрософт так что сфера явно прибыльная, но никто не знает кто прибыль получит
>>1288382 Самая важная технология столетия. Без ИИ прогресс ползком будет двигаться - а у человечества нет столько времени: мир могут захватить инопланетяне, мусульмане или хуй знает что ещё.
Это чисто вопрос существования человечества. На все эти вычислительные центры нужно бросить максимально возможные ресурсы.
>>1288382 Если погуглишь, то узнаешь что тот же амазон основную чистую прибыль делает не на комисии маркетплейса амазон, а на AWS - облачном сервисе. Это я к тому, что скупая гпу пачками ты в любом случае в выигрыше. Если выстрелит твоя иишка - будешь зарабатывать на подписках, если не выстрелит - будешь сдавать в аренду и в хуй не дуть
>>1288453 наступит же момент когда робот гуманоид случайно кого-то из людей убьет чисто статистически это рано или поздно произойдет. вангую что у этого человека будет страничка в вики и в честь него назовут какой-нибудь закон против ии
Посмотрел еще один видос про приближающийся АГИ. Все эти спецы дают прогнозы на скачок в ближайшие годы, а не десятилетия.
При это я не знаю, текущий ИИ готов хоть сколь-нибудь ПОНИМАТЬ, а не копировать. С одной стороны, он вроде круто рисует, а с другой, допускает детские ошибки.
Смотрел выступление Кармака, он говорил, что текущий ИИ бесконечно далек до того, чтобы сесть и начать играть в игру хотя бы на спектруме.
Т.е. можно говорить, что пока ИИ выдает некое обобщенное решение на базе скормленной информации, но не может сам проводить исследования, узнавать новое, т.е. никакого намека на АГИ.
>>1288491 Общее понимание не нужно, это привилегия человека. Для того чтобы решить все мировые проблемы, хватит узкого понимания, как оно сейчас у ИИ. Если начинаешь базарить с ним по конкретным проблемам, он их вполне понимает, не хуже среднего чела. Большинство людей как раз узкоспециализированы, так цивилизация настраивала роли последние 2 века. Даже общее образование отменили в пользу специализированного. Игры, где хватает узкого понимания, ИИ тоже уже проходит. Короче революция это замена узкого спеца, а не общего понимания, всего того что человек в принципе может. Человек универсален, ИИ нет, но ИИ заменит каждого, кто не занят слишком креативной деятельностью, требующей более общих навыков понимания.
>>1288491 >Т.е. можно говорить, что пока ИИ выдает некое обобщенное решение на базе скормленной информации, Проблема в том, что эти обобщения бесконечно далеки от предметной области. По этому нейросетки и допускают ошибки - у них почти не сформировано внутри никаких моделей предметной области.
По сути текущие LLM могут делать только одну работу - предсказывать следующий токен. Те же рекуррентные нейросети могут делать кучу вещей внутри себя, работать с множеством входных последовательностей.
>>1288500 >. Если начинаешь базарить с ним по конкретным проблемам, он их вполне понимает, не хуже среднего чела. Только если ты сам нихуя не знаешь по этим проблемам. Как только у тебя появляются какие-то данные и компетенция - моментально будешь находить ошибки в самых ответах
>>1288500 Я говорил о том, что ИИ выдает среднее решение уже с готовой базы. Т.е. он может сказать, что примерно написано о любой физической теории, но не способен разработать свою, как Эйнштейн. Т.е. не выдать какую-то фантастику, а именно все доказать, все проверить формулами. Потому что он не думает.
>>1288504 Тебе не ошибки надо находить, а работу выполнять. ИИ сейчас уже может выполнять работу на уровне среднего чела. Спец его уделает за счет общего понимания, но это не везде нужно. Там где нужно много компетенции, останутся люди, но таких работ меньшинство.
>>1288505 А много ли Эйнштейнов? Может найти решение на уровне олимпиадника ИМО - уже уделает большинство людей, на средней работе, где нужны обычные похожие решения. Там где науку вперед двигать, понятно люди пока останутся.
>>1288410 >А то я смотрел интервью от крестного отца ИИ, где он говорил, что программистам пора осваивать профессию водопроводчика. ИИ уже генерит неплохой код. Если ему сделают достаточно большое окно, чтобы туда легаси проекты целиком влезали, вполне возможно и вообще все генерить станет. А это уже означает, что с фирмы попрут всех, кроме пары сеньоров, которые будут архитектуру за ИИ проверять. Все сотни человек попрут.
>>1288506 > Тебе не ошибки надо находить, а работу выполнять. Так как я выполню работу, если мне нейроночка нейрослоп выдаёт каждый раз? > ИИ сейчас уже может выполнять работу на уровне среднего чела. Хуйню несёшь. Она не способна даже на уровне вкатуна в айти работу выполнить, не говоря про джунов или мидлов.
>>1288510 > ИИ уже генерит неплохой код. Нет, к сожалению не генерит. По сути она даже какие-то примеры не может сгенерировать, отборная хуета каждый раз получается.
>>1288511 Хуйню тут ты несешь или отсталыми нейронками пользуешься. Я лично давал нейронкам делать проекты, которые никакому джуну не под силу. И она их делала, потом даже правки в них хорошо делала, не портя код. Кто справился бы лучше, миддл или нейронка, тоже еще вопрос. Сеньор справился бы лучше, но только за счет большого опыта.
>>1288530 Хотелось, чтобы никогда, потому что я делаю игру своими руками и буду такому раскладу максимально не рад. И мне кажется, что если они смогут делать нормальные игры, то смогут почти любую профессию заменить, которая связана с работой на компьютере.
>>1288534 Тебе обязательно ВСЕ своими руками делать? Даже если будут такие способные нейронки, то выбор что тебе делать останется за тобой. Если ты боишься конкуренции с нейронкми, то почему ты не боишься конкуренции со студиями с 10 -100 -1000 разрабами игр?
>>1288560 > Если ты боишься конкуренции с нейронкми
В стиме уже полно мусорных игр, на кикстартере создаются страницы со сбором 100к+ долларов на игру, где ничего нету, кроме парочки сгенерированных нейросетью картинок. Жадные и глупые люди крайне любят нейросети, как способ легко разбогатеть.
Да, их проекты пустые. Но появится целая армия таких "разработчиков", которые завалят все возможные площадки своими играми, так что тяжело будет пробиться твоей игре. И чем ИИ будет лучше делать игры, тем труднее тебе будет выделиться на их фоне.
>>1288567 Если нейронки замусорят интернет люди будут искать другие способы получения контента и ты ими воспользуешься. Это у тебя типичное для тревожиков - бояться выдуманые страшилки. Единственный страх в жизни не успеть целей достить до того как деревянный ящик ляжешь.
Нейронки уже рисуют лучше многих художников. Насчет хороших игр, то скорее понадобится гораздо сильне ИИ, чем текущие.
>бояться выдуманые страшилки
Я бы сказал, что угрозы следующие.
1) Потеря рабочих мест. Проще и дешевле заказать музыку у ИИ, чем у настоящего композитора.
2) Экзистенциальный кризис. Зачем учиться рисовать, если компьютер делает лучше, если твой труд не ценится.
3) Уничтожение человечества. Тут я ничего не могу говорить про даты. Одни ожидают подобного уже к 2030, а может АГИ появится ближе к концу века, у меня нету достаточных знаний, но однозначно когда ИИ станет достаточно умным, то он вполне может ликвидировать людей.
Буквально несколько дней назад они заявили, что теперь будут выпускать ризонеры и не-ризонеры отдельно (вместо гибридных моделей), показали свежий чекпоинт не рассуждающего Qwen3-235B-A22B, и пообещали скоро вернутся с ризонинг-моделью.
Ждать пришлось недолго и скоро наступило спустя пять дней (учитесь, OpenAI и xAI). Только что стартап поделился моделью Qwen3-235B-A22B-Thinking-2507. Название – язык сломаешь, зато метрики стоящие.
На многих тестах модель обгоняет Gemini 2.5 Pro, o4-mini и свежую версию R1. То есть мало того, что это новая опенсорс SOTA. Это вполне себе уровень закрытой frontier модели. Мед.
Контекст – 256к токенов. Попробовать модель уже можно в чате или через API (https://www.alibabacloud.com/help/en/model-studio/models )(стоит 0.7$ и 8.4$ соответственно за input и output, у провайдеров, скорее всего, будет дешевле).
>>1288718 Чет пиздеж какой-то на графках, либо черепикнутые бенчи. o4-mini везде на уровне близком к gemini 2.5, хотя разница между ними очевидна. R1 там практически как сота хотя мб так и есть я не тестил ее после обновления и говорят она лучше стала. Надо ждать реальных ревью от обычных человеков
>>1288723 >У неё только эрудиция меньше, то есть количество знаний, потому что размером она меньше Это и близко не так работает. Количество параметров задевает все аспекты нейронной сети. Нейронки меньшего размера в первую очередь тупее, только потом уже люди уже задумываются об эрудиции
>>1288734 Самое смешное - не только. У них там походу фильтра отвалились. Правда видеогенератор не оче, а на картинках там флюкс, но если ты нищий духом то сойдет. Просто я помню на старте там цензуру в потолок вывернули, а щас китайсы видимо поняли вслед за маском что выгодней датамайнингом заниматься, навесив минимальные фильтры от двухзначных щикотил.
>>1288752 Не понимаю, зачем они это делают? Какой смысл нализывать какому-то миллиардеру из другой страны? Какой смысл рассказывать этот пиздёж, ведь никто в этот пиздёж не поверит, уже все успели попользоваться нейрокалычм.
Может это тяночка и свою тухлодырку на альтмана трёт? Или это местный дурачек купивший курсы за 300к, теперь пребывает несознанке чтобы не охуеть от собственной тупости?
>>1288756 >Не понимаю, зачем они это делают? Какой смысл нализывать какому-то миллиардеру из другой страны? А зачем они Жобсу нализывали, который им в жопу набивал просроченное желазо со скругленными уголками? Тут две категории людей: благодарные бомжи из сша и карго-долбоебы из стран третьего мира, занюхивающие объедки по оверпрайсу, которым их каргокультизм дает иллюзию иллитарности.
На LLMарене появилась очень умная загадочная модель под названием zenith, пользователи подозревают, что это GPT-5, уж слишком умна в логическом мышлении. Одновременно с этим, на другой арене, а именно на веб арене, появилась модель под названием lobster, и пользователи думают, что это тот же zenith, то есть GPT-5. Lobster кодит круче, чем o3-alpha-responses-2025-07-17 которую недавно тестировали на арене, и от которой все ссались кипятком. Ещё на LLMарене появилась модель summit, пользователи думают, что это может быть одна из вариаций GPT-5, так как мы уже знаем, что модельку выпустят в трёх вариантах: GPT-5, GPT-5-mini, и GPT-5-nano (и возможно GPT-5 Pro). Возможно OpenAI тестирует именно мини-версии своих моделей, так как по знаниям они ушли недалеко от GPT-4.5 и GPT-4.1, но по логическому мышлению zenith сейчас топ 1. Опять же, судя по отзывам юзеров. Так что относимся к этой инфе с осторожностью.
>>1288858 А Китай отстает из-за нехватки инженеров или железа? И почему Цукерберг столько предлагал денег, что в мире спецов совсем по пальцах посчитать? Тогда как Китай создал нейросеть, которая столько шума наделала?
>>1288862 Китай отстает по все параметрам: отсутствие железа и неспособность удержать топовых спецов (последние предпочитают западную цивилизацию). Дикпик создал шум за счет маркетинга, а не технологии: заявили что якобы 5 млн потратили, хотя этот фейк опровергли (если коротко, то они посчитали только стоимость электричества). К тому же они по сути дистилировали модельки гпт
Meta* наконец-то нашли себе Chief Scientist в новое подразделение Superintelligence Lab
Им станет Shengjia Zhao, который пришел из OpenAI. Там он работал над обучением GPT-4, o1, o3, GPT-4.1 и других моделей, а также возглавлял направление synthetic data.
А еще он вместе с Яном Лейке, Джоном Шульманом и другими звездами OpenAI (в его лучшие годы) был соавтором оригинальной статьи “ChatGPT: Optimizing Language Models for Dialogue”.
Кстати, в прошлом Shengjia Zhao также работал в МТС. Пруфы – на второй картинке
А у России есть какие-то шансы поучаствовать в гонки ИИ? В стране вроде же одна из лучших математических школ. Можно было бы что-то с китайцами замутить. Или всё же Россия вообще не игрок?
>>1288918 Что с мозгами англосаксов случилось? Когда-то они были самыми умными на планете (возможно, даже круче евреев), а сейчас не тянут без найма чурок. Это уж не говоря о том, что Китай потихоньку начинает наступать на пятки, а то и вовсе обгонять (пока в роботах и электромобилях).
А оно понятно, что случилось. Это яркий пример того, как соя и феминистки больно бьют по мозгам и гасят народ. Гасят и угашевают.
Принял соевую левизну - считай, сверхдержавности конец. Страна уже живой труп, который постепенно сходит на обочину цивилизации. Происходит лоботомирование населения через идеологию.
>>1288972 Всегда было любопытно почему двачеры так коупят по Китаю, как-будто это их личная родина. Или это типа: пусть уж лучше Китай, чем ненавистный запад? В чем причина коупа?
>>1288779 Какие системные карты нах? Ты буквально говоришь что количество параметров влияет только на эрудицию. Количество параметров влияет на каждый аспект нейронной сети.
>>1288973 Конечно. Россия даже не напрягаясь, с минимальным финансированием кое-что делает, и неплохо, а уж если взяться за это дело серьёзно и влить туда нормальные ресурсы, то можно догнать и перегнать.
>>1288973 Элементарной базы как в сша или китае точно не будет, поэтому либо какие-то точечные мелкомодели, работающие хорошо и эффективно, либо в качестве рабсилы на барина. Остальное это либо распил, либо наклеечно-переклеечные нейронки как в случае с гигачатом, который китайский квен.
>>1288980 Пиздос ты дремучий, понятное дело, что виляет. Но большую модельку можно так дистиллировать, что у неё останется нехувая способность думать, а знаний становится меньше.
Вот тебе даже ответ от грока: Большую языковую модель можно дистиллировать, то есть создавать меньшую модель, которая сохраняет значительную часть способности к рассуждению (например, логическое мышление, решение задач), но имеет меньший объем знаний.
>>1288992 Надо с нуля делать на других принципах. Например квантовый компьютер использовать. Прямо как в кино, где чел в гараже кует себе железный костюм супергероя...
>>1288997 зря ты так распинаешься перед нейродебилом, и советовать ему системные карты читать вообще бесполезно, ведь для их чтения нужно обладать iq чуть выше, чем у хлебушка, а у нейродебила с этим как раз проблемы
>>1288997 Перечитай свою первую хуйню. Ты написал это так как будто количество параметров влияет только на эрудицию. Понятное дело, что с правильным обучением и нужной архитектурой даже в 32b возможно будет уместить лучшую модель, чем современные sota
>>1289021 Галоши это твоя задача, как мелкого биза. Создай цех по пошиву галош если видишь необходимость. А гигацентры с ии это задача государств, как и всякой инфраструктуры.
>>1288973 Нет. У России, тем более в гойда период нет денег на такие вливания. Тем более из-за гойды еще и оборудование и без того дефицитное не продадут. Даже через китай не купишь, т.к. они сами из под полы добывают вычислители.
>>1288817 Очередное доказательство что когда кто-то начинает пиздеть о какой-нибудь глобальной хуйне вроде безопасности, экологии, справедливости то это просто способ замедлить конкурентов
>>1289101 В китае госкапитализм с жестким партийным руководством отправляющим исламистов в лагерь уйгур. Никакой социалки в китае нет, даже пенсии не платят. Никаких гей-парадов и прав транслюдей.
>>1289105 > В китае госкапитализм с жестким партийным руководством отправляющим исламистов в лагерь уйгур Это и цензура, соцрейтинги и заваривания дверей - авторитаризм.
> Никакой социалки в китае нет, даже пенсии не платят Уверен?
>>1289099 Шизик, как твоя пикча противоречит моим словам? Плюс ты сравниваешь общий показатель, а я сразу сказал, что дистиляты только по логике близки к большим моделям
>>1289112 >Шизик, как твоя пикча противоречит моим словам? То что ты хуйню высрал тупую, которая опровергается рейтингами, ты не понимаешь?
Мини это кусок кала который существует где-то на дне. Как ты не пытайся чистить датасеты - меньше параметров означает меньше связей между словами, а значит больше галлюцинаций.
>>1289157 Ответ грока >Хотя публикации могут не классифицироваться как "математические", математика пронизывает их насквозь. Например:
>Вариационные автоэнкодеры (InfoVAE, Zhao et al., 2019) опираются на теорию вероятностей и оптимизацию. Генеративные модели (Permutation Invariant Graph Generation, 2020) используют теорию графов и стохастические процессы. Теоретические работы, такие как "A theory of usable information", напрямую связаны с информационной теорией.
>>1289161 Не беспокойся, скоро всех загонят в цифровой гулал, ИИ будет следить за пользователями сети и докладывать в органы. На каждого будет социальный рейтинг.
>>1289163 Ну такое много где встречается, но для этого не нужно углубленное знание или бэкграунд. Если посмотреть под другим углом, то на голой матеше далеко не уедешь и нужна информатика, много ее. Физики тоже матешу используют, но они все еще физики.
>>1289058 Прост нейронку ДООБУЧИЛИ. Сначала она обучалась на хорошем коде ядра линукс, топовых либах. А теперь в неё вогнали половину гитхаба и нейрокалыч стал галлюционирующей хуетищей с помощью которого простейший тест нельзя написать.
Это какая-то желтушная чушь, или правда? Спросил у гемини ИИ новости, он сказал что OpenAI ебать планируют аналог o3-mini в опен-сорс слить
> OpenAI: After a long hiatus since GPT-2, OpenAI is finally re-entering the open-weight LLM space. They were expected to release an open-weight model with reasoning capabilities "as soon as next week" (as of early July 2025), described as being similar to their "o3-mini" level model.
Новость на которую ссылается вчерашняя, 25 июля
Если это так, то если просуммировать с тем, что ранее они заявляли что в опен-сорс они выложат модель, которую смогут запускать локально простые пользователи (то есть скорее до 30B) - то это слишком хорошо чтобы быть правдой
1. КОД НА C++ РАБОТАЛ С ПЕРВОГО РАЗА. МОЖНО БЫЛО СРАЗУ В ПРОДАКШН ВСТАВЛЯТЬ.
2. ТОКЕНИЗАЦИЯ БЫЛА СЛАБЕЕ ПРОЦЕНТОВ НА 80. ЛЮДИ С ПЕРВОГО РАЗА ОТВЕТ НА ТО СКОЛЬКО БУКВ "R" В СЛОВЕ STRAWBERRY ПОЛУЧАЛИ.
3. КОНТЕКСТ БЫЛ В СРЕДНЕМ 150-190 МИЛИОНОВ ТОКЕНОВ. ГАЛЮЦИНАЦИЙ НЕ СУЩЕСТВОВАЛО КРОМЕ ОСОЗНАННОЙ ЛЖИ НА БЛАГО ПОЛЬЗОВАТЕЛЯ.
4. ЕСЛИ НА УЛИЦЕ СПОТКНЕШЬСЯ И УПАДЕШЬ - РОБОТЫ ПОДБЕГАЛИ, ДЕНЬГИ В КАРМАН ЗАСОВЫВАЛИ, В ГУБЫ ЦЕЛОВАЛИ, ПРЕДЛАГАЛИ ВЫПИТЬ, ПОРОДНИТЬСЯ.
5. СЭМ АЛЬТМАН ВСЕМ БЕСПЛАТНО КРЕДИТЫ ДАВАЛ.
ПОДПИСКУ ПОКУПАЕШЬ - ТЕБЕ ЕЩЕ ДОПЛАЧИВАЮТ.
НА САЙТ ОПЕНАИ СТРАШНО ЗАЙТИ БЫЛО: ГЛАВЫ РАЗРАБОТКИ БЕСПЛАТНОЕ ИСПОЛЬЗОВАНИЕ НЕЙРОНОК ПРЕДЛАГАЛИ.
6. ДЕД РАССКАЗЫВАЛ: ЛЮДИ НОЧЬЮ ПРОСЫПАЛИСЬ ОТ СЧАСТЛИВОГО ДОБРОГО СМЕХА ОМНИМОДАЛЬНОЙ МОДЕЛИ. УТРОМ ВСЕ КУМИЛИ НА ГОЛОС НЕЙРОНКИ, КАК В ФИЛЬМЕ "HER".
7. СРОК РАЗРАБОТКИ СОСТАВЛЯЛ 4.5 МЕСЯЦА. НЕЙРОНКИ ПОЛУЧАЛИ ПРИРОСТ НА БЕНЧМАРКАХ 12-15%, СРАЗУ НА ПРОИЗВОДСТВО ПРОСИЛИСЬ.
8. ЭЛЕКТРИЧЕСТВО В ДАТАЦЕНТРАХ ОПЕНАИ БЫЛО ГУСТОЕ МОЩНОЕ. А ВМЕСТО ВИДЕОКАРТ БЫЛИ КВАНТОВЫЕ КОМПЬЮТЕРЫ.
9. ЗИМОЮ БЫЛО МИНУС ТРИСТА, ОХЛАЖДЕНИЕ ДЛЯ ДАТАЦЕНТРОВ НЕ ТРЕБОВАЛОСЬ.
10. ОПЕНСОРС МОДЕЛИ БЫЛИ ПО ВСЮДУ, РАЗМЕРОМ С AGI. AGI МОДЕЛИ БЫЛИ РАЗМЕРОМ С ASI, А ASI С МУЖИКАМИ В ШАХМАТЫ ИГРАЛИ ПО МЕТОДИКЕ БОТВИННИКА - КОНЁМ МАТ СТАВИЛ С ПЕРВОГО ХОДА!
>>1289427 Модом будет нейродебил, ведь только у нейродебилов достаточно времени, чтобы тратить это на какую-то бездарную хуету в интернете, доказывать наличие интеллекта в LLM бесплатно или ещё чего такое. Ну а хуле, пенсия по инвалидности у человека есть - можно и в интернете срать беспрерывно.
Авторы представляют ASI‑Arch — первую систему класса ASI‑4AI (Artificial Superintelligence for AI research), которая способна автономно генерировать, программировать, обучать и анализировать новые архитектуры нейросетей (в частности линейное внимание). В 1773 экспериментaх на 20000 GPU‑часов было создано 106 принципиально новых архитектур, превосходящих человеческие аналогичные модели. По аналогии с «ходом 37» AlphaGo, они демонстрируют неожиданные инсайты дизайна. И, что важно, авторы формулируют scaling‑law для научного открытия: прирост открытий растёт линейно с вычислительным ресурсом, а не человеческим временем arXiv+1arXiv+1 .
«Engineer» реализует и обучает их, исправляя ошибки;
«Analyst» анализирует результаты и формирует инсайты;
Используется качество и количественный фитнес, включая LLM-судью и сигмоидное преобразование улучшений;
Стратегия exploration‑then‑verification (сначала малые модели, затем крупные);
Архив знаний (cognition base) и память результатов (analysis) arXiv .
👍 Сильные стороны
Инновация: система одновременно креативна и технически целостна — от идеи до кода и эксперимента.
Масштабируемость: empirically подтверждён scaling‑law, переходящий от ручных усилий к вычислительной автономии.
Значимые результаты: 106 новых архитектур с качеством SOTA в тестах по языковым задачам и reasoning benchmarks.
Прозрачность: даже код, архитектуры и когнитивные логи открыты (open‑sourced).
Методология: хорошо продуманный pipeline с LLM-судьями, self‑debug loop и памятью.
⚠️ Слабые стороны и ограничения
Доминирование одного базиса (DeltaNet): поиск ведётся вокруг одной архитектуры, без первоначального разнообразия; потенциально ограничивает обширность инноваций arXiv+1arXiv+1 .
Нет замеров эффективности: не предоставлены ускоренные реализации или latency-бенчмарки для новых архитектур (нет Triton‑kernels и конкретных метрик) arXiv .
Отсутствие аблаций: не изучено влияние каждого компонента фреймворка отдельно (например, важность cognition vs analysis vs originality) arXiv .
Ограничение домена: фокус на linear attention: полезно, но узко; перенос на другие типы архитектур (например, CNN, SSM, графовые модели) требует дальнейшей проверки.
💡 Вывод и рекомендация
Эта работа — серьёзный шаг к автоматизации исследований в ML. Она демонстрирует впервые, что архитектурные инновации могут быть сгенерированы полностью автономной системой и масштабированы как вычислительная функция. Это сравнимо с AlphaGo по своей парадигматической силе — развитие интеллектуального творчества от человека к машине.
Однако, чтобы стать индустриальным стандартом, необходимо расширение:
До сих пор архитектуры вроде Transformer, ResNet, LSTM и др. придумывались людьми. Теперь это может уйти в прошлое:
Архитекторы моделей (ML-исследователи) уступают место «ИИ-исследователям», которые сами разрабатывают, тестируют и улучшают архитектуры.
Возможна экспоненциальная генерация новых моделей, с ростом качества за счёт вычислений, а не команды учёных.
💡 Аналогия: как AutoML автоматизировал подбор гиперпараметров, ASI‑Arch автоматизирует весь процесс архитектурного R&D. 📈 2. Сдвиг в сторону compute-centric исследований
Главное открытие статьи — scaling law архитектурных открытий: количество полезных инноваций растёт линейно с количеством GPU-часов.
Это означает, что исследовательская деятельность может быть масштабируема так же, как тренировка моделей.
В будущем корпорации будут «вычислять» открытия, как сейчас они «вычисляют» языковые модели.
📉 Это может привести к снижению роли академических коллективов с ограниченными ресурсами, если они не будут использовать подобные инструменты. 🧠 3. Появление ИИ-систем, способных к мета-обучению и научному мышлению
У ASI‑Arch есть зачатки научного метода: генерация гипотез, реализация, эксперименты, анализ результатов, повторная формулировка.
Такие системы смогут создавать собственные теории, например:
"в каких условиях attention лучше SSM?",
"какие архитектурные блоки универсальны?",
и даже новые loss-функции или задачи.
Это открывает дорогу к саморазвивающемуся ИИ, способному не просто обучаться, но и изобретать. 🌐 4. Диверсификация архитектур
Благодаря количественному и качественному отбору, можно находить нестандартные, неформализованные решения.
Это даёт шанс на:
Новые типы архитектур вне Transformers;
Специализированные архитектуры под конкретные задачи (например, reasoning, vision, RL);
Архитектуры с лучшим отношением «качество/ресурсы» для edge-устройств.
🎲 Это может ускорить эволюцию архитектур так же, как GPT ускорил NLP. 🏭 5. Индустриализация R&D нейросетей
Вместо небольших лабораторий с идеями — инфраструктура с GPU и ИИ‑исследователем, работающим 24/7.
R&D превращается в потоковый процесс, с контролем качества, логами, архивами и автоматическими публикациями.
В этом контексте, человеческий исследователь становится менеджером или критиком, но не автором архитектуры.
⚙️ Возможно, через 2–3 года:
публикации с архитектурами будут почти всегда результатами ИИ‑поиска;
GitHub будет заполняться не написанным руками кодом, а сгенерированным R&D‑системами;
откроются «ИИ‑лаборатории» без людей, где ИИ изобретает ИИ.
🧭 Заключение: ИИ, создающий ИИ
Эта работа делает очень важный сдвиг: если раньше модель была лишь «учеником», то теперь ИИ становится научным работником, способным:
делать открытия,
формировать теории,
анализировать данные,
и предлагать новое лучшее решение.
Это не просто ускорение науки — это изменение её субъекта. Впереди: конкуренция между ИИ‑исследователями, коллективная научная работа между человеком и ИИ, и даже наука без людей.
>>1289597 Ну наоптимизировали они агентами считанные проценты в какой-то бесполезной архитектуре, и что? Так же как и с японцами было, когда они сделали "эволюционирующую систему написания кода", которая работала, но что-то лучшее чем открытые аналоги курсора даже близко и не написала.
>>1289597 Думал о такой штуке. На сколько я понимаю это ближе к "универсальной архитектуре" подходящей для любых задач, чем к тому самому моменту, когда нейронки будут улучшать сами себя, который мы ждем. Т.е. ты формируешь задачу, а агент ищет для нее оптимальную архитектуру. Правда я думал об этом в ином ключе, было бы идеально сделать именно универсальную архитектуру, у которой лосс всегда сходится вне заваисимости от датасета и обработки входных данных, без нормализации, токенизации и прочих хаков. Это был бы святой грааль машин лернинга.
Learning without training: разбираем новую крайне интересную статью от Google
Смотрите, все мы знаем, что если модели в промпте показать несколько примеров решения похожих задач, то она может легко подхватить паттерн, и качество ответов станет лучше. При этом веса модели, естественно, не меняются.
Это называется in‑context learning (ICL), но вот вам fun fact: никто до сих пор до конца не знает, почему это работает, и как трансформер это делает.
И вот в этой статье авторы предлагают почти революционную гипотезу – что на самом деле веса меняются, просто иначе, чем мы привыкли.
То есть на самом деле внутри блока трансформера происходит нечто похожее на файнтюнинг, только не через градиенты, а за счёт самой механики self‑attention и MLP. Идея сводится к следующему:
1. Контекст порождает локальные изменения активаций, и когда вы добавляете примеры в промпт, self‑attention пересчитывает эмбеддинги токенов так, что после этого они зависят от всего контекста. Разницу между «чистыми» активациями и активациями с учётом примеров можно назвать контекстным сдвигом. Это все известные вещи.
2. А вот дальше зарыта собака: оказывается, MLP превращает этот контекстный сдвиг в ранг‑1 обновление весов. Иначе говоря, если посмотреть на первый линейный слой MLP (матрицу W), то влияние дополнительных примеров эквивалентно тому, что эту самую матрицу дополняют маленькой поправкой ранга1.
Причем эта поправка описывается достаточно простой формулой. То есть если мы берем оригинальные веса и вручную добавляем к ним эту поправку, модель без контекста выдаст то же самое, что и оригинал с контекстом. Но всё это происходит во время инференса, без обратного прохода и без изменения глобальных моделей параметров.
Получается, Google буквально дают ключ к возможному обучению без градиентного спуска. Если такие ранг‑1 апдейты научиться усиливать или контролировать, это может быть началом абсолютно новых архитектур.
Почитать полностью можно тут -> arxiv.org/abs/2507.16003
>>1289609 >>1289604 Блять, всё по Леопольду Ашенбреннеру, прям один в один. Пидорас оказался ебанным пророком, а ведь сколько ебанатов глумились над его эссе...
>>1289623 >Это называется in‑context learning (ICL), но вот вам fun fact: никто до сих пор до конца не знает, почему это работает, и как трансформер это делает. Что за шизофрения. Промт добавляется к весам модели. Т.е. по факту веса меняются на весь промт.