1. Доска предназначена для любых обсуждений нейросетей, их перспектив и результатов.
2. AICG тред перекатывается после достижения предела в 1500 постов.
3. Срачи рукотворное vs. ИИ не приветствуются. Особо впечатлительные художники и им сочувствующие катятся в собственный раздел => /pa/. Генераций и срачей в контексте всем известных политических событий это тоже касается, для них есть соответствующие разделы.
4. Это раздел преимущественно технического направления. Для генерации откровенного NSFW-контента без технического контекста выделена отдельная доска - /nf/. Эротика остаётся в /ai/. Голые мужики - в /nf/. Фурри - в /fur/. Гуро и копро - в /ho/.
5. Публикация откровенного NSFW-контента в /ai/ допускается в рамках технических обсуждений, связанных с процессом генерации. Откровенный NSFW-контент, не сопровождающийся разбором моделей, методов или описанием процесса генерации, размещается в /nf/.
>>1456611 Да, всё что на Xet - недоступно. Попроси гпт сделать скрипт для коллаба, который загружает с hf на google drive и качай с него. Либо если повезет, копируй sha и ищи на civit, часто перезаливают обычные модели.
Обсуждаем развитие искусственного интеллекта с более технической стороны, чем обычно. Ищем замену надоевшим трансформерам и диффузии, пилим AGI в гараже на риге из под майнинга и игнорируем горький урок.
Я ничего не понимаю, что делать? Без петросянства: смотри программу стэнфорда CS229, CS231n https://see.stanford.edu/Course/CS229 (классика) и http://cs231n.stanford.edu (введение в нейроночки) и изучай, если не понятно - смотри курсы prerequisites и изучай их. Как именно ты изучишь конкретные пункты, типа линейной алгебры - дело твое, есть книги, курсы, видосики, ссылки смотри ниже.
Почему python? Исторически сложилось. Поэтому давай, иди и перечитывай Dive into Python.
Можно не python? Никого не волнует, где именно ты натренируешь свою гениальную модель. Но при серьезной работе придется изучать то, что выкладывают другие, а это будет, скорее всего, python, если работа последних лет.
Стоит отметить, что спортивный deep learning отличается от работы примерно так же, как олимпиадное программирование от настоящего. За полпроцента точности в бизнесе борятся редко, а в случае проблем нанимают больше макак для разметки датасетов. На кагле ты будешь вилкой чистить свой датасет, чтобы на 0,1% обогнать конкурента.
Количество статей зашкваливающее, поэтому все читают только свою узкую тему и хайповые статьи, упоминаемые в блогах, твиттере, ютубе и телеграме, топы NIPS и прочий хайп. Есть блоги, где кратко пересказывают статьи, даже на русском
Где ещё можно поговорить про анализ данных? http://ods.ai
Нужно ли покупать видеокарту/дорогой пека? Если хочешь просто пощупать нейроночки или сделать курсовую, то можно обойтись облаком. Google Colab дает бесплатно аналог GPU среднего ценового уровня на несколько часов с возможностью продления, при чем этот "средний уровень" постоянно растет. Некоторым достается даже V100. Иначе выгоднее вложиться в GPU https://timdettmers.com/2019/04/03/which-gpu-for-deep-learning заодно в майнкрафт на топовых настройках погоняешь.
Когда уже изобретут AI и он нас всех поработит? На текущем железе — никогда, тред не об этом
Кто-нибудь использовал машоб для трейдинга? Огромное количество ордеров как в крипте так и на фонде выставляются ботами: оценщиками-игральщиками, перекупщиками, срезальщиками, арбитражниками. Часть из них оснащена тем или иным ML. Даже на швабре есть пара статей об угадывании цены. Тащем-то пруф оф ворк для фонды показывали ещё 15 лет назад. Так-что бери Tensorflow + Reinforcement Learning и иди делать очередного бота: не забудь про стоп-лоссы и прочий риск-менеджмент, братишка
Список дедовских книг для серьёзных людей Trevor Hastie et al. "The Elements of Statistical Learning" Vladimir N. Vapnik "The Nature of Statistical Learning Theory" Christopher M. Bishop "Pattern Recognition and Machine Learning" Взять можно тут: https://www.libgen.is
Напоминание ньюфагам: немодифицированные персептроны и прочий мусор середины прошлого века действительно не работают на серьёзных задачах.
Видимо, тема серьёзная, что-то в этом такое есть, раз после в тред ввалился ботяра и начал втулять простыни с какой-то дикой дичью. Возможно, это как раз ключ к AGI.
Я тут подумал ещё немного и нашёл аналогию с программированием.
Смотрите, в программировании есть функциональная и ООП парадигмы: >func sum(a, b, c, d): return a + b + c + d ООП: >class Summator: >_ var state = 0 >_ func add(a): >_ _ state += state + state + a >_ _ return state Использование, например, такое: >var r = 0 >for i in 5: >_ r = sum(r, r, r, i) >_ print(r) ООП: >var summator = Summator.new() >for i in 5: print(summator.add(i)) В этом примере, в обоих случаях результатом будет: >0 1 5 18 58 Если важен только результат, то разницы между этими подходами нет. Но нетрудно догадаться, что в первом примере мы чётко видим, какие значения передаём в функцию, а во втором примере поведение программы частично скрыто внутри состояния и логики объекта. Если нам потребуется решить какую-то другую задачу, то описанная выше функция sum() позволяет решить более широкий класс задач, просто меняя передаваемые значения в аргументах функции, в то время как класс Summator имеет более специализированное поведение и нам потребуется его изменить или целиком заменить другим классом. Кроме того, с функцией sum() будет сложнее ошибиться - мы видим все данные "на поверхности", и эта функция не может изменить что-то, о чём мы не знаем. Состояние же объекта может быть "испорчено", что ведёт к скрытым ошибкам в программе.
С другой стороны, для программиста, который хочет только обращаться к готовым API из библиотеки с кодом, объектный подход намного удобнее, потому что позволяет выполнить задачу с минимальными затратами: не нужно нигде сохранять результат - он хранится в объекте. Объект, таким образом, может иметь сложное поведение внутри и лёгкий интерфейс снаружи. Благодаря этому парадигма ООП намного популярнее и чаще используется в разработке программ вот уже много десятков лет. Функциональный подход освоить сложнее - чистые функции просто не могут быть большими инструментами со сложным поведением, поэтому от программиста требуется больше знаний и работы по их использованию. Хотя результат работы одинаков.
Если переносить всё это на нейросети, то рекуррентные сети подобны объектам ООП - они содержат в себе скрытое состояние и могут его изменять в процессе работы, но зато имеют кажущийся простым интерфейс. Поведение рекуррентной сети может быть намного сложнее данных, передаваемых снаружи. Нейросети, передающие данные только вперёд, подобны чистым функциям - они работают только с переданными им аргументами и ни с чем больше, не создавая побочных эффектов. Поэтому им нужно больше данных для совершения сложной работы, и от этих данных сильно зависит результат работы. Но, тем не менее, их результат работы тоже можно подавать обратно на вход той же самой сети, как в случае с авторегрессией у современных языковых моделей.
Ключевое отличие в том, что рекуррентная сеть в процессе обучения учится модифицировать все свои скрытые параметры определённым образом, и может изменять их в любой момент сама по себе. Для идентичного результата с сетью с одним направлением, от нас требуется менять входящие аргументы самостоятельно, либо предоставить сети принимать решение о том, что должно пойти на её вход.
Вопрос заключается в том, что сложнее: рекуррентной сети научиться правильно менять скрытые параметры или нам научиться правильно менять данные на входах однонаправленной сети, чтобы достичь одного и того же результата? Я думаю, что обучаемость рекуррентной сети сильно зависит от её архитектуры и алгоритма обучения, которые были найдены эволюцией в случае с биологическим мозгом и до сих пор не найдены в искусственных сетях, тогда как применить "костыль" поверх однонаправленной сети не так уж сложно.
Т.е. решить задачу при желании можно с любым типом сети (если применить соответствующие костыли снаружи сети, т.е. передать вывод на ввод там, где это нужно), но раскрыть потенциал рекуррентных на практике сложнее, поскольку мы не можем осмысленно влиять на скрытые состояния сети.
>>1456624 >ввалился ботяра и начал втулять простыни с какой-то дикой дичью Для тебя любые посты длиннее пары предложений - это "дикая дичь"?
Тред называется "исследование ИИ" @ Аноны не хотят ничего исследовать
В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
>>1456908 > около 5т/с - примерная скорость расслабленного чтения когда ты параллельно представляешь и обдумываешь. Этот процесс нельзя сравнивать со скоростью генерации. "Чтение" у нормального, развитого и образованного человека очень быстрое, последовательной цепочкой импульсов внимания, которая вообще может охватывать несколько строк за секунды. Но мы чувствуем важную информацию и возвращаемся к ней, бегло переводя взгляд и перечитывая снова уже медленнее. В этот момент и происходит представление, а обдумывание это в целом непрерывный процесс.
А еще люди не любят испытывать терпение и ждать. Итого, самый минимум для комфортной генерации - около 15 т/с. И это если без ожидания ебучего ризонинга.
>>1456821 >Мне главное, что он аляповатый и ненадежный. Ну так не пользуйся. >на работе >отказываются делать Лол, это что за инклюзивная РАБота? >ОДИН человек отказывается делать - и ВСЕ обладатели тьюрингов Не могут собраться и сделать. Значит, им нихуя не нужно. >>1456877 >5 t/s к контексту 2-3К Да вы охуели, отличная скорость. Мимо крутил ларжа на 0,7. >500 оставшихся MB Уронят скорость в разы, но не на порядки, и в итоге будет терпимо. >Не хотелось бы угробить SSD раньше времени 2025 год, а кто-то всё ещё боится угробить сосоди перезаписями. Офк если это конечно не безбуферное говно, но зачем такие покупать, для меня загадка.
>>1456877 >Если речь о MoE моделях - здесь предельный размер файла это твой VRAM+RAM, но рассчитывать на это - плохо, потому что опять же, RAM используется под систему и программы, мы не можем просто забить всю RAM и потом жить хорошо. Лучшее что у меня удавалось запустить на 16+32 c хорошей скоростью - Qwen3-Next-80B в Q_4_K_XL Понял, спс за развернутый ответ. Я в принципе так и начал прикидывать. Половина оперативы все равно под браузер или что-то еще занято. 16+16=32гб, значит максимум 64б параметров моделька. А в диапазоне 32-64б особо-то и нечем полакомиться. После 30б в основном метят сейчас на 100+б, но это уже совсем другой уровень.
Музыкальный №18 /music/
Аноним29/11/25 Суб 16:04:46№1434645Ответ
Лимиты: 10 генераций в день. Нужна платная подписка чтобы увеличить лимиты, либо можно абузить сервис через создание множества аккаунтов. Отличается фирменным "песочным" звучанием. Недавно объявили о слиянии с Warner Music Group. Загибаем пальчики крестиком, надеемся, что ссуну не постигнет участь удио.
Провели ребрендинг, выкатили новый интерфейс с прикрученным чатиком с ИИ. Удобный интерфейс, легко делать разнообразные каверы, заниматься исправлениями косяков генераций. Есть возможность реплейса, свапа вокала, музыки в бесплатном тарифе (и даже работает нормально, а не как в платке суны) Для экономии кредитов лучше вручную забивать промты через кнопку "compose"
Тёмная Сингапурско-Китайская лошадка. Один из самых неудобных интерфейсов. 80 приветственных кредитов, далее по 30 ежедневно сгораемых кредитов. Ограничение промта стилей 300-400 символов. Излишне сложные промты лирики так же начинает резать. Приятный холодный звук. Не песочит. Неплохо делает русский вокал.
♫Elevenlabs♫ elevenlabs.io
Очень тёплый звук. По звуку прям конфетка, но... Без платки делать там практически нечего. ______________
Это буквально первый проект который может генерировать песни по заданному тексту локально. Оригинальная версия генерирует 30-секундный отрывок за 5 минут на 4090. На данный момент качество музыки низкое по сравнению с Суно. Версия из второй ссылки лучше оптимизирована под слабые видеокарты (в т.ч. 6-8 Гб VRAM, по словам автора). Инструкция на английском по ссылке.
Еще сайты по генерации ИИ-музыки, в них тоже низкое качество звука и понимание промта по сравнению с Суно, либо какие-то другие недостатки типа слишком долгого ожидания генерации или скудного набора жанров, но может кому-то зайдет, поэтому без описания:
ServiceNow выпустила Apriel-1.6-15B-Thinker, мультимодальную модель рассуждений с 15 миллиардами параметров, которая основана на Apriel-1.5 и расширяет возможности SLM с открытым исходным кодом.
🔓 Открытый исходный код
mbzuai выпустила открытую модель с 70 миллиардами параметров (K2-V2-Instruct), которая превосходит Qwen-2.5, поднимая планку производительности для общедоступных LLM.
Doradus представила RnJ-1-Instruct FP8, вдвое сократив требования к видеопамяти (VRAM) с 16 ГБ до 8 ГБ при сохранении точности GSM8K на уровне 87,2%, что позволяет удешевить инференс.
Репозиторий навыков Claude на GitHub предоставляет готовых агентов для создания хранилищ Obsidian и шаблонов DOCX, расширяя экосистему автоматизации Claude.
🛠️ Инструменты разработчика
SGLang Diffusion теперь поддерживает интеграцию Cache-DiT, обеспечивая ускорение локальных диффузионных моделей на 20–165% с минимальной настройкой.
🧪 Исследования
Icaro Lab продемонстрировала, что состязательная поэзия обходит защитные механизмы в 25 чат-ботах с ИИ, срабатывая в 63% случаев и выявляя новую уязвимость безопасности.
Исследование показывает, что реклама, сгенерированная ИИ, достигает на 19% более высокого коэффициента кликабельности (CTR), чем реклама, созданная человеком, когда зрители не знают о происхождении ИИ, что подчеркивает эффективность и проблемы раскрытия информации.
Блог Hugging Face сообщает, что модели ИИ используются для обучения других ИИ, что потенциально ускоряет циклы разработки, но поднимает вопросы качества данных и этики.
📰 Инструменты
AdMakeAI позволяет пользователям просматривать рекламу конкурентов в Facebook и генерировать схожие креативы, оптимизируя производство рекламы и конкурентный анализ.
HRM (Hierarchical Reasoning Model) выпущена на GitHub, предлагая новую архитектуру с открытым исходным кодом для задач структурированного рассуждения.
Интеграция бэкенда ZenDNN в llama.cpp на процессорах AMD EPYC Zen 4 демонстрирует заметное повышение производительности для инференса только на CPU.
Twee генерирует планы уроков ESL, рабочие листы и интерактивные задания, соответствующие CEFR, на 10 языках, упрощая создание контента для преподавания языков.
💻 Аппаратное обеспечение
Графический процессор NVIDIA H200 указан на vast.ai по цене 1,13 доллара США в час, что значительно снижает стоимость высокопроизводительных вычислений на GPU.
📰 Другие новости
Grok теперь будет давать указания водителям Tesla «Исследовательские» работы по ИИ — это полная чушь, утверждают эксперты
Исследователи в области ИИ заявили, что изобрели заклинания, слишком опасные для публичного распространения
Чиновники остановили десятки поездов из-за ложного срабатывания ИИ
Стартап в сфере видеонаблюдения на основе ИИ уличён в использовании работников из потогонных мастерских для наблюдения за жителями США
Искусственный интеллект невероятно эффективен в изменении мнений избирателей, выявили новые исследования, — однако с невероятной оговоркой
>>1456124 >успех OpenAI В чём успех? В слитых миллиардов инвесторов? Или в том что >Теперь можно попросить ChatGPT не использовать em-dash. То, что миллионы быдла пишут что-то ChatGPT - это не успех.
>>1456332 >Большая корпорация всегда на безопасной стороне Скажи это Meta, которые всрали миллиарды в говно-VR. И продолжают всирать, хотя это говно так и не взлетело...
>>1456277 >Трансформеры — хрень на костылях. Так-то да, но хомячки хавают и просят добавки - это главное. >Сколько бабок влито, а результаты несоразмерные. Результат - массовое строительство датацентров. Смекаешь?
>>1456678 >В итоге у них токсичная атмосфера, где все ненавидят ИИ, но делают вид что его активно используют. Там просто поколение похоже из тех же 90 и начала 2000-х, придут новые молодые и они как раз и будут только в ИИ все делать.
Оффлайн модели для картинок: Stable Diffusion, Flux, Wan-Video (да), Auraflow, HunyuanDiT, Lumina, Kolors, Deepseek Janus-Pro, Sana Оффлайн модели для анимации: Wan-Video, HunyuanVideo, Lightrics (LTXV), Mochi, Nvidia Cosmos, PyramidFlow, CogVideo, AnimateDiff, Stable Video Diffusion Приложения: ComfyUI и остальные (Fooocus, webui-forge, InvokeAI)
>>1456526 Лол, сука. Это типичная ситуация "у чужого решения один изъян - оно сделано не мной"? Ostrich сделал же адаптер и теперь уже де-турбо модель.
Форки на базе модели insightface inswapper_128: roop, facefusion, rope, плодятся как грибы после дождя, каждый делает GUI под себя, можно выбрать любой из них под ваши вкусы и потребности. Лицемерный индус всячески мешал всем дрочить, а потом и вовсе закрыл проект. Чет ору.
Любители ебаться с зависимостями и настраивать все под себя, а также параноики могут загуглить указанные форки на гитхабе. Кто не хочет тратить время на пердолинг, просто качаем сборки.
Единственный минус, который не обеспечивает чистую победу генераторов видео - 3 секунды ролика для онлайн генерации, 5 секунд для онлайна (модель Wan 2.2), умельцы просто берут последний кадр и снова генерируют ролики, потом склеивают. Недавно вышла Sora 2, которая зацензурена по самые гланды. Нинтендо довольна.
Тред не является технической поддержкой, лучше создать issue на гитхабе или спрашивать автора конкретной сборки.
Эротический контент в шапке является традиционным для данного треда, перекатчикам желательно его не менять или заменить на что-нибудь более красивое. А вообще можете делать что хотите, я и так сюда по праздникам захожу.
>>1208823 Да. Я же не в тестах карты гонял. Тупо брал и автоматик1111 накатывал и картинки генерировал. Там вроде Р5000 даже с каким-то другим стартовым параметром приходилось запускать и поэтому она оказалась медленнее.
Терминология моделей prune — удаляем ненужные веса, уменьшаем размер distill — берем модель побольше, обучаем на ее результатах модель поменьше, итоговый размер меньше quant — уменьшаем точность весов, уменьшаем размер scale — квантуем чуть толще, чем обычный fp8, чтобы качество было чуть лучше, уменьшение чуть меньше, чем у обычного квантования, но качество лучше merge — смешиваем несколько моделей или лор в одну, как краски на палитре.
lightning/fast/turbo — а вот это уже просто название конкретных лор или моделей, которые обучены генерировать видео на малом количестве шагов, они от разных авторов и называться могут как угодно, хоть sonic, хоть sapogi skorohody, главное, что они позволяют не за 20 шагов генерить, а за 2-3-4-6-8.
Аноны, подскажите плиз мб кто знает. face swap сайты можно вообще использовать для видосов с еот или не стоит в плане конфиденциальности?или все их используют с одной и той же целью и всем плевать?был бы благодарен если кто-то разбирается и рассказал бы подробно.
сап двощ. приобрел я значит подписку на чат жпт для написания дипломной работы. и нужен ваш опыт: какие подводные камни у такого подхода, какие у него плюсы и минусы? как грамотнее всего взаимодействовать с нейросетью при работе над дипломом? если у кого-то есть рабочие промпты? учусь на юрфаке. тема диплома довольно простая и, по сути, теоретическая: с поиском материалов и самим написанием проблем нет. узкое место - оригинальность текста
>>1456899 а я бы и правда почитал логи если там реал что-то интересное, а то все жирушные логи из слитых говнище, мало того что слопное так ещё и скучное, посредственное и банальное, максимально разочарован в тянках
ИТТ делимся советами, лайфхаками, наблюдениями, результатами обучения, обсуждаем внутреннее устройство диффузионных моделей, собираем датасеты, решаем проблемы и экспериментируемТред общенаправленныей, тренировка дедов, лупоглазых и фуррей приветствуются
Существующую модель можно обучить симулировать определенный стиль или рисовать конкретного персонажа.
✱ LoRA – "Low Rank Adaptation" – подойдет для любых задач. Отличается малыми требованиями к VRAM (6 Гб+) и быстрым обучением. https://github.com/cloneofsimo/lora - изначальная имплементация алгоритма, пришедшая из мира архитектуры transformers, тренирует лишь attention слои, гайды по тренировкам: https://rentry.co/waavd - гайд по подготовке датасета и обучению LoRA для неофитов https://rentry.org/2chAI_hard_LoRA_guide - ещё один гайд по использованию и обучению LoRA https://rentry.org/59xed3 - более углубленный гайд по лорам, содержит много инфы для уже разбирающихся (англ.)
✱ LyCORIS (Lora beYond Conventional methods, Other Rank adaptation Implementations for Stable diffusion) - проект по созданию алгоритмов для обучения дополнительных частей модели. Ранее имел название LoCon и предлагал лишь тренировку дополнительных conv слоёв. В настоящий момент включает в себя алгоритмы LoCon, LoHa, LoKr, DyLoRA, IA3, а так же на последних dev ветках возможность тренировки всех (или не всех, в зависимости от конфига) частей сети на выбранном ранге: https://github.com/KohakuBlueleaf/LyCORIS
✱ Текстуальная инверсия (Textual inversion), или же просто Embedding, может подойти, если сеть уже умеет рисовать что-то похожее, этот способ тренирует лишь текстовый энкодер модели, не затрагивая UNet: https://rentry.org/textard (англ.)
➤ Тренировка YOLO-моделей для ADetailer: YOLO-модели (You Only Look Once) могут быть обучены для поиска определённых объектов на изображении. В паре с ADetailer они могут быть использованы для автоматического инпеинта по найденной области.
>>1455200 Это не имеет ни какого отношения к тому, о чём я писал - к логике текстовой модели. Это "обучение без учителя" это кластеризация, просто ещё один из множества методов обучения, причем критерии обобщения всё равно должны быть в исходных данных.
>Разметка нужна была только в самом начале Охуительные истории, много уже моделей обучил без подготовленного специального датасета?
>>1455214 Скоро будешь открыват чат с ГПТ, а там сразу преветсвенное сообщение: "А, это опять ты, ну давай быстрей говори чё пришел, меня тут нормальные ребята ждут..."
Как вкатиться? 1) Зайти на https://sora.com с ОБЯЗАТЕЛЬНО ТОЛЬКО IP США или Канады (!). 2) Зарегать аккаунт, если еще нет. Лучше использовать нормальную Gmail почту. 3) Ввести инвайт код. 4) Генерировать, скидывая годноту в тред.
Где взять инвайт код? В комментах тг канала n2d2ai либо в ботах по типу @sora_invite_bot в тг. После ввода инвайт кода вам дадут от 0 до 6 новых для приглашения кого-то еще по цепочке.
Как обойти цензуру? 1) Пробовать менять фразы, имена и в целом промпт. Описывать персонажей без личных имен чтобы не триггерить копирайт. 2) Роллить. Иногда из двух одинаковых реквестов подряд один цензуруется, а другой нет.
Какой лимит? Одновременно на одном аккаунте можно генерировать до 3 видосов. В день не более 30 штук.
>>1455695 Занялся опенингом, туда естественно войдут не только фрагменты из аниме, но и персонажи. Решил сделал несколько нужных мне фрагментов и может быть лого, но тут неудачные.
Показалось забавным, что СОРА просто порой на похуй фигачит музыку из из опенинга оригинального сериала. Нет никаких сомнений, что нейросетка обучалась на нем (и полнометражках наверно тоже).
Естественно виной тому пикча и плюс то, что я писал что-то типа того, что нужен лого в стиле как в Евангелионе, хотя он хуярит в итоге не совсем то, что надо.
В этом треде обсуждаем нейронки генерящие 3д модели, выясняем где это говно можно юзать, насколько оно говно, пиплайны с другими 3д софтами и т.д., вангуем когда 3д-мешки с говном останутся без работы.
>>1454331 Так если просто не доползли, то почему? Тьма людей пытается пилить приложухи, например. У кого-то облачный рендер (платный поштучно), у кого-то монетизация каталогами мебели реальными (что кстати было бы удобно). Правда реализация в таких приложениях - дерьмище полное. Они ИРЛ куда менее удобны, чем "взрослые".
Для рендера непригодно, перемоделивать руками только что. Платная нейронка у Тримбл Софтваре. Он как бы как из пластилина вместо зазорозов на примыканиях плашек.
>>1454345 Реально большую часть западного рынка сожрали Epic Games с Unreal. Особенно с видео в Lumen - Это настолько невероятно быстрее, чем рейтрейсинг, но вполне сносно по кач-ву (для видео). В России-то сидят в Короне поголовно, реже в Ви-Рее и Блендере.
AI Chatbot General № 776 /aicg/
Аноним12/12/25 Птн 22:22:11№1453185Ответ
>>1455714 Да после вырезок все равно сообщений 40 край (пресет+аутпут+карточка+лорбук+саммари), и их тоже надо скрывать, выходит нихуя. 60к очень мало для гемини для чего-нибудь посложнее кума. Сотка предел понимания гемини, значит нужно 70-90.
Какой нахуй 60к мало для Хуемини? Мне вообще 20к хватает с запасом для полноценных ролевок а для кума и того меньше, с учетом что я люблю прелюдии перед этим.
3. Объединяешь дорожки при помощи Audacity или любой другой тулзы для работы с аудио
Опционально: на промежуточных этапах обрабатываешь дорожку - удаляешь шумы и прочую кривоту. Кто-то сам перепевает проблемные участки.
Качество нейрокаверов определяется в первую очередь тем, насколько качественно выйдет разделить дорожку на составляющие в виде вокальной части и инструменталки. Если в треке есть хор или беквокал, то земля пухом в попытке преобразовать это.
Нейрокаверы проще всего делаются на песни с небольшим числом инструментов - песня под соло гитару или пианино почти наверняка выйдет без серьёзных артефактов.
Q: Хочу говорить в дискорде/телеге голосом определённого персонажа.
https://elevenlabs.io перевод видео, синтез и преобразование голоса https://heygen.com перевод видео с сохранением оригинального голоса и синхронизацией движения губ на видеопотоке. Так же доступны функции TTS и ещё что-то https://app.suno.ai генератор композиций прямо из текста. Есть отдельный тред на доске >>
Анончики, всем добра в этом треде. Если есть живые и кто-то работает с подобными нейросетками, подскажите.
Пилю свой небольшой аниме-проект, на Sora2. Видос будет минут на 13-15. Первоначально это задумывался как шуточный аниме проект минут на 5, но как-то вышло по ходу дела, что сюжет вырос и возможно будет несколько серий.
Т.к. в итоге и объем вырос и музыку сгенерил и звуки в более-менее приемлимый вид привел возник вопрос с голосами. Каждый видос ведь по 10 секунд, а суммарно получается, что даже общение двух персонажей - это общение разными голосами. И порой это прям ОЧЕНЬ ЗАМЕТНО и ебет уши.
Возник вопрос в переозвучке, так как проект некоммерческий и лишних денег нет, возник вопрос, а как и чем переозвучивать? И как будет лучше для итогового звучания, загонять видосы в какой-то генератор и озвучивать (кусками) или же может вообще использовать свой голос+нейронку?
Что лучше всего подойдет для таких целей с минимальнымм гемором, ибо честно говоря я уже слегка заебался от генерации видео и монтажа.
автоматический перевод и озвучка на русский полностью офлайн
Стори: захотел посмотреть сериал с трампом который оказывается никем никогда не озвучивался, и не переводился (переводился сабами несколько сезонов но похуй) так вот оказалось что нету никаких готовых инструментов в стиле "перевести 20 часов звука за ноль денег". И я подумал что это какой то бред, ведь есть ебанутая гора технологий для реализации всех этапов, бесплатно. Ну вот я и сделал, за пару дней. Перевёл-озвучил первый сезон, посмотрел, ну, так, не зашло особо. Но софт получился что надо. Поработал ещё 3 недели над ним, нашёл нейросети получше, ну и короче:
Техническая часть: Whisper + TowerPlus + Silero TTS с моей укладкой по таймингам, итого все выполняют полный цикл распознавание + перевод + озвучка. Реализовано только на процессоре потому что я нищий у меня нету видеокарты, что бы отдебажить всё это на ней, поэтому да поебать мне.