[Ответить в тред] Ответить в тред

15/10/15 - Набор в модераторы 15.10 по 17.10
27/09/15 - Двач API — Инструкция к применению
15/09/15 - Про пожертвования и ДДоС



[Назад][Обновить тред][Вниз][Каталог] [ Автообновление ] 14 | 3 | 7
Назад Вниз Каталог Обновить

Reinforcement learning Аноним 25/02/16 Чтв 10:55:49 666191  
14563977491840.png (1352Кб, 3552x2576)
Анон, нужен хороший материал по этой теме. Желательно с туториалом или просто с легкоперевариваемым примером а-ля "учим nn играть в tictactoe". Also любой годный материал приветствуется.
Аноним 25/02/16 Чтв 11:20:12 666214
бамп, ну же, анончик
Аноним 25/02/16 Чтв 11:23:30 666218
Где-то тут есть тред по ML, там оп отвечает.
Ответы: >>666398
Аноним 25/02/16 Чтв 14:19:38 666398
>>666218
бамп, там молчат
Аноним 25/02/16 Чтв 15:18:49 666446
Едрить тебе неймется, прям вот сию минуту надо. Ну ладно, я сегодня добрый, держи: https://webdocs.cs.ualberta.ca/~sutton/book/ebook/the-book.html
Ответы: >>666472 >>666477
Аноним 25/02/16 Чтв 15:42:32 666472
>>666446
вай спасибо
Аноним 25/02/16 Чтв 15:45:27 666477
14564151274190.jpg (35Кб, 460x459)
>>666446
бля а как скачать?
Ответы: >>666497
Аноним 25/02/16 Чтв 15:55:17 666497
>>666477
Ты и требовательный к тому же. Вот тебе пдф черновика второго издания, это даже лучше должно быть: https://www.dropbox.com/s/b3psxv2r0ccmf80/book2015oct.pdf?dl=0
Ответы: >>666609
Аноним 25/02/16 Чтв 17:07:29 666609
>>666497
спасибо, анон
Аноним 25/02/16 Чтв 20:37:49 667029
смотри курс гугла на udacity
Ответы: >>667948
Аноним 26/02/16 Птн 15:53:57 667948
>>667029
там есть только по deep learning, который включает в себя сверточные nn; reinforcement learning там обходят стороной, как и на coursera. Я не знаю, включает ли nanodegree по MLE reinforcement learning, но брать его ради одной темы точно не выгодно.
Аноним 26/02/16 Птн 17:02:26 668020
Хуле надо-то.

Есть мн-во состояний, есть мн-во инпутов, по инпуту система из одного состояния переходит в другое.

В начальный момент времени оценка любого перехода одинакова и система выбирает рандомно.

Реинфорсемент лернинг заключается в том, что каждый устраивающий нас переход вознаграждается повышением его ценности (как следствие - вероятности выбора).

Проблемы
- возможных переходов должно быть немного, иначе хуй обучишь
- не должна быть важна история, только текущее состояние (очевидный костыль упирается в предыдущий пункт )

Все епта, че те еще.
Ответы: >>668436 >>669975
Аноним 27/02/16 Суб 07:58:38 668436
14565599182840.webm webm file (2433Кб, 1280x720, 00:00:11)
>>668020
Аноним 28/02/16 Вск 14:53:37 669975
>>668020
поразжеваннее есть какой-нибудь материал?
Ответы: >>670211
Аноним 28/02/16 Вск 17:14:21 670211
>>669975
Da ty ohuel. Куда уж разжеваннее.
Но вообще совсем для детей есть у Гарднера в какой-то из книжек.

[Назад][Обновить тред][Вверх][Каталог] [Реквест разбана] [Подписаться на тред] [ Автообновление ] 14 | 3 | 7
Назад Вверх Каталог Обновить

Топ тредов
Подписывайся на официальный канал Двача в Телеграме и узнавай обо всех новостях и мемах первым! https://tlg.wtf/dvachannel[X]