【強化学習】Q学習 - データを用いて最適方策を学習【強化学習の基礎アルゴリズム】RL vol. 14

Автор: AIcia Solid Project

Загружено: 2024-04-05

Просмотров: 9177

Описание:

ついにあの「Q学習」がやってきた！　データから最適方策を学習できる素敵アルゴリズムであり、この子はベルマン最適作用素のデータ近似で学習を進めます。
深層強化学習の革命児 DQN の元ネタでもあるQ学習を抑え、素敵な強化学習ライフを始めましょう！

【プレイリスト】
   • 強化学習の探検

【目次】
00:00 オープニング
01:10 Q学習とは
03:53 Q学習の全体像
11:19 TD法の復習
16:56 Q学習のTD誤差
21:37 数式の説明
22:36 ε-greedyについて
29:02 まとめ
32:53 エンディング

【参考文献】
Watkins, Christopher John Cornish Hellaby. "Learning from delayed rewards." (1989).
https://www.cs.rhul.ac.uk/~chrisw/new...

分析モデル入門
https://amzn.to/3Ng0nC7
私の本！　この動画シリーズは、この第3部強化学習の内容を動画向けにアレンジ、大幅追加、大幅削除したものです。
合わせてみていただくと分かり易いかと！

強化学習（第2版）
https://amzn.to/3K4QsR8
Sutton 先生の「強化学習」本の和訳です。分厚いですが、時間があり、基礎をしっかり学びたい人におすすめ！
ちなみに、英語版は公式で pdf もダウンロードできます → http://incompleteideas.net/book/

強化学習 (機械学習プロフェッショナルシリーズ)
https://amzn.to/44R2XYr
理論家向けの方にはこちら！
しっかりと数式が解説されており、基礎の理論をしっかりと学ぶことができます。

機械学習スタートアップシリーズ Pythonで学ぶ強化学習
https://amzn.to/3XYDrOM
手を動かしながら学びたい人向け！
サンプルコードとともに、基礎的な強化学習アルゴリズムを学べます！

将棋AIで学ぶディープラーニング
https://www.amazon.co.jp/dp/B07B7JJ929
強化学習というと、将棋 AI を思い浮かべる人も少なくないはず！
そういう人におすすめ！
将棋 AI 向けの強化学習は、他の参考文献にある方法とはかなり異なる方法で作られます。
将棋を目指す方は、ぜひこれを見てみてください！
更に強いのを作るならこれ → https://amzn.to/3pU1aDa

強化学習の基礎と深層強化学習
https://www.slideshare.net/ShotaImai3...
合間に広告が貼ることが極めて重い欠点ですが、内容は素晴らしく、全体感を見渡すことができます。

【宣伝：本も買ってね！】
データサイエンスに頻出の分析モデルを、全領域、深く、書きあげました！
本質を捉えたデータ分析のための分析モデル入門 https://amzn.to/3Ng0nC7

【宣伝2：クラファンやってるよ！】
活動継続のためのご支援をお願いしています。詳細はこちら！
クラファン（月額）はこちら → https://community.camp-fire.jp/projec...
（クラファン始めた理由の動画 →    • 【クラウドファンディング】始めるよ！【ご支援よろしくお願いします】#167 #VRア...   ）

【終わりに】
ご視聴ありがとうございました！
面白かったら高評価、チャンネル登録お願いします。
動画の質問、感想などは、コメント欄や Twitter にどうぞ！
お仕事、コラボのご依頼、インターンの応募は、公式 WebPage や Twitter の DM からお願い致します。

AIcia Solid Project - Official Website - https://sites.google.com/view/aicia-o...
動画生成：AIcia Solid (Twitter:   / aicia_solid   )
動画編集：AIbis Solid (妹)

=======

Logo: ChikakoHorioさん (   / chikakohorio   )
Model Design by: ばんちょうさん（   / k_ban_   ）ママ！
3D Model by: キツネツキさん（   / _kitsune_tsuki_   ）パパ！

【強化学習】Q学習 - データを用いて最適方策を学習【強化学習の基礎アルゴリズム】RL vol. 14

Доступные форматы для скачивания:

Скачать видео mp4

Информация по загрузке:

Скачать аудио mp3

Похожие видео

【強化学習】SARSA - こいつもデータを用いて最適方策を学習！【強化学習の基礎アルゴリズム】RL vol. 15 #178 #VRアカデミア #ReinforcementLearning

【強化学習】SARSA - こいつもデータを用いて最適方策を学習！【強化学習の基礎アルゴリズム】RL vol. 15 #178 #VRアカデミア #ReinforcementLearning

Киркоров за Пугачеву. Долину отмазал Киселев. Урганта и Галкина снова ругают. Михалков обижен на ИИ

Киркоров за Пугачеву. Долину отмазал Киселев. Урганта и Галкина снова ругают. Михалков обижен на ИИ

4 Hours Chopin for Studying, Concentration & Relaxation

4 Hours Chopin for Studying, Concentration & Relaxation

強化学習と逆強化学習を組み合わせた模倣学習

強化学習と逆強化学習を組み合わせた模倣学習

Обучение с подкреплением с нуля

Обучение с подкреплением с нуля

Введение в обучение с подкреплением

Введение в обучение с подкреплением

【10分で分かる！】統計学と機械学習の違いについて徹底解説！目的の違いを明確に理解しておこう！

【10分で分かる！】統計学と機械学習の違いについて徹底解説！目的の違いを明確に理解しておこう！

Deep Reinforcement Learning: Neural Networks for Learning Control Laws

Deep Reinforcement Learning: Neural Networks for Learning Control Laws

【機械学習】深層学習(ディープラーニング)とは何か

【機械学習】深層学習(ディープラーニング)とは何か

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

【強化学習】Policy Gradient - なぜ？　のギモンに答える概要編！【方策勾配法①】RL vol. 23 #195 #VRアカデミア #ReinforcementLearning

【強化学習】Policy Gradient - なぜ？　のギモンに答える概要編！【方策勾配法①】RL vol. 23 #195 #VRアカデミア #ReinforcementLearning

Долина вернет деньги — но ее это не спасет | Бабушкина схема, мошенники, вторичка, квартиры

Долина вернет деньги — но ее это не спасет | Бабушкина схема, мошенники, вторичка, квартиры

【機械学習】教師あり学習と教師なし学習の違い

【機械学習】教師あり学習と教師なし学習の違い

【強化学習】DQN - 深層強化学習時代の到来を告げる超すごいモデル！【Atari 攻略①】RL vol. 28 #210 #VRアカデミア #ReinforcementLearning

【強化学習】DQN - 深層強化学習時代の到来を告げる超すごいモデル！【Atari 攻略①】RL vol. 28 #210 #VRアカデミア #ReinforcementLearning

【深層学習】RNNLM - 自然言語処理に革命を起こした RNN について【ディープラーニングの世界 vol. 20】#087 #VRアカデミア #DeepLearning

【深層学習】RNNLM - 自然言語処理に革命を起こした RNN について【ディープラーニングの世界 vol. 20】#087 #VRアカデミア #DeepLearning

Но что такое нейронная сеть? | Глава 1. Глубокое обучение

Но что такое нейронная сеть? | Глава 1. Глубокое обучение

【深層学習】word2vec - 単語の意味を機械が理解する仕組み【ディープラーニングの世界 vol. 21】#089 #VRアカデミア #DeepLearning

【深層学習】word2vec - 単語の意味を機械が理解する仕組み【ディープラーニングの世界 vol. 21】#089 #VRアカデミア #DeepLearning

Теорема Байеса, геометрия изменения убеждений

Теорема Байеса, геометрия изменения убеждений

【深層学習】GPT-3 ①-1 モデルと Sparse Transformer について【ディープラーニングの世界vol.39】#124 #VRアカデミア #DeepLearning

【深層学習】GPT-3 ①-1 モデルと Sparse Transformer について【ディープラーニングの世界vol.39】#124 #VRアカデミア #DeepLearning

Deep Q-Networks Explained!

Deep Q-Networks Explained!