（深層）強化学習の解説とデモ

Автор: サプライ・チェイン最適化チャンネル（MIKIO KUBO)

Загружено: 2021-12-03

Просмотров: 5401

Описание:

（深層）強化学習についてデモを交えて解説しています．デモに使用したPythonコードは「100+の最適化問題」の最短路のページ https://scmopt.github.io/opt100/03sp.... にあります．

動画プレイリスト:
Pythonで数理最適化モデルを作る方法    • Pythonで数理最適化
組合せ最適化とアルゴリズム    • 組合せ最適化とアルゴリズム
Python言語による実務で役に立つ100の最適化問題    • Python言語による実務で役に立つ100の最適化問題
ただでアナリティクスの専門家になる方法    • タダでアナリティクスの専門家になる方法
データサイエンス練習問題集    • データサイエンス練習問題集
データサイエンス講義
   • Pythonによるデータサイエンス講義
Python言語超入門    • Python言語超入門
メタヒューリスティクス    • メタヒューリスティクス
SCMOPT サプライ・チェイン最適化プロジェクト    • SCMOPT
MITの深層学習講義を日本語で解説    • MIT Intro to DL
サプライ・チェイン最適化講義    • サプライ・チェイン最適化講義
サプライ・チェイン最適化特論    • サプライ・チェイン最適化特論
制約最適化ソルバー SCOP    • 制約最適化ソルバーSCOPの使用法
スケジューリング最適化ソルバーOptSeq    • スケジューリング最適化ソルバーOptSeqの使用法

Table of Contents:
00:05 - 強化学習とは
01:28 - 例：格子世界のロボット
03:30 - マルコフ決定過程 (MDP)
05:32 - 方策
07:05 - 価値関数
08:22 - 最適価値関数
10:54 - 動的計画法
12:06 - 方策評価と方策改善
14:10 - 方策反復/価値反復
15:02 - モンテカルロ(MC)方策評価
16:45 - モンテカルロ (MC) コントロール
17:28 - 探索（exploration）
18:26 - モンテカルロ法の利点
20:14 - Temporal Difference （TD)学習
22:27 - モンテカルロ vs. TD
23:53 - Sarsa
24:52 - デモ (エピソード1）ソースコードは「100+の最適化問題」https://mikiokubo.github.io/opt100/の最...
26:09 - デモ (エピソード2）
26:50 - デモ (エピソード5000経過）
27:14 - 深層強化学習

Доступные форматы для скачивания:

Скачать видео mp4

Информация по загрузке:

Скачать аудио mp3

Похожие видео

実際問題をもとにした最適化の研究方法

実際問題をもとにした最適化の研究方法

絶対に理解させる誤差逆伝播法【深層学習】

絶対に理解させる誤差逆伝播法【深層学習】

【深層学習】Transformer - Multi-Head Attentionを理解してやろうじゃないの【ディープラーニングの世界vol.28】#106 #VRアカデミア #DeepLearning

【深層学習】Transformer - Multi-Head Attentionを理解してやろうじゃないの【ディープラーニングの世界vol.28】#106 #VRアカデミア #DeepLearning

Краткое объяснение больших языковых моделей

Краткое объяснение больших языковых моделей

【徹底解説】Pythonのクラスの基本からクラス継承やクラス変数などまでわかりやすく｜クラスの使い方も解説【Python入門・応用21】

【徹底解説】Pythonのクラスの基本からクラス継承やクラス変数などまでわかりやすく｜クラスの使い方も解説【Python入門・応用21】

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

【10分で分かる！】決定木とは？利用場面やランダムフォレスト・Xgboostなどの応用手法についても見ていこう！

【10分で分かる！】決定木とは？利用場面やランダムフォレスト・Xgboostなどの応用手法についても見ていこう！

ニューラルネットワークの仕組み | Chapter 1, 深層学習（ディープラーニング）

ニューラルネットワークの仕組み | Chapter 1, 深層学習（ディープラーニング）

数理最適化とメタヒューリスティクスと深層学習の重要な研究についての講義

数理最適化とメタヒューリスティクスと深層学習の重要な研究についての講義

Алгоритмы на Python 3. Лекция №1

Алгоритмы на Python 3. Лекция №1

Теорема Байеса, геометрия изменения убеждений

Теорема Байеса, геометрия изменения убеждений

【機械学習】アンサンブル学習（前編）| バギング・スタッキング・バンピング、ランダムフォレスト

【機械学習】アンサンブル学習（前編）| バギング・スタッキング・バンピング、ランダムフォレスト

Deep Learning精度向上テクニック：様々な最適化手法 #1

Deep Learning精度向上テクニック：様々な最適化手法 #1

Reinforcement Learning from Human Feedback (RLHF) Explained

Reinforcement Learning from Human Feedback (RLHF) Explained

【機械学習】教師あり学習と教師なし学習の違い

【機械学習】教師あり学習と教師なし学習の違い

Но что такое нейронная сеть? | Глава 1. Глубокое обучение

Но что такое нейронная сеть? | Глава 1. Глубокое обучение

Deep Learning入門：Attention（注意）

Deep Learning入門：Attention（注意）

Почему простые числа образуют эти спирали? | Теорема Дирихле и пи-аппроксимации

Почему простые числа образуют эти спирали? | Теорема Дирихле и пи-аппроксимации

【深層学習】GPT - 伝説の始まり。事前学習とファインチューニングによるパラダイムシフト【ディープラーニングの世界vol.31】#109 #VRアカデミア #DeepLearning

【深層学習】GPT - 伝説の始まり。事前学習とファインチューニングによるパラダイムシフト【ディープラーニングの世界vol.31】#109 #VRアカデミア #DeepLearning

Reinforcement Learning in 3 Hours | Full Course using Python

Reinforcement Learning in 3 Hours | Full Course using Python