深度強化式學習

●本書由施威銘研究室監修,內容易讀易懂,並加入大量「編註」與「小編補充」以幫助理解及補充必要知識。

★目錄:

第一篇:基礎篇
第1章:強化式學習的基本觀念
1.1 深度強化式學習中的『深度』
12 強化式學習
1.3 動態規劃 vs. 蒙地卡羅法
1.4 強化式學習架構
1.5 強化式學習有什麼應用?
1.6 為什麼要使用『深度』強化式學習?
1.7 有用的說明工具 – 線圖(string diagram)
1.8 未來各章的內容安排

第2章:模型化強化式學習問題:馬可夫決策過程
2.1 多臂拉霸機問題
2.2 利用拉霸機問題的演算法來優化廣告推送策略
2.3 使用PyTorch建構神經網路
2.4 解決廣告推送問題
2.5 馬可夫性質與MDP(馬可夫決策過程)
2.6 策略與價值函數

第3章:Deep Q-Network
3.1 狀態價值函數及動作價值函數
3.2 利用Q-Learning進行探索
3.3 避免災難性失憶的發生:經驗回放
3.4 使用目標網路來提升學習穩定性
3.5 回顧

第4章:利用『策略梯度法』選擇最佳策略
4.1 利用神經網路實現策略函數的功能
4.2 策略梯度演算法:強化高價值動作
4.3 使用OpenAI Gym
4.4 REINFORCE演算法

第5章:演員-評論家模型與分散式訓練
5.1 結合『價值函數』與『策略函數』
5.2 分散式訓練
5.3 分散式優勢演員-評論家模型

延伸閱讀
最新生活新聞
行動版 電腦版