反饋

強化學習

（2019年清華大學出版社出版的圖書）

《強化學習》是清華大學出版社於2019年12月1日出版的圖書，作者是柯良軍、王小強。

中文名: 強化學習
作者: 柯良軍
王小強

出版社: 清華大學出版社
出版時間: 2019年12月1日
定價: 69 元
ISBN: 9787302532408

強化學習內容簡介

本書介紹強化學習原理、算法及其實現。內容涉及基於模型的強化學習、基於採樣-估計的強化學習、基於逼近理論的強化學習及深度強化學習等。本書以教學為目標進行選材，力求闡述嚴謹、重點突出、深入淺出，以便於教學與自學。本書面向所有對強化學習感興趣的讀者，可作為高等學校理工科高年級本科生、研究生強化學習課程教材或參考書^[1] 。

強化學習圖書目錄

第1章緒論.1

1.1引言.1

1.2解決複雜問題的樸素思想.3

1.2.1數學建模與優化4

1.2.2採樣和估計.4

1.2.3逼近.5

1.2.4迭代.5

1.3強化學習簡史.7

1.4本書主要內容及結構.7

1.5小結.8

1.6習題.9

參考文獻9

第2章基礎知識.10

2.1運籌學簡明基礎.10

2.1.1無約束非線性規劃優化方法11

2.1.2KKT條件.13

2.1.3凸規劃的性質13

2.2概率與統計簡明基礎14

2.2.1概率論基本概念.14

2.2.2概率論的收斂定理16

2.2.3統計學的基本概念17

2.2.4最大似然估計法.17

2.2.5估計量的優良性評估18

2.2.6採樣與隨機模擬.19

2.2.7MonteCarlo方法簡介.20

2.2.8重要採樣法21

2.3小結22

2.4習題23

參考文獻.23

第一一篇

基於於模模型型的的強強化化學學習

一篇基

於模型的強化學習

第3章多搖臂問題26

3.1動作值方法27

3.2非平穩多搖臂問題28

3.3UCB動作選擇.29

3.4梯度搖臂算法30

3.5習題30

參考文獻.30

第4章Markov決策過程.31

4.1定義和記號31

4.2有限Markov決策過程.32

4.3Bellman方程.33

4.4最優策略.35

4.5小結38

4.6習題38

參考文獻.39

第5章動態規劃.40

5.1策略評估.40

5.2策略改進.41

5.3策略迭代.42

5.4值迭代44

5.5異步動態規劃45

5.6收斂性證明46

5.7小結47

5.8習題47

參考文獻.47

第二二篇

基於於采采樣估計計的的強強化化學學習

二篇基

於採樣

-估

計的強化學習

第6章策略評估.50

6.1基於MonteCarlo方法的策略評估50

6.1.1同策略MonteCarlo策略評估.51

6.1.2異策略MonteCarlo策略評估.53

6.2基於時序差分方法的策略評估.55

6.3n步預測.60

6.4小結63

6.5習題63

參考文獻.64

第7章策略控制.65

7.1同策略MonteCarlo控制.65

7.2同策略時序差分學習67

7.3異策略學習69

7.4基於TD(λ)的策略控制71

7.5實例72

7.5.1問題介紹.73

7.5.2MDP模型的要素.73

7.5.3策略評估.74

7.5.4策略控制.74

7.6小結75

7.7習題75

參考文獻.75

第8章學習與規劃的整合76

8.1模型和規劃76

8.2Dyna：整合規劃、動作和學習.77

8.3幾個概念.79

8.4在決策關頭的規劃80

8.4.1啓發式算法80

8.4.2rollout算法.81

8.4.3MonteCarlo樹搜索.81

8.5小結82

8.6習題83

參考文獻.83

第三篇基於逼近理論的強化學習

第9章值函數逼近86

9.1基於隨機梯度下降法的值函數逼近87

9.2基於隨機梯度下降法的Q-值函數逼近90

9.3批處理92

9.3.1線性最小二乘值函數逼近92

9.3.2線性最小二乘Q-值函數逼近.93

9.4小結94

9.5習題94

參考文獻.94

第10章策略逼近.95

10.1策略梯度法95

10.1.1最優參數問題的目標函數96

10.1.2策略梯度97

10.1.3梯度計算97

10.1.4REINFORCE算法.99

10.2方差減少方法.99

10.2.1利用一個評論.99

10.2.2利用基準線101

10.3小結104

10.4習題104

參考文獻.105

第11章信賴域策略優化.106

11.1預備知識.107

11.2單調改進一般性隨機策略的方法109

11.3參數化策略的優化110

11.4基於採樣的目標和約束估計.111

11.5實用算法.113

11.6小結114

11.7習題114

參考文獻.114

第四篇深度強化學習

第12章深度學習.116

12.1神經網絡基礎.116

12.1.1神經網絡解決問題的基本流程117

12.1.2激活函數117

12.1.3損失函數119

12.1.4優化算法120

12.2典型深度神經網絡結構.123

12.2.1深度的作用123

12.2.2卷積神經網絡.124

12.2.3循環神經網絡.125

參考文獻.127

第13章深度Q-網絡128

13.1DQN原理.129

13.1.1預處理.129

13.1.2網絡結構130

13.1.3算法131

13.1.4深度Q-網絡的訓練算法.132

13.1.5算法詳細説明.132

13.2DQN實例.133

13.2.1Atari2600遊戲介紹.133

13.2.2DQN算法的實現133

13.3小結142

13.4習題142

參考文獻.142

第14章深度確定性策略梯度.144

14.1DDPG算法介紹144

14.1.1DDPG算法的發展介紹.144

14.1.2DDPG算法的原理解析.145

14.2DDPG算法的實現.147

14.2.1Mujoco的安裝及使用.147

14.2.2DDPG算法的實現解析.149

14.2.3DDPG算法的訓練和測試.153

參考文獻.154

第15章多智能體強化學習155

15.1多智能體強化學習介紹.155

15.1.1多智能體強化學習的發展簡述155

15.1.2隨機博弈156

15.1.3納什Q-學習.157

15.2平均場多智能體強化學習原理.158

15.2.1平均場近似理論158

15.2.2平均場多智能體強化學習算法161

15.3平均場多智能體實驗.163

15.3.1MAgent平台163

15.3.2混合合作-競爭的戰鬥遊戲介紹.165

15.3.3MF-Q和MF-AC算法的實現解析.167

15.3.4戰鬥遊戲的訓練與測試171

參考文獻.176^[2]

參考資料

1. 強化學習．清華大學出版社[引用日期2020-02-21]
2. 目錄．清華大學出版社[引用日期2020-02-28]

強化學習的概述圖（1張）

詞條統計

瀏覽次數：次
編輯次數：42次歷史版本
最近更新：不会说的段子手（2023-07-13）

1 內容簡介
2 圖書目錄