複製鏈接
請複製以下鏈接發送給好友

強化學習

(2019年清華大學出版社出版的圖書)

鎖定
《強化學習》是清華大學出版社於2019年12月1日出版的圖書,作者是柯良軍、王小強。
中文名
強化學習
作    者
柯良軍
王小強
出版社
清華大學出版社
出版時間
2019年12月1日
定    價
69 元
ISBN
9787302532408

強化學習內容簡介

本書介紹強化學習原理、算法及其實現。內容涉及基於模型的強化學習、基於採樣-估計的強化學習、基於逼 近理論的強化學習及深度強化學習等。本書以教學為目標進行選材,力求闡述嚴謹、重點突出、深入淺出,以便於教學與自學。本書面向所有對強化學習感興趣的讀者,可作為高等學校理工科高年級本科生、研究生強化學習課程教材或 參考書 [1] 

強化學習圖書目錄

第1章緒論.1
1.1引言.1
1.2解決複雜問題的樸素思想.3
1.2.1數學建模與優化4
1.2.2採樣和估計.4
1.2.3逼近.5
1.2.4迭代.5
1.3強化學習簡史.7
1.4本書主要內容及結構.7
1.5小結.8
1.6習題.9
參考文獻9
第2章基礎知識.10
2.1運籌學簡明基礎.10
2.1.1無約束非線性規劃優化方法11
2.1.2KKT條件.13
2.1.3凸規劃的性質13
2.2概率與統計簡明基礎14
2.2.1概率論基本概念.14
2.2.2概率論的收斂定理16
2.2.3統計學的基本概念17
2.2.4最大似然估計法.17
2.2.5估計量的優良性評估18
2.2.6採樣與隨機模擬.19
2.2.7MonteCarlo方法簡介.20
2.2.8重要採樣法21
2.3小結22
2.4習題23
參考文獻.23
第一一篇
基於於模模型型的的強強化化學學習
一篇基
於模型的強化學習
第3章多搖臂問題26
3.1動作值方法27
3.2非平穩多搖臂問題28
3.3UCB動作選擇.29
3.4梯度搖臂算法30
3.5習題30
參考文獻.30
第4章Markov決策過程.31
4.1定義和記號31
4.2有限Markov決策過程.32
4.3Bellman方程.33
4.4最優策略.35
4.5小結38
4.6習題38
參考文獻.39
第5章動態規劃.40
5.1策略評估.40
5.2策略改進.41
5.3策略迭代.42
5.4值迭代44
5.5異步動態規劃45
5.6收斂性證明46
5.7小結47
5.8習題47
參考文獻.47
第二二篇
基於於采采樣估計計的的強強化化學學習
二篇基
於採樣
-估
計的強化學習
第6章策略評估.50
6.1基於MonteCarlo方法的策略評估50
6.1.1同策略MonteCarlo策略評估.51
6.1.2異策略MonteCarlo策略評估.53
6.2基於時序差分方法的策略評估.55
6.3n步預測.60
6.4小結63
6.5習題63
參考文獻.64
第7章策略控制.65
7.1同策略MonteCarlo控制.65
7.2同策略時序差分學習67
7.3異策略學習69
7.4基於TD(λ)的策略控制71
7.5實例72
7.5.1問題介紹.73
7.5.2MDP模型的要素.73
7.5.3策略評估.74
7.5.4策略控制.74
7.6小結75
7.7習題75
參考文獻.75
第8章學習與規劃的整合76
8.1模型和規劃76
8.2Dyna:整合規劃、動作和學習.77
8.3幾個概念.79
8.4在決策關頭的規劃80
8.4.2rollout算法.81
8.4.3MonteCarlo樹搜索.81
8.5小結82
8.6習題83
參考文獻.83
第三篇基於逼近理論的強化學習
第9章值函數逼近86
9.1基於隨機梯度下降法的值函數逼近87
9.2基於隨機梯度下降法的Q-值函數逼近90
9.3批處理92
9.3.1線性最小二乘值函數逼近92
9.3.2線性最小二乘Q-值函數逼近.93
9.4小結94
9.5習題94
參考文獻.94
第10章策略逼近.95
10.1策略梯度法95
10.1.1最優參數問題的目標函數96
10.1.2策略梯度97
10.1.3梯度計算97
10.1.4REINFORCE算法.99
10.2方差減少方法.99
10.2.1利用一個評論.99
10.2.2利用基準線101
10.3小結104
10.4習題104
參考文獻.105
第11章信賴域策略優化.106
11.1預備知識.107
11.2單調改進一般性隨機策略的方法109
11.3參數化策略的優化110
11.4基於採樣的目標和約束估計.111
11.5實用算法.113
11.6小結114
11.7習題114
參考文獻.114
第四篇深度強化學習
第12章深度學習.116
12.1神經網絡基礎.116
12.1.1神經網絡解決問題的基本流程117
12.1.2激活函數117
12.1.3損失函數119
12.1.4優化算法120
12.2典型深度神經網絡結構.123
12.2.1深度的作用123
12.2.3循環神經網絡.125
參考文獻.127
第13章深度Q-網絡128
13.1DQN原理.129
13.1.1預處理.129
13.1.2網絡結構130
13.1.3算法131
13.1.4深度Q-網絡的訓練算法.132
13.1.5算法詳細説明.132
13.2DQN實例.133
13.2.1Atari2600遊戲介紹.133
13.2.2DQN算法的實現133
13.3小結142
13.4習題142
參考文獻.142
第14章深度確定性策略梯度.144
14.1DDPG算法介紹144
14.1.1DDPG算法的發展介紹.144
14.1.2DDPG算法的原理解析.145
14.2DDPG算法的實現.147
14.2.1Mujoco的安裝及使用.147
14.2.2DDPG算法的實現解析.149
14.2.3DDPG算法的訓練和測試.153
參考文獻.154
第15章多智能體強化學習155
15.1多智能體強化學習介紹.155
15.1.1多智能體強化學習的發展簡述155
15.1.2隨機博弈156
15.1.3納什Q-學習.157
15.2平均場多智能體強化學習原理.158
15.2.1平均場近似理論158
15.2.2平均場多智能體強化學習算法161
15.3平均場多智能體實驗.163
15.3.1MAgent平台163
15.3.2混合合作-競爭的戰鬥遊戲介紹.165
15.3.3MF-Q和MF-AC算法的實現解析.167
15.3.4戰鬥遊戲的訓練與測試171
參考文獻.176 [2] 
參考資料