複製鏈接
請複製以下鏈接發送給好友

強化學習

(2018年機械工業出版社出版的圖書)

鎖定
《強化學習》是一本2018年機械工業出版社出版的圖書,作者還是[荷] 馬可·威寧(Marco Wiering),馬丁·範·奧特羅(Martijn van Otterlo)。本書詳細介紹了強化學習中各領域的基本理論和新進展。 [1] 
書    名
強化學習
作    者
[荷] 馬可·威寧(Marco Wiering)
作    者
馬丁·範·奧特羅(Martijn van Otterlo)
出版社
機械工業出版社
ISBN
9787111600220 [1] 

強化學習內容簡介

《強化學習》共有19章,分為六大部分,詳細介紹了強化學習中各領域的基本理論和新進展,內容包括:MDP、動態規劃、蒙特卡羅方法、批處理強化學習、TD學習、Q學習、策略迭代的小二乘法、遷移學習、貝葉斯強化學習、一階邏輯MDP、層次式強化學習、演化計算、預測性定義狀態表示、去中心化的部分可觀察MDP、博弈論和多學習器強化學習等內容,並闡述強化學習與心理和神經科學、遊戲領域、機器人領域的關係和應用,後提出未來發展趨勢及研究熱點問題,有助於年輕的研究者瞭解整個強化學習領域,發現新的研究方向。本書適合作為高等院校機器學習相關課程的參考書,也可作為人工智能領域從業技術人員的參考用書。 [1] 

強化學習圖書目錄

譯者序
序言
前言
作者清單
部分 緒論
第1章 強化學習和馬爾可夫決策過程 2
1.1 簡介 2
1.2 時序決策 3
1.2.1 接近時序決策 4
1.2.2 在線學習與離線學習 4
1.2.3 貢獻分配 5
1.2.4 探索–運用的平衡 5
1.2.5 反饋、目標和性能 5
1.2.6 表達 6
1.3 正式的框架 6
1.3.1 馬爾可夫決策過程 7
1.3.2 策略 9
1.3.3 準則和減量 9
1.4 價值函數和貝爾曼方程 10
1.5 求解馬爾可夫決策過程 12
1.6 動態規劃:基於模型的解決方案 13
1.6.1 基本的動態規劃算法 13
1.6.2 高效的動態規劃算法 17
1.7 強化學習:無模型的解決方案 19
1.7.1 時序差分學習 20
1.7.2 蒙特卡羅方法 23
1.7.3 高效的探索和價值更新 24
1.8 總結 27
參考文獻 27
第二部分 高效的解決方案框架
第2章 批處理強化學習 32
2.1 簡介 32
2.2 批處理強化學習問題 33
2.2.1 批處理學習問題 33
2.2.2 增長批處理學習問題 34
2.3 批處理強化學習算法的基礎 34
2.4 批處理強化學習算法 37
2.4.1 基於核的近似動態規劃 37
2.4.2 擬合Q迭代 39
2.4.3 基於小二乘的策略迭代 40
2.4.4 識別批處理算法 41
2.5 批處理強化學習理論 42
2.6 批處理強化學習的實現 43
2.6.1 神經擬合Q迭代 44
2.6.2 控制應用中的神經擬合Q迭代算法 45
2.6.3 面向多學習器的批處理強化學習 46
2.6.4 深度擬合Q迭代 48
2.6.5 應用/發展趨勢 49
2.7 總結 50
參考文獻 50
第3章 策略迭代的小二乘法 53
3.1 簡介 53
3.2 預備知識:經典策略迭代算法 54
3.3 近似策略評估的小二乘法 55
3.3.1 主要原則和分類 55
3.3.2 線性情況下和矩陣形式的方程 57
3.3.3 無模型算法的實現 60
3.3.4 參考文獻 62
3.4 策略迭代的在線小二乘法 63
3.5 例子:car-on-the-hill 64
3.6 性能保障 66
3.6.1 漸近收斂性和保證 66
3.6.2 有限樣本的保證 68
3.7 延伸閲讀 73
參考文獻 74
第4章 學習和使用模型 78
4.1 簡介 78
4.2 什麼是模型 79
4.3 規劃 80
4.4 聯合模型和規劃 82
4.5 樣本複雜度 84
4.6 分解域 86
4.7 探索 88
4.8 連續域 91
4.9 實證比較 93
4.10 擴展 95
4.11 總結 96
參考文獻 97
第5章 強化學習中的遷移:框架和概觀 101
5.1 簡介 101
5.2 強化學習遷移的框架和分類 102
5.2.1 遷移框架 102
5.2.2 分類 104
5.3 固定狀態–動作空間中從源到目標遷移的方法 108
5.3.1 問題形式化 108
5.3.2 表示遷移 109
5.3.3 參數遷移 110
5.4 固定狀態–動作空間中跨多任務遷移的方法 111
5.4.1 問題形式化 111
5.4.2 實例遷移 111
5.4.3 表示遷移 112
5.4.4 參數遷移 113
5.5 不同狀態–動作空間中從源到目標任務遷移的方法 114
5.5.1 問題形式化 114
5.5.2 實例遷移 115
5.5.3 表示遷移 115
5.5.4 參數遷移 116
5.6 總結和開放性問題 116
參考文獻 117
第6章 探索的樣本複雜度邊界 122
6.1 簡介 122
6.2 預備知識 123
6.3 形式化探索效率 124
6.3.1 探索的樣本複雜度和PAC-MDP 124
6.3.2 遺憾小化 125
6.3.3 平均損失 127
6.3.4 貝葉斯框架 127
6.4 通用PAC-MDP定理 128
6.5 基於模型的方法 130
6.5.1 Rmax 130
6.5.2 Rmax的泛化 132
6.6 無模型方法 138
6.7 總結 141
參考文獻 141
第三部分 建設性的表徵方向
第7章 連續狀態和動作空間中的強化學習 146
7.1 簡介 146
7.1.1 連續域中的馬爾可夫決策過程 147
7.1.2 求解連續MDP的方法 148
7.2 函數逼近 149
7.2.1 線性函數逼近 150
7.2.2 非線性函數逼近 153
7.2.3 更新參數 154
7.3 近似強化學習 157
7.3.1 數值逼近 157
7.3.2 策略逼近 162
7.4 雙極車杆實驗 168
7.5 總結 171
參考文獻 171
第8章 綜述:求解一階邏輯馬爾可夫決策過程 179
8.1 關係世界中的順序決策簡介 179
8.1.1 馬爾可夫決策過程:代表性和可擴展性 180
8.1.2 簡短的歷史和與其他領域的聯繫 181
8.2 用面向對象和關係擴展馬爾可夫決策過程 183
8.2.1 關係表示與邏輯歸納 183
8.2.2 關係型馬爾可夫決策過程 184
8.2.3 抽象問題和求解 184
8.3 基於模型的解決方案 186
8.3.1 貝爾曼備份的結構 186
8.3.2 確切的基於模型的算法 187
8.3.3 基於近似模型的算法 190
8.4 無模型的解決方案 192
8.4.1 固定泛化的價值函數學習 192
8.4.2 帶自適應泛化的價值函數 193
8.4.3 基於策略的求解技巧 196
8.5 模型、層級、偏置 198
8.6 現在的發展 201
8.7 總結和展望 203
參考文獻 204
第9章 層次式技術 213
9.1 簡介 213
9.2 背景 215
9.2.1 抽象動作 215
9.2.2 半馬爾可夫決策問題 216
9.2.3 結構 217
9.2.4 狀態抽象 218
9.2.5 價值函數分解 219
9.2.6 優化 220
9.3 層次式強化學習技術 220
9.3.1 選項 221
9.3.2 HAMQ學習 222
9.3.3 MAXQ 223
9.4 學習結構 226
9.5 相關工作和當前研究 228
9.6 總結 230
參考文獻 230
第10章 針對強化學習的演化計算 235
10.1 簡介 235
10.2 神經演化 237
10.3 TWEANN 239
10.3.1 挑戰 239
10.3.2 NEAT 240
10.4 混合方法 241
10.4.1 演化函數近似 242
10.4.2 XCS 243
10.5 協同演化 245
10.5.1 合作式協同演化 245
10.5.2 競爭式協同演化 246
10.6 生成和發展系統 247
10.7 在線方法 249
10.7.1 基於模型的技術 249
10.7.2 在線演化計算 250
10.8 總結 251
參考文獻 251
第四部分 概率模型
第11章 貝葉斯強化學習 260
11.1 簡介 260
11.2 無模型貝葉斯強化學習 261
11.2.1 基於價值函數的算法 261
11.2.2 策略梯度算法 264
11.2.3 演員–評論家算法 266
11.3 基於模型的貝葉斯強化學習 268
11.3.1 由POMDP表述的貝葉斯強化學習 268
11.3.2 通過動態規劃的貝葉斯強化學習 269
11.3.3 近似在線算法 271
11.3.4 貝葉斯多任務強化學習 272
11.3.5 集成先驗知識 273
11.4 有限樣本分析和複雜度問題 274
11.5 總結和討論 275
參考文獻 275
第12章 部分可觀察的馬爾可夫決策過程 279
12.1 簡介 279
12.2 部分可觀察環境中的決策 280
12.2.1 POMDP模型 280
12.2.2 連續和結構化的表達 281
12.2.3 優化決策記憶 282
12.2.4 策略和價值函數 284
12.3 基於模型的技術 285
12.3.1 基於MDP的啓發式解決方案 285
12.3.2 POMDP的值迭代 286
12.3.3 確切的值迭代 288
12.3.4 基於點的值迭代方法 290
12.3.5 其他近似求解方法 291
12.4 無先驗模型的決策 292
12.4.1 無記憶技術 292
12.4.2 學習內部記憶 292
12.5 近期研究趨勢 294
參考文獻 295
第13章 預測性定義狀態表示 300
13.1 簡介 300
13.1.1 狀態是什麼 301
13.1.2 哪一個狀態表示 301
13.1.3 為什麼使用預測性定義模型 302
13.2 PSR 303
13.2.1 歷史及測試 303
13.2.2 測試的預測 304
13.2.3 系統動態向量 304
13.2.4 系統動態矩陣 305
13.2.5 充分的數據集 305
13.2.6 狀態 306
13.2.7 更新狀態 306
13.2.8 線性PSR 307
13.2.9 線性PSR與POMDP的關聯 307
13.2.10 線性PSR的理論結果 308
13.3 PSR模型學習 308
13.3.1 發現問題 308
13.3.2 學習問題 309
13.3.3 估計系統動態矩陣 309
13.4 規劃與PSR 309
13.5 PSR的擴展 310
13.6 其他具有預測性定義狀態的模型 311
13.6.1 可觀測算子模型 311
13.6.2 預測線性高斯模型 312
13.6.3 時序差分網絡 312
13.6.4 分集自動機 312
13.6.5 指數族PSR 313
13.6.6 轉換PSR 313
13.7 總結 313
參考文獻 314
第14章 博弈論和多學習器強化學習 317
14.1 簡介 317
14.2 重複博弈 319
14.2.1 博弈論 319
14.2.2 重複博弈中的強化學習 322
14.3 順序博弈 325
14.3.1 馬爾可夫博弈 326
14.3.2 馬爾可夫博弈中的強化學習 327
14.4 在多學習器系統中的稀疏交互 330
14.4.1 多等級學習 330
14.4.2 協調學習與稀疏交互 331
14.5 延伸閲讀 334
參考文獻 334
第15章 去中心化的部分可觀察馬爾可夫決策過程 338
15.1 簡介 338
15.2 Dec-POMDP框架 339
15.3 歷史狀態與策略 340
15.3.1 歷史狀態 341
15.3.2 策略 341
15.3.3 策略的結構 342
15.3.4 聯合策略的質量 343
15.4 有限域的Dec-POMDP的解決方案 344
15.4.1 窮舉搜索和Dec-POMDP複雜性 344
15.4.2 交替化 344
15.4.3 Dec-POMDP的價值函數 345
15.4.4 前推法:啓發式搜索 348
15.4.5 後推法:動態規劃 350
15.4.6 其他有限域的方法 353
15.5 延伸閲讀 353
15.5.1 一般化和特殊問題 353
15.5.2 有限Dec-POMDP 354
15.5.3 強化學習 355
15.5.4 通信 356
參考文獻 356
第五部分 其他應用領域
第16章 強化學習與心理和神經科學之間的關係 364
16.1 簡介 364
16.2 經典(巴甫洛夫)條件反射 365
16.2.1 行為 365
16.2.2 理論 366
16.2.3 小結和其他注意事項 367
16.3 操作性(工具性)條件反射 368
16.3.1 動作 368
16.3.2 理論 369
16.3.3 基於模型的控制與無模型的控制 370
16.3.4 小結和其他注意事項 371
16.4 多巴胺 371
16.4.1 多巴胺作為獎勵預測誤差 372
16.4.2 多巴胺的強化信號的作用 372
16.4.3 小結和其他注意事項 373
16.5 基底神經節 373
16.5.1 基底神經節概述 374
16.5.2 紋狀體的神經活動 374
16.5.3 皮質基神經節丘腦循環 375
16.5.4 小結和其他注意事項 377
16.6 總結 378
參考文獻 378
第17章 遊戲領域的強化學習 387
17.1 簡介 387
17.1.1 目標和結構 387
17.1.2 範圍 388
17.2 遊戲展示廳 388
17.2.1 西洋雙陸棋 389
17.2.2 國際象棋 391
17.2.3 圍棋 394
17.2.4 俄羅斯方塊 398
17.2.5 即時戰略遊戲 400
17.3 強化學習應用到遊戲的挑戰 402
17.3.1 表示的設計 402
17.3.2 探索 404
17.3.3 訓練數據的來源 405
17.3.4 處理缺失的信息 406
17.3.5 對手建模 407
17.4 在遊戲中使用強化學習 407
17.4.1 娛樂性的對手 407
17.4.2 開發期間的學習 408
17.5 總結 409
參考文獻 410
第18章 機器人領域的強化學習綜述 415
18.1 簡介 415
18.2 機器人強化學習中的挑戰 416
18.2.1 維度災難 417
18.2.2 真實場景樣本災難 418
18.2.3 真實場景交互災難 418
18.2.4 模型錯誤災難 418
18.2.5 目標規範災難 419
18.3 機器人強化學習基礎 419
18.3.1 價值函數方法 420
18.3.2 策略搜索 421
18.4 表示法帶來的可行性 422
18.4.1 智能狀態–動作離散化 423
18.4.2 函數近似 423
18.4.3 預構建策略 424
18.5 先驗知識帶來的可行性 425
18.5.1 示範中的先驗知識 425
18.5.2 任務結構中的先驗知識 426
18.5.3 先驗知識指導探索 427
18.6 仿真模擬帶來的可行性 427
18.6.1 模型的作用 427
18.6.2 智力預演 428
18.6.3 從仿真直接遷移到真實機器人 429
18.7 一個學習樣例:杯中球任務 429
18.7.1 實驗設置:任務和獎勵 429
18.7.2 適當的策略表示 430
18.7.3 生成教師的示範 430
18.7.4 使用策略搜索進行強化學習 430
18.7.5 機器人強化學習中使用仿真模擬 431
18.7.6 價值函數方法的替代方案 431
18.8 總結 432
參考文獻 432
第六部分 結束語
第19章 總結、未來方向和展望 440
19.1 回顧 440
19.1.1 本書覆蓋內容 440
19.1.2 哪些主題沒有被包含 441
19.2 展望未來 445
19.2.1 目前未知的內容 445
19.2.2 看起來不可能的強化學習應用 446
19.2.3 有趣的方向 447
19.2.4 專家對未來發展的看法 448
參考文獻 449
縮寫詞 453
索引 455 [1] 

強化學習作者簡介

馬可•威寧(Marco Wiering)在荷蘭格羅寧根大學人工智能系工作,他發表過各種強化學習主題的文章,研究領域包括強化學習、機器學習、深度學習、目標識別、文本學習,進化計算、機器人等。
馬丁•範•奧特羅(Martijn van Otterlo)是荷蘭奈梅亨大學認知人工智能小組的一員。主要研究領域是強化學習在環境中的知識表示。 [1] 
參考資料