反饋

強化學習

（2020年清華大學出版社出版的圖書）

《強化學習》是2020年清華大學出版社出版的圖書。本書內容系統全面，覆蓋面廣，既有理論闡述、公式推導，又有豐富的典型案例，理論聯繫實際。書中全面系統地描述了強化學習的起源、背景和分類，各類強化學習算法的原理、實現方式以及各算法間的關係，為讀者構建了一個完整的強化學習知識體系。

中文名: 強化學習
作者: 鄒偉
鬲玲

作者: 劉昱杓
出版社: 清華大學出版社
ISBN: 9787302538295

強化學習內容簡介

《強化學習》一書內容系統全面，覆蓋面廣，既有理論闡述、公式推導，又有豐富的典型案例，理論聯繫實際。書中全面系統地描述了強化學習的起源、背景和分類，各類強化學習算法的原理、實現方式以及各算法間的關係，為讀者構建了一個完整的強化學習知識體系；同時包含豐富的經典案例，如各類迷宮尋寶、飛翔小鳥、撲克牌、小車爬山、倒立擺、鐘擺、多臂賭博機、五子棋、AlphaGo、AlphaGo Zero、AlphaZero等，通過給出它們對應的詳細案例説明和代碼描述，讓讀者深度理解各類強化學習算法的精髓。《強化學習》案例生動形象，描述深入淺出，代碼簡潔易懂，註釋詳細。《強化學習》可作為高等院校計算機、自動化及相關專業的本科生或研究生教材，也可供對強化學習感興趣的研究人員和工程技術人員閲讀參考。^[1]

強化學習圖書目錄

第1章強化學習概述

1.1強化學習的背景

1.2強化學習初探

1.2.1智能體和環境

1.2.2智能體主要組成

1.2.3強化學習、監督學習、非監督學習

1.2.4強化學習分類

1.2.5研究方法

1.2.6發展歷程

1.3強化學習的重點概念

1.3.1學習與規劃

1.3.2探索與利用

1.3.3預測與控制

1.4小結

1.5習題

第2章馬爾可夫決策過程

2.1馬爾可夫基本概念

2.1.1馬爾可夫性

2.1.2馬爾可夫過程

2.1.3馬爾可夫決策過程

2.2貝爾曼方程

2.2.1貝爾曼期望方程

2.2.2貝爾曼方程

2.3策略

2.3.1策略定義

2.3.2求解策略

2.4小結

2.5習題

第3章動態規劃

3.1動態規劃簡介

3.2策略評估

3.3策略改進

3.4策略迭代

3.5值迭代

3.6實例講解

3.6.1“找寶藏”環境描述

3.6.2策略迭代

3.6.3值迭代

3.6.4實例小結

3.7小結

3.8習題

第4章蒙特卡羅

4.1蒙特卡羅簡介

4.2蒙特卡羅評估

4.3蒙特卡羅控制

4.4在線策略蒙特卡羅

4.5離線策略蒙特卡羅

4.5.1重要性採樣離線策略蒙特卡羅

4.5.2加權重要性採樣離線策略蒙特卡羅

4.6實例講解

4.6.1“十點半”遊戲

4.6.2在線策略蒙特卡羅

4.6.3離線策略蒙特卡羅

4.6.4實例小結

4.7小結

4.8習題

第5章時序差分

5.1時序差分簡介

5.2三種方法的性質對比

5.3Sarsa：在線策略TD

5.4Qlearning：離線策略TD方法

5.5實例講解

5.5.1迷宮尋寶

5.5.2Sarsa方法

5.5.3Qlearning方法

5.5.4實例小結

5.6小結

5.7習題

第6章資格跡

6.1資格跡簡介

6.2多步TD評估

6.3前向算法

6.4後向算法

6.5前向算法與後向算法的統一

6.6Sarsa(λ)方法

6.6.1前向Sarsa(λ)方法

6.6.2後向Sarsa(λ)方法

6.7Q (λ)方法

6.7.1前向Watkinss Q(λ)方法

6.7.2後向Watkinss Q(λ)方法

*6.7.3Pengs Q(λ)方法

6.8實例講解

6.8.1風格子世界

6.8.2後向Sarsa(λ)

6.8.3後向Q(λ)

6.8.4實例小結

6.9小結

6.10習題

第7章值函數逼近

7.1值函數逼近簡介

7.2線性逼近

7.2.1增量法

7.2.2批量法

7.3非線性逼近

7.3.1DQN方法

7.3.2Double DQN方法

7.3.3Dueling DQN方法

7.4實例講解

7.4.1遊戲簡介

7.4.2環境描述

7.4.3算法詳情

7.4.4核心代碼

7.5小結

7.6習題

第8章隨機策略梯度

8.1隨機策略梯度簡介

8.1.1策略梯度優缺點

8.1.2策略梯度方法分類

8.2隨機策略梯度定理及證明

8.2.1隨機策略梯度定理

*8.2.2隨機策略梯度定理證明

8.3蒙特卡羅策略梯度

8.3.1REINFORCE方法

8.3.2帶基線的REINFORCE方法

8.4TRPO方法

8.5實例講解

8.5.1遊戲簡介及環境描述

8.5.2算法詳情

8.5.3核心代碼

8.6小結

8.7習題

第9章ActorCritic及變種

9.1AC方法

9.1.1在線策略AC方法

9.1.2離線策略AC方法

9.1.3兼容性近似函數定理

9.2A2C方法

9.3A3C方法

9.3.1簡介

9.3.2異步Qlearning方法

9.3.3異步Sarsa方法

9.3.4異步n步Qlearning方法

9.3.5A3C方法詳述

9.4實例講解

9.4.1AC實例

9.4.2A3C實例

9.5小結

9.6習題

第10章確定性策略梯度

10.1確定性策略梯度及證明

10.1.1確定性策略梯度定理

*10.1.2確定性策略梯度定理證明

10.2DPG方法

10.2.1在線策略確定性AC方法

10.2.2離線策略確定性AC

10.2.3兼容性近似函數定理

10.3DDPG方法

10.3.1DDPG簡介

10.3.2算法要點

10.3.3算法流程

10.4實例講解

10.4.1遊戲簡介及環境描述

10.4.2算法詳情

10.4.3核心代碼

10.5小結

10.6習題

第11章學習與規劃

11.1有模型方法和無模型方法

11.2模型擬合

11.2.1模型數學表示

11.2.2監督式學習構建模型

11.2.3利用模型進行規劃

11.3Dyna框架及相關算法

11.3.1DynaQ

11.3.2DynaQ

11.3.3優先級掃描的DynaQ

11.4Dyna2

11.5實例講解

11.5.1遊戲簡介及環境描述

11.5.2算法詳情

11.5.3核心代碼

11.6小結

11.7習題

第12章探索與利用

12.1探索利用困境

12.2多臂賭博機問題

12.3樸素探索

12.4樂觀初始值估計

12.5置信區間上界

12.6概率匹配

12.7信息價值

12.8實例講解

12.8.1遊戲簡介及環境描述

12.8.2算法詳情

12.8.3核心代碼

12.9小結

12.10習題

第13章博弈強化學習

13.1博弈及博弈樹

13.2極大極小搜索

13.3AlphaBeta搜索

13.4蒙特卡羅樹搜索

13.5AlphaGo

13.5.1監督學習策略網絡pσ

13.5.2快速走子策略網絡pπ

13.5.3強化學習策略網絡pρ

13.5.4價值網絡vθ

13.5.5蒙特卡羅樹搜索

13.5.6總結

13.6AlphaGo Zero

13.6.1下棋原理

13.6.2網絡結構

13.6.3蒙特卡羅樹搜索

13.6.4總結

13.7AlphaZero

13.8實例講解

13.8.1遊戲簡介及環境描述

13.8.2算法流程描述

13.8.3算法細節

13.8.4核心代碼

13.9小結

13.10習題

參考文獻

強化學習作者簡介

鄒偉，博士，睿客邦創始人，研究方向為機器學習、數據挖掘、計算幾何，致力於機器學習和深度學習在實際中的應用；主持研發50多個人工智能領域工業級項目，並受邀在中國移動、花旗銀行、中信集團、中航信、烽火科技、方、完美世界等公司進行了上百場講座和內部培訓。創立的睿客邦與國內十多所高校建立了AI聯合實驗室或實訓基地；兼任天津大學創業導師、山東交通學院客座教授等。曾在多個在線平台講授“機器學習”“深度學習”等課程，廣受網友好評，累計學習人數超過百萬。

鬲玲，碩士，北京神舟航天軟件公司知識工程團隊負責人，資深研發工程師。研究方向為知識工程、語義檢索、強化學習、自然語言處理。作為牽頭單位技術負責人蔘與並完成國家科技支撐計劃項目1項，863計劃項目1項。有多年知識管理系統以及自然語言處理項目研發經驗，目前正致力於垂直領域知識圖譜的落地以及強化學習在自然語言處理領域的應用。

劉昱杓，現供職於央視市場研究，深度學習、強化學習研發工程師，研究方向為計算機視覺。有多年深度學習視覺方向開發經驗，參與了多個圖像識別、目標檢測、目標追蹤等領域的落地項目。目前專注於深度強化學習方向的研究。

參考資料

1. 《強化學習》．噹噹自營[引用日期2021-12-25]

強化學習的概述圖（1張）

詞條統計

瀏覽次數：次
編輯次數：2次歷史版本
最近更新：不会说的段子手（2023-07-17）

1 內容簡介
2 圖書目錄
3 作者簡介