複製鏈接
請複製以下鏈接發送給好友

強化學習

(2020年清華大學出版社出版的圖書)

鎖定
《強化學習》是2020年清華大學出版社出版的圖書。本書內容系統全面,覆蓋面廣,既有理論闡述、公式推導,又有豐富的典型案例,理論聯繫實際。書中全面系統地描述了強化學習的起源、背景和分類,各類強化學習算法的原理、實現方式以及各算法間的關係,為讀者構建了一個完整的強化學習知識體系。
中文名
強化學習
作    者
鄒偉
鬲玲
作    者
劉昱杓
出版社
清華大學出版社
ISBN
9787302538295

強化學習內容簡介

《強化學習》一書內容系統全面,覆蓋面廣,既有理論闡述、公式推導,又有豐富的典型案例,理論聯繫實際。書中全面系統地描述了強化學習的起源、背景和分類,各類強化學習算法的原理、實現方式以及各算法間的關係,為讀者構建了一個完整的強化學習知識體系;同時包含豐富的經典案例,如各類迷宮尋寶、飛翔小鳥、撲克牌、小車爬山、倒立擺、鐘擺、多臂賭博機、五子棋、AlphaGo、AlphaGo Zero、AlphaZero等,通過給出它們對應的詳細案例説明和代碼描述,讓讀者深度理解各類強化學習算法的精髓。《強化學習》案例生動形象,描述深入淺出,代碼簡潔易懂,註釋詳細。 《強化學習》可作為高等院校計算機、自動化及相關專業的本科生或研究生教材,也可供對強化學習感興趣的研究人員和工程技術人員閲讀參考。 [1] 

強化學習圖書目錄

目錄
第1章強化學習概述
1.1強化學習的背景
1.2強化學習初探
1.2.1智能體和環境
1.2.2智能體主要組成
1.2.3強化學習、監督學習、非監督學習
1.2.4強化學習分類
1.2.5研究方法
1.2.6發展歷程
1.3強化學習的重點概念
1.3.1學習與規劃
1.3.2探索與利用
1.3.3預測與控制
1.4小結
1.5習題
第2章馬爾可夫決策過程
2.1馬爾可夫基本概念
2.1.1馬爾可夫性
2.1.2馬爾可夫過程
2.1.3馬爾可夫決策過程
2.2貝爾曼方程
2.2.1貝爾曼期望方程
2.2.2貝爾曼方程
2.3策略
2.3.1策略定義
2.3.2求解策略
2.4小結
2.5習題
第3章動態規劃
3.1動態規劃簡介
3.2策略評估
3.3策略改進
3.4策略迭代
3.5值迭代
3.6實例講解
3.6.1“找寶藏”環境描述
3.6.2策略迭代
3.6.3值迭代
3.6.4實例小結
3.7小結
3.8習題
第4章蒙特卡羅
4.1蒙特卡羅簡介
4.2蒙特卡羅評估
4.3蒙特卡羅控制
4.4在線策略蒙特卡羅
4.5離線策略蒙特卡羅
4.5.1重要性採樣離線策略蒙特卡羅
4.5.2加權重要性採樣離線策略蒙特卡羅
4.6實例講解
4.6.1“十點半”遊戲
4.6.2在線策略蒙特卡羅
4.6.3離線策略蒙特卡羅
4.6.4實例小結
4.7小結
4.8習題
第5章時序差分
5.1時序差分簡介
5.2三種方法的性質對比
5.3Sarsa: 在線策略TD
5.4Qlearning: 離線策略TD方法
5.5實例講解
5.5.1迷宮尋寶
5.5.2Sarsa方法
5.5.3Qlearning方法
5.5.4實例小結
5.6小結
5.7習題
第6章資格跡
6.1資格跡簡介
6.2多步TD評估
6.3前向算法
6.4後向算法
6.5前向算法與後向算法的統一
6.6Sarsa(λ)方法
6.6.1前向Sarsa(λ)方法
6.6.2後向Sarsa(λ)方法
6.7Q (λ)方法
6.7.1前向Watkinss Q(λ)方法
6.7.2後向Watkinss Q(λ)方法
*6.7.3Pengs Q(λ)方法
6.8實例講解
6.8.1風格子世界
6.8.2後向Sarsa(λ)
6.8.3後向Q(λ)
6.8.4實例小結
6.9小結
6.10習題
第7章值函數逼近
7.1值函數逼近簡介
7.2線性逼近
7.2.1增量法
7.2.2批量法
7.3非線性逼近
7.3.1DQN方法
7.3.2Double DQN方法
7.3.3Dueling DQN方法
7.4實例講解
7.4.1遊戲簡介
7.4.2環境描述
7.4.3算法詳情
7.4.4核心代碼
7.5小結
7.6習題
第8章隨機策略梯度
8.1隨機策略梯度簡介
8.1.1策略梯度優缺點
8.1.2策略梯度方法分類
8.2隨機策略梯度定理及證明
8.2.1隨機策略梯度定理
*8.2.2隨機策略梯度定理證明
8.3蒙特卡羅策略梯度
8.3.1REINFORCE方法
8.3.2帶基線的REINFORCE方法
8.4TRPO方法
8.5實例講解
8.5.1遊戲簡介及環境描述
8.5.2算法詳情
8.5.3核心代碼
8.6小結
8.7習題
第9章ActorCritic及變種
9.1AC方法
9.1.1在線策略AC方法
9.1.2離線策略AC方法
9.1.3兼容性近似函數定理
9.2A2C方法
9.3A3C方法
9.3.1簡介
9.3.2異步Qlearning方法
9.3.3異步Sarsa方法
9.3.4異步n步Qlearning方法
9.3.5A3C方法詳述
9.4實例講解
9.4.1AC實例
9.4.2A3C實例
9.5小結
9.6習題
第10章確定性策略梯度
10.1確定性策略梯度及證明
10.1.1確定性策略梯度定理
*10.1.2確定性策略梯度定理證明
10.2DPG方法
10.2.1在線策略確定性AC方法
10.2.2離線策略確定性AC
10.2.3兼容性近似函數定理
10.3DDPG方法
10.3.1DDPG簡介
10.3.2算法要點
10.3.3算法流程
10.4實例講解
10.4.1遊戲簡介及環境描述
10.4.2算法詳情
10.4.3核心代碼
10.5小結
10.6習題
第11章學習與規劃
11.1有模型方法和無模型方法
11.2模型擬合
11.2.1模型數學表示
11.2.2監督式學習構建模型
11.2.3利用模型進行規劃
11.3Dyna框架及相關算法
11.3.1DynaQ
11.3.2DynaQ
11.3.3優先級掃描的DynaQ
11.4Dyna2
11.5實例講解
11.5.1遊戲簡介及環境描述
11.5.2算法詳情
11.5.3核心代碼
11.6小結
11.7習題
第12章探索與利用
12.1探索利用困境
12.2多臂賭博機問題
12.3樸素探索
12.4樂觀初始值估計
12.5置信區間上界
12.6概率匹配
12.7信息價值
12.8實例講解
12.8.1遊戲簡介及環境描述
12.8.2算法詳情
12.8.3核心代碼
12.9小結
12.10習題
第13章博弈強化學習
13.1博弈及博弈樹
13.2極大極小搜索
13.3AlphaBeta搜索
13.4蒙特卡羅樹搜索
13.5AlphaGo
13.5.1監督學習策略網絡pσ
13.5.2快速走子策略網絡pπ
13.5.3強化學習策略網絡pρ
13.5.4價值網絡vθ
13.5.5蒙特卡羅樹搜索
13.5.6總結
13.6AlphaGo Zero
13.6.1下棋原理
13.6.2網絡結構
13.6.3蒙特卡羅樹搜索
13.6.4總結
13.7AlphaZero
13.8實例講解
13.8.1遊戲簡介及環境描述
13.8.2算法流程描述
13.8.3算法細節
13.8.4核心代碼
13.9小結
13.10習題
參考文獻

強化學習作者簡介

鄒偉,博士,睿客邦創始人,研究方向為機器學習、數據挖掘、計算幾何,致力於機器學習和深度學習在實際中的應用;主持研發50多個人工智能領域工業級項目,並受邀在中國移動、花旗銀行、中信集團、中航信、烽火科技、方、完美世界等公司進行了上百場講座和內部培訓。創立的睿客邦與國內十多所高校建立了AI聯合實驗室或實訓基地;兼任天津大學創業導師、山東交通學院客座教授等。曾在多個在線平台講授“機器學習”“深度學習”等課程,廣受網友好評,累計學習人數超過百萬。
鬲玲,碩士,北京神舟航天軟件公司知識工程團隊負責人,資深研發工程師。研究方向為知識工程、語義檢索、強化學習、自然語言處理。作為牽頭單位技術負責人蔘與並完成國家科技支撐計劃項目1項,863計劃項目1項。有多年知識管理系統以及自然語言處理項目研發經驗,目前正致力於垂直領域知識圖譜的落地以及強化學習在自然語言處理領域的應用。
劉昱杓,現供職於央視市場研究,深度學習、強化學習研發工程師,研究方向為計算機視覺。有多年深度學習視覺方向開發經驗,參與了多個圖像識別、目標檢測、目標追蹤等領域的落地項目。目前專注於深度強化學習方向的研究。
參考資料