反饋

深度強化學習

（人工智能方法）

鎖定

深度強化學習將深度學習的感知能力和強化學習的決策能力相結合，可以直接根據輸入的圖像進行控制，是一種更接近人類思維方式的人工智能方法。^[1]

中文名: 深度強化學習

外文名: Deep Reinforcement Learning
英文縮寫: DRL

深度強化學習簡介

深度強化學習的框架 ^[1]

深度學習具有較強的感知能力，但是缺乏一定的決策能力；而強化學習具有決策能力，對感知問題束手無策。因此，將兩者結合起來，優勢互補，為複雜系統的感知決策問題提供瞭解決思路。^[1]

深度強化學習原理框架

圖1：DRL原理框架圖 ^[2]

DRL是一種端對端（end-to-end）的感知與控制系統，具有很強的通用性．其學習過程可以描述為：

(1)在每個時刻agent與環境交互得到一個高維度的觀察，並利用DL方法來感知觀察，以得到具體的狀態特徵表示；

(2)基於預期回報來評價各動作的價值函數，並通過某種策略將當前狀態映射為相應的動作；

(3)環境對此動作做出反應，並得到下一個觀察．通過不斷循環以上過程，最終可以得到實現目標的最優策略。^[2] DRL原理框架如圖1：DRL原理框架圖所示。

深度強化學習DQN算法

DQN算法融合了神經網絡和Q learning的方法，名字叫做 Deep Q Network。

DQN 有一個記憶庫用於學習之前的經歷。在之前的簡介影片中提到過， Q learning 是一種 off-policy 離線學習法，它能學習當前經歷着的，也能學習過去經歷過的，甚至是學習別人的經歷. 所以每次 DQN 更新的時候，我們都可以隨機抽取一些之前的經歷進行學習. 隨機抽取這種做法打亂了經歷之間的相關性，也使得神經網絡更新更有效率。Fixed Q-targets 也是一種打亂相關性的機理，如果使用 fixed Q-targets，我們就會在 DQN 中使用到兩個結構相同但參數不同的神經網絡，預測 Q 估計的神經網絡具備最新的參數，而預測 Q 現實的神經網絡使用的參數則是很久以前的。有了這兩種提升手段， DQN 才能在一些遊戲中超越人類。

深度強化學習基於卷積神經網絡的深度強化學習

由於卷積神經網絡對圖像處理擁有天然的優勢，將卷積神經網絡與強化學習結合處理圖像數據的感知決策任務成了很多學者的研究方向。

深度Q網絡是深度強化學習領域的開創性工作。它採用時間上相鄰的4幀遊戲畫面作為原始圖像輸入，經過深度卷積神經網絡和全連接神經網絡，輸出狀態動作Q函數，實現了端到端的學習控制。

深度Q網絡使用帶有參數θ的Q函數Q(s， a; θ)去逼近值函數。迭代次數為i 時，損失函數為

圖1

其中

圖2

θi代表學習過程中的網絡參數。經過一段時間的學習後，新的θi更新θ−。具體的學習過程根據：

圖3

深度強化學習基於遞歸神經網絡的深度強化學習

深度強化學習面臨的問題往往具有很強的時間依賴性，而遞歸神經網絡適合處理和時間序列相關的問題。強化學習與遞歸神經網絡的結合也是深度強化學習的主要形式。

對於時間序列信息，深度Q網絡的處理方法是加入經驗回放機制。但是經驗回放的記憶能力有限，每個決策點需要獲取整個輸入畫面進行感知記憶。將長短時記憶網絡與深度Q網絡結合，提出深度遞歸Q網絡(deep recurrent Q network，DRQN)，在部分可觀測馬爾科夫決策過程(partiallyobservable Markov decision process， POMDP)中表現出了更好的魯棒性，同時在缺失若干幀畫面的情況下也能獲得很好的實驗結果。

受此啓發的深度注意力遞歸Q網絡(deep attentionrecurrent Q network， DARQN)。它能夠選擇性地重點關注相關信息區域，減少深度神經網絡的參數數量和計算開銷。

參考資料

1. 趙冬斌,邵坤,朱圓恆,李棟,陳亞冉,王海濤,劉德榮,周彤,王成紅.深度強化學習綜述:兼論計算機圍棋的發展[J].控制理論與應用,2016,33(06):701-717.
2. 劉全,翟建偉,章宗長,鍾珊,周倩,章鵬,徐進.深度強化學習綜述[J].計算機學報,2018,41(01):1-27.

深度強化學習的概述圖（1張）

詞條統計

瀏覽次數：次
編輯次數：5次歷史版本
最近更新：你饿嘛i （2022-03-21）

1 簡介
2 原理框架
3 DQN算法
4 基於卷積神經網絡的深度強化學習
5 基於遞歸神經網絡的深度強化學習