-
深度強化學習
(人工智能方法)
鎖定
- 中文名
- 深度強化學習
- 外文名
- Deep Reinforcement Learning
- 英文縮寫
- DRL
目錄
深度強化學習簡介
深度強化學習原理框架
(1)在每個時刻agent與環境交互得到一個高維度的觀察,並利用DL方法來感知觀察,以得到具體的狀態特徵表示;
(2)基於預期回報來評價各動作的價值函數,並通過某種策略將當前狀態映射為相應的動作;
深度強化學習DQN算法
DQN算法融合了神經網絡和Q learning的方法, 名字叫做 Deep Q Network。
DQN 有一個記憶庫用於學習之前的經歷。在之前的簡介影片中提到過, Q learning 是一種 off-policy 離線學習法, 它能學習當前經歷着的, 也能學習過去經歷過的, 甚至是學習別人的經歷. 所以每次 DQN 更新的時候, 我們都可以隨機抽取一些之前的經歷進行學習. 隨機抽取這種做法打亂了經歷之間的相關性, 也使得神經網絡更新更有效率。Fixed Q-targets 也是一種打亂相關性的機理, 如果使用 fixed Q-targets, 我們就會在 DQN 中使用到兩個結構相同但參數不同的神經網絡, 預測 Q 估計 的神經網絡具備最新的參數, 而預測 Q 現實 的神經網絡使用的參數則是很久以前的。有了這兩種提升手段, DQN 才能在一些遊戲中超越人類。
深度強化學習基於卷積神經網絡的深度強化學習
深度Q網絡是深度強化學習領域的開創性工作。它採用時間上相鄰的4幀遊戲畫面作為原始圖像輸入,經過深度卷積神經網絡和全連接神經網絡,輸出狀態動作Q函數,實現了端到端的學習控制。
深度Q網絡使用帶有參數θ的Q函數Q(s, a; θ)去逼近值函數。迭代次數為i 時,損失函數為
其中
θi代表學習過程中的網絡參數。經過一段時間的學習後, 新的θi更新θ−。具體的學習過程根據:
深度強化學習基於遞歸神經網絡的深度強化學習
深度強化學習面臨的問題往往具有很強的時間依賴性,而遞歸神經網絡適合處理和時間序列相關的問題。強化學習與遞歸神經網絡的結合也是深度強化學習的主要形式。
對於時間序列信息,深度Q網絡的處理方法是加入經驗回放機制。但是經驗回放的記憶能力有限,每個決策點需要獲取整個輸入畫面進行感知記憶。將長短時記憶網絡與深度Q網絡結合,提出深度遞歸Q網絡(deep recurrent Q network,DRQN),在部分可觀測馬爾科夫決策過程(partiallyobservable Markov decision process, POMDP)中表現出了更好的魯棒性,同時在缺失若干幀畫面的情況下也能獲得很好的實驗結果。
受此啓發的深度注意力遞歸Q網絡(deep attentionrecurrent Q network, DARQN)。它能夠選擇性地重點關注相關信息區域,減少深度神經網絡的參數數量和計算開銷。