複製鏈接
請複製以下鏈接發送給好友

強化學習

(學習方法)

鎖定
強化學習(Reinforcement Learning, RL),又稱再勵學習、評價學習或增強學習,是機器學習的範式和方法論之一,用於描述和解決智能體(agent)在與環境的交互過程中通過學習策略以達成回報最大化或實現特定目標的問題 [1] 
強化學習的常見模型是標準的馬爾可夫決策過程(Markov Decision Process, MDP)。按給定條件,強化學習可分為基於模式的強化學習(model-based RL)和無模式強化學習(model-free RL) [1]  ,以及主動強化學習(active RL)和被動強化學習(passive RL) [2]  。強化學習的變體包括逆向強化學習、階層強化學習和部分可觀測系統的強化學習。求解強化學習問題所使用的算法可分為策略搜索算法和值函數(value function)算法兩類。深度學習模型可以在強化學習中得到使用,形成深度強化學習 [1] 
強化學習理論受到行為主義心理學啓發,側重在線學習並試圖在探索-利用(exploration-exploitation)間保持平衡。不同於監督學習非監督學習,強化學習不要求預先給定任何數據,而是通過接收環境對動作的獎勵(反饋)獲得學習信息並更新模型參數 [3] 
強化學習問題在信息論博弈論自動控制等領域有得到討論,被用於解釋有限理性條件下的平衡態、設計推薦系統和機器人交互系統 [3]  。一些複雜的強化學習算法在一定程度上具備解決複雜問題的通用智能,可以在圍棋和電子遊戲中達到人類水平 [3-4] 
中文名
強化學習
外文名
Reinforcement Learning, RL
別    名
再勵學習,評價學習,增強學習
類    型
機器學習
應    用
信息論,自動控制,機器人學

強化學習定義

強化學習是智能體(Agent)以“試錯”的方式進行學習,通過與環境進行交互獲得的獎賞指導行為,目標是使智能體獲得最大的獎賞,強化學習不同於連接主義學習中的監督學習,主要表現在強化信號上,強化學習中由環境提供的強化信號是對產生動作的好壞作一種評價(通常為標量信號),而不是告訴強化學習系統RLS(reinforcement learning system)如何去產生正確的動作。由於外部環境提供的信息很少,RLS必須靠自身的經歷進行學習。通過這種方式,RLS在行動-評價的環境中獲得知識,改進行動方案以適應環境。

強化學習基本模型和原理

強化學習是從動物學習、參數擾動自適應控制等理論發展而來,其基本原理是:
如果Agent的某個行為策略導致環境正的獎賞(強化信號),那麼Agent以後產生這個行為策略的趨勢便會加強。Agent的目標是在每個離散狀態發現最優策略以使期望的折扣獎賞和最大。
強化學習 強化學習
強化學習把學習看作試探評價過程,Agent選擇一個動作用於環境,環境接受該動作後狀態發生變化,同時產生一個強化信號(獎或懲)反饋給Agent,Agent根據強化信號和環境當前狀態再選擇下一個動作,選擇的原則是使受到正強化(獎)的概率增大。選擇的動作不僅影響立即強化值,而且影響環境下一時刻的狀態及最終的強化值。
強化學習不同於連接主義學習中的監督學習,主要表現在強化信號上,強化學習中由環境提供的強化信號是Agent對所產生動作的好壞作一種評價(通常為標量信號),而不是告訴Agent如何去產生正確的動作。由於外部環境提供了很少的信息,Agent必須靠自身的經歷進行學習。通過這種方式,Agent在行動一一評價的環境中獲得知識,改進行動方案以適應環境。
強化學習系統學習的目標是動態地調整參數,以達到強化信號最大。若已知r/A梯度信息,則可直接可以使用監督學習算法。因為強化信號r與Agent產生的動作A沒有明確的函數形式描述,所以梯度信息r/A無法得到。因此,在強化學習系統中,需要某種隨機單元,使用這種隨機單元,Agent在可能動作空間中進行搜索並發現正確的動作。

強化學習網絡模型設計

強化學習 強化學習
每一個自主體是由兩個神經網絡模塊組成,即行動網絡和評估網絡。行動網絡是根據當前的狀態而決定下一個時刻施加到環境上去的最好動作。
對於行動網絡,強化學習算法允許它的輸出結點進行隨機搜索,有了來自評估網絡的內部強化信號後,行動網絡的輸出結點即可有效地完成隨機搜索並且大大地提高選擇好的動作的可能性,同時可以在線訓練整個行動網絡。用一個輔助網絡來為環境建模,評估網絡根據當前的狀態和模擬環境用於預測標量值的外部強化信號,這樣它可單步和多步預報當前由行動網絡施加到環境上的動作強化信號,可以提前向動作網絡提供有關將候選動作的強化信號,以及更多的獎懲信息(內部強化信號),以減少不確定性並提高學習速度。
進化強化學習對評估網絡使用時序差分預測方法TD和反向傳播BP算法進行學習,而對行動網絡進行遺傳操作,使用內部強化信號作為行動網絡的適應度函數
網絡運算分成兩個部分,即前向信號計算和遺傳強化計算。在前向信號計算時,對評估網絡採用時序差分預測方法,由評估網絡對環境建模,可以進行外部強化信號的多步預測,評估網絡提供更有效的內部強化信號給行動網絡,使它產生更恰當的行動,內部強化信號使行動網絡、評估網絡在每一步都可以進行學習,而不必等待外部強化信號的到來,從而大大地加速了兩個網絡的學習。

強化學習設計考慮

一,如何表示狀態空間和動作空間。二,如何選擇建立信號以及如何通過學習來修正不同狀態-動作對的值。三,如何根據這些值來選擇適合的動作。用強化學習方法研究未知環境下的機器人導航,由於環境的複雜性和不確定性,這些問題變得更復雜。
標準的強化學習,智能體作為學習系統,獲取外部環境的當前狀態信息s,對環境採取試探行為u,並獲取環境反饋的對此動作的評價r和新的環境狀態 。如果智能體的某動作u導致環境正的獎賞(立即報酬),那麼智能體以後產生這個動作的趨勢便會加強;反之,智能體產生這個動作的趨勢將減弱。在學習系統的控制行為與環境反饋的狀態及評價的反覆的交互作用中,以學習的方式不斷修改從狀態到動作的映射策略,以達到優化系統性能目的。

強化學習目標

學習從環境狀態到行為的映射,使得智能體選擇的行為能夠獲得環境最大的獎賞,使得外部環境對學習系統在某種意義下的評價(或整個系統的運行性能)為最佳。
參考資料