-
部分可觀察馬爾可夫決策過程
鎖定
部分可觀察馬爾可夫決策過程(Partially Observable Markov Decision Process,縮寫:POMDP),是一種通用化的馬爾可夫決策過程。POMDP模擬智能體決策程序是假設系統動態由MDP決定,但是智能體無法直接觀察狀態。相反的,它必須要根據模型的全域與部分區域觀察結果來推斷狀態的分佈。
- 中文名
- 部分可觀察馬爾可夫決策過程
- 外文名
- Partially Observable Markov Decision Process
目錄
- 1 定義
- 2 近似POMDP解決方案
- 3 討論
部分可觀察馬爾可夫決策過程定義
離散時間POMDP模擬代理與其環境之間的關係。 形式上,POMDP是7元組
,其中
在每個時間段,環境處於某種狀態
.The agent在A中採取動作
,這會導致轉換到狀態
的環境概率為
。同時,代理接收觀察
,它取決於環境的新狀態,概率為
。最後,代理接收獎勵
等於
。然後重複該過程。目標是讓代理人在每個時間步驟選擇最大化其預期未來折扣獎勵的行動:
。折扣係數
決定了對更遠距離的獎勵有多大的直接獎勵。當
時,代理人只關心哪個動作會產生最大的預期即時獎勵;當
時,代理人關心最大化未來獎勵的預期總和。
部分可觀察馬爾可夫決策過程近似POMDP解決方案
在實踐中,POMDP通常在計算上難以解決,因此計算機科學家已經開發了近似POMDP解決方案的方法。基於網格的算法包括一種近似解決方案技術。 在該方法中,針對置信空間中的一組點計算值函數,並且使用內插來確定針對不在該組網格點中遇到的其他信念狀態採取的最優動作。 最近的工作利用了採樣技術,泛化技術和問題結構的利用,並將POMDP解決擴展到具有數百萬個狀態的大型域。例如,基於點的方法對隨機可達信念點進行抽樣,以將規劃約束到信念空間中的相關區域。還探索了使用PCA降低尺寸的方法
[1]
。
部分可觀察馬爾可夫決策過程討論
由於代理不直接觀察環境的狀態,因此代理必須在真實環境狀態的不確定性下做出決策。然而,通過與環境交互並接收觀察,代理可以通過更新當前狀態的概率分佈來更新其對真實狀態的信念。這種性質的結果是最佳行為通常可能包括信息收集行動,這些行動純粹是因為它們改善了代理人對當前狀態的估計,從而使其能夠在未來做出更好的決策。
將上述定義與馬爾可夫決策過程的定義進行比較是有益的。 MDP不包括觀察集,因為代理總是確切地知道環境的當前狀態。或者,通過將觀察組設定為等於狀態組並定義觀察條件概率以確定性地選擇對應於真實狀態的觀察,可以將MDP重新表述為POMDP。
- 參考資料
-
- 1. 部分可觀察馬爾可夫決策過程研究進展 .萬方[引用日期2018-08-06]