-
序貫決策
鎖定
序貫決策是指按時間順序排列起來,以得到按順序的各種決策(策略),是用於隨機性或不確定性動態系統最優化的決策方法。
- 中文名
- 序貫決策
- 外文名
- Sequential Decision
- 別 名
- 動態決策法
- 學 科
- 運籌學
- 隸 屬
- 序貫決策分析
- 特 點
- 無後效性、多階段性、預測性等
序貫決策基本概念
序貫決策是指按時間順序排列起來,以得到按順序的各種決策(策略)。也就是在時間上有先後之別的多階段決策方法,也稱動態決策法。多階段決策的每一個階段都需作出決策,從而使整個過程達到最優。多階段的選取不是任意決定的,它依賴於當前面臨的狀態,不給以後的發展產生影響,從而影響整個過程的活動。當各個階段的決策確定後,就組成了問題的決策序列或策略,稱為決策集合。
[1]
序貫決策特點
- 無後效性。序貫決策是前一階段決策方案的選擇,直接影響到後一階段決策方案的選擇,後一階段決策方案的選擇取決於前一階段決策方案的結果。
- 多階段性。序貫決策具有在時間上有先後之別的多階段決策。決策者關心的是多階段決策的總結果,而不是各階段的當即結果。
- 預測性。決策的實施是對各採用的多種可行方案進行比較,擇其最優。序貫決策若對各種可行方案的前景加以預測,在預測的結果中會顯示出最優可行方案。
- 條件性。序貫決策是根據最優性原理求解,問題是所涉及的過程都要滿足一定的條件,即馬爾柯夫性。也就是利用轉移概率矩陣和相應的利潤矩陣對不同方案在作出預測的基礎上進行決策。
序貫決策過程
從初始狀態開始,每個時刻作出最優決策後,接着觀察下一步實際出現的狀態,即收集新的信息,然後再作出新的最優決策,反覆進行直至最後。
系統在每次作出決策後下一步可能出現的狀態是不能確切預知的,存在兩種情況:
- 系統下一步可能出現的狀態的概率分佈是已知的,可用客觀概率的條件分佈來描述。對於這類系統的序貫決策研究得較完滿的是狀態轉移律具有無後效性的系統,相應的序貫決策稱為馬爾可夫決策過程,它是將馬爾可夫過程理論與決定性動態規劃相結合的產物。
序貫決策應用
有些決策問題,在進行決策後又產生一些新情況,需要進行新的決策,接着又有一些新的情況,又需要進行新的決策。這樣決策、情況、決策…,就構成一個序列,這就是序貫決策。與多階段決策中階段數確定相比,序貫決策中決策過程階段數並不明顯,也沒有明確的結束階段,其決策階段數依賴於決策過程中出現的狀況。序貫決策是馬爾可夫決策的一種,它主要研究的對象是運行系統的狀態和狀態的轉移。即根據變量的現實狀態及其發展變化趨勢,預測它在未來可能出現的狀態,以做出正確決策。