複製鏈接
請複製以下鏈接發送給好友

混合策略

鎖定
混合策略是參與對策的局中人以一定的概率值隨機地選取的策略。它可以用向量形式進行表述。在矩陣對策中,它只有在沒有鞍點的情況下才出現。因為在矩陣對策中沒有鞍點時,參與對策的局中人無法有目的地選取對策來求得平衡局勢,只有隨機地從策略集合中選取策略。 [1] 
中文名
混合策略
外文名
mixed strategy
拼    音
Hùn hé cè lüè
學    科
運籌學
隸    屬
數理科學
應    用
納什均衡研究等

混合策略應用

混合策略在生活、工作、學習等都有廣泛的應用。基於混合策略,可以進行競合博弈分析,也可以進行混合策略納什均衡研究等。例如,在研究乒乓球競賽發球與接發球博弈上,可以知道乒乓球戰術行為博弈的"混合策略"是純策略的概率組合,混合策略是連續策略的一種特例。最優反應分析能夠用來求解乒乓球戰術行為博弈的混合策略均衡,在運動實踐中乒乓球運動員(博弈方)博弈過程中都存在各自的最優反應規則,並能夠根據這一規則構建最優反映曲線,最終得出乒乓球戰術行為混合策略納什均衡解。乒乓球戰術行為中"混合策略"的重要性在於揭示了博弈雙方也就是乒乓球運動員一定不能使自己的戰術行為表現出很強的規律性,因為一旦被對手發覺那麼就將處於劣勢狀態。 [4] 

混合策略基礎知識

策略:參與人在給定信息集的情況下選擇行動的規則,它規定參與人在什麼情況下選擇什麼行動,是參與人的“相機行動方案”。
純策略:如果一個策略規定參與人在每一個給定的信息情況下只選擇一種特定的行動,稱為純策略,簡稱“策略” ,即參與人在其策略空間中選取唯一確定的策略。
混合策略:如果一個策略規定參與人在給定的信息情況下以某種概率分佈隨機地選擇不同的行動,稱為混合策略。參與人採取的不是明確唯一的策略,而是其策略空間上的一種概率分佈。
混合策略擴展博弈:博弈方在混合策略的策略空間(概率分佈空間)的選擇看作一個博弈,就是原博弈的“混合策略擴展博弈”。
納什均衡:一般將嚴格佔優策略均衡、重複剔除的佔優策略均衡、純策略納什均衡和混合策略納什均衡統稱為納什均衡。嚴格佔優策略均衡是重複剔除的佔優策略均衡的特例;重複剔除的佔優策略均衡是純策略納什均衡的特例;純策略納什均衡是混合策略納什均衡的特例。
混合策略納什均衡(MNE):由最優的混合策略構成的混合策略組合。 [2] 

混合策略區別

完全信息博弈中,如果在每個給定信息下,只能選擇一種特定策略,這個策略為純策略。如果在每個給定信息下只以某種概率選擇不同策略,稱為混合策略。
混合策略是純策略在空間上的概率分佈。純策略可以理解為混合策略的特例,即在諸多策略中,選擇該純策略的概率為1,選其他純策略的概率為0。純策略的收益可以用效用表示,混合策略的收益只能以預期效用表示。 [3] 

混合策略舉例

兩個參與人各拿一枚硬幣,並選擇出正面向上還是反面向上。若兩枚硬幣是一致的(即全部正面或全部反面),則參與人2贏走參與人1的硬幣;若兩枚硬幣不一致(一正一反),參與人1贏得參與人2的硬幣。支付如表1:
上述博弈的特徵是:
表1

參與人2
參與人1

-1,1
1,-1
1,-1
-1,1
  1. 在這類博弈中,不存在純策略納什均衡;
  2. 參與人的支付取決於其他參與人的策略,以某種概率分佈隨機地選擇不同的行動;
  3. 每個參與人都想猜透對方的策略,而每個參與人又不願意讓對方猜透自己的策略。這種博弈的類型是混合策略。

混合策略相關計算

混合策略納什均衡由最優的混合策略構成的混合策略組合。由於混合策略伴隨的是支付的不確定性,因此參與人關心的是其期望效用。最優混合策略是指在給定對方的混合策略的情況下,使期望效用函數最大的混合策略。在兩人博弈裏,混合策略納什均衡是兩個參與人的最優混合策略的組合。
求解方法:
1.最大化收益法:即最大化各個參與人的效用函數
2.收益相等法:根據前面分析的猜硬幣博弈中參與人的策略的思路,每個參與人的混合策略都使其餘參與人的任何純策略的期望收益相等,因此,解混合策略納什均衡可以令參與人的各個純策略收益相等,構成方程組求解。
3.最優反應函數法:在連續純策略均衡時(如古諾模型),可以使用反應對應的概念來描述一個參與人對應於其他參與人混合策略的最優選擇。
舉例:社會福利博弈

流浪漢
政府

尋找工作
流浪
救濟
3,2
-1,3
不救濟
-1,1
0,0
上述模型有混合策略納什均衡:參與人以一定的概率選擇某種策略,然後計算相應於不同概率的期望效用。
設:政府救濟的概率θ=1/2 ,不救濟的概率1-θ=1/2。流浪漢尋找工作的期望效用:1/2×2+1/2 ×1=1.5;
流浪的期望效用: 1/2×3+1/2 ×0=1.5。此時,流浪漢選擇任何混合策略的期望效用都是1.5,則流浪漢的任何一種策略(純的γ=1或γ=0或混合的0<γ<1)都是政府所選擇的混合策略的最優反應。
而當流浪漢遊蕩的概率為γ=0.2,尋找工作的概率為1-γ=0.8。救濟:3×0.2-1×0.8=-0.2;不救濟:-1×0.2+0×0.8=-0.2。
如果流浪漢選擇這個混合策略,政府的任何策略(混合的或純的)帶給政府的期望效用為-0.2。特別的,以1/2的概率分別選擇救濟和不救濟當然也是政府對於流浪漢所選擇的混合策略的最優反應。這樣可以得到一個混合策略組合,每一個參與人的混合策略都是給定對方混合策略是的最優選擇,從而構成混合策略納什均衡。
參考資料
  • 1.    何盛明.財經大辭典:中國財政經濟出版社,1990年12月
  • 2.    王國華 梁樑.決策理論與方法.安徽:中國科學技術出版社,2014.
  • 3.    教材編寫組.運籌學.北京:清華大學出版社,2012.
  • 4.    劉文明,唐建軍. 乒乓球競賽發球與接發球博弈的混合策略納什均衡研究[J]. 北京體育大學學報,2012,35(08):134-138.