反饋

博弈均衡

均衡是平衡的意思，在經濟學中，均衡即表示相關量處於穩定值；在供求關係中，某一商品市場如果在某一價格下，想以此價格買此商品的人均能買到，而想賣的人均能賣出，此時我們就説，該商品的供求達到了均衡。

中文名: 博弈均衡
簡介: 實現各自認為的最大效用

應用: 一種利益上的競爭
演變過程: 沿着來源於牛頓力學的均衡思想

博弈均衡簡介

博弈均衡是指使博弈各方實現各自認為的最大效用，即實現各方對博弈結果的滿意，使各方實際得到的效用和滿意程度是不同的。在博弈均衡中，所有參與者都不想改變自己的策略的這樣一種相對靜止的狀態。

博弈各方的關係不僅體現一種利益上的競爭，更要體現出各方的合作關係。比如，企業間通過收購、兼併等方法進行資產重組，以實現其雙贏戰略，正是博弈均衡的現實體現。博弈實質上是由動態的競爭（討價還價）到相對靜態的合作”博弈均衡“的一個變動過程，所以博弈均衡不僅是市場競爭的需要，也是企業發展的內在要求。

博弈均衡演變過程

著名經濟學家馬歇爾早就説過，經濟學有兩大研究路徑：一是沿着來源於經典牛頓力學的均衡思想；一是沿着來源於生態學的演化思想。縱觀經濟學的發展歷史可以看出這兩種思路一直在此起彼伏地鬥爭着。1890年馬歇爾出版了標誌着新古典經濟學形成的《經濟學原理》一書後，均衡思想佔據了統治地位，成為經濟學家研究的主要方法。運用數學領域的“不動點定理”證明納什均衡(Nash 1951)的存在性，使得納什成為第一個用不動點定理於經濟學研究的經濟學家，他因此獲得了1994年的諾貝爾經濟學獎；此後，經濟學家德布魯(Debru 1954)應用“不動點定理”證明了一般均衡的存在而獲得了1983年的諾貝爾經濟學獎，他們的工作把均衡思想推向了高潮。物理學的中均衡就是不動，其前提條件就是：物理學中的變量多數是可以控制的，並且一般是與時間無關的。但運用均衡思想來研究在時間上不滿足可逆性的社會人行為就顯得有點牽強附會了，為了迎合均衡思想，經濟學家給參與人附加如理性、完全信息等不切實際的假定，使得經濟學離現實越來越遠了，這正是理性框架下難以得到合理結論的一個主要原因。隨着經典博弈理論、生態理論及心理學理論研究的深入發展，特別是心理學家西蒙把其在心理學領域研究的成果直接應用經濟分析並因此獲得了諾貝爾經濟學獎，極大地激勵着經濟及社會學家從現實人行為出發來解釋經濟及社會現象，2002年諾貝爾經濟學獎授予給丹尼爾·卡內曼標誌着經濟學的研究對象從傳統的“經濟人”轉向現實的“社會人”，從現實社會人出發的演化經濟學、進化博弈理論等獲得了迅速發展，從均衡思想的演化來看，越來越多經濟學家把注意力轉向了進化穩定策略(Maynard Smith, J. and Price. G. R（1973）)與隨機穩定狀態(Foster and Young 1990)等的研究、從短期均衡轉向了長期穩定性研究，所用的均衡概念從納什均衡到進化穩定均衡再到了隨機穩定性，從理想化的世界慢慢地轉向了現實世界。

非合作博弈理論中最基本的均衡概念就是納什均衡，它只能描述均衡點的局部靜態性質；進化博弈理論基本均衡概念就是進化穩定策略，它也是一個靜態概念，但可以描述系統的局部動態性質；進化博弈理論另一個重要概念就是隨機穩定狀態，它是一個動態概念，能夠描述系統的全局動態性質。與前兩者不同，隨機穩定狀態並不是不動的，它只能描述系統的一種長期行為，從長期來看，系統在隨機因素影響下絕大多數時間都處於某個均衡，下面分別闡述三個概念。

博弈均衡納什均衡思想

納什均衡思想及內涵

非合作博弈論研究面對利益衝突的個體互動時，參與人的策略反應。給定利益衝突每一個參與人必須從既定的選擇集中作出選擇。在博弈論中選擇就是策略，選擇集就是策略集。每一個參與對選擇集中的各個策略都有既定的偏好，所有參與人的選擇決定了博弈的結果。

博弈論關心的問題之一是：面對特定博弈，其解是什麼？博弈論的最重要的解就是由博弈論理論家Nash(1951)在研究非合作博弈問題時提出來的納什均衡^[1] 。所謂納什均衡策略是一個策略組合，是指在其他參與人選擇一定的條件下，每一個參與人都選擇獲得最大支付的策略，換句話説，納什均衡狀態就是任何單獨偏離不會得到改善的一種狀態。下面給出納什均衡的正式定義（張維迎《博弈論與信息經濟學》1994，P69）：

定義：有個參與人的戰略表示式博弈，策略組合是一個納什均衡，對每一個參與人，都是給定其他參與人選擇時第個參與人的最優選擇。

其實在求解納什均衡時，就是解聯立的偏微分方程組。顯然，納什均衡是一個局部最優而非全局最優均衡概念，因此，納什均衡並不能保證就是支付最高的不動點。由此便引出了帕累託效率均衡：沒有所有參與人都得到更高支付的其他選擇的均衡就是帕累託效率均衡，用數學語言來描述（Menasché.D.S. et. al. (2005)）

博弈論關心的問題之二是：參與人是如何進行策略選擇的，為什麼會選擇納什均衡策略？非合作博弈理論假定參與人是完全理性的，在處理動態博弈時，還要求參與人滿足序貫理性這一比理性更強的要求。在如此強的假定下，參與人會對世界的任何變化都會作出最優反應，因此，如果存在均衡，那麼參與人總會選擇均衡策略，但在處理多重要均衡問題時，由於參與人難以推測對方的反應，因此，無法在多重均衡之間進行選擇，儘管博弈論理論對此進行了廣泛而深入的研究，但正如Ken Binmore在給Weibull(1995)的“evolutionary game theory”一書作的序言中指“However different game theorists proposed so many different rationality definitions the available set of refinements of Nash equilibrium became embarrassingly large, Eventually almost any Nash equilibrium could be justified in terms of someone or other’s refinement”。有關納什均衡算法可參閲王則柯，李傑（2005）。

博弈均衡進化穩定策略

博弈均衡思想

進化穩定策略這一進化博弈理論的基本均衡概念是由生態學家Maynard Smith, J. and Price. G. R(1973)在研究生態現象演化時提出來的。原初定義（見張良橋2003）[10]有許多限制條件如對稱博弈、孤立的隨機衝擊、參與人數目無限多等等。儘管許多理論家從不同的方面對此概念進行了拓展，但他們提出的原初概念卻能夠很好表達出進化穩定策略的含義。下面先給出Maynard Smith and Price（1973）的原初定義，然後，我們給出一種計算博弈進化穩定策略的方法。

設是矩陣，由於是對稱博弈，因此可以用第一個參與人的支付矩陣來描述整個博弈，其中表示策略者與策略者博弈時，策略者所得的支付。概率向量（也就是混合策略），其中。

説策略是進化穩定的，如果滿足：

條件（4）説明了進化穩定策略一定是納什均衡策略，條件（5）説明弱納什均衡策略必須要滿足的附加條件。顯然，在對稱博弈中，嚴格納什均衡策略一定是進化穩定策略。

直觀含義：首先，我們可以看出所有進化策略都是納什均衡策略，所進化穩定策略集是納什均衡策略集的子集，非納什均衡策略就不是進化穩定策略；其次，由定義中的兩個條件可以得出，穩定策略者與穩定策略者羣體博弈時，突變策略者不會比穩定策略者好；如果突變策略者與穩定策略者一樣好，那麼，突變者策略與突變策略羣體博弈時，就沒有穩定策略者與突變策略羣體博弈時好。也就是説，穩定策略具有對少數突變者的免疫力，在穩定狀態時，突變者是不容易侵入的。

博弈均衡計算方法

計算進化穩定策略的方法主要有兩大類：一是從動態過程出發，求出系統的平衡點，然後，再根據進化穩定策略的定義進行驗證就可以了；另一種方法就是直接用進化穩定策略定義來求。第一種方法涉及到具體的動態過程，並且只要知道動態過程就很容易求出進化穩定策略，本文略（可以參考張良橋2001）。第二種方法就是通過定義來求，下面給出一種簡單的處理方法。

根據納什均衡的定義可以知道，如果策略是博弈的納什均衡，那麼，所有以正概率進入最優混合策略的純策略都是最優的，參與人在所有這些純策略所得的支付都是無差異的（見《博弈論與信息經濟學》102-103頁，張維迎），即有：

表示混合策略中非零概率的純策略。假定存在且下標為的純策略滿足，令B是矩陣A中對應於非零純策略的階子矩陣。且令C為矩陣，其中代表元素為：。那麼當且僅當C是負定的，就是進化穩定策略(見John Haigh 1974)。

證明：假定，並且存在，有，那麼很明顯有，其中是第個純策略，即在與穩定策略者羣體博弈時，突變策略者得到的支付比穩定策略者還要大，所以策略不是進化穩定策略，所以式（6）是進化穩定策略的必要條件。因此，對應於非零概率的純策略滿足：，對滿足條件的策略有（注意）：

對任意，當且僅當

有：。綜上所述，利用該方法來求進化穩定策略的步驟如下：

首先，令個非零混合策略，然後解個方程：，定義B，C再考察矩陣C的所有特徵根是否都為負，若都是負則所得的策略就是進化穩定策略。

如求對稱博弈，它有兩個進化穩定策略：。

如果某策略組合是嚴格納什均衡策略，那麼就可以直接得出它就是進化穩定策略，但如果是弱納什均衡策略，那麼就可運用上述的方法來進行判定。由此，可得到求博弈的進化穩定策略步驟：一是求出博弈所有的納什均衡；二是由支付判斷出其中的嚴格納什均衡；三對非嚴格納什均衡而言就代入上述方程，並判斷是否為負定即可以求出博弈中所有進化穩定策略。

博弈均衡隨機穩定狀態

博弈均衡思想及內涵

Maynard Smith, J. and Price. G. R(1973)提出的進化穩定策略概念要求突變因素不連續且不重疊，它只能描述在單個隨機因素影響下任何偏離均衡狀態的行為都會隨着時間的演化自動回覆到原來的進化穩定狀態。現實中，經濟系統常常會受到來自突變和其他偶然事件的衝擊，這些因素可能會對系統產生不可忽略的影響，Foster and Young（1990）認為，首先，原初ESS概念把影響系統的因素都看成是一個個孤立的事件，假定一個因素的影響消失以後，再考慮另一個因素對系統的影響，而在現實中系統常常會受到連續的隨機衝擊。事實上，現實中出現上述情況純屬偶然現象，一個只能處理偶然現象的理論是沒有任何存在價值，儘管單個隨機因素對動態系統的影響較少，但它們卻可能對系統產生累積作用而定量地改變系統的穩定性，使得系統離開進化穩定狀態，系統什麼時候回覆到當初的進化穩定狀態，依賴於動態過程的全局結構；其次，原初ESS定義是一個局部概念，因此在考慮隨機衝擊時就不能作為判斷系統穩定性的標準；再次，由於系統的極限行為依賴於初始條件，同時在吸引子集合中只有一部分狀態是隨機穩定的，且隨機穩定狀態的選擇還依賴於隨機過程特定的結構，因此，ESS和沒有充分地考慮到隨機因素對進化系統影響的吸引子（Attractor）在描述隨機系統的穩定性時都不理想。

博弈均衡定義

一般的進化模型中參與人都是選擇那些相對於羣體分佈的最優反應策略，羣體分佈隨着時間的演化而為不斷變化的，這是一種奈特不確定性，並且在這種動態下，系統一定會收斂到協調博弈的嚴格納什均衡，偶爾也可能出現極限環的情況，運用進化穩定策略概念依然無法在嚴格納什均衡之間作出選擇。Young(1990)首次把影響系統的隨機因素納入到進化模型之中並提出了既不同於傳統ESS也不同於吸引子（Attractor）的隨機穩定性（Stochastic Stability）概念，把均衡選擇問題轉變成不同均衡的吸引域寬度比較問題，有最寬吸引域的均衡就是隨機穩定狀態。隨機穩定狀態的定義如下：

定義：羣體向量是隨機穩定的，如果隨着隨機影響，極限密度對的每一個小鄰域都賦有正概率；更準確地説：其中。其中是當時，的極限分佈，表示隨機因素對系統所產生的影響。

粗略地説，一個狀態P是一個隨機穩定的，如果在長期中，隨着隨機衝擊因素影響的不斷變少，系統幾乎一定（nearly certain）不會離開P的任意少的鄰域。隨機穩定的羣體向量總是存在的，它有如下性質：隨着及，它是一個最小閉集。根據上述定義，隨機穩定狀態與系統所定義的動態有關，如果是支付單調動態並且有不變突變率，隨機穩定狀態直接由吸引域的寬度確定（參閲Young(1993); Michihiro Kandori, Greorge J,. Mailath,Rafael Rob (KMR)1993[14]; Glenn Ellison2000）.

博弈均衡算法

隨機穩定狀態是描述系統長期行為且由概率來定義的。如果系統是連續情形，那麼可根據Foster and Young(1990)通過求系統隨機潛力的方法來求隨機穩定狀態，即有最小隨機潛力的狀態就是隨機穩定狀態。而現實中，多數情況都是離散的，下面將根據Freidlin, M. I and Wentzell, A . D. (1984)的方法來給出有多個常返狀態情形下隨機潛力的計算方法。該方法首先要求每個參與人在任何狀態任何時候都以相同且不為零的突變率選擇其他任何策略，這樣就可以保證系統的遍歷性，從而存在平穩分佈。假定系統有五個狀態，並且每兩個狀態之間的阻抗。

狀態之間沒有標明數字就説明阻抗是無限大（其中的阻抗是根據突變率的指數來確定的），可以求出轉移概率（因為我們只是為了求各個常返狀態的阻抗，沒有寫出轉移概率）。顯然：該系統有四個常返狀態。則不同常返狀態之間的最小阻抗為（實際已經找到了常返狀態之間的最短路徑）

四個常返狀態對應的隨機潛力分別為 1 5 3 6。因此，該動態系統的隨機穩定狀態就是具有最小隨機潛力的狀態即為。本例中直接給出數字，其目的是為了使問題簡化，實際上它表示從一個狀態到另一個狀態的阻抗，在解決實際問題時，需要具體分析；另外，此例沒有深入到突變產生的過程中去，突變率的不同系統的隨機穩定狀態就不同。^[2]

參考資料