複製鏈接
請複製以下鏈接發送給好友

以牙還牙

(重複囚徒困境博弈中的策略)

鎖定
以牙還牙(Tit for tat,縮寫為TFT)是重複囚徒困境博弈中的一種策略,也叫做針鋒相對策略或一報還一報策略。該策略在首輪合作,在之後的輪次模仿對手上一輪的策略。若對手上一輪選擇合作,則在本輪選擇合作;若對手上一輪選擇背叛,則本輪也選擇背叛。
中文名
以牙還牙
外文名
Tit for tat
適用領域
重複囚徒困境博弈
所屬學科
博弈論

以牙還牙背景

以牙還牙策略首次在阿克塞爾羅德競賽(TheAxelrod Tournaments)中被數學家阿納託·拉普伯特(Anatol Rapoport)提出,並在競賽中取得了最佳的成績 [1]  。阿克塞爾羅德競賽是由密歇根大學社會學家羅伯特·阿克塞爾羅德(RobertAxelrod)舉辦的計算機排名賽,人們可以提出自己的策略並向競賽提交,所提交的策略會和其他策略相遇,均進行200輪的囚徒困境博弈,並計算總得分。在前兩次阿克塞爾羅德競賽中,以牙還牙策略均獲得了第一名。在第三次帶有淘汰機制的競賽中,以牙還牙策略淘汰了所有其他策略。

以牙還牙無限期重複囚徒困境博弈中的策略

在無限期重複囚徒困境博弈中,由於重複輪次的不確定性,無法運用逆向歸納法求解博弈。此時我們可以設計一些特定的策略,例如:
  • 始終選擇背叛的策略(AllD)
  • 始終選擇合作的策略(AllC)
  • 首輪合作,此後輪次模仿對手上一輪的策略(TFT)
  • 隨機選擇合作或背叛(Random)
  • 首輪隨機選擇,此後只有在上一輪雙方均背叛時才背叛的策略(Willing)
  • 重複使用“背叛,合作”這一序列的策略(CyclerDC)
  • 首輪選擇合作,之後當上一輪雙方選擇相同時合作,否則背叛的策略(Win-StayLose-Shift)

以牙還牙以牙還牙的基本性質

以牙還牙策略相比某些參與阿克塞爾羅德競賽的複雜策略,如涉及到探測對手弱點並加以利用或者引入隨機性的策略相比,是非常簡單的策略。雖然由於個體的收益總是取決於他人的選擇,故無法證明以牙還牙是重複囚徒困境博弈中的最佳策略,但是仍可以總結出以牙還牙的一些關鍵性質。阿克塞爾羅德指出,以下四個特徵可能是其在競賽中獲勝的主要原因。
  • 以牙還牙策略不會首先背叛,因此可以建立起穩定的合作;
  • 以牙還牙會對其他個體的背叛進行報復,因此不會被背叛策略無限制剝削;
  • 以牙還牙會原諒其他個體,只要其他個體恢復合作,則合作可以重新建立;
  • 以牙還牙不會嘗試獲得比其他個體更高的收益,這種非競爭性特徵可以更好地和其他策略建立起合作關係。

以牙還牙舉例

以牙還牙策略模仿對手之前的選擇。如果玩家1一直選擇合作(C),玩家2使用以牙還牙策略,則他們將永遠合作下去。

1
2
3
4
5
6
……
玩家1
C
C
C
C
C
C
……
玩家2
C
C
C
C
C
C
……
如果兩個使用以牙還牙策略進行重複囚徒困境博弈,一旦對手由於偶然因素偏離合作而選擇背叛(D),玩家會立即做出迴應,在下一輪背叛。例如下表中,玩家1在首輪中偏離了合作,導致使用TFT策略的雙方不斷輪流背叛。

1
2
3
4
5
6
……
玩家1
D
C
D
C
D
C
……
玩家2
C
D
C
D
C
D
……

以牙還牙以牙還牙的缺點

以牙還牙策略沒有容錯機制。現實世界存在偶然因素,假如對手可能不是主動背叛,而是發出了一個錯誤信號,或者被誤解了,就會立刻遭到以牙還牙策略的報復。兩名使用以牙還牙策略的玩家進行博弈時,一旦對手選擇背叛(不一定出於本意),玩家會下一輪背叛。從此使用以牙還牙策略的雙方不斷相互背叛,形成惡性循環。

以牙還牙以牙還牙的變體

TFT策略有很多變體,這些變體在某些方面或在某種外部情況下有着優於TFT的表現 [2] 

以牙還牙兩牙還一牙

兩牙還一牙(Tit for twotats,縮寫為TF2T)與TFT類似,但在對手連續兩次背叛後才選擇背叛。這使得使用TF2T策略的玩家對顯得更寬容。這個策略是由羅伯特·阿克塞爾羅德在第二次阿克塞爾羅德競賽中提出的。在分析了第一次競賽的結果後,他認為TF2T策略的累計得分會比其他策略的都高。不幸的是,由於參加第二次競賽的策略具有更強的攻擊性,它們能夠利用TF2T高度寬容的本性,因此TF2T的表現比TFT糟糕。

以牙還牙大度的TFT

大度的TFT(Generous Tit-for-tat)是指在對方上一輪背叛時,本輪不一定選擇背叛的一類策略。當對方上一輪選擇背叛時,本輪以概率p選擇背叛。大度的TFT策略表現得更加寬容,可以有效避免兩個TFT的策略博弈時,由於意外因素產生的背叛導致合作無法再次達成的問題。

以牙還牙懷疑的TFT

懷疑的TFT首輪選擇背叛而不是合作。考慮TFT策略進入一個合作水平較低的羣體,例如與始終背叛的策略相遇,TFT會在首輪選擇合作,從而被其他首輪背叛的策略獲得更高的收益。而懷疑的TFT可以避免這一點。
參考資料
  • 1.    Axelrod, R. (1984). The Evolution of Cooperation, New York: Basic Books..
  • 2.    Sigmund, K. (2010). The Calculus of Selfishness. Princeton: Princeton University Press.