囚徒困境

囚徒困境

囚徒困境是博弈論的非零和博弈中具代表性的例子，反映個人最佳選擇並非團體最佳選擇。雖然困境本身只屬模型性質，但現實中的價格競爭、環境保護等方面，也會頻繁出現類似情況。

簡介

全員營銷與囚徒困境

單次發生的囚徒困境，和多次重復的囚徒困境結果不會一樣。在重復的囚徒困境中，博弈被反復地進行。因而每個參與者都有機會去“懲罰”另一個參與者前一回合的不合作行爲。這時，合作可能會作爲均衡的結果出現。欺騙的動機這時可能被受到懲罰的威脅所克服，從而可能導向一個較好的、合作的結果。作爲反復接近無限的數量，納什均衡趨向於帕累托最優。

囚徒困境的主旨爲，囚徒們雖然彼此合作，堅不吐實，可爲全體帶來最佳利益（無罪开釋），但在資訊不明的情況下，因爲出賣同夥可爲自己帶來利益（縮短刑期），也因爲同夥把自己招出來可爲他帶來利益，因此彼此出賣雖違反最佳共同利益，反而是自己最大利益所在。但實際上，執法機構不可能設立如此情境來誘使所有囚徒招供，因爲囚徒們必須考慮刑期以外之因素（出賣同夥會受到報復等），而無法完全以執法者所設立之利益（刑期）作考量。

經典

囚徒困境

1950年，由就職於蘭德公司的梅裏爾·弗勒德（Merrill Flood）和梅爾文·德雷希爾（Melvin Dresher）擬定出相關困境的理論，後來由顧問艾伯特·塔克（Albert Tucker）以囚徒方式闡述，並命名爲“囚徒困境”。經典的囚徒困境如下：

警方逮捕甲、乙兩名嫌疑犯，但沒有足夠證據指控二人入罪。於是警方分开囚禁嫌疑犯，分別和二人見面，並向雙方提供以下相同的選擇：

若一人認罪並作證檢控對方（相關術語稱“背叛”對方），而對方保持沉默，此人將即時獲釋，沉默者將判監10年。若二人都保持沉默（相關術語稱互相“合作”），則二人同樣判監半年。

若二人都互相檢舉（互相“背叛”），則二人同樣判監2年。

用表格概述如下：

甲沉默（合作）甲認罪（背叛）

乙沉默（合作）二人同服刑半年甲即時獲釋；乙服刑10年

乙認罪（背叛）甲服刑10年；乙即時獲釋二人同服刑2年

解說

如同博弈論的其他例證，囚徒困境假定每個參與者（即“囚徒”）都是利己的，即都尋求最大自身利益，而不關心另一參與者的利益。參與者某一策略所得利益，如果在任何情況下都比其他策略要低的話，此策略稱爲“嚴格劣勢”，理性的參與者絕不會選擇。另外，沒有任何其他力量幹預個人決策，參與者可完全按照自己意愿選擇策略。囚徒到底應該選擇哪一項策略，才能將自己個人的刑期縮至最短？兩名囚徒由於隔絕監禁，並不知道對方選擇；而即使他們能交談，還是未必能夠盡信對方不會反口。就個人的理性選擇而言，檢舉背叛對方所得刑期，總比沉默要來得低。試設想困境中兩名理性囚徒會如何作出選擇：若對方沉默、背叛會讓我獲釋，所以會選擇背叛。若對方背叛指控我，我也要指控對方才能得到較低的刑期，所以也是會選擇背叛。二人面對的情況一樣，所以二人的理性思考都會得出相同的結論——選擇背叛。背叛是兩種策略之中的支配性策略。因此，這場博弈中唯一可能達到的納什均衡，就是雙方參與者都背叛對方，結果二人同樣服刑2年。這場博弈的納什均衡，顯然不是顧及團體利益的帕累托最優解決方案。以全體利益而言，如果兩個參與者都合作保持沉默，兩人都只會被判刑半年，總體利益更高，結果也比兩人背叛對方、判刑2年的情況較佳。但根據以上假設，二人均爲理性的個人，且只追求自己個人利益。均衡狀況會是兩個囚徒都選擇背叛，結果二人判決均比合作爲高，總體利益較合作爲低。這就是“困境”所在。例子漂亮地證明了：非零和博弈中，帕累托最優和納什均衡是相衝突的。

一般形式

囚徒困境

整理囚徒困境的基本博弈結構，可更清楚地分析囚徒困境。實驗經濟學常用這種博弈的一般形式分析各種論題。以下是實現一般形式的其中一例：有兩個參與者和一個莊家。參與者每人有一式兩張卡片，各印有“合作”和“背叛”。參與者各把一張卡片文字面朝下，放在莊家面前。文字面朝下排除了參與者知道對方選擇的可能性1。然後，莊家翻开兩個參與者卡片，根據以下規則支付利益：

一人背叛、一人合作：背叛者得5分（背叛誘惑），合作者0分（受騙支付）。

二人都合作：各得3分（合作報酬）。

二人都背叛：各得1分（背叛懲罰）。

用支付矩陣表格展示支付如下（以紅和藍分別表示二參與者）

一般形式囚徒困境的支付矩陣合作背叛

合作 3, 3 0, 5

背叛 5, 0 1, 1

以“T、R、P、S”符號表示合作背叛

合作 R, R S, T

背叛 T, S P, P

以“勝－負”術語表示合作背叛

合作勝-勝大負-大勝

背叛大勝-大負負-負

簡單博弈獲得的點數可以得出一些一般化的結論。

T、R、P、S符號表

符號	分數	英文	中文	解釋
T	5	Temptation	背叛誘惑	單獨背叛成功所得
R	3	Reward	合作報酬	共同合作所得
P	1	Punishment	背叛懲罰	共同背叛所得
S	0	Suckers	受騙支付	被單獨背叛所獲

若以T（Temptation）=背叛誘惑，R（Reward）=合作報酬，P（Punishment）=背叛懲罰，S（Suckers）=受騙支付，以個人選擇得分而言，可得出以下不等式。

T>R>P>S

（解：從5>3>1>0獲得以上不等式）

若以整體獲分而言，將得出以下不等式。

2R>T+S或2R>2P

（解：2×3>5+0或2×3>2x1；合作2人共得6分，比起互相背叛的共得2分及單獨背叛的共得5分，顯然合作獲分比背叛高。合作在團體而言是支配性策略。）

而重復博弈或重復的囚徒困境將會使參與者從注重T>R>P>S轉變成注重2R>T+S。就是說將使參與者脫離困境。以上理論是道格拉斯·霍夫施塔特創建的。

現實的例子

囚徒困境

現實中，無論是人類社會或大自然都可以找到類似囚徒困境的例子，將結果劃成同樣的支付矩陣。社會科學中的經濟學、政治學和社會學，以及自然科學的動物行動學、進化生物學等學科，都可以用囚徒困境分析，模擬生物面對無止境的囚徒困境博弈。囚徒困境可以廣爲使用，說明這種博弈的重要性。以下爲各界例子：

政治學例子：軍備競賽

在政治學中，兩國之間的軍備競賽可以用囚徒困境來描述。兩國都可以聲稱有兩種選擇：增加軍備（背叛）、或是達成削減武器協議（合作）。兩國都無法肯定對方會遵守協議，因此兩國最終會傾向增加軍備。似乎自相矛盾的是，雖然增加軍備會是兩國的“理性”行爲，但結果卻顯得“非理性”（例如會對經濟造成都有損壞等）。這可視作遏制理論的推論，就是以強大的軍事力量來遏制對方的進攻，以達到和平。

經濟學例子：關稅战

兩個國家，在關稅上可以有以兩個選擇:

提高關稅，以保護自己的商品。（背叛）

與對方達成關稅協定，降低關稅以利各自商品流通。（合作）

當一國因某些因素不遵守關稅協定，獨自提高關稅（背叛），另一國也會作出同樣反應（亦背叛），這就引發了關稅战，兩國的商品失去了對方的市場，對本身經濟也造成損害（共同背叛的結果）。然後二國又重新達成關稅協定。（重復博弈的結果是將發現共同合作利益最大。）

商業例子：廣告战

商業活動中亦會出現各種囚徒困境例子。以廣告競爭爲例。

兩個公司互相競爭，二公司的廣告互相影響，即一公司的廣告較被顧客接受則會奪取對方的部分收入。但若二者同時期發出質量類似的廣告，收入增加很少但成本增加。但若不提高廣告質量，生意又會被對方奪走。

此二公司可以有二選擇：

互相達成協議，減少廣告的开支。（合作）

增加廣告开支，設法提升廣告的質量，壓倒對方。（背叛）

若二公司不信任對方，無法合作，背叛成爲支配性策略時，二公司將陷入廣告战，而廣告成本的增加損害了二公司的收益，這就是陷入囚徒困境。在現實中，要二互相競爭的公司達成合作協議是較爲困難的，多數都會陷入囚徒困境中。

自行車賽例子

自行車賽事的比賽策略也是一種博弈，而其結果可用囚徒困境的研究成果解釋。例如每年都舉辦的環法自由車賽中有以下情況：選手們在到終點前的路程常以大隊伍（英文:Peloton）方式前進，他們採取這策略是爲了令自己不至於太落後，又出力適中。而最前方的選手在迎風時是最費力的，所以選擇在前方是最差的策略。通常會發生這樣的情況，大家起先都不愿意向前（共同背叛），這使得全體速度很慢，而後通常會有二或多位選手騎到前面，然後一段時間內互相交換最前方位置，以分擔風的阻力（共同合作），使得全體的速度有所提升，而這時如果前方的其中一人試圖一直保持前方位置（背叛），其他選手以及大隊伍就會趕上（共同背叛）。而通常的情況是，在最前面次數最多的選手（合作）通常會到最後被落後的選手趕上（背叛），因爲後面的選手騎在前面選手的衝流之中，比較不費力。

相關事件

囚徒困境

異想

威廉·龐德斯通（William Poundstone）在他的著作中，以一新西蘭的例子來說明囚徒困境。在新西蘭，報亭即無管理員也不上鎖，买報紙的人自行放下錢後拿走報紙。當然某些人可能取走報紙卻不付錢（背叛），但由於大家認識到如果每個人都偷竊報紙（共同背叛）會造成以後不方便的有害結果，這種情形很少發生。這例子特別之處是新西蘭人並沒有被任何其他因素影響而能脫離囚徒困境。並沒有任何人特別去注意報亭，人們守規則是爲了避免共同背叛帶來的惡果。這種避免囚徒困境的大家共同的推理或想法被稱爲“異想（magical thinking）”。

“認罪減刑”不可行

囚徒困境的結論是許多國家中認罪減刑（英文：plea bargain）被禁止的原因之一。囚徒困境帶來的結論是：如果有二個罪犯，其中一人犯罪而另外一人是無辜的，犯罪者會爲了減刑坦白一切甚至冤枉清白者（單獨背叛）。最糟糕的情況是，如果他們二人都被判入獄，坦白的犯罪者刑期少，堅持無罪的冤枉者刑期反而更多。

公用品悲劇

現實的博弈參與者不只一方，會有多方參與的囚徒困境。加勒特·詹姆斯·哈丁（Garrett James Hardin）的公用品悲劇就是一例：“公用品悲劇是指凡是屬於最多數人的公共財產常常是最少受人照顧的事物”，例如漁業，公海中的魚是屬於公共的，而在本身不濫捕其他人也濫捕的思想下，漁民會沒有節制的大撈特撈，結果海洋生態破壞，漁民的生計也受影響（共同背叛的結果）。但是，多方囚徒困境的提法有待商榷，因爲其總是可以被分解爲一組組經典的二方囚徒困境。就是說只有二方的囚徒困境，沒有多方的。所謂多方的囚徒困境只是由多個二方囚徒困境混雜在一起而形成的錯覺。

重復的囚徒困境

囚徒困境

羅伯特·阿克塞爾羅德在其著作《合作的進化》中，探索了經典囚徒困境情景的一個擴展，並把它稱作“重復的囚徒困境”（IPD）。在這個博弈中，參與者必須反復地選擇他們彼此相關的策略，並且記住他們以前的對抗。阿克塞爾羅德邀請全世界的學術同行來設計計算機策略，並在一個重復囚徒困境競賽中互相競爭。參賽的程序的差異廣泛地存在於這些方面：算法的復雜性、最初的對抗、寬恕的能力等等。

阿克塞爾羅德發現，當這些對抗被每個選擇不同策略的參與者一再重復了很長時間之後，從利己的角度來判斷，最終“貪婪”策略趨向於減少，而比較“利他”策略更多地被採用。他用這個博弈來說明，通過自然選擇，一種利他行爲的機制可能從最初純粹的自私機制進化而來。

最佳確定性策略被認爲是“以牙還牙”，這是阿納托爾·拉波波特（Anatol Rapoport）开發並運用到錦標賽中的方法。它是所有參賽程序中最簡單的，只包含了四行BA SIC語言，並且贏得了比賽。這個策略只不過是在重復博弈的开頭合作，然後，採取你的對手前一回合的策略。更好些的策略是“寬恕地以牙還牙”。當你的對手背叛，在下一回合中你無論如何要以小概率（大約是1%~5%）時而合作一下。這是考慮到偶爾要從循環背叛的受騙中復原。當錯誤傳達被引入博弈時，“寬恕地以牙還牙”是最佳的。這意味着有時你的動作被錯誤地傳達給你的對手：你合作但是你的對手聽說你背叛了。通過分析高分策略，阿克塞爾羅德指定了策略獲得成功的幾個必要條件。

友善

最重要的條件是策略必須“友善”，這就是說，不要在對手背叛之前先背叛。幾乎所有的高分策略都是友善的。因此，完全自私的策略僅僅出於自私的原因，也永遠不會首先打擊其對手。

報復

但是，阿克斯洛德主張，成功的策略必須不是一個盲目樂觀者。要始終報復。一個非報復策略的例子是始終合作。這是一個非常糟糕的選擇，因爲“下流”策略將殘酷地剝削這樣的傻瓜。

寬恕

成功策略的另一個品質是必須要寬恕。雖然它們不報復，但是如果對手不繼續背叛，它們會一再退卻到合作。這停止了報復和反報復的長期進行，最大化了得分點數。

不嫉妒最後一個品質是不嫉妒，就是說不去爭取得到高於對手的分數（對於“友善”的策略來說這也是不可能的，也就是說“友善”的策略永遠無法得到高於對手的分數）。

因此，阿克塞爾羅德得到一種給人以烏托邦印象的結論，認爲自私的個人爲了其自私的利益會趨向友善、寬恕和不嫉妒。阿克塞爾羅德關於重復囚徒困境的研究的重要結論之一，是友善的家夥能先完成交易。

重新考慮經典的囚徒困境一節中給定的軍備競賽模型：結論是，只是理性策略增進了軍事力量，似乎兩個國家都寧可花費其GDP在槍炮而不是黃油上。有趣的是，企圖說明對抗國家實際上以這種方式（在“重復囚徒困境假定”下的不同時期，軍費支出在“高”和“低”之間反復）競賽的嘗試，卻經常表明假定的軍備競賽並沒有如預想的那樣出現。（例如希臘人和土耳其人的軍費支出，看來並不像遵循“以牙還牙”的重復囚徒困境式的軍備競賽，卻更可能是被其國內的政策所驅使。）這可能是一次性博弈和重復性博弈中的理性行爲不同的例子。

對一次性囚徒困境博弈來說，最佳（點數最大化的）策略是簡單地背叛；正如前面解釋的，無論對手的行動可能是什么，這都是真實的。但是，在重復的囚徒困境博弈中，最佳策略依賴於可能的對手的策略，和他們怎樣對背叛和合作作出反應。例如，考慮這樣一個人羣，那裏每個人每次都背叛，除了一個人是遵循以牙還牙策略。這個人處於一種輕微的不利地位，因爲第一回合的損失。在這樣的人羣中，對這個人來說最佳策略就是每次都背叛。在一個有一定的百分比的總背叛者而剩下的則是以牙還牙者的人羣中，對個人來說的最佳策略依賴於這個百分比和博弈的長度。

一般有兩種方法得到最佳策略：

貝葉斯納什均衡：如果對抗策略的統計分布能被確定（例如，50％以牙還牙，50％一直合作），就能從數學上獲得最佳的相對策略。
已經有了人羣的蒙特卡羅模擬，在這裏低分個人消失了，高分個人一再被生產出來（一種獲得最佳策略的天才算法）。決賽人羣中的算法合成通常依賴於初賽人羣中的算法合成。

盡管以牙還牙始終被認爲是最可靠的基本策略，但是在重復囚徒困境的20周年紀念賽中，來英國南安普敦大學的一個小組（由尼古拉斯·詹寧斯（Nicholas Jennings）領導，包括了拉蒂普·達什（Rajdeep Dash）、薩瓦帕裏·拉姆瓊（Sarvapali Ramchurn）、亞歷克斯·羅傑斯（Alex Rogers）斯和皮魯克裏士南·維特林根（Perukrishnen Vytelingum））介紹了一個新的策略，這個策略證明了它比以牙還牙更成功。這個策略依賴於程序之間的合作，爲單一程序中獲得了最高的點數。南安普敦大學提交了60個程序參與競賽，這些程序的开頭被設計成通過一組5到10個的動作去彼此識別。一旦這些識別被作出，一個程序將總是合作，其他程序則總是背叛，保證背叛者得到最大的點數。如果程序識別出它在操作一個非南安普敦參與者，這程序將持續地背叛，企圖去最小化競爭程序的得分。結果，這個策略以獲得前3位結束了競賽，也得到了大量接近底部的位置。雖然這個策略顯著地證明了比以牙還牙有效，但是這是因爲利用了下述事實：在這個特殊的競賽中，多重通道是被允許的。在一方只能控制單一參與者的競賽中，以牙還牙確實是更好的策略。

如果重復囚徒困境將被精確地重復N次，已知N是一個常數，那么會產生另一個有趣的事實。納什均衡就是每次都背叛。這很容易用歸納法證明。你也可以在最後的回合背叛，既然你的對手將沒有機會懲罰你。因此，你們都將在最後的回合背叛。這時，你可以在倒數第二回合中背叛，既然最後一回無論你做什么，你的對手都將背叛。依此類推。爲了合作以保持請求，這時未來必須對兩個參與者來說是不確定的。一個解決方案是讓博弈總次數N變成隨機的。對未來的預期必須是無法確定的長度。

另一個單獨的案例是“永不停止”的囚徒困境。這個博弈被重復很多次，而且你的分數是一個平均數（當然是用計算機計算的）。

囚徒困境博弈是某些人類合作和信任理論的基礎。假定囚徒困境能夠模擬需要信任的兩人之間的交流，羣體的合作行爲可以用有多個參與者的、重復博弈的變體來模擬。這從而引起了許許多多學者經久不衰的興趣。1975年，格羅夫曼（Grofman）和普爾（Pool）估計，致力於這方面研究的學術文章，數量超過2000篇。

學習心理學和博弈論

當博弈參與者能學會估計其他參與者背叛的可能性，他們自身的行爲就爲他們關於其他人的經驗所影響。簡單的統計顯示，總體上，缺乏經驗的參與者與其他參與者的互動，或者是典型的好，或者是典型的壞。如果他們在這些經驗的基礎上行動，（通過更多的背叛或合作，否則）他們可能在未來的交易中受損。隨着經驗逐漸豐富，他們獲得了對背叛可能性的更真實的印象，變得更成功地參與博弈。不成熟的參與者經歷的早期交易對他們未來參與的影響，可能比這些交易對成熟的參與者的影響要大得多。這個原理部分地解釋了，爲什么年輕人的成長經驗這么具有影響力，以及爲什么他們特別容易被欺負，有時他們本身最後也成爲欺凌弱小者。

羣體中背叛的可能性，可以被合作的經驗所削弱，因爲先前的博弈建立了信任。因此自我犧牲行爲可以，例如，加強團體的道德品質。如果團體很小，積極行爲更可能以互相肯定的方式——鼓勵這個團體中的個人繼續合作——得到反饋。這與相似的困境有關：鼓勵那些你將援助的人，從可能使他們處於危險的境地的行爲中得到滿足。這類方法主要在互惠利他主義、羣選擇、血緣選擇和道德哲學的研究中涉及。

相關的博弈

中國外匯盈余陷入"囚徒困境"

封閉袋子交易

霍夫施塔特曾提出，像囚徒困境一類的問題，若以簡單博弈的形式來說明，人們會較容易理解。例如他以“封閉袋子交易”的簡單博弈來說明此論題

兩人面對面互相交換封閉的袋子，共同了解其中一方放錢，另一方放商品。雙方可以誠實的依照承諾，把東西放到袋子裏交換；又或者交空袋子給對方，選擇背叛。

在這場博弈中，由於背叛可獲得巨大利益，必然有多人選擇背叛。這意味着理性的商人不會進行這種交易，因而“封閉袋子交易”將由於逆向選擇而失去市場。

是敵是友?

“是敵是友？”是一個競賽表演節目，從2002年到2005年在美國競賽表演廣播網（Game Show Network）放映。這是一個用真人進行的囚徒困境博弈例子，不過情景是人造的。這個競賽表演有三對人參與競爭。當每對人被淘汰時，他們做一個囚徒困境博弈，決定如何分他們的獎品。如果他們都合作（“朋友”），他們的獎品就被平分。如果一個合作而另一個背叛（“敵人”），背叛者得到所有的獎品，合作者什么都得不到。如果都背叛，那么兩人都一無所獲。注意，這個支付矩陣與前述標準的支付矩陣不同，因爲發生“都背叛”的情形和“我合作而對手背叛”的情形，其損失是一樣的。和標準囚徒困境的穩定均衡相比，“都背叛”是不穩固的均衡（weak equilibrium）。如果你知道你的對手將成爲“敵人”，這時你的選擇無法影響你的獎品。在某種意義上，“是敵是友”擁有一個介於“囚徒困境”和“小雞”之間的支付模型。

這個支付矩陣是：

如果參與者都合作，每人得到 +1。

如果都背叛，每人得到 0。

如果甲合作而乙背叛，甲得到0而乙得到 +2。

是敵是友對於想對囚徒困境作現實分析的人將是有用的。注意到，參與者只能進行一次，所以所有涉及重復進行博弈的觀點都不適用，“以牙還牙”策略也無法發展出來。

在是敵是友中，每個參賽者被允許做一個聲明，使另一半友在雙方祕密決定合作或背叛之前，確信他的友善。可能“打破制度”的方法將是一個參與者告訴他的對手：“我會選擇做敵人。如果你相信我後來會和你分獎品的話，就選擇做朋友。否則，如果你選擇做敵人，我們都回空手而回。”一個更貪婪的版本將是：“我將選擇做敵人。我會給你百分之X，剩下的百分之（100-X）歸我。所以，要或不要，要么我們都得到一些，要么我們都一無所獲。”（在最後通牒博弈中時。）現在，奸計就是去盡量減少那個百分之X，並保持另一個競爭者仍然選擇做朋友。基本上，這個參與者必須知道這個界限，在這裏他的對手從看到他一無所獲中得到的效用，要超過他從肯定能贏得的金錢中得到的效用，如果他順利的話。

在競賽中這個方法從未被試驗過；可能是因爲裁判們不會允許，而且即使允許，不平等厭惡也會由於這個規則的使用而導致較低的期望收益。（最後通牒博弈中嘗試了這個方法，結果導致對高而不平等的出價的拒絕——在一些案例中，相當於兩周的工資優先於兩個參與者一無所獲被決絕。）　

參考資料

[1] 博客網 http://smile99.bokee.com/5079410.html

[2] 百度空間 http://hi.baidu.com/dvchen/blog/item/0e1ea13fb394fdca7d1e71fb.html

[3] 博客網 http://plg9256.bokee.com/viewdiary.13903449.html

[4] 西祠胡同 http://www.xici.net/b166018/d7791984.htm

[5] 中國經濟網 http://www.ce.cn/books/jhsz/szlz/lxzdl/lxzdl/200502/22/t20050222_3134711.btk