重復博弈

定義

在重復博弈中，每次博弈的條件、規則和內容都是相同的, 但由於有一個長期利益的存在, 因此各博弈方在當前階段的博弈中要考慮到不能引起其它博弈方在後面階段的對抗、報復或惡性競爭, 即不能象在一次性靜態博弈中那樣毫不顧及其它博弈方的利益。有時, 一方做出一種合作的姿態, 可能使其它博弈方在今後階段採取合作的態度, 從而實現共同的長期利益。
下面給出兩個重要定義：
定義1：可信性是指動態博弈中先行動的博弈方是否該相信後行動的博弈方會採取對自己有利或不利的行爲。
定義2：如果動態博弈中各博弈方的策略在動態博弈本身和所有子博弈中都構成均衡, 則稱該策略組合具有子博弈完美性。
在重復博弈中, 可信性同樣是非常重要的, 也即子博弈完美性仍是判斷均衡是否穩定可靠的重要依據, 又由於長期利益對短期行爲的制約作用, 因此有一些在一次性博弈中不可行的威脅或諾言在重復博弈中會變爲可信的, 從而使博弈的均衡結果出現更多的可能性。

特徵

1、階段博弈之間沒有物質上的聯系，也就是說，前一階段的博弈不改變後一階段的結構。
2、所有參與人觀察到博弈過去的歷史。
3、參與人的總得益是所有階段博弈得益的貼現值之和。
如果博弈不是一次的，而是重復進行的，參與人過去行動的歷史是可以觀察到的，參與人就可以將自己的選擇依賴於其他人之前的行動，因而有了更多的策略可以選擇，均衡結果可能與一次博弈大不相同。

重復博弈是指同樣結構的博弈重復許多次。當博弈只進行一次時，每個參與人都只關心一次性的支付；如果博弈是重復多次的，參與人可能會爲了長遠利益而犧牲眼前的利益，從而選擇不同的均衡策略。因此，重復博弈的次數會影響到博弈均衡的結果。
1.無限次重復博弈：下面用一個關於產品定價博弈的例子分析重復博弈。
產品定價博弈
廠商B
低價高價
廠商A低價
高價12，1220，4
4，2015，15

是兩個廠商A和B定價的支付矩陣，從中可以看出：在一次性博弈中中，廠商A和廠商B都存在上策，上策均衡是雙方都定低價。
從參與人行爲看，由於博弈可以重復無數次，博弈雙方爲了長期利益有時間進行試探性出價。在第一次博弈時出高價以尋求競爭對手的合作，一旦對局人爲了短期利益採取不合作行爲，那么就會建立該對局人是不可信任的信念，在下一次的博弈中都採取不合作的低價行爲，使對局人的長期利益受損。
可見，廠商B在第一次博弈中由於不合作策略得到的高收益會在以後博弈中因A的報復性策略而抵消，甚至在重復博弈若幹次後出現損失。
假如廠商A开始制定的高價策略，從支付矩陣得到廠商B若也定高價，其每次博弈的支付分別爲（15，15，15．．．）；若廠商B制定低價，則在第一次博弈中獲得高收益，但是隨後會由於廠商A的低價行爲而使其受損，各次博弈的支付分別爲（20，12，12．．．）。廠商A的這種策略被稱爲“以牙還牙”策略，這種策略是A在初始選擇合作，如果B合作，那么A也會一直合作下去；若B在某一次博弈中選擇不合作，那么A在以後博弈中都採取不合作策略。“以牙還牙”策略意味着任何一個參與人的一次性不合作將會引起永遠的不合作。所有參與人爲了長期利益，使得無限次重復的非合作博弈產生合作解。
2.有限次重復博弈：假定重復有限的N次，這意味着所有參與人都能預測到最後一次（第N次）的收益。在第N次博弈中，各參與人都知道對方的“以牙還牙”，但是他也知道如果在這次博弈中自己選擇低價的上策，將使自己受益而其他參與人受損，且也不會留給對方報復的機會（博弈到第N次結束）。所有參與人都明白這一點，因此在最後一次博弈中將都採取低價策略，這與一次博弈的上策均衡結果相同。
在現實中，市場競爭者很難弄清重復博弈的結構。廠商很難預期自己在什么時候會結束經營，也不清楚與對手的競爭何時是第N次博弈。因此，只要競爭時期足夠長，競爭的雙方都預期未來還要進行很多次博弈，那么，競爭的結構就可能近似於無限次重復博弈，使得廠商在競爭中出現相互合作的局面。

序列博弈

在實踐中，博弈者在選擇行動時可能有先後順序或某些對局者可能率先採取行動，這種博弈被稱爲序列博弈。
1.先行者優勢：廠商生產甜味餅幹的收益10要高於生產脆味餅幹的收益8。假定兩個廠商同時獨立的做出生產決定，他們都愿意推出甜味餅幹——結果是兩家收益都受損
廠商2
脆甜
廠商1脆
甜—3，—38，10
10，8—3，—3
可見，在序列博弈中，先行者可能佔據一定的有利地位，這就是先行者優勢。廠商1爲獲得更大收益，會選擇推出甜味餅幹，使得廠商2只能選擇收益較低卻是最優的策略——推出脆味餅幹。
2.博弈的擴展形式：常用博弈的擴展形式來分析序列博弈，它用決策樹的形式表示可能的行動，並在各枝的結束處給出各行動的支付。

脆-3，-3
脆廠商2
廠商1（2）甜8，10
（1）脆10，8
甜廠商2
（3）甜3，-3

博弈的擴展形式的解一般用逆推法推導，由最後的收益逆向歸納，倒推到初始節點1處做出最後決策。

例子

以下我們用一個產品定價的例子討論重復博弈，給出了一次性完全信息靜態博弈的收益矩陣。
A、B兩個參與人都有兩種定價待選擇：定高價或定低價。如果兩個參與人都定低價，則每個參與人的收益均爲20個單位；如果兩人都定高價，則每人的收益均爲30個單位；如果其中某一參與人定低價，而另一參與人定高價，則定低價的參與人有佔有更多的市場份額獲得40個單位的收益，定高價的參與人由於失去一部分市場份額而只獲得10個單位的收益。顯然，在這個一次性完全信息靜態博弈中，兩個參與人均有佔優策略，佔優策略均衡爲A、B雙方都定低價。
如果A、B之間的定價博弈是多次進行的，那么，問題就不是如此簡單了。我們先來分析博弈重復次數爲無限時的情況。
如果A、B雙方都選擇合作，都保持定高價，則雙方在每個階段的收益均爲30個單位，記爲(30，30，30，…)；如果A、B中有一方 (如A)採取投機行爲，在實際定價中選擇不與對方合作，在第一階段就通過選擇定價策略使得選擇高價策略的對手B受損，則受損的一方B一定會在第二階段及其以後的定價中也選擇低價策略，加以報復，這樣一來，首先選擇不合作的一方A在個階段的收益爲(40，20，20，…)，顯然，其總收益遠遠小於合作、維持高價情況下的總收益。因爲，首選選擇不合作的一方A，只是在第一階段獲得了“額外”收益，但在以後個階段的收益將因爲對手B的報復性選擇而減少，並且，重復若幹此後，首先選擇不合作的一方A將得不償失。
在這裏，B選擇的策略稱爲“冷酷策略”(grim strategies)。冷酷策略是指重復博弈中的任何參與人的一次性不合作將引起其他參與人的永遠不合作，從而導致所有參與人的收益減少。因此，所有參與人具有維持合作的積極性。我們再來討論博弈重復次數爲有限時的情況。
重復次數有限博弈與重復次數無限博弈之間的惟一區別，是所有參與人都可以明確無誤地了解重復的次數，即可以準確地預測到最後一個階段博弈。而在最後階段的博弈中，任何一個參與人選擇不合作，不會導致其他參與人的報復。因此，所有參與人都會在最後階段的博弈中選擇自己的佔優策略，那就是不合作。上例中，在最後階段博弈中選擇低價是所有參與人的佔優策略。
既然所有參與人都會在最後階段選擇不合作，那么，在倒數第二階段博弈中任何參與人也就沒有必要擔心由於自己選擇不合作，導致其他參與人在最後階段博弈中的報復。因此所有參與人在倒數第二階段博弈中，也都會選擇不合作。即在倒數第二階段博弈中，所有參與人都會選擇佔優策略。
由此類推，可以得出以下結論：在階段性博弈存在惟一的納什均衡時，階段博弈的納什均衡解就是重復次數有限博弈的唯一子博弈精煉納什均衡解。即重復次數有限博弈的每個階段的均衡解都是一次性博弈的納什均衡解。注意，上述推論成立的前提條件是階段性博弈納什均衡的惟一性。 ^[1]