雜談分類:經濟知識
博弈論普及書中容易出錯的一個問題。應該說,對局者采用優勢策略在對方采取任何策略時,總能夠顯示出優勢。圍棋則是對弈雙方相繼按照一先一后次序行動的博弈。對于一人一步的相繼行動的博弈,每個參與者都必須向前展望或預期,估計對手的意圖,從而倒后推理,決定自己這一步應該怎么走。
這是一條線性的推理鏈:“假如我這么做,他就會那么做———若是那樣,我會這么反擊”,后面的步驟依此類推。也就是說,你怎么走棋,完全取決于對手的上一招。這在博弈論上叫做“倒推法”。
在動態博弈中,存在明顯的馬太效應,也就是說凡是擁有較少的,連他僅有的那一點點也奪過來;凡是多的,就加給他,讓他更多。比如在圍棋上,就有“一招不慎,滿盤皆輸”的諺語,當然我們也要應用馬太效應原理,在獲得優勢的情況能夠保持優勢,擴大優勢,直至最后成功。
而在同時行動的靜態博弈里,沒有一個博弈者可以在自己行動之前得知另一個博弈者的整個計劃。在這種情況下,互動推理不是通過觀察對方的策略進行,而是必須通過看穿對手的策略才能展開。
要想做到這一點,單單假設自己處于對手的位置會怎么做還不夠。即便你那樣做了,你只會發現,你的對手也在做同樣的事情,即他也在假設自己處于你的位置會怎么做。
因此,每一個人不得不同時擔任兩個角色,一個是自己,一個是對手,從而找出雙方的最佳行動方式。與一條線性的推理鏈不同,這是一個循環,即“假如我認為對方認為我認為……”。
這樣來看,定式是一系列納什均衡的累計直至局部達到穩定的一種變化,直到一方認為可以根據形勢選擇任何變化或脫先而無局部受損之虞。由于定式是在大量實戰基礎上不斷被驗證并長期積累而成。
因此在動態博弈中,納什均衡的要義在于:即使在對抗條件下,雙方可以通過向對方提出威脅和要求,找到雙方能夠接受的解決方案而不至于因為各自追求自我利益而無法達到妥協,甚至兩敗俱傷。穩定的均衡點建立在找到各自的“占優策略”(dominantstrategy),即無論對方作何選擇,這一策略始終應優于其它策略。
從愛情故事談起:優勢策略
“原地高天,堪嘆古今情難盡;癡男怨女,可憐風月債難償?!?/p>
我們來先看歐·亨利的小說《麥吉的禮物》描述的這樣一個愛情故事。新婚不久的妻子和丈夫,很是窮困潦倒。除了妻子那一頭美麗的金色長發,丈夫那一只祖傳的金懷表,便再也沒有什么東西可以讓他們引以為傲了。雖然生活很累很苦,他們卻彼此相愛至深。每個人關心對方都勝過關心自己。為了促進對方的利益,他們愿意奉獻和犧牲自己的一切。
話說明天就是圣誕節了,小兩口都是身無余錢。為了讓愛人過得好一點,每個人還是想悄悄準備一份禮物給對方。丈夫賣掉了心愛的懷表,買了一套漂亮發卡,去配妻子那一頭金色長發。妻子剪掉心愛的長發,拿去賣錢,為丈夫的懷表買了表鏈和表袋。
最后,到了交換禮物的時刻,他們無可奈何地發現,自己如此珍視的東西,對方已作為禮物的代價而出賣了?;藨K痛代價換回的東西,竟成了無用之物。出于無私愛心的利他主義行為,結果卻使得雙方的利益同時受損。
歐·亨利在小說中寫道:“聰明的人,送禮自然也很聰明。大約都是用自己有余的物事,來交換送禮的好處。然而,我講的這個平平淡淡的故事里,兩個住公寓的傻孩子,卻是笨到極點,彼此為了對方,白白犧牲了他們屋檐下最珍貴的財富?!?/p>
從這段文字看,歐·亨利似乎并不認為這小兩口是理性的。且讓我們暫時拋開愛情的溫馨,單從利益的角度來解讀。我們假定,他們每個人,有一個“毫不利己,專門利人”的偏好系統,毫不考慮自身利益,專門謀求別人的幸福。
這樣,個人選擇付出還是不付出,只看對方能不能得益,與自己是否受損無關。以這樣的偏好來衡量,最好的結果自然是自己付出而對方不付出,對方收益增大;次好的結果是大家都不付出,對方不得益也不犧牲;再次的結果是大家都付出;最壞的結果是別人付出而自己不付出,靠犧牲別人來使自己得益。我們不妨可用數字來代表個人對這四種結果的評價:第一種結果給3分,第二種結果給2分,第三種結果給1分,最后那種給0分。
不難看出,無論對方選擇付出,還是選擇不付出,個人自己的最佳選擇都是付出。然而這并不是對大家都有利的選擇。事實上,大家都選擇不付出,明顯優于大家都選擇付出的境況,這就達到了上文提到的納什均衡。
實際上,這里的例子有一個占優策略均衡。通俗地說,在占優策略均衡中,不論所有其他參與人選擇什么策略,一個參與人的占優策略都是他的最優策略。顯然,這一策略一定是所有其他參與人選擇某一特定策略時該參與人的占優策略。
因此,占優策略均衡一定是納什均衡。在這個例子中,妻子選擇不付出,也就是不剪掉金發對于妻子來說是一個優勢策略,也就是說妻子不付出,丈夫不管選擇什么策略,妻子所得的結果都好于丈夫。同理,丈夫不賣掉懷表對于丈夫來說也是一個優勢策略。
再舉個常見的例子:一名籃球前鋒和隊友在籃下面對著對方的一個后衛時,形成了二打一的局面,該前鋒可以選擇直接投籃,也可以選擇傳球給隊友,根據經驗,傳球過人的成功率更大,那么傳球就是該前鋒的優勢策略。即某些時候它勝于其他策略,且任何時候都不會比其他策略差。
如果一個球員具有這樣一種策略,無論其他球員怎么做,這個策略都會高出一籌,那么這個球員就有一個優勢策略。當然如果一個球員有這么一個優勢策略,他的決策就會變得非常簡單,只要直接采用該策略而完全不必考慮對手的應對策略。
還有一個要注意的問題是,采用優勢策略得到的最壞結果并不一定比采用另外一個策略得到的最佳結果要好,這是很多
比如就這個例子來說,就妻子來說,她采用不付出的策略,無論丈夫付出或不付出,妻子的不付出策略總是占有優勢。丈夫的優勢策略也是一樣。但是,妻子選擇不付出的最壞結果是1,選擇付出的最好結果是3,很明顯,妻子的優勢策略得到的最壞結果并不比采用另外一個策略得到的最佳結果要高出一籌。
反之,劣勢策略則是指在博弈中,不論其他參與人采取什么策略,某一參與人可能采取的策略中,對自己嚴格不利的策略,劣勢策略是我
房地產開發博弈、警察捉小偷與混和策略們在日常生活中不可以選擇的行動。劣勢策略是與優勢策略相對應的概念,筆者這里就不多做介紹。
實際上,在每個參與人都有優勢策略的情況下,優勢策略均衡是非常合乎邏輯的。一個優勢策略優于其他任何策略,同樣,一個劣勢策略則劣于其他任何策略。
假如你有一個優勢策略,你可以選擇采用,并且知道你的對手若是有一個優勢策略他也會照辦;同樣,假如你有一個劣勢策略,你應該避免采用,并且知道你的對手若是有一個劣勢策略他也會規避。
但遺憾的是,并不是所有博弈都有優勢策略,哪怕這個博弈只有兩個參與者。實際上,優勢策略只是博弈論的一種特例。雖然出現一個優勢策略可以大大簡化行動的規則,但這些規則卻并不適用于大多數現實生活中的博弈。
來看這樣一個房地產開發博弈的例子。假定北京市的房地產市場需求有限,A、B兩個開發商都想開發一定規模的房地產,但是市場對房地產的需求只能滿足一個房地產的開發量,而且,每個房地產商必須一次性開發這一定規模的房地產才能獲利。在這種情況下,無論是對開發商A還是開發商B,都不存在一種策略完全優于另一種策略,也不存在一個策略完全劣于另一個策略。
因為,如果A選擇開發,則B的最優策略是不開發;如果A選擇不開發,則B的最優策略是開發;類似地,如果B選擇開發,則A的最優策略是不開發;如果B選擇不開發,則A的最優策略是開發。這樣就形成了一個循環選擇。
根據納什均衡含義就是:給定你的策略,我的策略是最好的策略;給定我的策略,你的策略也是你最好的策略。即雙方在對方給定的策略下不愿意調整自己的策略。
這個博弈的納什均衡點不止一個,而是兩個:要么A選擇開發,B不開發;要么A選擇不開發,B選擇開發。在這種情況下,A與B都不存在優勢策略,也就是A和B不可能只要選擇某一個策略而不考慮對方的所選擇的策略。實際上,在有兩個或兩個以上納什均衡點的博弈中,其最后結果難以預測。在房地產博弈中,我們無法知道,最后結果是A開發B不開發,還是A不開發B開發。
再來看這樣一個警察捉小偷博弈的例子。某個村莊上只有一名警察,他要負責整個村的治安。小村的兩頭住著兩個全村最富有的村民A和B,A、B分別需要保護的財產為2萬元、1萬元。整個小村某一天來了個小偷,要在村中偷盜A和B的財產,這個消息被警察得知。
因為分身乏術,警察一次只能在一個地方巡邏;而小偷也只能偷盜其中一家。若警察在某家看守財產,而小偷也選擇了去該富戶家,就會被警察抓??;若警察沒有看守財產的富戶家而小偷去了,則小偷偷盜成功。
一般人會憑著感覺認為,警察當然應該看守富戶A家財產,因為A有2萬元的財產,而B只有1萬元的財產。實際上,對于警察的一個最好的做法是,警察抽簽決定去A家還是B家。
因為A家的財產是B家的2倍,小偷自然光顧A家的概率要高于B家,不妨用兩個簽代表A家,比如如果抽到1、2號簽去A家,抽到3號簽去B家。這樣警察有2/3的機會去A家做看守,1/3的機會去B家做看守。
而小偷的最優選擇是:以同樣抽簽的辦法決定去A家還是去B家實施偷盜,只是抽到1、2號簽去A家,抽到3號簽去B家,那么,小偷有l/3的機會去A家,2/3的機會去B家。這些數值是可以通過聯立方程準確計算出的,筆者這里就不給出具體的數學計算過程了。
細心的讀者會發現,警察捉小偷博弈與前面所舉的兩個博弈案例有一個很大的差別,就是用到了概率的知識,警察與小偷沒有一個一定要選擇某個策略的納什均衡,而只有選擇某個策略是多少幾率的納什均衡。
在博弈論中,可以選擇出某個策略的納什均衡,這個策略叫做純策略。
用專業的話來說,所謂純策略是指參與者在他的策略空間中選取惟一確定的策略。但至少存在一個混合策略均衡點。
所謂混合策略是指參與者采取的不是惟一的策略,而是其策略空間上的概率分布。這就是納什于1950年證明了的納什定理。而這個博弈沒有純策略納什均衡點,而有混合策略均衡點。這個混合策略均衡點下的策略選擇是每個參與者的混合策略選擇。
最常見混和策略就是猜硬幣游戲。比如在足球比賽開場,裁判將手中的硬幣拋擲到空中,讓雙方隊長猜硬幣落下的正反面。由于硬幣落下是正是反是隨機的,概率應該都是1/2。那么,猜硬幣游戲的參與者都是1/2的概率選擇正與反,這時博弈達到混和策略納什均衡。
再比如我們兒時玩的“剪、布、錘”就不存在純策略均衡,對每個小孩來說,自己采取出“剪”、“布”、還是“錘”的策略應當是隨機的。一旦一方知道另一方出其中某個策略的可能性增大,那么這個對弈者在游戲中輸的可能性就增大。因此,每個小孩的最優混合策略是采取每個策略的可能性是l/3。在這樣的博弈中,每個小孩各取三個策略的1/3是納什均衡。
由此可見,純策略是參與者一次性選取的,并且堅持他選取的策略。而混合策略是參與者在各種備選策略中采取隨機方式選取的。
在博弈中,參與者可以改變他的策略,而使得他的策略選取滿足一定的概率。當博弈是零和博弈時,即一方所得是另外一方的所失時,此時只有混合策略均衡。對于任何一方來說,此時不可能有純策略的占優策略。
位置博弈的策略
有這么一個大家都很熟悉的現象,那就是在每個大大小小的城市街道上,經常見到一些地段上的商店十分擁擠,形成一個繁榮的商業中心區,但另一些地段卻十分冷僻,沒什么商店。
更有意思的是,往往同類型的商家總是聚集在比較近的地方,比如肯德基、麥當勞之間總是緊緊相鄰。再如超市現象,前兩年有很多人對超市的布局發表了一些議論。因為有人注意到,如果在一條街上有2~3家超市的話,這幾家超市經常會“相依為鄰”,選址離得很近,倘若它們稍微分散地布置于街上,無疑對市民的購物提供相當的便利,因此他們認為超市“擁擠”在一起屬于資源浪費。
類似的事情也發生于國內各省級電視臺的節目播放。很多電視迷會發現,大部分電視臺總是將最精彩的節目放在相同的時間段,甚至有些時候是在相同時間段播放類似的節目,比如你播“快樂大本營”,我就播“超級總動員”;你播“玫瑰之約”,我就播“單身男女”。人都說文人相輕,電視臺也是這么相煎太急。
博弈論能夠對這個現象作出科學的解釋。首先對一個簡單的博弈模型進行敘述:
假設有條完全筆直的公路,連接城市A到城市B之間的交通。這條公路上每天行駛著大量的車輛,并且車流量在公路上是均勻分布的。假設有兩家快餐店,我們不妨假設為靠高速公路起家的麥當勞與肯德基,它們要在這條公路上選擇一個位置開設快餐,招攬來往車輛。為了能夠更加清晰地說明這個博弈,我們不得不畫一張圖。
再對該模型作一個合乎邏輯的假定:通常情況下,車輛總是樂意到距自己最近的快餐店購買食物。根據這個原則,從資源的最佳配置來看,麥當勞、肯德基應該分別開在1/4、3/4處是最優。
在這種均勻散布的情況下,每家快餐店都擁有1/2的顧客量,同時對于開車的人們總體來說,這種策略的選擇,車輛到快餐店的總的距離最短。
然而,人生不如意事十之八九,天并不總能遂人之愿??系禄c麥當勞都是百年老店,自然是精明之至,從經濟學上就是具有經濟理性。他們只要手段合法,總是希望自己的生意盡可能地紅火,至于其他人的生意的好壞則與己無關。
出于這種理性,肯德基分店經理肯定會想到:如果我將店鋪從3/4點處向左移一點,那么1/4點之間的中點不再是1/2點處,而是位于1/2點的靠左邊一點。這等于說,這一移位,肯德基將從麥當勞奪取部分顧客,這對于肯德基單方面來說無疑是一個好主意。當然麥當勞也不甘示弱,作為一個“理性人”,麥當勞自然也應該想到將自己的店鋪從1/4點處向右移動以爭取更多的顧客。
不難想象,雙方博弈的結果將使他們的店鋪設置在l/2中點附近達到納什均衡狀態,甲乙兩人相依為鄰且相安無事地做起快餐生意。如果我們放寬條件,不是兩家快餐店,而是很多家快餐店,很容易分析得到結果:這些快餐店仍然會在1/2處設店達到納什均衡。
同樣的道理,如果地段的繁華等其他原因在一條路上都可以認為到處相同的話,沒有一個商家會將自己安置于某條路的一頭,只要條件許可,超市將幾乎趨向于相依為鄰,這種現象完全可以看做公正的市場競爭的合理結果。這就是很多城市商業中心形成的原理,在博弈論中稱為位置博弈。
電視臺之間在時間段上的重疊問題在本質上就是位置博弈。事實上,我們只要將時間設想為上述案例中的公路,就不難分析出:市場競爭的結果就是,觀眾青睞的精彩節目將集中在同一黃金時段。在這種情況下,電視臺之間的競爭會更加激烈,為了獲得收視率,電視臺只能在制作質量上下功夫,最終獲得實惠的仍然是廣大觀眾。
西方國家在名義上是民權政治。實際上,選舉上臺的各個政黨之間的政策并沒有多大差別。就拿美國來說,民主黨與共和黨為了能夠獲得總統大選的勝利,必須要盡量爭取最多的選民。兩黨在制訂政策時,必然以這個目的為原則。我們把選民的政治主張看成是位置博弈中的均勻分布的人群,把兩個政黨看成是兩個店鋪,最終的結果必然是兩個政黨的政策趨向于折衷,并且非常近似。從這個意義上來說,西方政黨的換屆選舉倒真是有“換湯不換藥”的味道。
獵鹿模型的合作哲學
社會學告訴我們,在人類文明之初的原始社會,人們維生的方式主要是狩獵。
話說某個部落有兩個出色的獵人,某一天他們狩獵的時候,看到一頭梅花鹿。于是兩人商量,只要守住梅花鹿可能逃跑的兩個路口,梅花鹿就會無路可逃。只要他們能夠齊心協力,梅花鹿就會成為他們的盤中餐。不過只要其中有任何一人放棄圍捕,梅花鹿就會逃跑掉。
“福兮禍之所依;禍兮福之所伏?!庇袝r運氣太好并不一定有好的結果。正當兩個獵人嚴陣以待,圍捕梅花鹿的時候,在兩個路口都跑過一群兔子,如果獵人去抓兔子,會抓住4只兔子。從維持生存的角度來看,4只兔子可以供一個人吃4天,1只梅花鹿如果被抓住將被兩個獵人平分,可供每人吃10天。這里不妨假設兩個獵人叫A和B。
在這個矩陣圖中,每一個格子都代表一種博弈的結果。具體說來:
1.左上角的格子表示,獵人A和B都抓兔子,結果是獵人A和B都能吃飽4天;
2.左下角的格子表示,獵人A抓兔子,獵人B打梅花鹿,結果是獵人A可以吃飽4天,B則一無所獲;
3.在右上角,獵人A打梅花鹿,獵人B抓兔子,結果是獵人A一無所獲,獵人B可以吃飽4天;
4.在右下角,獵人A和B合作抓捕梅花鹿,結果是兩人平分獵物,都可以吃飽10天。
在這個博弈中,根據納什均衡的定義,應用博弈論中的“嚴格劣勢刪除法”(有興趣的讀者可以找本書參考文獻中的相關書籍閱讀,這里不做詳細介紹。)可以得到該博弈有兩個納什均衡點,那就是:要么分別打兔子,每人吃飽4天;要么合作,每人吃飽10天。
兩個納什均衡,就是兩個可能的結局。兩種結局到底哪一個最終發生,這無法用納什均衡本身來確定。
比較[10,10]和[4,4]兩個納什均衡,明顯的事實是,兩人一起去獵梅花鹿比各自去抓兔子可以讓每個人多吃6天。按照經濟學的說法,合作獵鹿的納什均衡,分頭抓打兔子的納什均衡,具有帕累托優勢。與[4,4]相比,[10,10]不僅有整體福利改進,而且每個人都得到福利改進。
換一種更加嚴密的說法就是,[10,10]與[4,4]相比,其中一方收益增大,而其它各方的境況都不受損害。這就是[10,10]對于[4,4]具有帕累托優勢的含義。
在經濟學中,帕累托效率準則是:經濟的效率體現于配置社會資源以改善人們的境況,主要看資源是否已經被充分利用。如果資源已經被充分利用,要想再改善我就必須損害你或別的什么人,要想再改善你就必須損害另外某個人。
一句話簡單概括,要想再改善任何人都必須損害別的人了,這時候就說一個經濟已經實現了帕累托效率。
相反,如果還可以在不損害別人的情況下改善任何人,就認為經濟資源尚未充分利用,就不能說已經達到帕累托效率。效率是指資源配置已達到這樣一種境地,即任何重新改變資源配置的方式,都不可能使一部分人在沒有其他人受損的情況下受益。這一資源配置的狀態,被稱為“帕累托最優”(Paretooptimum)狀態,或稱為“帕累托有效”(Pareto efficient)。
目前在世界上比比皆是的企業強強聯合,就接近于獵鹿模型的帕累托改善,跨國汽車公司的聯合、日本兩大銀行的聯合等等均屬此列,這種強強聯合造成的結果是資金雄厚、生產技術先進、在世界上占有的競爭地位更優越,發揮的影響更顯著。
總之,他們將蛋糕做得越大,雙方的效益也就越高。比如寶山鋼鐵公司與上海鋼鐵集團強強聯合也好,還是其他什么重組方式,最重要的在于將蛋糕做大。在寶鋼與上鋼的強強聯合中,寶鋼有著資金、效益、管理水平、規模等各方面的優勢,上鋼也有著生產技術與經驗的優勢。兩個公司實施強強聯合,充分發揮各方的優勢,發掘更多更大的潛力,形成一個更大更有力的拳頭,將蛋糕做得比原先兩個蛋糕之和還要大。
獵鹿模型的討論,我們的思路實際只停留在考慮整體效率最高這個角度,而沒有考慮蛋糕做大之后的分配。獵鹿模型是假設獵人雙方平均分配獵物。
我們不妨做這樣一種假設,獵人A比獵人B狩獵的能力水平要略高一籌,但B獵人卻是酋長之子,擁有較高的分配權。
可以設想,A獵人與B獵人合作獵鹿之后的分配不是兩人平分成果,而是A獵人僅分到了夠吃2天的梅花鹿肉,B獵人卻分到了夠吃18天的梅花鹿肉。
在這種情況下,整體效率雖然提高,但卻不是帕累托改善,因為整體的改善反而傷害到獵人A的利益。我們假想,具有特權的獵人B會通過各種手段方法讓獵人A乖乖就范。但是獵人A的狩獵熱情遭到傷害,這必然會導致整體效率的下降。進一步推測,如果不是兩個人進行狩獵,而是多人狩獵博弈,根據分配可以分成既得利益集團與弱勢群體,這和我國的現狀非常相似。
我國改革的進程在九十年代中期以前是一種帕累托改善的過程。但是隨著各種復雜的不確定因素影響,貧富差距逐漸拉大,基尼指數甚至超過0.45的國際警戒線,帕累托改善的過程受到干擾。
這種情況如果繼續下去,社會穩定和改革深化必將受到決定性的沖擊。我們的黨和政府已經關注到弱勢群體的生存狀態,并適時地提出建設和諧社會的改革目標,糾正了一些錯誤思潮,將改革的進程拉回到健康的軌道。
“囚徒困境”的深刻哲理
在博弈論中,有一個流傳頗為廣泛的故事,叫做“囚徒困境”(Pris-oner's Dilemma)。
話說有一天,一位富翁在家中被殺,財物被盜。警方在此案的偵破過程中,抓到兩個犯罪嫌疑人A和B,并從他們的住處搜出被害人家中丟失的財物。但是,他們都矢口否認曾殺過人,辯稱是先發現富翁被殺,然后只是順手牽羊偷了點兒東西。于是警方將兩人隔離審訊。
這個時候,聰明的警官找他們談話,分別告訴他們說:“你們的偷盜罪確鑿,所以可以判你們2年刑期。但是,我可以和你做個交易。如果你招了,他不招,那么你會作為證人無罪釋放,他將被判10年徒刑;如果你招了,他也招了,你們都將被判5年有期徒刑;如果他招了,你不招,他無罪釋放,你被判無期徒刑,終身囚禁;如果你們都不招,各判2年?!?/p>
一般讀者可能會誤認為,既然兩個囚犯最好的結果是都不招供,兩人都只被判2年,那么,兩個囚犯都選擇不招供就是這個博弈的最終結果。
然而,人算不如天算,“囚徒困境”之所以稱為“困境”正是因為這個博弈的最終結局恰恰是最壞的結果,即兩個囚犯統統招供,結果都被判有期徒刑5年。
反過來說,這也是警官的聰明之處。警官采取的游戲規則必然會讓兩名囚犯坦白罪行,認罪伏法。對一個博弈來說,游戲規則非常地重要,適宜的規則才能夠達到目的。在我們的日常生活中莫不如此,規則制訂者往往利用條件制定出有利于自身的規章制度。
讀到這里,很多讀者不禁會問,為什么兩個人都選擇了“招”,傻到接受這種最壞的結果呢?
在解釋這個問題之前,筆者首先說明一下,囚徒困境和其它的博弈一樣,都需要有2個前提假設:囚徒A和B兩人都是自利理性的個人,即只要給出兩種可選的策略,每一方將總是選擇其中對他更有利的那種策略;兩人無法溝通,要在不知道對方所選結果的情況下,獨自進行策略選擇。
囚犯“思想搏斗過程”大致如下,囚犯A的內心活動是這樣:假如他招了,我不招,我就要將牢底坐穿,招了最壞坐10年,還是招了合算;假如他不招,我也不招,只坐2年的牢(因無法串供,風險太大);如果我招,他不招,馬上被釋放,也是招了合算。
因此,無論囚犯B是坦白還是沉默,囚犯A采取坦白的策略對自己更為有利。
同樣,以上推理也適用于囚犯B。結果兩個囚徒都坦白了,都被判刑5年。
囚徒困境之所為被稱為“困境”,正是在于:如果A、B二人都保持沉默,則都只被判刑2年,顯然比兩人都坦白的結果要好。
兩名囚犯都作出招供的選擇,這對他們個人來說都是最佳的,即最符合他們個體理性的選擇。照博弈論的說法,這是惟一的納什均衡點。
除了這個均衡點,A與B的任何一人單方面改變選擇,他只會得到更加不經濟的結果。而在其它的結果中,比如兩人都不坦白的情況下,都有一人可以通過單方面改變選擇,來減少自己的刑期??墒莾扇私涍^一番理性計算后,卻選擇了一個使自己陷入不利的結局。
其實“囚徒困境”不允許囚犯A和B進行溝通的假設,與實際生活中大部分情況的現實是有差異的。比如,在愛情博弈中,很多戀人會經?;ㄇ霸孪?、徹夜廝守;在企業的價格戰中,企業之間也會多有溝通,甚至結成價格聯盟;即使是20世紀下半世紀的美蘇軍備競賽中,兩個超級大國也會經常進行外交交談,及時交換信息。
因此不妨將條件放寬,允許囚犯A和B在審訊室里在一起呆上10分鐘,給予他們充分的串供的機會。
很明顯,雙方交流的主旨就是建立攻守同盟,克服自利心理,甚至可能訂立一個口頭協議,要求雙方都不去坦白。然后,雙方再單獨被提審。
我們不妨設想囚犯A的心理活動。他一定會認為,如果囚犯B遵守約定的話,則自己坦白就可獲得自由;如果囚犯B告密的話,若自己不坦白就會被終生囚禁。事實上,囚犯A的策略并沒有因為簡單的溝通或協議而擺脫兩難境地。對于囚犯B也是一樣。
雖然“坦白從寬,抗拒從嚴”的道理人人都懂,而從博弈論的角度來看,實際上就是一個囚徒困境的應用?!扒敉嚼Ь场北豢闯墒遣┺恼摰拇硇园咐?,不僅因為其簡單易懂,還在于它的現象在日常生活中廣泛存在。
比如,戀人們在戀愛中的海誓山盟,最終還是分手;企業之間相互溝通合作結成戰略關系時是信誓旦旦,但價格戰仍然會爆發;美蘇兩國經常會晤,甚至簽訂核不擴散條約,但軍費一年高過一年。
囚徒困境的游戲規則,能夠讓狡猾的罪犯招供,得到應有的懲罰,固然不是壞事。然而,我們不妨假設囚徒A和B完全都是清白的具有理性的大大的良民,這個博弈的納什均衡并不會因為他們的清白而改變。如果在現實生活中,審案存在對身體的殘害,完全可能造成屈打成招的冤假錯案。在中國歷史上,這種冤案并不是什么稀少的事情。
從更深刻的意義上講,囚徒困境模型動搖了傳統社會學、經濟學理論的基礎,這是經濟學的重大革命。
傳統經濟學的鼻祖亞當·斯密在其傳世經典《國民財富的性質和原因的研究》中這樣描述市場機制:“當個人在追求他自己的私利時,市場的看不見的手會導致最佳經濟后果?!边@就是說,每個人的自利行為在“看不見的手”的指引下,追求自身利益最大化的同時也促進了社會公共利益的增長。即自利會帶來互利。
傳統經濟學秉承了亞當·斯密的思想。傳統經濟學認為:因此經濟學不必擔心人們參與競爭的動力,只需關注如何讓每個求利者能夠自由參與盡可能展開公平競爭的市場機制。只要市場機制公正,自然會增進社會福利。

關注我們微信公眾號:mw748219