打猎、判刑与纳什均衡

2016-08-19 09:28林革
初中生世界 2016年14期
关键词:坦白纳什最大化

林革



打猎、判刑与纳什均衡

林革

“纳什均衡”是由1994年诺贝尔经济学奖得主、美国数学家约瀚·纳什提出的非合作博弈理论.它是指在非合作的前提下,所有人的行动都是个别自主的决策.如果选择的策略形成这样一种局面——任何一个参与者单方更改自己的策略不能带来任何好处,这就形成了“纳什均衡”.如果你认为这样的描述过于抽象晦涩,那么,不妨先来看下面这则“猎人选择”问题:

两个猎人A、B出发去打猎.假设一头鹿有400公斤肉,但必须两人合作才能打到,一个人去打猎肯定一无所获.同地区还有一群兔子,一共有200公斤肉,两人合作可以全部打完,但一个人打也可以获得100公斤肉.两个猎人各自都知道这样的前提,但双方不能交流沟通更不能协商共议,即不允许通过任何方式影响对方的决策,那么请你推测判断一下,两个猎人最终会选择什么猎物去打猎?

看起来,这是个比较现实也比较有趣的问题.为了进行相对理性和可信的分析,我们不妨列举出所有可能的四种情形(如表):

从表中可以看出,就个体而言A、B都存在“有收获”和“没收获”两类情形,所以从利已角度出发,双方都要尽力避免“没收获”,这应该可以理解.但要注意到,题意中已经说明:双方不允许通过任何方式影响对方的决策.即不能通过交流达成共同打鹿的协议,所以,尽管这是A、B收获最多的策略,但不能沟通的双方并不能保证对方如此选择.因此在各自独立选择时,为了确保自己有收获,A、B都会在 “有收获”的两种情况“两人都猎鹿或两人都猎兔”中选择后者,这样至少保证自己收获100公斤肉.

如果你理解了两个猎人的选择,也就弄清了所谓“纳什均衡”的基本涵义:从全局看起来不见得是最好选择,但是对每个人来说,它又确实是在别人不可控时自己的最佳策略.这也从另一方面说明:当个人利益与群体利益产生冲突时,个体的利已行为必然导致 “纳什均衡”——看似对个体有利,实际对所有人都不利的结局.比如美国斯坦福大学的客座教授塔克在1950年的一次讲演中,叙述的“囚徒困境”的故事就是具体形象的事例.

假设有两个小偷A和B联合犯事、私入民宅被警察抓获.警方将两人隔离分别关在不同的房间,由地方检察官分别和每个人单独谈话.检察官是这样叙述的:如果一个犯罪嫌疑人坦白了罪行,交出了赃物,于是证据确凿,两人都被判有罪.其中如果另一个犯罪嫌疑人也作了坦白,则两人各被判刑8年;如果另一个犯罪嫌人没有坦白而是抵赖,则以妨碍公务罪(因已有证据表明其有罪)再加刑2年,而坦白者有功被减刑8年,立即释放.如果两人都抵赖,则警方因证据不足不能判两人的偷窃罪,但可以私入民宅的罪名将两人各判入狱1年.

现在,摆在A、B面前的只有两种选择——坦白或抵赖.理论上,最好的策略是双方都抵赖,那么两人都只会被判1年.但由于两人处于隔离的情况下,无法互通信息进行串供,所以他们不能聚在一起达成共同抵赖的协议.况且即使达成了抵赖协议,从心理学的角度来分析,他们也不能充分信任对方的承诺.因此,A、B都会从利己角度如此盘算:

假如对方坦白.若自己抵赖,就得坐8+ 2=10年监狱;若自己也坦白会判8年.

假如对方抵赖.若自己抵赖,就会被判1年;若自己坦白就会被立即释放,对方则会坐10年牢.

显然,任何一方抵赖都要冒被同伙利用的巨大风险.所以,A、B从损人利己目的出发,他们选择坦白交代才是最佳策略.因为坦白交代可能得到最佳结果——立即释放,当然前提是同伙抵赖,这和对方坦白而自己抵赖,那自己就得坐10年牢的结果有天壤之别.不仅如此,即便自己坦白了对方也坦白,那么自己至多也只判8年,总比被判10年好吧.可见,不管对方怎么选择,自己坦白总是最划算的选择.如此一来,两个人都选择了坦白,认罪服法,皆得8年刑期.

必须指出,在博弈中,当每个参与者的信息对称时,个体利益最大化与群体利益最大化一致,即所谓共享双赢,并不属于“纳什均衡”;只有当信息不对称时,个体追求利益最大化,则将导致群体利益最小化,这才是“纳什均衡”的研究范畴.上述“猎人选择”和“囚徒困境”正是 “非合作博弈”的生动说明.

(作者单位:江苏省扬州教育学院高邮校区)

猜你喜欢
坦白纳什最大化
THE ROLE OF L1 IN L2 LEARNING IN CHINESE MIDDLE SCHOOLS
THE ROLE OF L1 IN L2 LEARNING IN CHINESE MIDDLE SCHOOLS
勉县:力求党建“引领力”的最大化
Advantages and Disadvantages of Studying Abroad
刘佳炎:回国创业让人生价值最大化
博弈论—囚徒困境模型浅析
中文的魅力,老外理解不了
真情告白
论坦白的处遇
戴夫:我更愿意把公益性做到最大化