打猎、判刑与纳什均衡

2016-08-19 09:28林革

初中生世界 2016年14期

林革

打猎、判刑与纳什均衡

林革

“纳什均衡”是由1994年诺贝尔经济学奖得主、美国数学家约瀚·纳什提出的非合作博弈理论.它是指在非合作的前提下，所有人的行动都是个别自主的决策.如果选择的策略形成这样一种局面——任何一个参与者单方更改自己的策略不能带来任何好处，这就形成了“纳什均衡”.如果你认为这样的描述过于抽象晦涩，那么，不妨先来看下面这则“猎人选择”问题：

两个猎人A、B出发去打猎.假设一头鹿有400公斤肉，但必须两人合作才能打到，一个人去打猎肯定一无所获.同地区还有一群兔子，一共有200公斤肉，两人合作可以全部打完，但一个人打也可以获得100公斤肉.两个猎人各自都知道这样的前提，但双方不能交流沟通更不能协商共议，即不允许通过任何方式影响对方的决策，那么请你推测判断一下，两个猎人最终会选择什么猎物去打猎？

看起来，这是个比较现实也比较有趣的问题.为了进行相对理性和可信的分析，我们不妨列举出所有可能的四种情形（如表）：

从表中可以看出，就个体而言A、B都存在“有收获”和“没收获”两类情形，所以从利已角度出发，双方都要尽力避免“没收获”，这应该可以理解.但要注意到，题意中已经说明：双方不允许通过任何方式影响对方的决策.即不能通过交流达成共同打鹿的协议，所以，尽管这是A、B收获最多的策略，但不能沟通的双方并不能保证对方如此选择.因此在各自独立选择时，为了确保自己有收获，A、B都会在 “有收获”的两种情况“两人都猎鹿或两人都猎兔”中选择后者，这样至少保证自己收获100公斤肉.

如果你理解了两个猎人的选择，也就弄清了所谓“纳什均衡”的基本涵义：从全局看起来不见得是最好选择，但是对每个人来说，它又确实是在别人不可控时自己的最佳策略.这也从另一方面说明：当个人利益与群体利益产生冲突时，个体的利已行为必然导致 “纳什均衡”——看似对个体有利，实际对所有人都不利的结局.比如美国斯坦福大学的客座教授塔克在1950年的一次讲演中，叙述的“囚徒困境”的故事就是具体形象的事例.

假设有两个小偷A和B联合犯事、私入民宅被警察抓获.警方将两人隔离分别关在不同的房间，由地方检察官分别和每个人单独谈话.检察官是这样叙述的：如果一个犯罪嫌疑人坦白了罪行，交出了赃物，于是证据确凿，两人都被判有罪.其中如果另一个犯罪嫌疑人也作了坦白，则两人各被判刑8年；如果另一个犯罪嫌人没有坦白而是抵赖，则以妨碍公务罪（因已有证据表明其有罪）再加刑2年，而坦白者有功被减刑8年，立即释放.如果两人都抵赖，则警方因证据不足不能判两人的偷窃罪，但可以私入民宅的罪名将两人各判入狱1年.

现在，摆在A、B面前的只有两种选择——坦白或抵赖.理论上，最好的策略是双方都抵赖，那么两人都只会被判1年.但由于两人处于隔离的情况下，无法互通信息进行串供，所以他们不能聚在一起达成共同抵赖的协议.况且即使达成了抵赖协议，从心理学的角度来分析，他们也不能充分信任对方的承诺.因此，A、B都会从利己角度如此盘算：

假如对方坦白.若自己抵赖，就得坐8+ 2=10年监狱；若自己也坦白会判8年.

假如对方抵赖.若自己抵赖，就会被判1年；若自己坦白就会被立即释放，对方则会坐10年牢.

显然，任何一方抵赖都要冒被同伙利用的巨大风险.所以，A、B从损人利己目的出发，他们选择坦白交代才是最佳策略.因为坦白交代可能得到最佳结果——立即释放，当然前提是同伙抵赖，这和对方坦白而自己抵赖，那自己就得坐10年牢的结果有天壤之别.不仅如此，即便自己坦白了对方也坦白，那么自己至多也只判8年，总比被判10年好吧.可见，不管对方怎么选择，自己坦白总是最划算的选择.如此一来，两个人都选择了坦白，认罪服法，皆得8年刑期.

必须指出，在博弈中，当每个参与者的信息对称时，个体利益最大化与群体利益最大化一致，即所谓共享双赢，并不属于“纳什均衡”；只有当信息不对称时，个体追求利益最大化，则将导致群体利益最小化，这才是“纳什均衡”的研究范畴.上述“猎人选择”和“囚徒困境”正是 “非合作博弈”的生动说明.

（作者单位：江苏省扬州教育学院高邮校区）