信念与行动的矛盾:单次囚徒困境博弈的重构与消解

2020-10-15 08:54
关键词:囚徒悖论象限

李 莉

(湖北大学 哲学学院, 湖北 武汉 430062)

单次囚徒困境博弈是囚徒困境的最初形式,研究文献极为丰富。著名的“对称性论证”由劳伦斯(Davis H. Lawrence)给出。所谓对称,简而言之,意味着囚徒双方是同等理性的,因而会采取同样的行动。劳伦斯认为,在囚徒困境中,如果囚徒是理性的,并且都知道双方是理性的,那么两人的选择就会是要么都招认,要么都不招认。根据帕累托(Villefredo Pareto)最优理论,双方都知道“不招认”的结果是最好的,因此最终会倾向于合作,从而选择“不招认”的行动。高德(David Gauthier)也认为,通过合作,选择“不招认”的行动带来的收益会更高一些。如果一个囚徒倾向于采取合作的策略,而另一个囚徒不合作,且这种倾向是两个囚徒之间的公共知识,那么出于自私的考虑,两个人都会倾向于采取同样的行动,也就是合作而“不招认”。无独有偶,在麦克林(Edward McClennen)看来,作为理性人,如果看到通过合作选择“不招认”带来的收益会更好,就会抵制住“招认”所带来的眼前收益的诱惑,而采取“不招认”的理性行动。

刘易斯(David Lewis)则给出了“占优论证”,论证招认才是合理的行动注David Lewis,“Prisoner’s Dilemma is a Newcomb problem”,Philosophy and Public Affairs,Vol.8,No.3,1979.。他认为在囚徒困境中,囚徒最合理的策略应当是选择招认,因为不管他是否招认,他都会被别人招认。

假如单次的囚徒困境博弈重复多次,就构成了一个新的动态序列博弈,被称为“有限次重复的序列博弈”。根据逆向归纳法,两个囚徒在每一轮都应当选择“不招认”才是最理性的结果。而事实上,在序列博弈中,合理的策略应当是条件化策略,而不是一直“拒不招认”。因此,对囚徒而言,这又是一个新的困境。

一、囚徒困境的出现与影响

(一)囚徒困境模型的概念

囚徒困境和博弈论几乎同时出现,最早由梅里尔·弗勒德(Merrill Flood)和梅尔文·德雷希尔(Melvin Dresher)于1950年以相关困境理论提出,艾伯特·塔克(Albert Tucker)其后以“囚徒”的方式对其进行重新阐述并命名为“囚徒困境”。根据决策情形不同,“囚徒困境”可以分为单次囚徒困境博弈和有限次重复的囚徒困境博弈,本文主要研究单次囚徒困境博弈。

单次囚徒困境博弈的提出[注]R. Campbell,L. Sowden,eds. Paradoxes of Rationality and Cooperation,Vancouver:University of British Columbia Press,1985,p.4.基于这样的思想实验:假定囚徒A和B因为犯罪被起诉,现在被隔离审查,不能进行交流。警官为了说服他们招认,指出,有足够的证据可以确定他们两人是有罪的,如果他们都保持沉默,那么都会被判刑一年。但是如果其中一人招认,而对方不招认,那么他就可以被释放,对方就会被判十年。如果他们都招认,那么两人都会被判9年。这个博弈可以用表1表示:

(表1)

从表中可以看出,囚徒的“收益”不仅取决于自己的选择还取决于对方的选择。他们可能会这样推理:“他招我不招”会获刑10年,“他招我也招”则获刑9年,因此“我招”的结果要好于“我不招”。“他不招我不招”会获刑1年,而“他不招我招”的结果是当场释放,因此,“我招”的结果还是要好于“我不招”。也就是无论对方“招”还是“不招”,我都要“招认”。于是,如果囚徒双方是理性的,他们都会毫不犹豫地选择“招认”。

然而根据上面的收益表,可以看出双方都不招认才能形成一个纳什均衡,(-1,-1)才是最合理的结果。对囚徒而言,根据“占优原则”所选择的行动应该是“招认”,可是根据“效用最大化原则”,所选择的行动应该是“不招认”。对囚徒而言,这两个同等有力的论证,却推荐了完全相反的行动选择,这的确是一个困境。

(二)囚徒困境的现实意义

囚徒困境得到人们热烈的讨论,这是因为,在人类生活中存在着许多极为重要的类似困境。正如庞德斯通(William Poundstone)在《囚徒的困境》中指出:“囚徒困境已成为我们当前时代最基本的哲学和科学课题之一,同我们的生存紧密联系在一起。”[注]W.Poundstone,Prisoner’s Dilemma,New York:Doubleday,1992,p.5.例如,社会科学中的经济学、政治学、社会学等领域的许多重要问题都可以用囚徒困境进行分析。比如政治学上的“军备竞赛”例子:达成军备削减协议的国家虽然知道“都不增加军备是最好的结果”,但由于无法确认别人是否一定会遵守协议,于是“增加军备”反而成为他们“理性”的选择,而这种各自的“理性”带来的共同结果却是“不理性”的。经济学上的“关税贸易战”也是如此,如果大家都遵守“零关税”或“低关税”协定,结果应该是最理想的。而一旦有国家发现别人遵守协定而自己不遵守可以获利,那么就会倾向于增加关税,最终的结果必然是所有国家之间不断高企的关税壁垒。同样,商业领域的“广告战”也是囚徒困境例子,相互竞争的公司约定共同减少广告投入是“理性”的,但一旦一方发现违约能使自己获利就会选择不合作,最终的结果必然是所有公司都会陷入恶性的广告战,所有人的收益都受到了损害。

在《悖论:根源、范围及解决》一书中,作者莱切尔(Nicholas Rescher)把“囚徒困境”称为“选择和决策悖论”,认为对它的研究极其重要。他指出,“决策悖论在21世纪哲学中极为重要,它承载了‘合理性’这一中心课题。在各种问题或条件下,决定什么是‘合理’的行动是合理性课题的最佳呈现方式”[注]Nicholas Rescher,Paradox:Their Roots,Range and Resolution, Chicago:Open Court,2001,p.256.。这一论述充分凸显了对囚徒困境难题进行综合性、整体性研究的重要性。

二、囚徒困境形成的原因

博弈论及一般决策理论研究方法分两种:标准化方法和描述性方法。标准化方法研究的代表人物有杰弗里(Richard Jeffery)、莱法(Howard Raiffa)、斯基姆斯(Brian Skyrms)。这种方法探讨理性主体的理想化行为,是关于“如何行动才是理性”的描述。描述性研究方法与此不同,关注的不是理想的理性主体做什么,而是实际的理性主体在做什么,他们假定的是部分人在部分时候是理性的,卡夫曼(Daniel Kaheneman)、尼伯(Richard E.Nisbett)、罗斯(Stephen Ross)和斯帝奇(Stephen Stich)是这一研究方法的代表人物。本文关注的重点是标准化研究进路,这一进路下的决策理论认为决定决策的因素有两个:目标[注]在“目标”之外,决策理论家也使用“愿望”和“期望”。但是有人认为在愿望和目标之间应该有所区分,因为愿望不一定会导致行动,而目标常常会导致行动。(或者愿望,或者需要)和信念[注]用置信度或者机会来表征。(或者信息)。根据标准化研究进路对囚徒困境形成的原因分析发现,要出现两个囚徒“都招认”或者“都不招认”的结果都必须满足三个条件。其区别主要就在于博弈双方是否考虑以及能否把握住对方的信念。

(一)两个囚徒“都招认”的要件

通过上文对囚徒困境产生过程的回顾,我们可以得出,两个囚徒“都招认”结果的出现必须满足三个条件:(1)博弈是基于对方“行动”的策略博弈,遵循“占优原则”;(2)双方做出的选择是独立、自主、不受胁迫的;(3)不同的路径选择必须对应不同的收益,也就是囚徒收益矩阵中的四种收益两两之间必须存在差异。下面分别展开讨论。

1.条件一:博弈双方是基于“行动”的策略博弈(遵循占优原则)

该情形下,博弈双方做出选择依据的是对方的“行动”,或者说是对方的“目标”,而并不考虑或者无法把握对方的信念。因此囚徒A在做出选择前,会认为囚徒B已经做出了选择(行动),既然对方做出了选择,那么必定只存在招认和不招认两种情况,而不管对方是否招认,自己选择招认都是更优的结果,同样,B也会做此推理,最终,双方都选择招认。所以说,博弈双方由于无法把握对方的想法,而只能基于对方的“行动”的判断直接导致了“都招认”结果的产生。

另外,基于“行动”的策略博弈要做出“招认”的选择,还须依据“占优原则”。占优原则基于理性经济人假设,考虑的是理性主体的决策,而非部分理性或者有限理性主体的选择。刘易斯(David Lewis)指出,囚徒本人的行动收益,和另一个囚徒采取何种策略,都不取决于这个囚徒。在任一可能世界状态中,如果有策略能获得较好的收益,理性要求选择这个策略。在无法确定对方会得到什么收益的情况下,选择“招认”的期望策略显然比其他策略好。而且,这种决策方式,保证了囚徒在非困境的决策情形下,可以做得更好。因此,在囚徒困境中,囚徒最合理的策略应当是选择招认,因为不管他是否招认,他都会被别人招认。刘易斯用以下论证来清晰揭示这一点[注]David Lewis,“Prisoner’s Dilemma is a Newcomb problem”.。

(1)你的同伴要么选A,要么选非A。

(2)如果他选A,那么你选A,也会有更好的收益。

(3)如果他选非A,你选A是最好的,因为你偏好A,而不是B。

(4)如果一个行为能让你有更好的收益,那么你应该去做。

因此,你应当选A。

这个论证的有效性很明显,它的结构如下:

(1)P或者Q。

(2)如果P,那么R。

(3)如果Q,那么R。

(4)如果R,那么S。

所以,S。

前提(1)是自明的,(2)和(3)是从对博弈的描述中推导出的。(如果(2)和(3)不真,就不存在囚徒困境)(4)应当是看做和决策论相关的最大化理性概念。支持占优论证的学者认为,理性主体应当选择能带来好的收益的行动,如果收益与行动(自身的行动)无关,此时就应当选择占优策略。根据占优策略所做出的行动,无论在哪种可能世界状态下,都比其他的选择好。根据因果决策理论,每个囚徒行动的期望效用取决于某种反事实为真的概率。但是,在囚徒困境中,收益与主体自身的行动是没有关系的,反事实的概率就降到了各人收益的先验概率。无论这些先验概率是多少,“招认”都会给囚徒带来更好的收益。因此,支持占优推理论证的人认为在囚徒困境中,理性还是要求两人采取“招认”的策略。于是,两个囚徒都选择“招认”是这个博弈的均衡点,也是这个博弈中存在的唯一的纳什均衡点。

2.条件二:博弈双方选择的独立性

选择的独立性即博弈双方不会因为自身做出的选择受到对方的惩罚。这一条件是显而易见的,如果招认会被对方报复,那么自然不会形成双方都招认的结果。需要注意的是,选择的独立性并不意味着要杜绝对方的干扰或者隔绝对方的信息。比如说,博弈双方在做出选择之前可以被告知对方的选择,或者囚徒双方可以进行有限次重复博弈,这样每次做出的博弈选择都会在下一次对方做选择时形成干扰,在此情况下,囚徒困境依然可能发生。

有限次重复囚徒困境是经典囚徒困境的一个扩展,简称IPD。鲁斯和莱法(R.D. Luce & H. Raiffa)是这样描述IPD的:假定两个囚徒知道单次囚徒困境博弈将被重复100次,那么在第100次博弈中,两个囚徒都明白之后不会再有博弈,而自己的选择也不会被对方报复,那么作为理性人,他们在这一局中的选择与单次囚徒困境博弈情形一样,都会选择“招认”。既然第100次博弈的结果已定,那么第99次博弈实际就变成了最后一次博弈,因此也会得到都“招认”的结果。依次类推,第98次事实上就成了最后一次,也得到都“招认”的结果……这样,按照“逆向归纳”推理倒推回去,囚徒在每一轮都会选择招认,这与单次囚徒博弈的结果一致[注]R.D. Luce,H.Raiffa,Games and Decisions:Introduction and Critical Survey,New York:Wiley,1957,p.30.。

虽然在有限次重复博弈中,囚徒会在博弈的过程中通过决策行动来进行交流,除去最后一局不考虑,在其他每一局,都要考虑他的选择将给他对手的下一步产生什么样的影响,但由于双方做出的选择都是独立的,没有额外的手段胁迫对方做出选择或者遵守诺言,最终依然有可能形成从逻辑上来看无懈可击,但同时直觉上又是不合理的“囚徒困境”。

3.条件三:不同的路径所对应的收益必须存在显著差异

在遇到不同的路径具有相同收益的情况时,即使博弈双方是理性的也会发生选择困难,因为此时遇到了无差异行为。比如警官给予囚徒A、B的条件有一条更改为“如果只有一方招认,那么招认的人无罪释放;如果双方都不招任,那么两人都无罪释放”,其他条件不变。那么,二者博弈的收益矩阵会如下图所示:

(表2)

囚徒A的推理会是:假如对方招认,那么我也应当招认;假如对方没招认,我既可以招认也可以不招认,但是不招认对于双方都更好。囚徒B同样也会做出这样的推理。这样,双方博弈的结果将会变得随机,他们既可能都招认,也可能都不招认,也可能一个招认一个不招认,关键就在于他们对对方选择的判断以及在做出“利己”行为的同时是否也愿意兼顾“利他”。同样道理,将条件改为“如果双方都招认,两人都会被判十年”也会造成上述随机情况的发生。这样囚徒困境就不复存在了。

当然,改变囚徒困境的条件只是一种极端的情况,对它的强调主要是为了剔除囚徒个体差异对博弈结果的影响。因为人们可以反驳说,囚徒困境的收益矩阵(-1,-1)(0,-10)(-10,0)(-9,-9)中,对于有的囚徒而言判刑1年跟无罪释放没有本质的差别,判刑9年跟10年也没有本质的差别,因此他们不必然都选择招认。这一争论看似勉强,但却间接说明了囚徒博弈矩阵中四个收益两两之间必须存在差异的重要性(而且必须是显著差异)。为了规避这种情况,我们可以用a1、a2、a3、a4以及b1、b2、b3、b4来分别代表囚徒A和囚徒B由高到低并且有显著差异的收益(如下图所示)。这样博弈的双方才不至于因为遇到了无差异或者差异不明显行为而发生选择困难,而这一条件在现实中也是可以实现的。

(表3)

通过上述的梳理,我们很容易产生一种错觉,理性博弈主体似乎只会基于对方的“行动”依据“占优原则”选择“双输”的结果,“效用最大化”只是“局内人”无法企及的“局外人”视角。如果囚徒困境仅是“局内人”与“局外人”选择间的冲突,那我们就不能称之为“困境”,而只能称为不可避免的囚徒“悲剧”了。困境必须是“局内人”的困境,同时困境还必须存在冲突的选项。那么,“效用最大化”选项能否成为囚徒共同的选择呢?

(二)“都不招认”选项出现的可能性

1.基于“行动”推理的局限性

为了更加直观,我们通过笛卡尔坐标系(图1)来重新审视两个“局内人”基于对方“行动”的推理过程。纵轴和横轴分别代表囚徒A和囚徒B招认与否的选择,所划分的四个区域(即四个象限)分别代表该选择获得的收益。

(图1)

囚徒A推理如下:如果B没有招认,那么我通过比较②、③象限的收益(a1>a2),就应该选择招认;如果B招认了,那么我通过比较①、④象限的收益(a3>a4),也应该选择招认。同样,囚徒B也会如此推理:如果A没有招认,那么我通过比较①、②象限的收益(b1>b2),应该选择招认;如果A招认了,那么我通过比较③、④象限的收益(b3>b4),也应该选择招认。我们可以发现一个规律,A、B进行收益对比时,都是横向或者纵向用相邻两个象限内的收益进行对比,而没有人进行斜向的对比,即用象限①与象限③的收益进行对比,或者用象限②与象限④的收益进行对比。而一旦他们将象限①的收益与象限③收益进行对比,就会发现两人都不招认才是更优的选择,而两人却始终发现不了这一漏洞。笔者认为,囚徒A和B都忽略了关于对方信念的假定。

囚徒A、B都是基于“对方已经做出选择,并且这种选择存在两种情形”的假定下进行的推理,从而他们进行横向或者竖向两两收益间的比较时,实质都是拿两个人“做出相同选择时的收益”与两个人“做出不同选择时的收益”进行对比。博弈双方都忽略了一个事实:在智力水平、推理能力、生活背景、行为偏好(理性经济人假设来保证)都相似的情况下,博弈双方的选择几乎是一致的,做出不同选择的可能性基本不存在。因此,在进行横向或竖向的收益对比时,实际上是与一个不存在的收益进行对比,结果自然是没有说服力的。而一旦A、B都意识到“对方的选择与自己一致”的情形,他们就会剔除象限①和象限③的收益,而只会在象限②与象限④间进行对比,从而最终博弈的结果将是(不招认,不招认)这一更优结局。其博弈过程详见图2。

(图2)

2.基于“信念”推理的理论依据

关于“博弈双方关于对方理性程度、行为模式与己一致”的假定,西方学界已经做过相关的理论研究,我们可以称之为“对称论证”。对称论证认为(自身的)行动和收益之间是有关系的,因此应当使用以行动为条件的收益的概率,来最大化期望效用。根据对称论证,囚徒困境的重要特点是参与人具有同等的理性(这个事实暗示收益和行动之间是有概率关系的)。因为囚徒之间的相似性,他们的行动接近相同。如果每一个囚徒都期望另一个人的行动和自己一样,那么保持沉默,也就是“不招认”,能够使每个人都获利。

高德认为,囚徒间通过合作选择“不招认”的行动带来的收益会更高一些。如果一个囚徒倾向于采取合作的策略,而另一囚徒不合作,这种倾向是两个囚徒之间的公共知识,那么出于自私的考虑,两个人都会倾向于采取同样的行动,也就是合作而“不招认”[注]R. Campbel,L.Sowden,eds.,Paradoxes of Rationality and Cooperation,p.40.。麦克林认为,作为理性人,看到通过合作选择“不招认”带来的收益会更好,就会抵制住“招认”所带来的眼前收益的诱惑,采取“不招认”的理性行动[注]R. Campbell,L.Sowden,eds.,Paradoxes of Rationality and Cooperation,p.50.。劳伦斯认为,在囚徒困境中,如果囚徒是理性的,并且都知道双方是理性的,那么两人的选择就会是要么都招认,要么都不招认。根据帕累托最优理论,双方都知道“不招认”的结果是最好的,因此最终会倾向于合作,从而选择不招认的行动,其推理如下[注]R. Campbell,L.Sowden,eds.,Paradoxes of Rationality and Cooperation,pp.60-70.。

(1)对主体Y而言,X是理性的,如果Y知道只有两个可能的结果M和N,使得如果Y选择X,收益是M,如果Y不选择X,那么收益是N,M比N更好。

(2)每个囚徒都知道每个人知道每个人都会做出理性的选择。

(3)每个人都知道理性的选择,对另一个人来说也是理性的。

本研究的干预措施很难做到对受试者和干预者实施盲法,因此只包括对结果测评者实施盲法。其中2篇[12-13]随机对照试验采用随机数字表进行随机分配,交代了分配方案隐藏方法,4篇[14-15,18,21]未提及具体随机方法,4篇[16-17,19-20]半随机对照试验交代了分组的具体方法和过程,整体研究质量中等。方法学质量评价结果详见表2。

(4)每个人都知道他会保持沉默,因为另一个人会这么做,他会招认,因为另一个人会这么做。

(5)每个人知道如果沉默是理性的,并且他保持沉默,那么收益就是(C,C),并且如果招认是理性的,而他招认了,那么收益就是(B,B)。

(6)每个人都知道(C,C)和(B,B)是唯一的收益。

(7)每个人都知道(C,C)比(B,B)好。

(8)因此,对每个人而言,保持沉默都是理性的。

前提(1)是决策论的直接原则。前提(2)—(5)是从理性的常识中推出来的,指出主体是理性的。(6)是(2)到(5)的结论,(7)是囚徒困境的结论。对称论证取决于囚徒困境显示出的强的概率联系:对理想理性主体而言,每个人和另一个人采取相同的行为的概率都是极高的(接近1)。给定这个事实,保持沉默的期望效用高于招认的期望效用。因此,对称论证通过对“参与人具有同等的理性”的假定最终会得出“都不招认”这一帕累托最优(效用最大化)方案。

3.囚徒困境的本质

由此我们得出囚徒困境出现“都不招认”情形的第一个条件:双方都是基于“对方与自己具有同等理性”信念基础上的策略博弈,也遵循“占优原则”。另外两个条件分别是“双方做出的选择是独立、自主、不受胁迫的”以及“不同的路径选择对应的收益必须存在显著差异”,与出现“都招认”结果所需的条件一致。

囚徒困境并非“局内人”与“局外人”视角间的冲突,而就是“局内人”即博弈双方在行动过程中,在合理性指导下得出的完全矛盾的结论。而这种行动的矛盾,是与信念密切相关的。甚至可以说,信念是导致合理决策行动矛盾的根源。通过对囚徒困境进行塑述,将它构造成一个严格的逻辑悖论,我们可以更为清晰地看到这一点。

三、囚徒困境的逻辑重构

一个真正严格的逻辑悖论,必须要满足三个条件——“公认正确的背景知识”、“经过严密无误的逻辑推导”、“建立矛盾等价式”。这个定义曾经引起了很多争论[注]张建军:《再论“广义逻辑悖论”的基本构成要素》,《南国学术》2018年第1期。,但从对囚徒困境的分析来看,这个公认正确的背景知识,实际上表达了一种对称信念的诉求。而这样的对称信念,在决策行动悖论的建构中是极其关键的一环。

令Jip表示:参与人i(i是指两个囚徒,分别命名为囚徒A、囚徒B)对命题p的信念。令K表示主观命题:由于囚徒间的理性程度是相近的,因此行为选择也基本相同。只有K命题为真,囚徒A、B才只会在(招认,招认)和(不招认,不招认)的收益间进行对比,从而得出都不招认才是更优的选择,从而囚徒困境才真正成为一个“两难”选择困境。

当囚徒A相信K,并且选择了“不招认”行为时,B如何选择,不仅取决于B是否相信K,还取决于他对囚徒A的信念。假如B不相信K(﹁JbK),或者B不认为A相信K(﹁JbJaK),他就无法确定A只在(不招认,不招认)与(招认,招认)间进行收益对比;作为理性的囚徒B就会根据对方可能采取的不同“行动”来进行“竖向”收益对比,而最终选择“招认”(与A行为相反)。因此,如果B不相信K,或者B不认为A相信K,K为假,即﹁JbK∨﹁JbJaK→﹁K。相反,如果B认为A相信K(JbJaK),并且他本人也坚信K(JbK),那么他就会与A一样,只在(不招认,不招认)与(招认,招认)间进行收益对比,最终共同选择“不招认”。因此,如果B相信K,并且B也认为A相信K,则K为真,即JbK∧JbJaK→K。由此,我们可以得到等值条件命题:JbK∧JbJaKK。同理,当囚徒B相信K,并且选择了“不招认”行为时,要使K成立,不仅A要相信K,同时A也要相信B相信K。我们同样可以得到等值条件命题:JaK∧JaJbKK。由此,我们通过引入K命题,从博弈双方关于对方信念假设的角度将对囚徒困境的分析转化成了一个真正的狭义逻辑悖论,这也为囚徒困境的逻辑消解提供了可能。

四、囚徒困境的消解:情境敏感解悖方案

我们可以参考孔斯关于“连锁店悖论”的“情境敏感方案”来构建囚徒困境的信念殊型网络,将“有限情境”引入到解决方案中[注]Robert C.Koons,Paradoxes of Belief and Strategic Rationality,Cambridge:Cambridge University Press,1992,p.131.。

(图3)

在上述囚徒困境的消解中,我们遵循了孔斯的“情境”进路:即信念殊型的内容不仅取决于主体思维中的其他殊型,还取决于主体实际所处的环境;而这一环境很有可能是悖论性的,这也正是悖论可能产生的真正原因所在。但是主体本身实际上无法了解自己所处的环境,或者对自己所处的环境有误解,也就是存在信念“盲点”。

五、结语

囚徒困境问题涉及的领域广泛,吸引了中外学者的眼光,对它的讨论一直没有停止过,其影响和意义可见一斑。

首先,本文研究也为纽科姆难题及决策行为逻辑研究提供了新的方向。囚徒困境与连锁店悖论以及纽科姆难题,共同构成了合理行动悖论群落。这个群落中的所有难题困境的形成,都具有家族相似性。因而囚徒困境问题的解决,将启发我们对其他问题的进一步思考。尤其是纽科姆难题,它们都是根据决策理论的“效用最大化”和“占优原则”,推出了完全相反的两个行动选择,从而使得无法确定什么才是最终合理的行动。二者的区别主要在于:囚徒困境是建立在双方具有同等理性和智力水平基础上的博弈,而纽科姆难题则是理性程度、智力水平极不平等的主体间的博弈(一方是理性人,另一方是洞悉一切的超级生物)。

其次,在哲学层面上,囚徒困境问题看似是行动的矛盾,其实是与合理信念密切相关的。没有“公认正确的背景知识”这一信念要素的介入,我们将无法建构这个悖论。由此可见,在哲学层面上对语用悖论,至少是对合理行动悖论而言,这个定义要素至关重要。

再次,囚徒困境的解决,同时具有社会学意义,它启发了逻辑学交叉研究的新方向。将逻辑学的最新研究成果应用于对社会问题的分析与重构,可以帮助我们揭示社会问题的本质与根源,从而帮助我们转变思想,不在“理性经济人”假定上转圈圈,转而在制度或者规则条例的制定层面上有意识地避免悖论的形成。可以期待的是,随着现代逻辑学和哲学研究成果的越来越丰富,原来散布在政治学、经济学、社会学、伦理学等各个领域的困境将迎来新的曙光。

猜你喜欢
囚徒悖论象限
勘 误
视神经炎的悖论
复数知识核心考点综合演练
海岛悖论
常数牵手象限畅游中考
“帽子悖论”
机智的囚徒
平面直角坐标系典例分析
囚徒
被释放的囚徒