决策的机制：元决策与自我控制

2021-06-30 12:27刘童玮高奇扬

绍兴文理学院学报(教育版) 2021年1期

张引刘童玮高奇扬

(1.绍兴文理学院大脑、心智与教育研究中心，浙江绍兴 312000;2.绍兴文理学院教师教育学院，浙江绍兴 312000)

一、元决策及决策类型

简单的决策问题仅涉及资源如何分配。一些复杂的问题，例如，需要在不同领域间进行决策的问题，需要跨领域的深度思考，深度思考的代价是失去了分配资源到其他认知过程的机会成本。那么，个体如何决定是否进行深度思考，这一问题需要更高层次的理性判断。冲突与自我控制的现象就可以理解为是一种更高层次的判断，这种理性判断是基于过度思考的资源代价与其带来的更好结果之间的平衡。该过程被认为是元决策，即，元决策是关于如何决策的决策[1]。

元决策的一个核心问题是其选择机制，要理解元决策的选择机制，必须先理解简单决策的发生过程。个体做决策的过程涉及众多方面，即使是简单决策也会受到多种额外变量的影响，例如,情绪作用、疲劳、习得性无助、冲突、条件反射、习惯与自动化加工等等。这些都在不同的方向上影响着个体的决策过程[2-3]。例如，在一个实验室情境中，老鼠通过按压杠杆获取一些食物，如果动物经过过度训练，按压杠杆会绕过与食物的关联，成为一种与情境直接相关的自动反应；这是一种习惯性的决策，或者说，这是老鼠基于元决策选择了习惯性的模式。与习惯化决策相对应的决策过程是目标导向性决策，目标导向性决策是根据结果来选择行动。例如，导航到某一地点，个体需要根据目的地选择左转或者右转。这种决策过程比习惯性决策的选择更灵活，但需要经过多个步骤的斟酌[4-5]。

习惯化决策与目标导向性决策具有不同的资源分配方式，习惯化决策偏向节约资源型分配，它几乎不受资源容量的限制，属于自动化加工，简单信息更容易激活习惯化决策[6]；目标导向性决策偏向集中资源型分配，包括调配资源、评估和比较材料特性。该决策方式受资源限制较大，对材料特征不敏感。相对于节约资源型分配而言，集中资源型分配需要中央执行系统分配较多资源进行比对与整合，理论上需要更多的决策时间，但也有例外的情况，例如，个体需要持续地在冰水中抓住某个物体或者持续从事繁重的工作，这种“意外”情况通常需要分配大量认知资源，但决策速度很快[7]。事实上，个体在决策过程中受到习惯化决策与目标导向性决策的权衡作用，这种权衡是在自我控制与默认响应之间做选择。

两种决策的权衡可以从一定程度上解释“自我损耗”(ego depletion)的现象[8]。自我损耗是指个体由于执行先前意志活动而造成执行后续意志活动的能力和意愿暂时下降的现象[9]。研究证实，自我损耗会抑制个体的目标导向性决策，使个体在决策时更加依赖习惯化决策，从而无法理性地评估决策中的风险与收益，导致冲动决策的产生[10]。

综上所述，真正的最优解不仅是在少数选择中做决定，同时，需要将内部活动的收益与成本纳入考虑因素，使之成为真正最优化的决策，这就是元决策[1，11]。或者说大脑中拥有两个决策控制器，元优化的过程就是选择更好的控制器并为其分配资源，随后根据该控制器的偏好选择最终结果[12]。

二、自我控制

日常生活中我们经常被控制力不足所困扰。例如，拖延、难以抗拒不健康的食物、无法达成计划目标，这是为什么？一些理论认为，个体的决策遵从长期获得回报最优化的原则。但如果我们能够遵从最优化的选择，为什么还会缺乏自控力？

实验室里对自我控制的实验操作是让被试将手放入冰水中，记录忍耐时长。被试一方面需要确保得到报酬，一方面需要去不断抑制抽出手来逃避有害感觉的冲动[13]。该任务能够成立的前提条件是个体的反应并不遵循简化原则。简化原则是一种自动化的反应，例如，迅速将手从冰水中移开。但比简化选择过程更高一层的决策会做出更适合当下情境的反应，例如，不把手移开，以便最终得到报酬。正是由于存在着高层决策加工，个体才会产生冲突和自我控制。

(一)自我控制理论

早期理论认为，自我控制就是为了获得未来更具有价值的选择而放弃当下较小却能立刻获得的收益，强调了自我控制是个体面对诱惑时，放弃当下较小的奖励而获取长远的、更高价值的收获[14]。随后，有研究者发现自我控制存在评估与控制两个不同的阶段，在面对外部诱惑时个体首先需要评估当下的诱惑与追求的目标是否存在矛盾。如果个体认为两者之间不存在矛盾，那么，这种诱惑与长远目标的自我控制无关(个体将会沉迷其中)。反之，则进入控制阶段，个体在此阶段需要抑制诱惑，完成自我控制。自我控制的两个阶段涉及不同的脑区，评估阶段与腹侧纹状体、内侧前额叶皮质、后扣带回等脑区的活动有关;而控制阶段则主要涉及背外侧前额叶和额下回[15]。另外，自我控制受到资源分配的限制，个体认知资源有限，一段时间内能进行的自我控制数量有限、自我控制的结果与资源的多少相关、自我控制过程是消耗认知资源的过程，消耗之后需要一段时间才能恢复。资源通过休息[16]、观点采择[17]、唤醒积极情绪[18]或特殊训练[19]等方法可以恢复。

(二)自我控制的增益与代价

当面对不确定性时，任何能够进行统计计算的生物都会获得适应性优势。个体的决策过程需要在不同的选择之间进行计算，衡量每一个选项的期望值。这一过程可能很困难(例如，面对危险时是选择战斗还是逃跑)，也可能很容易(例如，进入咖啡店选择哪一款饮料)。在许多情况下，对一个选择其置信度的准确估计可以为生物行为带来益处，例如，通过抑制适应不良的恐惧[20]或不适当的优势反应[21]，可以更准确地估计结果价值使其做出的选择更有价值[22]，或者通过牢记背景信息，使反应更快、更准确[23]。

大量研究已证实，自我控制对个体行为、情感及思想有着积极的影响。高自我控制的个体往往能够更好地控制思想、调整情绪以及遏制冲动行为。例如，高自我控制的个体往往有更好的心理幸福感、学术成就及人际关系等，而低自我控制的个体更容易肥胖、毒品成瘾、犯罪、冲动性购买以及拖延等[24]。然而，也有学者对自我控制提出了挑战。例如，有研究者认为，高自我控制的个体导致自我强迫，可能会沉迷于自我控制，缺乏对自控力的控制。此外，长时间的自我控制会消耗个体资源，从而导致个体压力上升或出现自我损耗，而资源损耗将进一步降低随后的自我控制能力，使其届时不能表现出正常的自我控制水平[20-21]。

自我损耗是自我控制的代价之一。学者对自我损耗同样做了一种描述性的界定：“个体在采取一些需要投入资源的决策后，个体进行自我控制的能力会被耗竭，这种自我控制能力耗竭的状态即自我损耗”[8]。个体大部分的决策过程是基于习惯化的决策偏向，但如果任务复杂，个体会采用付出更多意志力及认知资源的系统进行思考，付出的意志力也是决策过程的重要成本。如果付出的意志力过高，可能会产生自我损耗，透支接下来的任务可利用的认知资源[9]，从而降低认知加工成绩[25-26]，最终导致自我控制失败(self-control failure)。因此，从整体上看，付出更多认知资源自我控制的响应并不一定比默认响应带来更好的决策结果。

自我损耗对后续任务的影响不是固定的，而是受到个体差异及多种因素的调节作用。例如，行动导向的个体能够继续分配资源来完成任务，而状态导向的个体则倾向停止努力以保存资源[27]。这也与资源消耗程度相关，个体在实施利他行为的过程中，低损耗状态下，无论行动导向和状态导向的个体都能做出更多的利他行为。高损耗状态下，行动导向的个体依然能坚持利他行为，而状态导向的个体难以坚持利他行为。另外有研究发现，启动亲密关系能够减缓自我损耗产生的影响。由于人们进行自我控制的过程实际上是为了达成更有价值的目标，例如，亲密关系、归属感、成就感等。自我控制失败的结果与亲密关系失败相关，例如社会排斥等。启动亲密关系能够促进自我控制，也就是减轻自我损耗的负面影响。也就是说，当个体发生自我损耗之后，联想亲密的人，父母、朋友、伴侣等能够帮助减少自我损耗带来的影响[18]。

三、机会成本与平均奖赏

机会成本是指在两个或多个选择中选择时所损失的价值。正如古老的经济学格言所说，所有的代价最终都会被算作机会成本(opportunity cost)。例如，一个儿童有2美元可以购买一个冰淇淋甜筒，不同口味甜筒的价格都是2美元，但购买一个甜筒必然意味着放弃另一个，因此，儿童不仅要考虑可能购买的东西，还要考虑可能不购买的东西。计算机会成本在计算上是很困难的，特别是当选择空间很大的时候。假如，儿童不仅要考虑甜筒，还要考虑其他美食，情况将会更为复杂。

机会成本的计算通常取决于比较不同的资源分配可能产生的价值。如果这部分资源分配在其他方面可以获得更大的价值，那么这部分资源成本较高，如果不能在其他方面获得更大价值，则成本较低。例如，在实验过程中的6个试次，基于自我控制进行决策(大方块)的完成值较高，但需要比基于习惯化进行的决策(小方块)所用时间更长，对决策者而言，问题是选择哪一组方块，要回答这个问题，我们还必须知道时间的机会成本。在该例子中时间的机会成本是当前试次完成后的剩余时间(其他)。在低机会成本情况下，控制所获得的附加值比当前平均奖励更多，因此，控制是有利的，尽管需要额外的时间。在高机会成本情况下，其他行动所获得的附加值更多，因此,应优先考虑习惯性决策(6项行动完成得更快)[1],见图1。

图1 迫选任务中习惯性响应与控制性响应的机会成本

机会成本的重要性已经被大量研究所证实，如觅食[28]、操作性条件反射[29]、时间折现[30-31]、和认知努力[2]等等。在“觅食”情况下，失去机会的原则是物质的：一个人不能同时吃两棵树上的东西。但值得注意的是，一次只能由一个进程使用的认知资源会带来与控制资源类似的资源分配问题，如，注意力或工作记忆的资源分配。要想解决这个问题，可以通过平均报酬率来简化计算。平均报酬率是对时间的机会成本的估计[29]。如果一项行动的价值大于平均报酬率，那么，这个行动就“值得”采取。反之，回报率低于平均水平的行动就不值得花费时间。

四、未来研究展望

综上所述，决策发生的机制与元决策和自我控制相关。然而，仍然有一些问题值得探讨。第一，为什么在自我控制实验过程中，个体感知到的成本或收益会发生变化，最终导致疲劳、习得性无助或自我损耗效应，这三者效应之间是否具有共同的机制？第二，自我控制会受响应个体差异的影响吗？性别、社会文化、种族、人格特质等因素是否会对自我控制产生影响。决策者如果是多人之间具有竞争关系，为何会产生预期报酬差异[32]？多人决策与独立决策的报酬预期差异不一致的原因需进一步探讨。第三，是否存在无意识的自我控制行为呢？有研究者指出两阶段模型中自我控制矛盾识别和解决阶段的加工没有必要是有意识的过程，也可能包括无意识加工，但是，他们并没有进一步验证和说明这种无意识加工是怎样运行和起作用的。可见，拓展自我控制无意识领域的研究是未来一个研究方向。这样不仅拓宽了自我控制的研究范畴，更是拓展并深化了自我控制的涵义。