动态决策问题研究及其应用现状的评述

2009-06-17 06:48李俊岭刘庆顺

社会科学论坛 2009年10期

李俊岭　刘庆顺

［内容摘要］根据动态决策问题的研究方法及类型，本文对解决动态决策问题的最优解策略和启发式策略进行了分析与评述，而且进一步梳理了多属性动态决策问题、决策目标变化的动态决策问题以及动态决策问题的应用现状。研究结果显示，当前对于动态决策的探索越来越关注决策者的启发式策略、而非最优解策略，越来越强调选择策略的满意性和适应性原则、而非最优性与规范性原则。

［关键词］动态决策；最优解策略；启发式策略；研究评述。

［作者简介］李俊岭，河北工业大学博士研究生，主要从事决策科学理论与应用研究。

刘庆顺，河北经贸大学公共管理学院副教授，主要从事管理决策研究。

一、动态决策及其问题描述

现实生活中，许多关于决策任务的信息并非一次性全部出现，而是随着时间的推移依次到来。比如股票投资决策，股价是随着时间的推移而序次出现，每次出现一个价格之后你就要决定是否出售或买进。每次进行决策时，出于决策收益最大化原则你很想知道后面还会有哪些价位会出现。因此，你会采取一种边观察边等待最优价格出现的策略，在这个过程中需要你“决定”何时停止观察股价、何时进行出售或买进。一般来说，这种备选项序次出现的情境被称为动态决策，而将备选项全部一次性出现的情境称为静态决策①。

实际上，静态决策现象从严格意义上来说不是一个“决策”问题。这是因为，决策问题涉及到判断与选择两个方面，而静态决策只是一个“选择”问题，不需要人们较多的认知努力以及较强的信息加工能力。因此，现实生活中的静态决策问题非常少，人们通常遇到的大多是动态决策情境。对于有些序贯决策问题，由于在时间上有先后之别的多阶段决策组成，也称为动态决策。各阶段采取的决策一般是与时间或空间有关，决策既依赖于当前的状态又引起当前状态的变化，前一阶段的决策方案直接影响到后一阶段决策方案的选择。

已有关于动态决策的研究成果，从其研究方法的角度可以分为规范性研究与描述性研究两大类。其中，规范性研究主要是运用理论求解的方法寻求最优决策，其研究成果主要是论证了动态决策的最优停止时间以及最优决策的收益，这方面的研究主要集中在应用数学、统计学、运筹学等领域。而描述性研究主要是运用实证研究的方法，探讨决策者在动态过程中的行为特征与规律，这方面的研究主要集中在心理学、经济学、管理学等领域。本文将主要基于动态决策的研究方法视角，对相关的研究文献进行梳理与分析，研究的重点集中于当前国内外关于动态决策的最优解策略研究以及满意解策略的研究。同时，本文也将探讨国内外关于多属性动态决策以及动态决策应用的最新研究动态。

二、动态决策问题的最优解策略研究

早在20世纪60年代，Lindley②就论证了解决动态决策问题的一种最优解策略。该策略的基本步骤是首先确定一个动态搜索截止点，然后拒绝截止点前面所有已经观察过的选项，而接受此后出现的第一个优于前面所有选项的那个选项。通过理论推导与计算，该截止阀值为r*－1（r*是迄今为止已经观察过的选项数量），而且当n→∞时r*＝1/e×n。而且如此选择，能够保证决策者选中最优选项的概率最大，这个概率接近1/e≈37％。

显而易见，最优解策略的决策目标就是寻求最优，而且它也准确刻画出如何达到最优的选择方法。不过，阀值的确定则需要决策者具有较强的计算能力与较多的认知努力。而这些能力，在决策时间比较短、决策情形比较急迫的情境下对于决策者来说则提出了很高的要求，有时候甚至是不可能的。比如救火现场的消防指挥官，他不可能有能力、有时间进行充分的计算，然后才决定采取何种救火措施。

因此，后来的许多研究者发现（如Stewart③），上述关于动态决策问题的假设条件相比较现实决策情境来说过于严格。比如：公司招聘往往是存在若干个招聘岗位，而且应聘者经常会反悔（即违约）。尤其是，由于人们很明白最求最优选择的目标很难达到，因此往往放弃最优选择的决策目标，而进行满意选择。那么，在这种情况下许多研究者通过松弛动态决策问题的假设条件，进一步改进与调整了Lindley的最优截止阀策略。

比如决策目标的变化。在招聘秘书或选择结婚对象等情境的决策问题中，决策目标是选择其中最优秀的一个。然而，这个决策目标是动态决策情境中前提条件最为严格的一个。这是因为，现实中的决策者通常很难命中其中的最优秀者。因此，后来的许多研究对决策目标进行了一定程度上的松弛。

Gilbert和Mosteller④研究了决策者的目标是选择k个最好选项之中的一个（k＞1，而且这k个选项之间没有报酬上的差异）。Kawaim和Tamaki⑤则具体探讨了决策者只要选中n个选项中的最优或次优就为“赢”的情境，其中n为一个随机变量且决策者知道其分布函数（即n服从［1，m］之间的正态分布）。决策者的收益为a、b与0（a＞b＞0），这分别对应于决策者命中最优、选择次优以及选择其它选项的情况。

很明显，决策目标的变化导致搜索行为也会发生相应的变化，尤其是截止阀值会进行较大的调整。比如，Mucci⑥探讨的决策者收益为被选择项的绝对排序值的情境，其报酬函数可以表达为决策目标是最小化被选择项的绝对排序值。Mucci研究发现，其最优解策略也是一个截止阀值的形式。具体来说，决策者应该拒绝前t*1－1个选项（其中，t*＝t*1……t*n），然后在t*1与t*2－1之间选择相对排序值为1的选项；以及在t*2与t*3－1之间之间选择相对排序值为1或2的选项。国内学者金治明⑦研究了两个标准下的动态决策情境，即决策目标为录用到最好应聘者的概率最大，以及录用到应聘者绝对名次的平均值最小。

三、动态决策研究的最新进展

早期的动态决策研究，探讨的焦点是决策者应该如何选择才能达到最优目标。而最近的动态决策研究，主要基于行为决策理论探讨决策者是否遵循最优解策略进行选择。另外，还有一些研究通过模拟现实决策情境，探讨了一种变形的动态决策决策模型，比如多属性动态决策问题。

1．基于启发式策略的研究。动态决策的启发式策略研究，侧重于决策者的搜索行为与选择行为的描述。研究方法主要为实证研究，尤其是运用实验室实验与计算机仿真实验的研究方法，这些研究探讨的焦点主要为决策者究竟是否遵循最优解策略进行选择。

Seale和Rapoport⑧运用计算机仿真与实验室实验的方法，首先探讨了符合六个基本假设条件下的动态决策情境。他们识别并验证了三个启发式策略，即截止阀法则、数候补者法则（candidate count）以及数连续非候补者法则（successive non-candidate）。在这里，候补者就是指在一定时段的取样观察选项中，从优到劣排名为第一的选项。因此，在某一足够长的时段内可能有若干个候补者，这包括当前或者曾经相对排名为第一的选项。

截止阀法则是指决策者拒绝前面的r－1个选项（r是迄今为止已经观察过的选项数量），然后选择从此以后出现的、第一个相对排序值最高（所有已观察选项中）的选项。实际上，这个法则包括Lindley的最优解策略，即把最优解策略作为r＝r*时的一个特例。而数候补者法则，是指决策者选择第j个候选者（1≤j＜n）。数连续非候补者法则，是指决策者选择在遇到一个候补者之后、紧接着连续k个非候补者之后的第一个候补者。

最近，Zwick等人⑨研究了已观察选项的序次出现特征，对当前出现的候补者进行选择的倾向以及对决策者可以后悔的影响。他们基于决策者的行为心理理论认为，这正是最优解策略“忽视”的重要部分。研究结果发现，观察选项的序次特征对决策行为有一定的影响。具体来说，取样观察选项中候补者出现的平均密度，与决策者当前遇到候补者进行选择的概率呈负相关关系。而自从遇到最近一个候补者以来的时间越长，则与决策者当前遇到候补者进行选择的概率呈正相关关系。

2．多属性动态决策研究。在现实决策情境中，序贯观察的选项属性有单属性与多属性之分，前面讨论的主要是决策者序贯观察选项的单一属性。但在现实生活中，该类决策问题情境大多都为多属性决策。比如寻找工作的情境，一个工作职位可能要包括薪水、工作强度、工作时间、地域环境等多种属性。而关于多属性动态决策的研究，既有其最优解策略模型的探讨，也有实证方面的研究。很明显，对于该类决策情境探索与研究的主要目的，都将使得解决问题的方法更加接近现实中人们的真实决策行为。

Gnedin⑩探讨的多属性动态决策情境是指，决策目标为选择至少一个属性为最优的选项。研究发现，解决该问题的最优解策略是由两个阀值组成的。即拒绝前g*－1个选项，然后在g*与h*－1个选项中间选择属性的相对排序值都为1的选项；从h*与n之间选择至少一个属性的相对排序值为1的选项（g*≤h*）。而且如此选择，当n趋于无穷大的时候，截止阀值与赢的概率都集中于50％。Ferguson{11}则研究了选项属性间为相互依赖的情境，研究结果也发现其最优解策略具有单属性动态决策同样的截止阀值形式。

最近，Bearden等人{12}提出了一个计算最优解策略的程序，然后通过两个激励相容报酬的实验去验证多属性动态决策的最优搜索模型。研究结果发现，相对于最优解搜索策略，被试停止搜索的太早，原因是由于决策者有一种在中间（相对而言）质量的选项上存在过早停止的倾向。Lim等人{13}研究了多属性动态决策的另一种情境，即每次出现的选项都是多属性的，但是决策者不知道这些属性。具体来说，每次出现一个选项，决策者可以打算选择它，但是要付出一定的成本去购买这个选项的属性值；若“学习”完这个选项的属性之后决定不选择它，则继续观察下一个选项。若决策者不“学习”每个选项的属性值，则可以直接选择之。

四、动态决策问题的应用研究

现实生活中，动态决策问题的应用情境十分广泛，比如最低价产品搜索问题、工作职位搜索问题，最佳投资时机搜索以及商机搜索等问题。下面，本文将评述动态决策问题在这些情境下的应用现状研究。

1．如何选择性价比最高的产品。一般来说，关于信息理论搜索的探讨大多都是沿着传统经济学的模型进行研究的。其中，最主要的搜索原则就是只要下一次搜索的边际期望收益，大于其边际期望成本决策者就继续搜索；否则，决策者将理性的停止搜索。

Jacoby等人{14}发现当被试不停获得新信息的时候，减少主观不确定性模式是一个下降的函数。换句话说，当获得新信息时，主观不确定性以一个上升的速度减少，产生了收敛的形状。而Meyer{15}提出的选项被序贯排除的模型认为，一个选项只要其效用与所有其他选项的最大化效用之间的差异，小于某些临界效用差异Vt；那么，这个选项就保留在考虑集里。

实际上，对于Stigler{16}的规范性搜索模型来说，前提假设条件就是决策者为风险中性的。而且，该模型意味着在搜索过程中直到出现一个大于保留价的价格，决策者才会停止搜索进而选择。尤其是，这个保留价不会随着时间的推移而发生变化。当然，这样的搜索策略肯定也不会发生召回（recall）现象。因此可以说，该决策模型与动态决策的最优解策略大同小异。Sonnemans{17}基于消费者知道价格分布、搜索成本恒定、搜索数量无限以及可以召回的决策情境，进行了实验室实验研究。结果发现，被试关注更多的是搜索的总收益，而非边际回报。同时也发现，被试搜索的太少，而且认为风险规避也不能完全解释少于最优的搜索数量。

2．如何搜寻最理想的工作职位。Stigler 关于一般商品的信息搜索研究，并没有述及劳动力市场上的工作搜索问题。Phelps{18}认为在信息不充分条件下，工作搜索者通过搜索活动来逐渐了解工资分布，通过比较工作搜索的边际成本和可能获得的边际收益来决定是否继续搜索。Birger{19}的一般均衡模型将个体同时视为劳动者和消费者，企业标明工资和价格，个体进行需要花费时间但却无成本的搜索。Birger在关注个体和当前伙伴交易的同时，还注意到了其所花费的搜索时间，认为不存在对称稳态均衡但存在非对称稳态均衡。

劳动力市场的均衡搜索模型认为，明码标价博弈中惟一均衡解的特点是，作为连续统一体的雇主选择永久性的工资出价，而作为连续统一体的工人从出价集中以随机、序贯抽样方式进行搜索。而个体出价信息不完全时，假定工人无论是否失业都将持续进行工作搜索，则工资分布的离差是工作搜索造成的显著结果。在不知道用人单位工资分布的情况下，求职者寻找工作的过程可以看作是一个最优搜索问题，即如何在资源有限的情况下找到工资最高的工作。研究显示，一些工资较低的公司可能比工资较高的公司更容易被求职者所选择。

Saks等人{20}的工作搜索行为变化“学习模型”则认为，求职者随时间变化可能会“习得”某些搜索活动比另外一些更有用，并且可能根据他们习得的经验改变他们原来从事的搜索活动。“计划行为理论”模型认为，个体的工作搜索意向是工作搜索行为的直接决定因素，这包括广泛的工作搜索动机因素。Crossley{21}的工作搜索行为变化“情绪模型”认为，与工作搜索相关的压力以及沮丧可能导致搜索者增加、减少或者调整他们的工作搜索行为，而不考虑这些活动自身的有效性。

3．动态决策理论在其他领域的应用。最初的动态决策理论主要应用于军事领域，现在已广泛应用于非军事领域的实践和研究，如犯罪学、侦察学、医学普查、矿藏勘探、农林业、畜牧水产业、环境保护、工业自动化、市场调查、人力资源管理以及计算机应用技术等许多领域。比如股票操作中的选时，即决定何时买进与何时卖出的问题。在股票连续上涨n次之后，投资者是立刻交割还是继续等待下去，以期获得更大利益？研究显示，如果在n时刻交割为最优，等待到n+1时刻股票又涨了，此时交割也为最优策略。

Chun和Sumichrast{22}基于最优搜索理论研究了百货商店市场份额估计问题，即针对一家特定的商店确定其所占有的市场份额。研究结果显示，消费者按商店规模大小进行搜索是最优的策略。后来，他们还探讨了基于选项相对排序值情境的序贯指派问题，即决策者如何指派随机序贯到来的j个工作（jobs）匹配到m台机器（machines），目的是最大化期望总收益。Tse{23}研究了消费者在各商店中搜索商品的行为对新产品的开发、传播和扩散的影响，研究结果表明，低搜索成本可以促进公司进行技术创新和新产品开发。

Crémer等人{24}研究了最优搜索理论在拍卖行为中的应用问题。假设在拍卖某件物品时，拍卖方要把有关拍卖物品的信息通知竞价者（或潜在购买者）。通知每个竞价者都有一定的成本（称之为搜索成本），这里的问题是应该通知哪些竞价者，以及如何确定通知他们的先后顺序，目的是使物品卖出最好的价钱而且使搜索成本为最低。

产品市场介入时机选择是商机挖掘研究中的一个重要课题，因此以商业机会长期存在或商机何时会消失完全已知为前提条件，研究产品的边际利润、机会成本、产品的更新换代速度以及竞争者势力等因素，对产品性能完善程度和市场介入时间的影响具有重要意义。而吴国华等人{25}研究了决策者面对一个重要的商业机会，在掌握不完全信息的情况下应该如何做出理性的决策，才能使企业的期望获利最大或期望损失最小的问题。

（本文系河北省哲学社会科学规划2008年度研究项目“基于河北省突发公共事件的应急动态决策机制和行为研究”的阶段性研究成果。项目编号：HB08BSH002）

注释：

①Payne JW， Bettman JR， Johnson EJ. The adaptive decision maker［M］. Cambridge: Cambridge University Press， 1993.

②Lindley DV. Dynamic programming and decision theory［J］. Applied Statistics， 1961， 10:pp 39-51.

③Stewart TJ. The secretary problem with an unknown number of options［J］. Operations Research，1981，29：pp130-145.

④Gilbert J， Mosteller F. Recognizing the maximum of a sequence［J］. Journal of the American Statistical Association， 1966， 61:pp 35-73.

⑤Kawaim M， Tamaki M. Choosing Either the Best or the Second Best When the Number of applicants Is Random［J］. Computers and Mathematics with Applications， 2003， 46: pp1065-1071.

⑥Mucci AG. On a class of secretary problems［J］. The Annals of Probability， 1973， 1:pp 417-427.

⑦金治明：《最优停止理论及其应用》第5-7 页，［长沙］国防科技大学出版社1996年版。

⑧Seale DA， Rapoport A. Sequential Decision Making with Relative Ranks: An Experimental Investigation of the “Secretary Problem”［J］. Organizational Behavior and Human Decision Processes， 1997， 69（3）: pp221-236.

⑨Zwick R， Rapoport A， Lo AKC， et al.. Consumer Sequential Search: Not Enough or Too Much?［J］. Marketing Science， 2003， 22（4）: pp503-519.

⑩Gnedin AV. A multicriteria problem of optimal stopping problem of a selection process［J］. Automation and Remote Control， 1981， 42（69）: pp221-236.

{11}Ferguson TS. Best-choice problems with dependent criteria ［J］. Contemporary Mathematics，1992，125，pp 135-151.

{12}Bearden JN， Connolly T. Multi-attribute sequential search［J］. Organizational Behavior and Human Decision Processes， 2007， 103（1）: pp147-158.

{13}Lim C， Bearden JN， Smith JC. Sequential Search with Multiattribute Options［J］. Decision Analysis，2006，3（1）：pp 3-15.

{14}Jacoby J， Jaccard JJ， Currim I， et al.. Tracing the impact of item-by-item information accesssing on uncertainty reduction［J］. Journal of Consumer Research， 1994， 21（9）: pp291-303.

{15}Meyer RJ. A descriptive model of consumer information search behavior［J］. Marketing Science， 1982， 1:pp 93-121.

{16}Stigler GL. The Economics of Information［J］. Journal of Political Economy， 1961， 69: pp213-225.

{17}Sonnemans J. Strategies of search［J］. Journal of Economic Behavior & Organization， 1998， 35:pp 309-332.

{18}Phelps ES. The new microeconomics in inflation and employment theory［J］. American Economic Review， 1970， 59（2）: pp147-160.

{19}Birger W. General equilibrium with real time search in labor and product markets［J］. Journal of Political Economy， 1988， 9（4）:pp 821-830.

{20}Saks AM， Ashforth BE. Change in Job Search Behaviors and Employment Outcomes［J］. Journal of Vocational Behavior， 2000， 56:pp 277-287.

{21}Crossley CD， Highhouse S. Relation of job search and choice process with subsequent satisfaction［J］. Journal of Economic Psychology， 2005， 26（2）: pp255-268.

{22}Chun YH， Sumichrast RT. Estimating the market shares of stores based on the shoppers search and purchase behavior［J］. European Journal of Operational Research， 2005， 166（2）: pp576-592.

{23}Tse CY. New product introduction with costly search［J］. Journal of Economic Dynamics and Control， 2006， 30（12）: pp2775-2792.

{24}Crémer J， Spiegel Y， Zheng CZ. Optimal search auctions［J］. Journal of Economic Theory， 2007， 134（1）: pp226-248.

{25}吴国华,、潘德惠：“基于不完全信息的商机挖掘的最优停止模型”，载《系统工程学报》2005年第1期。