基于信念学习模型的虚拟博弈实验研究

2017-03-31 01:45何婧

经济师 2016年9期

摘要：信念学习模型是博弈论的一个前沿热点问题，当前研究多数处于初始阶段，国内鲜少有实验验证该模型。文章将教学问答环节进行博弈化设计，对虚拟博弈信念学习模型进行验证，实验数据分析显示：模型收敛于均衡策略。实验证明了信念学习模型的有效性，并对今后构建该类模型提出有益的建议。

关键词：信念学习实验经济学虚拟博弈

中图分类号：F240 文献标识码：A

文章编号：1004-4914（2016）09-247-03

一、引言

随着博弈论在各门学科中的广泛使用，个体行为选择在学习中的作用也不断被学者们研究。North（1996）将心理学中个体的认知系统引入到经济模型中，有效解释了决策中信念及偏好的关系，并将两者融合为理性决策的基础，由此得出结论：信念是个人行为的准则，它是影响个人行为选择的重要因素。他人的认知、行动和信念是构建有用模型的先决条件。

随着重复博弈研究的不断加深，经济学家逐步重视学习信念行为，用以解释当重复整个博弈时行为往往变得更为理性的原因。随着实验经济学家对个体在重复博弈中的学习过程进行研究，信念的形成归纳为：自身学习以及外界互动。自身学习指自身经历不断强化使某种行为发生的概率上升，外界互动指通过观察别人行为的收益情况进而指导自身行为决策。在此基础上，Colin F.Camerer（2003）将信念学习模型定义为：“假设参与者根据过去的事件来更新他们认为别人会如何行动的信念，从而根据这些信念来决定哪种策略是最优的。”信念学习模型大致分为三类：信念学习模型，强化学习模型，经历-加权吸引模型（章平，2006）。

信念学习模型以Fundenberg and Levine（1998）和Cheung and Friedman（1997）的虚拟博弈模型为代表，该理论的基础是：参与人通过观察其他参与人在过去各期内采取的行动概率，由此做出自身预期收益最大化概率的行为。信念学习模型强调参与者始终牢记其他参与者以前的所有行动，并且还要求参与者对每一期对手过去的行动赋予相等的权重，以此来决定自己本轮的行为策略。该模型的观测经历主要来源于其他参与人过去的经历，即外界互动。强化学习模型以Bush-Mosteller Modle（1997）为代表，该理论基础是：心理学认为一旦一种行动得到了奖赏，那么个人在未来继续做出该行动的概率上升。如果是惩罚则未来做出该行动的概率下降。强化学习模型不强调参与者形成有关其他参与者可能行动的信念，因为参与者更关注自己过往行为的奖赏和惩罚，该模型的观测经历主要来源是自身经历，即自身学习。经历-加权吸引模型以Camerer and Teck Ho（1999）的Experience-Weighted Attraction Modle为代表，将强化学习模型和信念学习模型相结合，通过将自身奖惩和观察其他参与者的支付情况赋予不同的权重，拟合为吸引力指标，参与者对吸引力越敏感采取该行动的概率越大。

综上，本文通过对教学提问环节进行博弈化设计对信念学习模型进行研究，检验在重复博弈下该模型是否有效？探讨行为博弈、信念形成及制度设计方面的相互关系。

二、理论模型

在序贯二元决策场景的重复博弈下，通常假设对手的行动集合为C（c1，c2···ci···ck），在t轮博弈之中，参与者对于其他参与者选择行动ci所赋予的信念权重不断更新为：

bt（ci）=bt-1（ci）+1 在t期对手选择行动ci，信念权重相应的增加1bt-1（ci）在t期对手选择行动ci，信念权重相应的增加1

则在t期，参与者形成的其对手选择行动ci的概率与信念权重之间的关系：

μt（ci）=

在给定其他参与者选择各种行动的概率的信念下，参与者计算出自己可供选择的每一个纯策略ai（参与者的策略空间为A）的期望支付π（ai/μt），则参与者在t+1期选择纯策略ai的概率为：

P =

同样地，参与者选择具有最大概率值的策略为自己的最优响应。

三、实验设计和实施

（一）实验设计

实验在教学提问环节进行博弈化设计的背景下，通过多次重复博弈使本次回答问题的学生在充分了解其他参与者（之前回答问题的学生）的支付、以及对手（教师）的行动基础上，来决定自己本轮的行为策略。

所谓教学提问环节的博弈化设计是指：将每次课堂提问作为一次博弈局，博弈的参与者是老师和学生，由于课堂提问内容和教学内容息息相关，两个参与者都能够充分掌握背景信息，信息对于两者来说是充分的。实验的行动是教师让学生起来回答问题，教师根据学生的回答质量，依据公开透明量化的考核标准对学生回答进行打分。该分数作为学生的支付，最终体现在期末成绩中占有一定权重。为保证博弈的公平性、有效性，实验过程采用摇号的方式随机选取同学起来回答问题。即，在课堂提问出来之后，教师和学生都不知道谁将起来回答问题。本实验中的行动次序固定为教师先提问然后随机选择学生回答问题最终依照量化标准打分的序贯博弈，并且相同的博弈局在每次课都会整体重复出现，在下一周也会重复出现。因此，学生有充分长的时间来搜寻对手的行动、其他参与者之前的行动，从而形成信念指导自己的行动。实验的信念传递过程如图1（见下页）所示。

实验的参与者是从课题组老师教授的某一门课程中选取2个班级对教学提问环节进行博弈化设计教学，实验的对比组是另外几个平行班沿用传统的教学提问设计教学。

实验的支付是学生回答问题获得相应的分数，最终体现在期末成绩中。为保证支付的公平和有效性，试题根据难度和题型的不同被赋予不同权重，例如：单选题权重为0.8，A类简答题权重为1，B類简答题权重为1.2，A类案例分析题权重为1.2，B类案例分析题权重为1.5。为保证学生对支付的敏感性，按照每次课平均10%的同学参与博弈的数量安排每周的实验次数。作为重复博弈，为保证非合作行为的发生设计了惩罚策略，促使学生采取合作策略，最终实现合谋性的均衡结果。

教师行动集为：处罚、0分、60分、80分、100分。因此，教师行动集的效用为（-1，0，1，2，3）。学生的行动集为：不回答、答非所问式回答、预期能力以下式回答、与预期能力相匹配的回答、超预期能力的回答。因此，学生行动集的效用为（-1，0，1，2，3），如表1所示。

从上述策略及收益矩阵不难看出：通过惩罚性策略，学生一般将采取回答问题的合作策略。本实验的最佳均衡是学生充分思考提问内容，在现有的评定标准下超预期能力回答问题，同时教师的教学效用也达到最大化，教学效果显著提高。

（二）实验实施

为避免学生沿用大学课程回答问题的思维惯性，课题组优先考虑大一新生为实验参与者。为更好地进行题目设置和量化考核，课题组优先考虑使用开放性知识点、专业通识性课程作为样本，最终选取会计专业第一期学期课程《财政与金融》作为实验样本。作为一项长期的行为学实验，与之前许多论文中在实验室内短时期内完成数轮虚拟博弈的计算机模拟不同，本实验实施中存在很多的不可控因素和需要剔除的影响因素。因此，本实验先后进行过两次大规模的实施。2014年9月到12月课题组甄选2014级会计专业2个教学班进行了初次实验。经过初次实验，课题组对实验设计的细节进行优化，修改了量化评分体系，对数据搜集和数据可比性进行了完善。2015年9月到12月课题组再次对2015级会计专业2个教学班进行了第二次试验。本文第四部分数据分析将主要对第二次实验的有效样本数据进行分析。

实验具体实施方案如下：任课教师于第一次课时对受验班级学生介绍如下规则：每节课将不低于6次提问（每个班级人数约60人，按照10%的概率随机抽取人数进行实验），采用摇学号的方式随机抽选同学起来回答问题。详细介绍单选、简答、案例分析三类提问的量化评分标准、分数权重。实验的前两个有效周让学生熟悉实验的流程、熟悉实验的评分规则。实验数据从第三个有效周开始提取，由于总学时12周且中途有国家法定节假日等不可控因素影响，实际提取合计7周的数据（包含1周实验熟悉周）用于分析比较，并且该7周（包含1周实验熟悉周）的数据尽可能做到了提问内容基本一致。所谓实验的有效周，是指受验的2个班级在本周都同时有课，且教学进度基本一致。本次实验获取样本数据132个，其中有效样本数据84个。

四、实验结果分析及启示

（一）实验结果分析

1.一般的信念学习模型存在并收敛。通过对实验有效样本数据进行处理，对第二部分信念学习模型的结论进行验证。从每周平均分（如图2所示）和分题型周平均分（如图3所示）来看，加权平均分和未加权平均分均呈收敛趋势，说明教学环节的博弈化设计有效并收敛，重复博弈存在纳什均衡。随着实验次数的增加，参与者对其他参与者选择行为ci的经验愈来愈丰富，自己的最优决策bt（ci）不断优化，平均分值随实验次数增加呈稳步上升趋势。说明图一所示的外界互动对参与者自身信念bt+1（ci）的信念传递过程存在，一般的信念学习模型存在并有效。

在《财政与金融》课程为期12周的教学（累积132回合的虚拟博弈），有8人在不同的教学周（不局限于有效实验周）中累积2次被随机抽取参与虚拟博弈，有1人累积3次被随机抽取参与虚拟博弈，重复参与人数占比11%。重复参与人的次间分差如图4所示，累积9人中有6人出现明显的进步，3人保持现状。说明参与者自身信念bt+1（ci）更新有效率达到67%，强化学习模型存在并有效。

2.一般的信念学习模型有效性验证。在一般的信念学习模型参与者的预期支付π（ai/μt）与实际支付的有效性验证方面，本文通过查询学生当期期末总评成绩排名预测学生的预期支付π（ai/μt）。通常情况下，期末总评成绩排名靠前的学生，其期望支付就越高。结合往年经验和课堂实际采访情况，本文将期末总评排名1～10名的同学期望支付定为85分，11～20名的同学期望支付定为80分，21～40名的同学期望支付定为70分，41～60名的同学期望支付定为60分。处理后整个实验期望差值情况如图5所示。在实验提取的7周数据中第1周为实验熟悉周，第2周起为正式实验周，在实验前2周，12位参与者中约40%左右的人支付情况与预期不一致，出现负支付情况。在其后的2周中，参与者的支付情况与预期一致的比例稳步提升，稳步提升至50%以上。从第5个实验周开始，参与者的超预期获得正支付的比例明显提升，并且正的期望差值数额不断扩大，第6和第7周时，90%以上的参与者获得正支付，且期望差较前几周扩大。说明一般的信念学习模型能有效改进参与者的决策、获得超额支付。

（二）实验结果的启示

1.信息对称及制度建设的重要性。信念是行为互动过程中完全理性决策的主体的主观概率。完全理性决策的先决条件是信息对称。在信息不充分的情况下，参与者无法做出完全理性的决策。将2014年不成熟的实验和2015年的实验对比来看：评定细节越详细、行为决策过程越明晰，参与者（老师）的决策过程信息披露越充分，后续参与者的表现越好。与2014年相比2015年的本次实验中，评定信息的公开使学生回答问题的质量明显提高，对评定细则的详细讲解以及成绩评定剖析后学生的成绩有效提高。因此，博弈决策选择的概率通常与决策过程相关，特定细节制度的设计，将有效引导决策行为，为参与者提供系统分析制度性和结构性变量的理论效用的方法。

2015年实验结束后，本课题组进行了满意度调查。学生对该实验的满意度为92%，学生认为实验有效性的占90%，认为最大收获是“学会并掌握答题思路”的占73%，对重要因素的排序分别为：评分细则讲解、先手示范、自我表达能力。因此，在一般的信念学习模型（虚拟博弈）中，完善的制度和对手在t-1期中的决策过程越明晰，局中参与人学习先手经验在t期中行为的bt（ci）权重越大，做出完全理性决策的主体的主观概率显著提高。

2.虛拟博弈信念学习模型构建的建议。信念学习模型主要来自博弈互动实验的证据。“信念学习模型”研究的是行为互动中参与者最优策略的选择问题。本实验通过教学问答环节博弈化设计模拟该模型，通过实验充分阐述和论证了虚拟博弈信念学习模型的存在性、收敛性、有效性在，此处不在赘述。

常见的基于虚拟博弈信念学习模型要求参与者始终牢记另一个参与者以前采取每种策略的相对频率，从而主观概率的采取某一策略，达到预期收益和实际收益的均衡，实现参与者双方的效用最大化。那么重复博弈多少次合适？参与者从第几次开始学习效果开始显现？根据实验数据来看，周平均成绩和分题型平均成绩都从第3个有效实验周波动降低开始呈稳态向上趋势，说明参与者对于对手的行动经验μt（ci）一般需要学习两期之后开始有效，自身行为策略Pt+1ai自从第3期开始有效，即t≥2时一般信念形成，开始指导参与者行为。因此，在虚拟博弈信念学习模型中重复博弈的次数应该不少于三次。

简单博弈行为参与者的决策具有较高确定性，但是在行为互动过程较复杂的博弃中，或者是长期内的重复博弈过程中，参与者出现随机性、非理性决策的概率大大提高。虚拟博弈信念学习模型要求参与者记住前手采取该策略的概率，因此，在虚拟博弈信念学习模型构建中过往行动人的一方要严格按照博弈制度进行决策和支付，形成稳定的、可靠的“选择频率”，才有利于参与者形成信念，指导决策。

3.信念权重设定的启示。信念权重形成于参与者对过往参与者以前采取每种策略的概率和获得的支付，学习过程形成的信念可以有效提高策略上的优势影响最终支付，但是自身能力与最终支付之间的相关性也不应该被忽略。在进行数据比较和分析时，要充分强调预期支付，对预期支付进行有效的界定和评估，将最终支付和预期支付进行比较才能获得真实、相较客观的学习成果描述。例如，本实验中对于题目难度的划分、结合期末排名对每次博弈结果的加权处理等。脱离参与者自身能力一味强调信念学习的效果，实验将不能更好的还原现实生活中行为决策过程。

信念权重除了取决于上述条件外，还取决于参与者对支付的敏感程度。重复博弈过程中，参与者的后向学习能力，例如归纳、推理，使得重复博弈的结果越来越理性，但是仍然会出现一定比例的与模型预测相悖的结果，此时就必需要关注参与者对支付的敏感程度。在今后的模型构建中，应对支付结果的表现形式进行多样化设计。参与者的决策行为影响因素众多，多样化的支付结果能更好地还原现实生活情况，更好的模拟决策行为。本实验中，支付结果的表现形式较为单一，因此采取惩罚性措施，增加参与者对现有支付的敏感度，降低非理性在行为决策中的干扰。例如，本实验在2014年的初次实验早期未设计惩罚性措施，造成参与者对支付不敏感出现非合作的不理性行为。同时，惩罚性措施在理论上还可以有效避免重复博弈中常见的合谋性均衡结果。因此，今后在构建该类模型中建议适当引入惩罚性措施能有效提高参与者对支付结果的敏感程度。

4.外界环境对于实验的影响。信念的学习过程还来源于对外界环境的界定，外界环境提供的信息不可忽视。在始终牢记参与者以前采取每种策略的相对频率的同时，参与者会对信息进行选择性加工，加强自身认同信息的权重，弱化不认同信息的权重，对于那些会有效甄别信息的参与者，其信念的学习就好，反之亦然。在信息的甄别过程中，由于参与者始终牢记前手的决策，所以在虚拟博弈信念学习模型中容易出现“羊群效应”。例如，在2014年和2015年的两次实验中，有的受验班级周平均成绩长期一致略微差于对比班级，有的受验班级间长期存在某种莫名的情绪左右影响到参与者的最终行为决策。个体决策行为除了博弈制度、博弈对手的影响，还存在外部评估的过程。因此，个体行为存在异常决策，如若个性异常行为频繁出现，实验者需思考，频繁非理性决策背后是否存在非公平、非道德、非合法等隐形缺陷存在。因此，在今后的实验构建和实验数据分析中应当考虑到群体行为对个人决策行为的影响。

[基金项目：四川省教育厅人文社科一般项目（项目编号：15SB0373）。]

参考文献：

[1] 章平.信念调整、学习行为和均衡收敛的博弈模型研究进展[J].南京社会科学.2009（1）

[2] 章平，戴燕.个体决策与学习行为：有限理性建模综述[J].南开经济研究，2006（3）

[3] Douglas D. Davis ，Charles A. Holt.實验经济学[M].北京：中国人民大学出版社，2013

[4] 科林·凯莫勒.行为博弈（对策略互动的实验研究）[M].北京：中国人民大学出版社，2006

[5] C Camerer，T Ho.Experience-Weighted Attraction Learning in Normal Form Games[J].Econometrica，1999（67）

[6] Fudenberg D ， Levine.The Theory of Learning in Games[M].The M.I.T. Press， Cambridge，MA，1998

（作者单位：四川华新现代职业学院经济管理系，四川广播电视大学高职院四川成都 610045）

（作者简介：何婧，四川华新现代职业学院经济管理系，四川广播电视大学高职院讲师，经济学硕士，研究方向：行为博弈、证券投资。）

（责编：贾伟）

经济师2016年9期

经济师的其它文章: 浙江中小企业投资财务风险分析; 基于战略思想的建筑企业成本管理探讨; 基于战略视角的高新技术企业成本管理问题探究; 新常态下管理会计应用研究; 浅谈如何做好工程变更管理; 内部审计新准则变化对保险企业的影响