ABM仿真模拟方法漫谈

2016-03-19 13:00吕鹏

贵州师范大学学报（社会科学版） 2016年6期

关键词：社会科学范式宇宙

吕鹏

(清华大学公共管理学院，北京 100084)

ABM仿真模拟方法漫谈

吕鹏

(清华大学公共管理学院，北京 100084)

长期以来，研究人员都试图最大限度地刻画个体行为特征并预测社会宏观现象，若能通过计算机科学将“个体—社会”进行全息建模则堪称完美。在前大数据时代，这种努力通常会很难如愿，核心问题是我们无法得到特征变量的准确参数估计，因为数据获得、数据清理、知识建构、规律推广等方面均存在现实障碍和信息缺失。大数据时代，这个问题可以得到较好的解决。大数据时代，计算社会科学的核心任务是：通过对接近全样本的数据量进行深度挖掘、机器学习、变量搭桥、模式探索等，实现个体特征画像、行为模式预测、社会系统剖析与宏观政策预演。在个体画像、行为预测、系统剖析与政策预演等方面，社会科学仿真模拟方法发挥着重要作用。本文主要对ABM仿真模拟这种最新的方法进行解读，重点介绍其产生土壤、模式特征、逻辑结构与操作流程等。

一、自然科学研究与社会科学研究

研究活动包括自然科学研究与社会科学研究，是人类运用有限理性规则动态地认识世界进而改造世界的思维意识活动。(1)认识世界指的是现象发现、规律获取与知识构建。其中，现象发现指的是发现了新的实体现象，规律获取指透过现象探求其内部本质或运作机制，知识构建是对“现象—规律”的理论化表述；(2)改造世界指的是新造物质与新创制度。自然科学研究中的改造世界，侧重于通过制造新的产品物质形态，使得现实世界更加富有效率；社会科学研究中的改造世界，侧重于通过新制度或政策的提出，来解决社会问题并使得社会总体运行更加良好。

二、社会科学研究方法三驾马车

理论研究、数据统计与仿真模拟，是社会科学研究方法的三驾马车。除了理论分析之外，后两种方法是从自然科学研究(物理、气象、水文、建筑、工程)中借鉴学习而来。人类首先认识到自然客体，然后自然而然地将其研究方法迁移到认识人类社会自身，此即为社会科学。理论研究范式在社会科学研究中属于传统方法，数据统计模式现在在我国社会科学研究中得到普遍的应用，唯有第三种方法即仿真模拟范式尚未得到推广应用。其原因固然与方法传入中国科研社区的时间早晚有关，也与国内科研社区迷信数据统计、排斥方法创新、固步自封，不愿更新范式的“路径依赖”心态相关。“兵无常势、水无常形”，好的研究方法应该是动态、优化且开放民主的，只要该方法有助于提高发现规律与改造世界的信度与效度，就应该被纳入社会科学家工具箱(Social Scientists’ Toolbox)。

三、仿真模拟与数据统计的范式之辩

仿真模拟与数据统计是两种截然不同的科学研究范式，其内在假设与逻辑基础大相迥异。请设想场景A：一只猫走在沙滩上留下了一连串脚印。如果是数据统计范式，囿于研究范式，将会研究脚印的间距、面积、角度、方位、趋势、深浅等指标之间的函数关系，然后得出相应的结论。如果是仿真模拟范式，不仅这些指标将得到研究，还会考虑到行动者(Agent)的心情、动机、习惯、转向、态度、决策。即这只猫在何种情绪心理、动因机制、行为习惯、脑体朝向、倾向态度的作用下，才产生了具备上述特征变量的一串脚印。场景A道出了仿真模拟范式的五方面的研究优势：(1)更高维度的过程信息；(2)清晰的因果关系；(3)动态的多种可能；(4)研究的保守主义；(5)平行宇宙预演问题。因为重要，故将其上升为主标题重点阐述。

四、更高维度的过程信息：Movie vs. Picture

《三体》中多处描述了宇宙空间从三维向二维坍塌的场景，如果说数据统计研究三维场景，仿真模拟则研究四维场景，后者增加了动态的连续过程维度。数据统计所面对的数据是结果数据，始终是一个静态状态瞬间(例如截面数据和时间序列数据)，稍好的是多个静态状态瞬间(例如面板数据)，从属性上而言，可类比为截图或图片(Picture)。而仿真模拟处理的是连续动态过程，即随着时间不断呈现无数个结果即无数个静态瞬间，属性为电影或视频(Movie)。Movie与Picture相比多了一个持续时间维度，统计数据是电影视频的屏幕瞬间截图，电影视频是无数个连续截图的高维度存在形态。四维可以随时制造或还原成三维空间，而反之则行不通。仿真模拟处理的是更高维度的动态过程信息，而数据统计处理的是更低维度的瞬间结果信息。数据统计的致命缺陷是无法揭示过程机制，除非要做无数次瞬间截面统计。数据统计系数推断表只能证明其本身，无法揭示过程(因为维度低)。其统计结果解释部分所言的过程机制不过是研究者们主观似然的脑海推测或头脑构想，瞬间结果数据显然无法说明动态演化过程。

五、清晰的因果机制：肯定因果vs.否定因果

数据统计的兴奋点无疑是找到较为稳健的因果机制，但此路不通，使得该范式之下的研究者非常苦恼。为了找因果，数据统计领域也发展出很多工具方法来试图使得因果关系更加清晰，例如反事实视野下的倾向值匹配(PSM)方法等。但是，此类方法所找到的所谓因果机制仍然是相关机制，无非是更加精细的事实状态与反事实状态的变量之间相关性对比。反事实状态无法找到，故只能采用事实中的类似个体进行“伪对比”。数据统计理论上无法找到因果的核心问题在于其内在限制性，而非研究者无能，这是高要求与低维度的矛盾。而在更高维度的仿真模拟之下，因果无处不在且无比清晰，因为其本质就是用清晰预设的因果机制进行动态持续试验并获得动态数据。数据统计兴奋点是肯定因果，仿真模拟兴奋点是否定因果。由于因果无处不在且无比清晰，需要对其进行判断，而被否定的因果机制可以证明其不存在，更符合科学的“可证伪性”原则。即：要么“此种因果不存在”，要么“无法排除此因果存在”，不存在“此因果存在”的表述。

六、动态的多种可能：参数确定vs.参数谱系

统计学的最核心问题是参数确定，即想方设法找到“最佳线性无偏估计量(BLUE)”。这是一种追求确定性结果的科研情结之下的集体性研究焦虑与本能冲动，如果统计分析找不到目标变量的参数估计量，那将是失望的、很难做文章的。庆幸的是，我们还有仿真模拟。在我们为找不到真实因果系数估计而烦恼的时候，它清楚地告诉我们，还有另外的路。从最高预测准则来看，数据统计与仿真模拟都是以最大程度地拟合观测现象为终极目标，但是他们走了不同的路：(1)数据统计是通过找到最佳参数估计量来拟合自然与社会现象，故其核心任务是确定参数；(2)仿真模拟通过遍历各种变量参数的可能取值范围即参数谱系来拟合研究现象，故其核心任务是穷尽所有可能，寻找最佳参数组合即看何种组合之下因果机制更容易被理解和被确定。我们经常看到的是，仿真模拟方法通常对参数的可能范围进行全域化设置，对自然、社会现象的动态演化与过程机制进行全域化考察。由于数据统计只能揭示结果而不能揭示过程，所以不得不进行参数确定；由于仿真模拟足以揭示过程更遑论结果，所以参数研究更加灵活，可以上升至参数谱系。

七、研究的保守主义：一步到位vs.碎步快走

科学研究方面，“保守主义”恰是最真实的激进，“激进主义”恰是最真实的保守。“保守主义”是基于动态有限信息的持续优化，即通过对手头信息不断进行学习与优化，得到临时或局部最优解。当信息出现动态变化，“持续挖掘”的保守主义精神使得人类知识得以不断产生、改造自然得以不断推进、认识社会得以不断深化，科研之光的照耀范围不断扩展，这种碎步快走的模式“看似很慢、实则很快”。而反观“激进主义”，天生具有“高大上”的诉求，试图将天地人万物纳入其中，搭建宏观概念与宏大概念模型，这种激进主义恰恰是限制学科专业发展、封闭微观过程研究、助力学术霸权构建的重要原因，恰恰是保守的。这种追求“一步到位”研究社会的精神出发点是好的，但实际效果“看似很快，实则很慢”。人类认识自然与社会的思维过程本质是保守主义的，具备持续、渐进、动态、优化的特征。人们从本能、兴趣、好奇出发，不断向深挖掘、动态认识现象。仿真模拟则直视人的本能思维与好奇机制，从不否认好奇与猜测的合理性，将其操作化、具象化、过程化。

八、平行宇宙预演问题：单一宇宙vs.平行宇宙

数据统计处理的观测数据属于单一宇宙属性，而仿真模拟的面向对象则是多重宇宙或平行宇宙(Parallel Universes)。统计数据不能摆脱单一宇宙问题，此系其低维度数据属性使然。统计方法也意识到了此局限性，发展反事实概念试图解决统计数据的单一宇宙问题。值得肯定的是，反事实概念确实在一定程度上推进了问题的解决(例如PSM方法的引入)，但仍然无法解决根本问题。尽管其意识到反事实问题，但解决方式仍然是从相同宇宙中，找到类似替代物即“伪等价个体”(按照倾向概率或倾向值进行相似度匹配)，而并非来自另一个宇宙。仿真模拟恰恰提出了更好的解决路径，即通过更高维度信息的处理解决“反事实状态无法获得”的悖论，展开所谓平行宇宙的研究。仿真模拟中存在无数个参数组合与异质性个体，故存在多重宇宙，每一次模拟就具有一重宇宙之含义。我们不再需要从本宇宙找出“伪等价个体”(用PSM方法)，只需要从另外一重宇宙中寻找即可。我们所观测到的宇宙(本宇宙，低维度)理论上只是多重宇宙(高维度)的一种可能，通过数据分析研究本宇宙数据得出的所谓因果仅仅是一种可能性而已，尚且不论得到此因果机制难度极大或者仅存在理论可能性。

九、ABM仿真模拟核心特征与逻辑流程

基于头脑构想的思想实验是仿真模拟的核心特征。仿真模拟从想象出发去模拟社会，而非从结果出发“马后炮”式地解释或论证社会现象，这更符合本能与直觉。ABM(agent-based modeling)是当前仿真模拟的主流研究方法，赋予智能体(agents)更大的决策自主性、更强的情境模糊性，力求更贴近真实场景。ABM仿真模拟逻辑流程如下：(1)思维预想。如果脑海中没有所谓“社会学想象力”，则无法进行仿真模拟，仿真模拟核心特征就是研究者思维预想的操作化；(2)场景预演。任何被模拟的自然与社会现象都有具体场景，场景或情境预设是仿真模拟的前提。有的场景比较理想，例如元胞自动机(Cellular Automation)模型；有的更贴近真实，例如将GIS地图导入程序模拟群体运动规律；(3)机制设计(mechanism design)。机制设计是核心工作，决定着智能体以何种规则运行，即：个体行为规则(decision rule)是什么、策略更新规则(strategy updating)是什么等；(4)条件假设。相关变量参数的分布特征(正态/偏态分布、连续/离散型假设等)需要进行特定假设，仿真模拟结果在此基础之上才能够呈现。换言之，不存在没有条件假设之下的仿真模拟与结果；(5)穷尽可能。仿真模拟很重要的任务是穷尽模型纳入的参数与变量的所有取值谱系，即考察所有因素、变量与参数的所有可能性，对其影响效果进行谱系化系统呈现；(6)结果解读。根据所记录的仿真模拟相关变量的数据，计算或估计之间的函数关系，进而对目标社会现象进行相应的解读。重点之一是揭示现象的过程演化机制，重点之二是对由此过程导致的特定结果或现象进行解释。仿真模拟的结果解读具有有限性和条件性，是特定机制与特定模型之下的结果与结论；(7)再次循环。

十、仿真模拟方法的条件性与局限性

如同其他研究方法与研究范式，不存在永远正确，只是相对合适。数据统计基于现实得到的数据认识内在规律，仿真模拟(ABM)则基于个体思维意识活动，试图用不断逼近真相的个体理性与基于数学与系统控制的模型设计，认识社会现象及其内在规律。仿真模拟的研究范式与具体方法具有内在条件性与局限性，即仿真模拟永远揭示可能性与或然性，而非绝对真理，这可能在目前或今后都无法解决。因为社会科学比自然科学具备更大的复杂性，仿真模拟所发现的因果、规律与机制仅仅是现实世界的一种当前似然最优的可能性，具有条件性与局限性。但是，我们并不能因噎废食，因为仿真模拟在高维信息处理、过程机制演化、因果关系检视、变量参数谱系与持续动态优化等方面具有显著的优越性。

2016-10-12

国家社科基金重大项目“大数据时代计算社会科学的产生、现状与发展前景研究”(16ZDA086)的阶段性成果。

吕鹏(1984-)，男，江苏徐州人，清华大学社会学博士、自动化系博士后。研究方向：计算社会科学、仿真模拟、空间博弈论。