发现更真的历史:中国计算史学的百年之路与时代使命

2023-06-18 06:15陈加晋卢勇
图书与情报 2023年1期
关键词:数字人文

陈加晋 卢勇

摘   要:在“信息革命”浪潮下,历史学遭受的冲击要比过去任何一个时代更为彻底与更具革命性,吸收信息技术精华、展现强大计算能力的计算史学成为了不可逆的趋势。历史学究竟何去何从?文章在概念辨析、历史回顾及现状分析的基础上归纳出:中国计算史学自梁启超首倡后已历时百年,期间至少经历统计历史学、计量史学、信息史学、数字史学等若干学术实践与流派。当下计算史学的成果集中在三大方面,包括数据集成和数据库,历史文本语料库、知识库建设与挖掘分析,可视化及GIS历史地理信息系统。需警惕的是,计算史学所谓的“繁荣”带有“泡沫”成分,“计算”技术的优越性容易让人忘记其“双刃剑”的一面,人性与人文精神的淡化亦令人担心。计算史学只有在交叉、突破和自我觉醒中不断重塑自身科学性,才会展现出在“大历史”学科、“整体史”学术与“中国史”话语等方面的趋势和未来。

关键词:计算史学;计算人文;数字人文;信息转向;史料革命

中图分类号:K061   文献标识码:A   DOI:10.11968/tsyqb.1003-6938.2023003

Abstract Under the wave of "information revolution", the impact on history is more thorough and revolutionary than any other era in the past. It is an irreversible trend for computational history to absorb the essence of information technology and show strong computing power. Where will historical research go? On the basis of concept discrimination, historical review and current situation analysis, the article concludes that: Chinese computational historiography has lasted for a hundred years since Liang Qichao initiated it. During this period, it has experienced at least several academic practices and schools such as statistical history, metrological history, information history, digital history, etc.. At present, the achievements of computational history focus on three aspects, including data integration and database, corpus and knowledge base construction and mining and analysis of historical text, visualization and GIS historical geographic information system. It should be noted that the so-called "prosperity" of computational historiography has a "foam" component. The superiority of "computing" technology is easy to forget its "double-edged sword" side, the weakening of human nature and humanistic spirit is also worrying. Only by constantly reshaping its own scientificity in the process of crossing, breaking through and self awakening, computational historiography can show its trend and future in the major of "grand history", learning of "overall history" and discourse of "Chinese history".

Key words computational historiography; computational humanities; digital humanity; information turn; historical revolution

歷史是人类社会过去的事件与活动,尽管历史本身是不依赖于历史记录的客观存在,但后人了解与认知历史却需要依靠刻石载笔,故历朝历代的历史学家无不以记录与重建历史的真相为最高追求。对信史与直笔之尊崇,古今、中外皆无不同,但即便如此,以描述和叙事为主要特征的传统治史框架的真实性仍然因政治环境限制、作者主观意识以及技术手段匮乏等因素,而受到后人的多维审视与多重质疑。有鉴于此,以梁启超为先的民国史学家们开始将历史的真实性与史学的科学化相链接,并于1922年首次提出“统计历史学”概念,从而开启了史学定量化与可计算的新历史。

如今,中国史学计算的研究与实践恰好走过百年历程,其文化环境与学术形态早已今非昔比。史学界对“计算”与“史学”的融合逐渐广泛认可,由此衍生与分野出的计算史学更是站在了时代潮流与国家需求的“风口”当中。当历史学的“信息转向”越发成为不可逆转的趋势与清晰可见的事实时,不仅历史学的知识生产、表达与思维观念不可避免地被颠覆,整个历史学的走向与归途或许都将被重塑。在不断探索“计算史学何去何从”宏大命题的过程中,我们必然会面临与解决三个基本面问题:过去的计算史学有何源流并且如何流变?今天的计算史学是欣欣向荣还是虚假繁荣?未来的计算史学呈何种形态或者价值几何?为此,笔者拟从中国计算史学的学术源流与不同时代的历史转向出发,在厘清其历史脉络和学术实践的基础上,对学术、技术、人文等三个面向及彼此关系进行反思,以期客观与科学展望中国计算史学的走向与趋势。

1   从史学计算到计算史学

作为社会文化的产物,历史学之所以能够与计算技术深度融合并衍生出计算史学一脉,根因还是时代提出的需求和提供的条件。自梁启超始,每一代先贤学人都奋力紧握学术潮流并努力开拓历史计算的研究局面。正是时代之势与学人之力的协同谋合,方塑造出不同历史阶段中的不同计算史学形态。

1.1    “统计历史学”的提出与初步践行

1922年,梁启超在东南大学史地学会的演讲中首次提出“统计历史学”概念,将其界定为:“历史统计学,是用统计学的法则,拿数字来整理史料推论史迹。”[1]由此,现代数学方法第一次在中国史学研究中作为重要的方法论加以采用并被大力倡导。同时,梁氏进一步强调其初步应用的结果“成绩很是不坏”,主要的成果形式是各类统计图表,尤以1924年著成的《中国近三百年学术史》所展示的表格最多。

其后,历史统计学作为开两千年史学新风的“新史学”得到了大量史学家的认可、支持与践行,代表者如丁文江、郭斌佳、翦伯赞等,尤以卫聚贤所受影响较大,他在清华学校多年讲授经验的基础上编著出版了首部《统计历史学》。同时,以吴晗、汤象龙、罗尔纲、梁方仲、谷霁光等人组成的史学研究会在历史统计学方面亦有大量践行。当然,也有不同甚至质疑的声音,如傅斯年的反对就较为尖锐(支持与反对者见表1)。对于历史统计学的局限性和注意点,汤象龙总结得最为精准:“一是尽管‘统计可以证明一切,但有时同样的量的资料可以同时证明完全相反的事情;二是量的资料必须精确完整,而且不可把它的应用限度估量太高;三是历史事实的发生都是独一无二的,历史资料的记载也是为某项事件或某项目而设,因此历史研究中很难类推或佐证其他的历史事项;四是历史资料繁多,量的资料不过是其中之一,同时还需要其他相关资料的佐证。”[2]

马克思曾指出:“一门科学只有在成功地运用数学时,才算达到了真正完善的地步。”[3]民国时期新生的统计历史学计算手法初级,成果形式单一,且仅限统计学,但基本性质已然是一种以统计、归纳、分析为特征的计算型史学,因此在“计算史学”概念出现之前,一直被当代史学界视作“计量史学的先行状态”。中国史学领域几乎一切定量、计量和计算性质的研究及方向,都滥觞于此。

1.2    计量史学的兴起、引入及与计算机技术的结合

按诺贝尔经济学奖获得者诺斯(Douglass C.North)的追溯,1957年康拉德(Alfred Conrad)和迈耶(John Meyer)共同发表《南北战争前南部奴隶制经济学》一文,标志着计量史学的正式诞生。20世纪70年代,计量史学风靡全世界,70年代末被引入中国。国内并未经历西方计量史学的学术成长过程,因此接受的是一个相对完整的学术形态。对此霍俊江在《计量史学研究入门》中概括为:“它是运用现代数学的手段和统计学的方法,以及现代计算机技术,对历史上的数量和数量关系(无论是显性的还是隐性的),以及由这些数量关系所构成的特定的数据结构进行定量的研究和分析,进而使定性研究和定量研究相结合,使历史研究进一步精确化和科学化的学科。”[4]

不难看出,计量史学的底层计算理念与计量路径与过去包括统计历史学在内的具有计算性质的史学类型是一脉相承的,并且在计量方法、数据模型乃至学科应用等方面具有很大的发展与创新,其中最具变革性的突破之一就是与现代计算机技术的结合[5]。计量史学家借助计算机可以更有效率地搜集、整理和储存史料,并在此基础上进行复杂的数量分析与定量计算。当时的计量方法已不限于平均数或相对数,而是涉及更加复杂的相关分析、回归方程、趋势推论、意义度量、线型规划、动态数列、超几何分布、因子分析、马尔科夫链,甚至博弈论、对策论和曲线拓扑理论等。更重要的是,计算机技术可以不断发现与分析新的、非传统意义的原始资料,如政治史领域的各级选票、民意测验,法制史领域的遗嘱、死亡证明、法院审判记录等,都是过去定性研究中既不被人注意更难以分析采用的材料。

就20世纪80年代至90年代的中国史学界而言,尽管面临计算机过于昂贵的客观条件限制,又有因求学阶段文理分科导致的数理素养欠缺的主观难题,但这并不影响国人对于史学研究定量化的认可与大量介绍,钱学森、何顺果、蒋大椿等一批学者都曾积极倡导计量史学的价值及计算机应用于历史学的前景[6-8]。在具体践行上,梁方仲于1980年出版的《中国历代户口、田地、田赋统计》成为了早期计量史學本土化的经典案例,被誉为“是一部内容丰富具体化了的计量经济学,又是一部大型的经济史研究的基本工程的巨著”[9],其后当代人口史、经济史、社会史、政治史乃至军事史领域都曾不同程度地引用与应用计量史学的数据分析与模型建构方法。

总之,计量史学的学术实践及与计算机技术的结合真正开启了历史学的精密计算化与科学化,并且将史学的人脑计算跃升到了电脑运算的历史阶段。当然,计量史学同样有着与早前历史统计学类似但更为复杂的局限性,特别是对于技术的盲信和人性的缺失让其先后在西方和中国遭受了大量批评。从20世纪80年代末90年代初开始,作为学术流派的计量史学在国内逐渐沉寂,但是作为方法的计量分析与作为工具的计算机被史学界普遍接受,并且趋于常态化与常识化。1992年,姜锡满怀希望地表示:“毫无疑问,广泛采用微机,实现研究手段的现代化,将对我们的历史研究和历史科学产生重大而深远的影响。”[10]直到21世纪初,吴承明仍在呼吁:“因为过去注意不够,我主张大胆推广计量学方法。”[11]

1.3    数智时代计算史学视域下的理念、概念与行动

21世纪之交,在计算机与互联网技术革新所引发的“信息革命”浪潮中,中国史学界再次迎来新的“信息转向”,由此产生了与当下真正接近或一致的计算史学视域。大致自2012年之后,信息领域又快速迈入大数据、云计算及人工智能时代,现实与网络、学科与学科的壁垒被进一步消弭,计算史学终现“思潮”之势。尽管每个人对当前时代与时代之下的计算史学认知不同,并分别冠以“计算史学”“数字史学”“信息史学”“数位化史学”等不同学术概念与“身份”,但人们对于计算史学视域与方法的常态化及其革新之感是真实而具体的。

国内史学界对于信息时代的敏感度与计算史学的理性畅想可以说是不落后于西方国家的,1998年路振光就初步探索并提出了因特网史学信息的三种有效途径[12],但可惜的是计算史学概念化、学科化的进程相对缓慢。直到2005年才见有台湾学者黄一农提出具有计算史学性质的“e-考据”概念[13]。尽管他以之为方法取得了高效的研究成果,但常被认为本质上仅是一种“引得式或索引式的网络新工具”[14],故一直没能成为讨论的热点。

自黃一农之后,开始不断有新的计算史学类概念被提出。2006年,王旭东提出“数字世界史”一说,即“从信息视角出发,依托特定的信息化技术平台,以数字化和信息化理念、手段及方法,对人类社会历史活动演变过程进行动态标记、整体表述和因果关系重现的综合性系统研究,并以虚拟复原方式对所获成果提供应用接口的全新世界史范式”[15]。其后,迭加周兵的发声与理论贡献[16],“数字史学”逐渐成为计算史学最为常用的“称谓”和学术概念之一。2009年,焦润明提出“网络史学”概念并将其界定为“存在形式确为电子史学,从而有别于传统的纸质史学”[17],该概念后由李剑鸣等再次提出并加以进一步阐释[18]。大致从2011年开始,王旭东在早前“数字世界史”概念的基础上,向“数字”背后的信息体系开展纵深性探究,并以“历史学基本属性之一是信息认知”为理论前提逐步构建起“信息史学”概念体系[19]。

相较史学家而言,遵循“信息技术应用”底层逻辑的图书情报学背景的学术群体主要关注的是视域更大的“计算人文”层面,并在相关概念进入中国之前就已经持续关注数字转向过程中的知识生产与发现问题,但总体上处于“分散式实践探索”阶段[20]。之后,数字人文的学术合作与研究项目开始凸显出来,不过“数字人文”一词的首次出现并非在图情学,而是传统人文领域。2003年,陈志良在《中国社会科学》杂志社和上海华夏社会发展研究院共同主办的“数字化与 21 世纪人文精神”学术研讨会上首次提出“数字人文”一说,并认为“‘数字化是一种人性化、以人为本的科技形式与力量,是对人的功能的合成、主体的系统表达,把原本属于人的功能变为 “人化功能”,是对为人所知的、具有同步性、可经验性、以人为主体的世界 “再造”,它超越了传统科技与人文断裂的形式和内容,是新时代科技与人文的一次新综合。”[21]显然,这是一种高度哲学化与广域性的认识论,与我们当下所惯常认知的、限于学术与学科范畴且趋近方法论性质的数字人文是有很大差异的。

2009年,王晓光在“教育部人文社会科学研究方法创新论坛”上提出和阐释的“数字人文”概念是真正具有计算意义与图情学色彩的,即“数字人文,也称人文计算(Humanities Computing或Computing in the Humanities),它是一个将现代计算机和网络技术深入应用于传统的人文研究与教学的新型跨学科研究领域,它的产生与发展得益于数字技术的进步及其在科学领域的普及应用”[22]。自此,数字人文很快由“前沿话语”转变成“热点话题”与“重点议题”。2011年,武汉大学成立中国第一家数字人文研究中心,表明在体制上对数字人文予以认可,北京大学、清华大学、南京大学、南京农业大学等亦紧跟其后。

近十多年里,计算人文的概念、内涵与外延等不断发展与再定义中,但史学作为计算人文的重要对象、方向或子课题的性质一直未有改变。更重要的是,以2016年马建强《计算历史学:大数据时代的历史研究》一文为典型,计算人文正逐步向“计算史学”领域分流与细化,并且不断有学者意识到“数字人文”词义已无法精准统括当下的计算史学。在“数字肥胖”已越发成为社会普遍现象的时代里,越来越多的资源天生就是“数字”,用“数字”作为限定或修饰已无必要,甚至显得冗余。真正统括现状和指明未来的概念范式应该是“计算”而非“数字”。

2   时代召唤下的计算史学

当时代需求与国家战略对计算史学有所期待时,计算史学最大的本分应该还是基于知识规律和真理目标的学术探索与系列研究。综合已有成果来看,以历史学和图书情报学为主体的学人主要在数据处理集成与数据库,历史文本语料库、知识库建设与挖掘分析,可视化及GIS历史地理系统方面取了不同程度的突破,尤其围绕计算的“方法论共同体”与“学术共同体”的显现值得注意并期待。

2.1    史料存储、集成与数据库构建

“史料者,历史知识之唯一源泉也”[23]。史料是史学的基础,史家治学总是以史料的搜集与考辨为第一步,相应地,“穷尽史料”就成为了史学工作者们的“乌托邦”。无数先贤为尽可能搜集与占有史料,必须经历数月、数载甚至几十载皓首穷经式的辛苦,但依然受困于“资料匮乏”“材料零碎”等难题。计算史学的学术实践即是从史料生产与发现开始,并且早在20世纪的量化史学阶段,就已经通过材料的电子化与编码分类技术展示出了在资料“占有”与“记忆”方面的优越性。进入21世纪,文献扫描、识别与转化技术的革新极大扩充了史料载体与数量,迭加互联网端的革新所带来的史料可检索化与共享化,由此基于海量历史文献数字化、数据化或可视化的数据库大量出现。

近年来,大量在线数据库已成为人们对于计算史学发展最大的直观感受之一。既有台湾雕龙中国古籍全文检索数据库,香港文渊阁四库全书电子版,北京大学中国基本古籍库,上海图书馆晚清、民国期刊全文数据库(1833-1949)等大型检索类数据库,也有李中清、康文林团队清代《缙绅录》数据库等小型专业数据库,还有更多细分领域或方向的数据库正在建设中。据笔者梳理,目前已立项的近450项数据库类国家社科基金项目中,绝大部分都是文史类,其余国家社科基金项目如“明清以来长三角地区生态环境变迁与特色农业发展研究”等尽管未在题中显现,但实际研究中已将构建数据库列为重要议题。对比过去,如今计算史学的史料获取与各大数据库存储的数据已是“天文数字”,不仅是单纯“量”的爆炸,更是“类”的激增,除传统文献古籍、考古材料以外,“举凡保留过去信息的文字、实物、图像、影像、口述等资料,都有可能进入史家的视野”[24]。史料大量存储与集成后,小众、非典型、偶然的资料即会自动边缘化,同时那些隐藏、零散的信息也会更容易被发现,从而某种程度上又为历史学家提供了“新史料”。

更重要的是,计算史学领域的数据库构建成功往往就代表至少已初步完成历史信息的数据化重组,这在实质上已是科学的史料“加工”,“精准型研究”或形成新的历史解释就具备了先行条件,比较著名的如中国历代人物传记项目(CBDB)与Markus古籍半自动标记平台等。简单来说,大型数据库不仅“广”而“全”,更是“专”且“深”,其专业与客观程度甚至可以实现不同类型数据库的数据关联与匹配,即梁晨所称的“量化数据库”[25]。此外,数据可视化与共享性等功能的拓展同样不能被我們轻视,它是史料获取和不同数据匹配的前提。很多传统史学家之所以接受信息技术介入与改造,就是因为仅掌握简单的关键词检索就可以得到大量史料,并且技术的进步往往与资料的收获呈正比,如梁晨和董浩通过Python软件的Selenium包,在一年内就抓取到不同数据库的年度留美生信息;如果采用人工检索的话,即便是有限的几个数据库也将花费5年[26]。

2.2    历史文本语料库、知识库建设与挖掘分析

与传统史学研读分析史料的原理相一致,计算史学需要对历史文本进行挖掘与分析后才有可能发现知识与得出结论;不同的是,计算史学的研究对象是史料数据化后能够被计算机识别的信息。这些信息,尤其是结构化的数据不仅巨观,而且具有以往人力难以察觉的知识用途及潜力。文本挖掘大致在10年前被视作计算人文的重要方法之一,如今已是域内核心议题和主流技术。按邓君等人归纳,历史文本挖掘与分析技术至少有本体、语义网、关联数据、数据库设计、文本分析、聚类分析、主题图分析、社会网络分析(SNS)等[27],不同技术之间内涵重叠、边界交织、流程串接,且对于大多数的史学工作者都存在技术门槛,这就导致图书情报学背景的学术群体构成了计算史学文本挖掘与成果产出的主力。

在历史文本挖掘与分析之前,需要对古文献数字化后的信息进行“处理”,包括自动分词、词性标注、命名实体识别等,继而在自建语料库或借助外来语料库的基础上实现智能处理,包括自动校勘、断句、标点、注释、分词、识别、翻译等。在具体践行中,南京农业大学黄水清团队就较早完成了先秦古籍自动分词与地名的自动识别模型构建[28]。若进一步通过构建知识本体、关联数据等进行语义化知识组织,即可实现重要实体深度的语义层面知识挖掘。能够实现知识组织的数据库或系统常被称为“知识库”,即“顾名思义,基于知识的智能系统”[29],从徐晨飞等开展的南京农业大学馆藏《方志物产》语义化知识组织研究结果来看,知识库至少可提供知识检索、多维知识聚合、关联数据可视化、GIS时空展现等功能[30]。事实上,知识库的可检索性、知识性、智能性等功能在诸如中国历代人物传记资料库(CBDB)等常规数据库中均已实现,正是技术的普遍提高与全面渗透导致数据库与知识库的边界越来越模糊。

知识发现是文本挖掘的本质与精髓所在,因此对于大部分史学家来说,可能更为在意与深究的还是历史文本挖掘与分析的另一“知识发现”功能,尤其是“依靠数据库发现知识”[31]越来越成为一种历史学趋势。近几年比较流行的历史文本挖掘技术主要涉及语义网、关联数据、聚类分析、社会网络分析等,并且在人、时、地、物、事等重要实体之间的时空关系方面取得了良好效果,如陆宇杰等利用中国历代人物传记资料库(CBDB),通过社会网络分析揭示了清代进士群体中以纪昀、钱大昕、全祖望位居中心度前列的社会关系网络和纪昀、朱珪、朱筠等组成的社群影响力居首的现象[32]。简而言之,历史文本挖掘不单可以处理海量文献并进行复杂运算,更重要的是能使碎片化的历史知识系统化,同时使隐性化的历史知识显性化,有学者形象地用“望远镜”和“显微镜”来作比喻[33]。但需指出的是,目前仍没有一种既全面又精准的文本挖掘手段,很多技术往往必须同时或接续使用,由此就推动形成了从历史文本语料库到文本挖掘研究的系列化与集群化,典型如南京农业大学黄水清团队的《汉学引得丛刊》人文计算系列研究,不仅实现了分词、词性标注、命名实体识别的词汇级知识人工和机器标注功能,还以春秋一经三传、《史记》为重点对象进行了深度文本挖掘研究[34-35],其中不少成果相当具有创见性。

2.3    可视化及GIS历史地理信息系统

从海量历史文献中散见、零碎的信息中挖掘结果,以可视化技术可以更好地“呈现”和“展示”。据刘圣婴等统计,2020年中国数字人文年会的最佳项目获得者中,可视化或GIS类型占据一半之多[36],由此可见其在计算人文领域中的热度和重要性。计算史学框架内的可视化并非只是一类为了展示服务结果的算法或技术,而是一套对语料或语义化数据进行系列处理、转化和展示的方法流程,可以说,从语料库到数据库、知识库,从知识组织到知识发现、知识图谱等,无不浸透着可视化的技术需求与逻辑。

早在20世纪90年代末中国计算史学“信息转向”初期,可视化就已凝结在以历史数据库和历史地理信息系统等为代表的成果中,只是当时的数字化古籍史料大多只有时间的序列性展示[37]。随着数字技术和计算方法的不断更新,特别是历史文本挖掘的多样化与复杂化,使得可视化的细粒度和决策力越发显现。单就可视化载体而言,数字化文本、界面、网站、数据库、地图、主题图、动态图像、视频,甚至与AR/VR相结合的人机交互系统可谓眼花缭乱。无论是数据挖掘或社会网络分析结果如何复杂,都能以直观形象、有效交互的方式呈现,并且通过可视化的描述和表达帮助史学工作者快速发现历史数据中隐藏的关系、特征及模式,以为进一步分析历史变化的趋势、规律等做准备。在此情况下,可视化技术与历史文本挖掘过程也越发紧密,如欧阳剑的大规模古籍文献可视化项目,就是在借助大规模古籍文本语料来研究汉语历史词汇演化及过程规律的基础上,实现了实时、在线、可视化的历史词频分布规律定量分析的展示效果[38]。

在目前主流的可视化技术与成果中,GIS历史地理信息系统可能是应用情景最广泛的领域或方向之一。GIS最大优势是通过地图形式来实现视觉化效果、地理分析功能和不同层信息的多维时空展示。从1996年台湾“中研院”中国历史文化地图系统(CCTS)、2001年台湾文化历史地图系统(THCTS),到同年(2001)复旦大学与哈佛大学等合作开发的中国历史地理信息系统(CHGIS)、2017年中南民族大学的唐宋文学编年地图平台等,都是学界公认的杰出项目和案例示范,由此衍生出的理念和研究更是丰富,如唐宋文学编年地图平台团队发掘的“系地”理念[39]等。2009年,王晓光指出:“GIS的历史地理可视化是计算人文的实践前沿”[22],这一论断依然适用于十多年后的今天,因为几乎每一次信息技术发展都会同步带来GIS历史地理信息系统的更新。值得注意的是,随着GIS历史地理信息系统的深化与拓展,以三维建模与虚拟现实为技术特征的新兴空间史学开始兴起并展现巨大潜能,甚至有学者认为历史地理信息化已是计算史学领域中技术性最强、科学化程度最高的分支体系[40]。

3   在反思中思考计算史学的未来

在计算史学热潮之下,越是热潮涌动的时刻,越应冷静地有所思考与回应,甚至一些带有“破坏性”的反思,都将帮助计算史学走得更远。唯有经历纷争与激荡,我们才有可能从中拨开万象、寻觅计算史学的真核并不断强化其科学性。由此出发,我们将从计算史学的学术、技术与人文等三个方面及其关系着手进行反思,并尽可能客观与科学地展望计算史学在学科、学术与话语等方面的趋势与前景。

3.1    对于计算史学历史与现状的反思

(1)计算史学热潮的“冷”。随着相关论文与新增项目越来越多、会议讨论与学者发声越来越热,计算史学已越来越成为一场不可逆转的趋势,乐观者更是在期待一场新的更为深刻的史学变革的降临。但我们不能忽略的是,在此热潮之下依然有不少学者保持审慎甚至警惕心理,如陈鹏就反思过史料型数据库,指出“由于其设计上的缺陷、学者自身学识和治学态度的影响,在使用过程中,不可避免地会暴露各种问题,值得我们警惕和深思”[41]。我们当然不能也无法漠视不同的声音,但更重要的是理解其背后的逻辑与认清本质的症结。客观地讲,近十多年的计算史学类论文发表量确实呈激增态势,但可惜的是,至今还未出现具有轰动或“破圈”效应的成果或发现。如果进一步梳理就会发现:研究成果看似多但是基础创新相对少,面向文本、数据和方法论的应用型、专门类文章多,有深度的原创性、综合性研究少,更有一些研究只是纯粹地紧跟热点,要么浅尝辄止,要么拙劣模仿。计算史学的“交叉”优势并未真正显现,其背后研究者的合作与联动更是乏乏,因此也就不难理解如此局面:图情学背景的学者善于技术应用和数据挖掘,但很难再进一步进行“解释”和“叙事”;历史学者多从宏观角度论述,虽不乏前瞻和思辨性,但缺少实证和技术支撑只能流于泛泛而谈。当下计算史学的所谓“繁荣”带有很大的虚假色彩与“泡沫”成分,我们应清醒认知计算史学所处的“初步”阶段,并在深刻解析基本问题的基础上予以匡正和不断纠偏。

(2)计算史学技术的“度”。“计算”是计算史学有别于传统或常规史学的内核,而计算的实现则是信息技术革新和应用的结果。计算技术对于计算史学的意义不言而喻,对于个体来说,一个最基本的感受应该是信息技术对于历史文本信息处理效率与效力的极大提升;从学科层面看,技术最质性的作用是让历史学新增了一套量化方法论,即在原有的“问题驱动”之外还可以采用“数据驱动”的方式开展史学研究。当计算史学的技术与方法不断展现出超人力的优越性与便捷感时,人们便会不自觉地忽视技术的局限性甚至“双刃剑”的一面。任何技术皆非万能,计算技术也是。计算史学真正的研究对象是数据,文本只有数字化才能被计算机所识别并计算,在此过程中,研究人员需花费大量时间开展数据清洗、元数据标注等工作,这是不折不扣且不能懈怠的“手工活”。同时,数据化的过程也是信息去差異化的过程,将文献史料剥离变成结构化、同质性数据的时候必然伴随信息的流失,这又是无法避免的“代价”。在集成数据库后,尽管方便和简化了史学工作对于史料的获取,但检索得到的资料还是要“进行人工科学鉴别筛选和分析排比”[42],这其实更需要时间和考验功力。因此,我们在运用计算技术与方法的时候,应注意并分辨其适合的领域和擅长的方式,由此演绎而得,整个历史学研究也应把握好技术的限度,在方法论上不应有倾向性,更不应该盲目迷信量化的力量,而是根据问题需要和资料条件有所取舍,也就是刘子健所说的“史采佳法,因题制宜”[43]。

(3)计算史学主体的“人”。计算史学丰富的数据和强大的运算逻辑促成了历史研究的流程化、扁平化,某种程度上降低了史学领域的门槛,史学工作者不用“板凳坐得十年冷”,只需经过模型建构和软件分析就能快速产出成果。在此情况下,以“计算”为面向的技术与方法论思维就不可避免地萌生、壮大并侵蚀传统的人文思维,人的自然定义不断遭受挑战,人与术之间的伦理关系也势必更加紧张。历史上人们就曾因过度痴迷和推崇量化史学技术而一度掉入“量化陷阱”,如今我们更要警惕与防止计算史学中人性淡化与人文精神缺失现象的发生。令人担忧的是,这种苗头已有所展现。在计算风潮之下,历史学特别是青年学者高度重视和依赖新软件与数据平台,对于新技术的追求要远胜过自身理论素养和人文精神的提升。庆幸的是,已有学者有所注意,如张耀铭就直言不讳道:“某些数字人文倡导者重数据轻思想、重图像轻文字、重印证轻发现,推崇数据中心论,从而使人文研究失去人文意义。”[44]计算史学毕竟仍属史学范畴,应该既保持人的时刻“在场”以解释数字背后的规律和意义,更需要人的才学和素养来对过去的“真实”进行完整、生动而优美的表述。假想一下:如果历史研究只剩下冷冰冰的数字而变得苍白无趣,人们还会对历史有所期待和幻想吗?因此好的计算史学及其技术不仅不会消解人的主体性,反而会为研究者创造良好的平台以助其更好地发挥历史想象力和创造力;相应地,好的史学工作者不单要提升技能,更应在史识、史智、史德方面不断加强修炼。

3.2    基于计算史学历史与现状的趋势

(1)学科:融通文理科的大历史。习近平总书记在致第二十二届国际历史科学大会和致中国历史研究院成立的贺信中均强调,历史研究是一切社会科学的基础。该科学论断在阐明历史学在人文社会科学领域中的超然地位和作用的同时,也从侧面揭示出历史学广博、通达的内在意蕴。历史学很早就成为涉及面宽广、流派旁支繁杂的学科之一,但基本限于人文社科领域,如今随着计算史学分支的壮大,历史学的边界不仅将进一步扩张,并且开始首次真正触及并有望打破文、理科之间的壁垒。在史学的众多分支或流派中,计算史学的“跨学科”色彩可谓最浓厚。尽管学科性质从属人文领域,但方法论却是不折不扣的自然科学属性。有学者指出:“数字人文的产生在本质上是一种方法论和研究范式的创新,核心目标是将现代信息技术融入人文领域。”[45]信息技术本身就是一类高度交叉与复合型的“方法论集合体”,它以数理为底层逻辑,包含计算机、微电子、传感、网络通信甚至传媒等多项技术体系,因此真正的计算史学体系必然涵盖文、史、理、工等多个学科领域;其次,信息技术的基础性与强渗透性也会加快历史学与其他文理学科的对话与互通,因为无论是人文、社会还是自然科学,当它们在引入和融合信息技术时,实质上就在共享共用同一套工具和方法。不能忽视的还有计算史学的公众特质。借助可视化与互联网,历史类问题和话题可以顺畅地进入公共生活中,成为民众日常生活中关心、观察和讨论的对象,由此计算史学也不再是小部分职业研究人员的专属领域,而是全民、全社会共襄共进的大历史事业。

(2)学术:贯通宏微观的整体史。历史学按研究对象大小通常有宏、微观之分。自近代以来的史学史,基本上可以理解为宏观史和微观史之间彼此交锋、彼退我进的历史。宏观研究受限于史料不足和分布不均总不可避免地陷入“见林不见木”,而且往往带有举隅和例证;微观研究则无法确保零碎的史料能代表整体的普遍意义,故无论如何“解释”也很难跳出“一叶障目”的桎梏。历史学家自然知道无论宏观史还是微观史都各有特点与缺陷,且都无法代替历史的“整体”,真正的历史应该宏微融合兼而有之,但是由于史料来源和利用方式的不同,两者之间的沟壑很难消弭,因此只能偏重一方并不断尝试以之为主体来“纠正”另一方。计算史学所引发的“史料革命”让我们看到了解决上述难题的可能性。理论上,计算史学能够拥有无限大的海量数据,即吴玲所说的“全史料数据平台”[46],同时通过相关软件与智能计算可以将众多同类证据合并融入而不显烦琐,从而实现对传统史学“选精”或“集萃”的超越。更重要的是,基于大数据计算所发现的现象必然是长时段或多代际的“整体”或“宏观”面向,通过计算分类和数据关联后得到的“局部”或偏微观性发现又能保持与宏观研究的统一与互证性。这种“整体史”范式既具宏大视野、又有微观观察,既有解释力又具叙事性;并且随着持续践行,又进一步导致研究对象、材料、范式呈良性循环式的扩增和深化。因此,我们有理由相信,李金铮设想的“不断扩大历史研究的全面史、普遍史”“以整体史指导具体或碎片史”[47]的愿景将会在未来真正实现。

(3)话语:汇通东西方的中国史。中国史学传统源远流长,很早就形成了一套有别于西方的完整而精密的治学理念、史学理论与话语体系,但自西方“文艺复兴”与工业革命之后,中西历史的“形态之分”变成了“高下之别”。近代西学东渐后至今,中国史学从思维到理论、从底层到体系的方方面面皆带有西方史学的印迹,甚至新领域与新路径的开辟,通常都是追随西方史学新进展的结果。对于个体学者来说,无论中西只要有创获即可;但当一个群体乃至全民来反思较大领域甚至整个史学架构时,中国史“话语权缺失”的弊端和焦虑感便会凸显。史学家已普遍意识到构建具有中国特色、风格、气象的中国史话语体系的重要性和紧迫性[48],难点在于具体操作,因为话语权的提升或掌握必须要以相关新颖、独到或创造性理念、理论、概念、方法或范式为基础,而中国史学已受西方史学熏陶百余年,采用西法来突破西法本就不易,更关键的还需得到西方主流史学界的认同。就认同感而言,计算史学具有先天优势,西方比中国更早地设想并拥抱“数字化生存”,甚至计算人文被很多西方学者视为“解救疲软人文学科的一剂良药”[49],而中西方在前沿技術的研究与应用上的差距并不大,中国实现“弯道超车”相对不难。最重要的,尽管东西方共享同样的“计算”方法和范式,但我国留存有超过任何一国规模的历史文本,数量庞大、脉络完整、体裁多元,堪为数据“宝矿”。沿循“从知识发现到规律揭示”的路径,中国计算史学的研究成果既合中国国情,又能受西方认同,由此不断累积并凝练出的中国史话语也必将汇通东西方,从而推动从“主权性的中国”迈向“主体性的中国”的实现。

总之,一个时代应该有一个时代的学术及其史学,计算史学所显现出的“史料革命”趋势与引发的“分析的历史”转向,从时代意义看不亚于人类从口口相传向文字书写的转变,从历史影响看不逊于活字印刷术所带来的知识与社会革命。在这场思潮中,每一个历史学人都无法置身事外,当我们对中国计算史学进行审视并抱以憧憬时,既不能忘记其百年历程的经验教训,也不能忽视其繁荣表象下的“泡沫”问题,尤其是自史学可计算以来,作为计算史学两大基本面的“计算”与“人文”一直是一对彼进我退的矛盾体。如何有效处理与融合计算史学内蕴的技术性与人文性关系,并真正实现“大历史”学科、“整体史”学术与“中国史”话语的宏大蓝图,关键在于保持史学“求真”的内核和属性。实事才能求是,求实才可证虚,历史研究应以客观事实为基础,这是古今中外历史学家不谋而和的最基本守则。尽管真实也是有限度的,我们不能完全复原绝对真实的历史,但可以不断趋近真实与靠近真相,这也正是当下计算史学受人推崇的根本原因,即对海量文献的掌握和对精妙方法的运用让人们看到了“发现更真的历史”的可能与希望;当然,对其质疑也同样源于此。从这个角度讲,无论未来计算史学呈何种形态都无法与传统史学相切割,因为就实操层面而言我们还是得从“史料”与“史法”等传统史学范畴认定的底层规范去着手,特别是前者,毕竟再精进的计算技术也无法改变史学以史料为基础与第一步的规律事实,更难以脱离人力去解决史料代表性与数据清洗等难题,正如在近代中国史学史上起过重要作用的《益世报·史学专刊》发刊词中所指出的,“我们不愿依恋过去枯朽的骸骨,也不肯盲目地穿上流行的各种争奇夸异的新装,我们的目标只是求真”[50]。

参考文献:

[1]  梁启超.历史统计学[A].梁启超全集(第十四卷)[M].北京:北京出版社,1999.

[2]  汤象龙.《北宋的土地分配与社会骚动》附注[A].陈润成,李欣荣.张荫麟全集(下卷)[M].北京:清华大学出版社,2013.

[3]  (法)保尔·拉法格.中共中央马克思恩格斯列宁斯大林著作编译局,编译.摩尔和将军——回忆马克思和恩格斯[M].北京:人民出版社,1982.

[4]  霍俊江.计量史学研究入门[M].北京:北京大学出版社,2012.

[5]  孙圣民.历史计量学五十年——经济学和史学范式的冲突、融合与发展[J].中国社会科学,2009(4):142-161,207.

[6]  钱学森,沈大德,吴廷嘉.用系统科学方法使历史科学定量化[J].历史研究,1986(4):7-14.

[7]  何顺果.关于美国国内市场形成问题[J].历史研究,1986(6):174-189.

[8]  蒋大椿.自然科学的发展与历史唯物主义的形成[J].历史研究,1986(2):3-16.

[9]  王学典.近五十年的中国历史学[J].历史研究,2004(1):165-190,193.

[10]  姜锡东.微机与史学研究手段的现代化[J].史学理论研究,1992(4):137-143.

[11]  吴承明.经济史:历史观与方法论[J].中国经济史研究,2001(3):5-24.

[12]  路振光.因特网上史学信息资源粗探[J].史学月刊,1999(4):2-7.

[13]  黄一农.张家山汉墓竹简《奏谳书》纪日干支小考[J].考古,2005(10):73-75.

[14]  谢乃和.别让“E—考据”成为“伪考据”[N].中国社会科学报,2013-01-25(2).

[15]  王旭东.数字世界史:有关前提、范式及适用性的思考[J].安徽大学学报,2006(6):96-101.

[16]  周兵.历史学与新媒体:数字史学刍议[J].甘肃社会科学,2013(5):63-67.

[17]  焦润明.网络史学论纲[J].史学理论研究,2009(4):101-110,160.

[18]  李剑鸣,王晴佳,王加丰,等.互联网与史学观念变革[J].史学理论研究,2011(4):4-22.

[19]  王旭东.信息史学建构的跨学科探索[J].中国社会科学,2019(7):159-185,208.

[20]  黄水清.人文计算与数字人文:概念、问题、范式及关键环节[J].图书馆建设,2019(5):68-78.

[21]  李振,奚建武.信息化进程的前沿探索——“数字化与21世纪人文精神”研討会综述[J].探索与争鸣,2003(2):34-36.

[22]  王晓光.“数字人文”的产生、发展与前沿[A].全国高校社会科学科研管理研究会.方法创新与哲学社会科学发展[C].武汉:武汉大学出版社,2010.

[23]  (法)郎格诺瓦,瑟诺博司.李思纯,译.史学原论[M].上海:商务印书馆,1926.

[24]  刘萍.“史料革命”:近十年来的史料学研究及反思[J].北方论丛,2021(5):43-53.

[25]  梁晨,董浩,李中清.量化数据库与历史研究[J].历史研究,2015(2):113-128,191-192.

[26]  梁晨,董浩.必要与如何:基于历史资料的量化数据库构建与分析 以大学生学籍卡片资料为中心的讨论[J].社会,2015,35(2):94-108.

[27]  邓君,宋先智,钟楚依.我国数字人文领域研究热点及前沿探析[J].现代情报,2019,39(10):154-164.

[28]  黄水清,王东波,何琳.以《汉学引得丛刊》为领域词表的先秦典籍自动分词探讨[J].图书情报工作,2015,59(11):127-133.

[29]  陈力.数字人文视域下的古籍数字化与古典知识库建设问题[J].中国图书馆学报,2022,48(2):36-46.

[30]  徐晨飞,包平,张惠敏,等.基于关联数据的方志物产史料语义化知识组织研究[J].大学图书馆学报,2020,38(6):78-88.

[31]  William J Frawley,Gregory Piatesky-Shapiro,Christo-pher J.Matheus.Knowledge Discovery in Databases:An Over-view[J].AI Magazine,1992,13(1):57-70.

[32]  陆宇杰,许鑫,郭金龙.文本挖掘在人文社会科学研究中的典型应用述评[J].图书情报工作,2012,56(8):18-25.

[33]  孙辉.数字人文研究框架探析与思考[J].情报理论与实践,2018,41(7):7-13.

[34]  刘浏,黄水清,孟凯,等.《春秋》三传女性人物的人文计算研究[J].图书情报工作,2020,64(23):109-123.

[35]  范文洁,李忠凯,黄水清.基于社会网络分析的《左传》战争计量及可视化研究[J].图书情报工作,2020,64(6):90-99.

[36]  刘圣婴,王丽华,刘炜,等.数字人文的研究范式与平台建设[J].图书情报知识,2022,39(1):6-29.

[37]  李明杰.数字环境下古籍整理范式的传承与拓新[J].中国图书馆学报,2015,41(5):99-110.

[38]  欧阳剑.面向数字人文研究的大规模古籍文本可视化分析与挖掘[J].中国图书馆学报,2016,42(2):66-80.

[39]  王兆鹏,邵大为.数字人文在古代文学研究中的初步实践及学术意义[J].中国社会科学,2020(8):108-129,206-207.

[40]  赵薇.数字时代人文学研究的变革与超越——数字人文在中国[J].探索与争鸣,2021(6):191-206,232,233.

[41]  陈鹏.新世纪以来的史料型数据库建设与中国近代史研究[J].国家图书馆学刊,2013,22(6):33-38,32.

[42]  陈爽.回归传统:浅谈数字化时代的史料处理与运用[J].史学月刊,2015(1):14-17.

[43]  刘子健.史学的方法、技术与危机[J].新史学(台北),1990(1):14-21.

[44]  张耀铭.数字人文的价值与悖论[J].澳门理工学报,2019(4):26-31.

[45]  金玲娟.我国图书馆数字人文服务现状、障碍与对策研究[J].图书馆工作与研究,2018(9):15-20.

[46]  吴玲.大数据时代历史学研究若干趋势[J].北方论丛,2015(5):68-70.

[47]  李金铮.整体史:历史研究的“三位一体”[J].近代史研究,2012(5):24-28.

[48]  荣剑.论历史观与历史价值观——对中国史学理论若干前提性问题的再认识[J].中国社会科学,2010(1):17-34,221.

[49]  王涛.“数字史学”:现状、问题与展望[J].江海学刊,2017(2):172-176.

[50]  发刊词[N].益世报·史学专刊,1935-04-30(1).

作者简介:陈加晋,男,南京农业大学马克思主义学院师资博士后;卢勇,男,南京农业大学中国农业遗产研究室教授,博士生导师。

猜你喜欢
数字人文
图书馆未来的技术应用与发展
数据驱动下的高校图书馆数字人文服务研究
汉传佛教文化遗产数字化建设现状调查与特征分析
数字人文2011—2016年研究综述
数字人文时代公共图书馆经典阅读推广研究
数字人文时代公共图书馆经典阅读推广研究
数字人文目标下图书馆信息服务模式研究
数字学术与公众科学:数字图书馆新生态
跨界与融合:全球视野下的数字人文
跨界与融合:全球视野下的数字人文