北美与西欧的数字人文中国研究状况论析

2018-01-29 05:32荷兰李友仁宋迎春

山东社会科学 2018年7期

[荷兰]李友仁撰　宋迎春译

(莱顿大学数字人文中心，荷兰莱顿　2311)

过去5—10年间，在西方的中国研究中，数字人文的应用有了长足的进步。这一领域快速发展，从研究生到教授等各个层次的学者对之产生兴趣。以人们所致力领域的不断扩张为标志，数字人文中国研究(Digital Chinese Studies)经历了几个分明的阶段。早年间，大部分工作主要是基础建设性的，集中于数据库发展、平台构建和数字化等方面。近年来，新的实践群体已经涌现，学者们也开始利用过去30年中建立起来的重要基础。在中国历史和中国文学研究中，研究者们已经开始取得真正的进展。

关于研究中国的学者们运用数字方法所开展的工作，有众多不同的分类方式。一部分人继续构造并完善大规模的基础建设项目，而一些研究历史、文学和艺术的个体学者如今则使用包括地理、网络、文本和图像分析在内的各种方法。在这篇短文中，我将简单地介绍北美和欧洲的数字人文中国研究中的几种主要潮流，还将介绍一些主要的研究者。要在这些众多分类中划出清晰的边界是困难的(数据、基础结构和研究工作往往会相互生成)，不过我仍会首先简要概述几个主要的数字基础建设项目(其中既有老的，也有新的)，接下来我会讨论当下研究中的各种潮流，最后以对正在出现的数字人文中国研究新研究中心的讨论作结。需要留意的是，这篇文章并非涵盖一切，而只是意在描述我对这一领域当下状况的看法。

一、数据挖掘与基础结构创建发展迅猛

西方的中国研究中最早的数字人文项目主要致力于数据库建设与数字化。这些数据库项目中，最为著名，使用者也最为广泛的，也许是由郝若贝(Robert Hartwell)的工作所开创的“中国传记数据库”(CBDB)。*“History of CBDB,” Harvard University, 2018年2月8日查阅，https://projects.iq.harvard.edu/cbdb/history-of-cbdb。Robert Hartwell (1932—1996) 是一位研究宋代中国的经济和社会历史学家。CBDB是一个关系数据库，包含了众多重要历史人物的传记，其结构方式则有助于大规模分析。CBDB可以被用作一种简单的参考文献来源，也是一种查询个体人物信息的快捷方式，但其真正价值在于它所支持的新的分析类型。例如，CBDB包含了库中许多人物之间的互动数据，这让学者们得以通过系统的方式展开历史社会结构研究。

CBDB的设计用途是一个可下载数据库，使用微软Access来支持其众多特色。它也可以被当作一个单纯的在线服务来访问，这也正是许多人利用它的方式。其最新迭代最初是由傅君劢(Michael Fuller)设计的，并由陈松加以扩展。*“History of CBDB,” Harvard University.哈佛大学、台湾“中研院”历史语言研究所以及北京大学的一批学者至今仍在维护和扩充这一数据库。*Harvard University, Academia Sinica, and Peking University, “China Biographical Database,” 最后修订于2018年1月1日，https://projects.iq.harvard.edu/cbdb.截至2017年4月发布的内容，CBDB包含了有关约37万个历史人物的大量群体传记信息。*Harvard University, Academia Sinica, and Peking University, “China Biographical Database”.

与CBDB十分类似，中国历史地理信息系统(CHGIS)是另一个由郝若贝创建的数据库。*“Project History,” Harvard University，访问于2018年2月8日，http://sites.fas.harvard.edu/～chgis/pages/history.它一直位于哈佛大学(合作方为复旦大学)，其维护受葛剑雄、包弼德(Peter Bol)和莱克斯·伯曼(Lex Berman)的指导。这一数据库包含了有关中国历史的详尽图形文件。

诸如CBDB和CHGIS等项目的主要推动者是历史学家们，而图书馆学家们同样出现在数字研究发展浪潮的前沿，并在我们当前的数字研究生态系统的建设中发挥了关键作用。令人遗憾的是，一个曾在这一领域有过卓越贡献的重要早期项目在数年前就停止了运行。至少在西方的大学里，这个项目是停止了。中文善本图书项目(Chinese Rare Book Project)曾为善本中文图书开发了一套联合目录*“Chinese Rare Books in a Union Catalog,” OCLC，访问于2018年2月10日，https://www.oclc.org/research/activities/chineserarebooks.html.，该项目由普林斯顿大学的艾思仁(Soren Edgren)牵头，尽管如今项目已经结束，其数据却并未流失。幸运的是，大部分数据被整合到了WorldCat在线目录中，而项目本身也在2011年被转移到了北京的中国国家图书馆。*“Soren Edgren,” Rare Book School，访问于2018年2月10日，http://rarebookschool.org/faculty/history/soren-edgren.在创建这一联合目录的过程中，莎拉·艾尔曼(Sarah Elman)、陈智华(音译，Chi-wah Chan)和团队中的其他学者共同制订并发表了一套准则，用以指引一种能够将这些书以机器可识别的格式进行归目，又能反映传统文献研究的系统性方法。这套准则初次发表于2000年，并在2009年得到修订。*Cataloging Guidelines for Creating Chinese Rare Book Records in Machine-Readable Form (Mountain View: Research Library Group, 2009)，http://www.eastasianlib.org/ctp/webinars/ChineseRareBook/CRBP_guidelines.pdf.这份资料的制订发挥了关键作用，让更多人得以接触这些善本图书。不仅如此，它也为我本人关于中国印刷潮流的量化分析奠定了基础。*Paul Vierthaler, “Analyzing Printing Trends in Late Imperial China Using Large Bibliometric Datasets,”Harvard Journal of Asiatic Studies 76 no. 1/2 (2016): 87-133.

尽管各有完全不同的目标，但以上各个项目都着眼于发展结构化的数据集。对于我们中那些致力于文本挖掘的人而言，因中文语言文献的数字化及其被纳入语料库的过程而诞生的未结构化的数据集也同样重要。在这一方面，亚洲学者们已经取得了重大成果，西方的进展也不逊色。截至2018年2月，这些项目中最大的一个是“中文文本项目”(Chinese Text Project，简称CText)，其创立者和负责人是唐纳德·斯特金(Donald Sturgeon)。*Donald Sturgeon, Chinese Text Project，访问于2018年2月8日，http://www.ctext.org.这一项目从早期中文经典著作开始，已经成长为全球最大的开源中文数字文本库。*Sturgeon, “Introduction,” Chinese Text Project，访问于2018年2月8日，http://ctext.org/introduction.“中文文本项目”如今包含的经过数字化转录的中文文本超过50亿字，其中许多文本都经由CText社区成员的细心编辑。2016年，CText开始收录哈佛-燕京图书馆所藏众多中文善本图书的扫描件(扫描图片超过500万页)。*Sturgeon, “Latest Addition,” Chinese Text Project，访问于2018年2月8日，http://ctext.org.斯特金运用光学字符识别技术(OCR)，为这些图片创建了可以完全由机器识别的版本。*Sturgeon, “Optical Character Recognition,” Chinese Text Project，访问于2018年2月8日，http://ctext.org/instructions/ocr.

CText没有局限于其最初致力收录的古代文本的范围，而是纳入了来自中国历史上所有时期、种类极为广泛的文献。其他项目则更特别着眼于某些特定类别的文本。例如，马克斯·普朗克科学史研究所(Max Planck Institute for the History of Science)的地方志数据库项目就创建了一个数据库和分析平台，旨在让研究者能够直接访问地方志的数字版本。这些文献出自地方上的重要人物之手，往往包含着有关当地环境的广泛信息(既有政治的，也有生态、语言及更多方面的)。项目的主要开发者——薛凤(Dagmar Schäfer)教授和陈诗沛博士——希望他们提供的材料和分析工具能促进对地方历史的分析。这一项目“着眼于探索尺度的改变(地方记录从个别的地方志转入单一的全球数据库)会如何重塑中国历史研究的面貌”*“Local Gazeteers,” Max Planck Institute for the History of Science，访问于2018年2月12日，https://www.mpiwg-berlin.mpg.de/research/projects/departmentSchaefer_SPC_MS_LocalGazetteers.。

在这种专为某个特定类别的写作创建文本库的努力中，另一个例子是“明清女性写作”(Ming-Qing Women’s Writings)项目。该项目由麦吉尔大学的方秀洁(Grace Fong)教授负责，始于2003年，至今仍在扩充之中。如今，它收录的明清时代女性著作的扫描版共有342个不同类别，纳入了超过5000名女性作者的作品。*Grace Fong, “Introduction to the Digital Archive of Ming-Qing Women’s Writings,” McGill University，访问于2018年2月13日，http://digital.library.mcgill.ca/mingqing/english/introduction.php.

满族研究领域的学者们同样开发了他们的平台和文本库。Manc.hu就是一个收录了众多满语文献的阅读平台，由莱顿大学的京以宬(Fresco Sam-Sin)和利昂·罗登伯格(Léon Rodenburg)开发。

在创建上述种种数据的过程中，一些项目还开发了旨在让学者们可以高效地浏览和分析数据的工具。CBDB的Access版本就包含了众多能让使用者查阅数据库并迅速建立关系网络的工具。CText也整合了各种工具(如词典、索引工具，以及平行段落识别工具)，能帮助使用者对CText文本库所收录的著作进行细读，并执行基本文本挖掘任务，而这些工具的数量还在不断增长。*Sturgeon, “Tools,” Chinese Text Project，访问于2018年2月8日，http://ctext.org/tools.“明清女性写作”项目所构建的数据库则包含了大量有关这些作品的元数据(从作者的姓名到个体诗歌的格律)。

在那些将大量精力投注于数据创建的项目之外，独立于内容扩充的工具开发也出现了。在过去大约5年时间里，众多旨在帮助学者阅读和标记源文本的平台得以问世。由莱顿大学的魏希德(Hilde De Weerdt)和何浩洋(Brent Ho)创建的古籍半自动标示平台MARKUS即为一例。它允许使用者上传前现代的中文文本，并可以自动为之加上人物、地点以及使用者定制概念等种种标签。MARKUS还拥有其他特点，能让使用者自动创建“地理信息系统”(Geographic Information System，简称GIS)，视觉化数据(即地图)，并将标记后的结果数据输出，以便在其他平台上进行分析。*Brent Hou Ieong Ho and Hilde De Weerdt, MARKUS. Text Analysis and Reading Platform，访问于2018年2月14日，http://dh.chinese-empires.eu/markus.

近年出现的这种工具开发的繁荣局面有赖于数字人文研究中一个重要的新潮流。这一潮流与数字人文领域对开源精神的接受紧密相关(并且部分有赖于后者)，而后者又表现为汉学研究数据库及工具的主要开发者们对应用编程接口(APIs)的广泛创建。应用编程接口使得软件开发者可以直接从他人的服务器上提取信息(在某些情况下也可以整合某种特定工具的功能)。CText、CBDB以及其他项目全都包含了此类访问功能，这有助于创建一种项目之间彼此衍生、紧密关联的生态系统。在这方面，MARKUS堪称典范：使用者可以通过CText插件直接输入文本，并使用CBDB、汉典ZDIC以及其他数据源的信息来自动标注文本。

让MARKUS(以及其他类似项目)得以成为一种可变研究平台的，是完全转化为数字版本的文本数量的增加。学者们如今能够以过去不可想象的方式来处理文本，以揭示陈旧的研究方法难以辨识的信息和倾向。然而，其他一些重要的努力则致力于利用互联网的社区属性，构建起以技术方式对数千年来一直发挥重要作用的研究方法(诸如注释和翻译等)加以组织的平台。耶鲁大学的“广厦千万间”项目(Ten Thousand Rooms Project)便是这种努力的典范之一。该项目由梅隆基金会(Andrew W. Mellon Foundation)资助，由吕立亭(Tina Lu)和米克·亨特(Mick Hunter)负责，自我描述为“前现代文本研究协作空间”*“The Ten Thousand Rooms Project,” Yale University，访问于2018年2月10日，https://tenthousandrooms.yale.edu.。使用者可以通过斯坦福大学开发的、符合国际图像互操作框架(IIIF)的Mirador浏览器，向“广厦千万间”平台上传文献的扫描图像，并围绕它们来构建研究项目。*“The Ten Thousand Rooms Project,” Yale University，访问于2018年2月10日，https://tenthousandrooms.yale.edu.任何感兴趣的人都可以加入并创建项目。“广厦千万间”被设计为一个允许学者们就公版文献展开协作研究的平台，其核心创造性就在于这一平台旨在支持的研究工作的众包和协作属性。这种做法具有研究和教学两方面的意义。由于多人能够对同一文本进行研究，世界任何角落的学者群体都可以轻易地展开协作，为某部唐诗集创建一个注释版本。此外，大学里的课程也可以对某部明清小说进行转录、翻译和评注。最重要的是，这些工作无须是文本性的。学者们也可以上传艺术作品图像，并直接注释它们。“广厦千万间”项目的运行基于“知识共享”(Creative Commons)的署名非商业用途许可，因此是对公众开放的，任何人都可以阅览这些协作项目的成果。目前已经有近50个研究和课程项目出现在这一平台上。

欧洲和北美的中文数字人文研究的工具开发领域正值繁荣期，许多新的项目在开发之中。这些项目数量太多，我难以一一给予恰当介绍。不过，其中有几个项目尤为重要，略过它们将是我的疏忽。以Intertext项目为例：有不少项目旨在开发出某种软件，用以识别不同文献中出现的文本重复，Intertext便是其中之一。*“Intertext (beta 0.8),” University of Chicago, 访问于2018年2月12日，http://edoc.uchicago.edu/textccr/textconcordancer.php。Intertext是芝加哥大学的一个项目，主要由Jeff Tharsen 开发(我曾有限地参考过该项目)。在这一领域中努力的也有其他人，例如Donald Sturgeon, “Unsupervised identification of text reuse in early Chinese literature,” Digital Scholarship in the Humanities (November 2017)，https://doi.org/10.1093/llc/fqx024.我也曾开发一种类似的实验性算法，在文本库水平执行，对上千种文献进行比较。其目的在于帮助那些不会编程的人使用远程阅读工具。另一个项目是“汉典古籍的主题模型化”(Topic Modeling the Handian Ancient Classics)，其目标与此类似。它使用主题模型方法，对早期中文文献之间的关系加以视觉化。这一项目(由美国国家人文基金会提供资助)的设计者是美国印第安纳大学的一个学者团体，而他们的合作学者则来自中国西安交通大学。这个团队开发了一种“主题浏览器”，以帮助学者视觉化他们得到的结果。*Colin Allen, et. al., “Topic Modeling the Handian Ancient Classics (汉典古籍)”, The Journal of Cultural Analytics (October 2017)，https://doi.org/10.22148/16.016.

二、研究态势日趋繁荣

此时应当已经很明显了：许多这样的数字化项目、基础建设项目与研究领域之间存在着一种共生关系(并且理当如此)。研究生成数据，数据生成基础结构。这一生成循环有时是一种自然的发展，其他时候则是出自设计(设计方案诞生于基金申请的写作阶段)。由莱顿大学的佛教学者乔纳森·斯科(Jonathan Silk)教授所主持、目前正处于初创之中的“开放语文学”(Open Philology)项目就是这类项目的一个例子。这一项目由欧洲研究委员会资助，旨在设计一种平台，自动将用中文与藏文书写的佛经加以排列。*这个问题在计算意义上相当复杂。该团队聘请了一名博士后研究员，专门负责解决这一问题。作为一名顾问，我也参与了这一项目。致力于这一项目的学者团队将为《大宝积经》(MahāratnakūtaCollection)的文本创造出评注版本，而该团队将要开发的平台则可以让学者们更有效率地探索某一给定文本的众多校订版本之间的文献学联系。

在诸多例子中，当下欧洲和北美数字人文中国研究领域所开展的研究都应当感谢这些从事数字基础建设的先行者，他们在亚洲和西方都进行了数字化和开发工作。数字人文中国研究领域的一些学者过去就曾为这些项目工作，陈松就是其中之一，他曾为哈佛大学的CBDB项目工作，并曾将GIS和基于CBDB信息的网络分析结合起来，以研究宋朝官员之间的网络关系。*Song Chen, “Native Incumbency and Elite Networks in Song Dynasty Sichuan: Evidence of the Turn of the Mid-Eleventh Century from China Biographical Database (CBDB),” Song, Yuan, and Conquest Dynasties Studies, (2008)，https://www.academia.edu/18396876/2008_conference_paper_Native_Incumbency_and_Elite_Networks_in_Song_Dynasty_Sichuan_Evidence_of_the_Turn_of_the_Mid-Eleventh_Century_from_China_Biographical_Database_CBDB_._Online_publication_via_online_via_the_Society_for_Song_Yuan_and_Conquest_Dynasties_Studies_2008.其他一些学者并没有这种与某个基础建设项目的历史联系，他们的研究工作大部分独立于这些项目。有许多学者如今在数字空间中展开研究，并利用这些开发成果；此外，尽管GIS和社会网络分析在数字人文中国研究中的历史更长，但随着学者们开始学习编程或是开始使用他人不断开发的新工具，文本挖掘正变得越发流行。几乎所有涉及我此前提到的各个项目的学者都积极参与到数字研究中，然而也有许多其他学者并未与这些较大的项目发生直接联系。与其他任何迅猛发展中的分支学科一样，北美和欧洲有太多学者投身这一领域，多到我无法一一提及。不过我将在此聊举几例，以展示这一领域中的学者人物和研究主题的多样性：陈威(Jack Chen，唐诗与《世说新语》的文本挖掘)、马瑞诗(Ruth Mostern，宋朝的GIS与地方志)、伊安·米勒(Ian M. Miller，对明朝历史进行文本挖掘以研究环境变化)、戴史翠(Maura Dykstra，明清法律文献的文本挖掘)、包美歌(Margaret Wan，明朝小说的文本挖掘与GIS研究)、詹森·普罗塔斯(Jason Protass，对宋朝佛教诗人的GIS/网络分析)、康森杰(Jeff Tharsen，对早期中文文本的语音学分析/文本挖掘)、文欣(唐、宋及中亚历史的文本挖掘/GIS)和韩瑞亚(Rania Huntington，志怪小说中的社会网络)；他们只是运用数字工具来理解中国历史和文学的学者群体中的一小部分。还有一些学者在西方接受训练，如今在亚洲工作，如刘晨(音译，Chen Liu，宋朝书信的文本挖掘)。此外，全球各地的大学中还有众多研究生使用数字方法，即将创造出优秀的研究成果。

传统学术领域中也出现了与此并行的发展，开始发表基于数字方法的学术成果。因此，这些学者的研究成果并非仅仅出现在专注于数字人文的期刊上，如《文化分析期刊》(JournalofCulturalAnalytics)或《人文学科中的数字学术》(DigitalScholarshipintheHumanities)，也出现在《早期近代中国》(EarlyMedievalChina)*例见Jack Chen, Zoe Borovsky, Yoh Kawano, and Ray Chen, “The Shishuo xinyu as Data Visualization,” Early Medieval China 20 (2014): 22-58.和《哈佛亚洲研究》(HarvardJournalofAsiaticStudies)*在其2016年刊中，HJAS 发表了该期刊第一篇数字研究领域的作品，即我关于大规模文献分析的文章，参见David Howell, “Editorial Preface,” Harvard Journal of Asiatic Studies 76 no. 1/2 (2016), vii.等历史悠久的中文研究期刊上。

三、团体与会议层出不穷

随着研究的繁荣，致力于数字人文的团体也蓬勃发展起来。在过去几年中，已经有了一系列重要的组织发展，为西方汉学研究领域的数字研究提供了助力，其中一个重要组织便是Facebook上的数字汉学研究群。该群由阿琳娜(Elena Valussi)、迈克·以基维斯(Mikael Ikivesi)和维习安(Christian Wittern)于2015年5月创建，截至2018年2月6日，它已经有了超过1000名成员，并成为中文数字人文讨论的活跃站点。学者们在群中分享会议消息、文章、职位列表，并征集文章。

此外，人们也在努力组织专为支持数字人文中国研究的长期计划。斯坦福大学的穆兰尼(Tom Mullaney)教授创建的DHAsia计划就是此类努力的重要范例。尽管该计划着眼于更广泛意义上的亚洲研究，但有许多中国研究学者参与其中。这个计划始于2016年，当时正有一群演讲者在斯坦福参加一次为期一周的短期驻校活动，期间他们发表演讲，为学生提供咨询，并为社区成员举办了一场研讨会。2018年，将有来自世界各地的近40名学者向DHAsia主办的一场会议提交论文(其中半数都是从事中国或中文材料研究的学者)。*“DHAsia 2018 Schedule Released,” DHAsia, 访问于2018年2月14日，http://dhasia.org/2018/01/dhasia-2018-schedule-released.

该领域还有一些更小规模的会议。美国霍普金斯大学的梅尔清(Tobie Meyer-Fong)教授在2017年10月组织了一场会议，名为“丰富的焦虑：数字时代清史研究的文献与方法”，讨论学者们如何面对浩如烟海的清史材料这一问题。*Late Imperial China的2017年12月刊上出现了一条关于此次会议的笔记：Emily Mokros, “Conference Note: Anxieties of Abundance: Sources and Methods for Qing Studies in the Digital Age,” Late Imperial China 38 no. 2 (December 2017): 153-156.加州大学圣芭芭拉分校的余泰明(Tom Mazanec)教授在2018年2月也组织了一次会议，名为“中国古典文学中的模式与网络：来自数字前沿的笔记”*“Conference: Patterns and Networks in Classical Chinese Literature: Notes From the Digital Frontier,” University of California, Santa Barbara, 访问于2018年2月13日，http://www.ihc.ucsb.edu/event/conference-patterns-networks-classical-chinese-literature-notes-digital-frontier.。然而，就在几年之前，数字汉学研究会议的层出不穷在北美还是闻所未闻的事。

尽管西方中国研究领域中数字人文的发展势头迅猛，但它仍然落后于其他领域。主要障碍之一在于正规培训的缺乏。关于更广泛的数字人文，已经有了一些培训项目(例如伦敦的国王学院便设有数字人文的硕士学位项目)。但相对而言，中文研究者的选项仍然十分有限。2016年，莱顿大学举办了一次数字人文暑期班，提供数据库设计、GIS、网络分析和文本挖掘方面的培训，吸引了来自全球的学生。哈佛大学也向研究生提供一些课程训练，斯特金就开设了一门名为“中国研究之数字方法”的课，以数学家安东尼·罗齐(Anthony Ruozzi)和我在2015年开设的实验性的“数字中国实验室”讲座为基础。*“Digital China,” Harvard University，访问于2018年2月13日，http://fairbank.fas.harvard.edu/projects/digital-china.然而此类课程的数量还远远不够广泛。除了这种非常设的项目，大部分数字人文中国研究的学者仍然只能依靠自学，或是从那些专长不在中国研究的学者那里接受培训。这种情况意味着许多人需要经历一个复杂的过程，学会如何将那些为西方研究设计的工具和方法转入一个新的文化与语言空间。

这一语言转换正是西方的数字人文中国研究发展较慢的主要原因之一。大部分西方数字人文学者的研究对象都是西方，这意味着大量工具的设计工作语言都是英语、法语或其他欧洲语言，并非总能轻易地应用于中文作品。最大的困难之一在于词的分割，即在中文语境中如何将文本分割为词语(我在与本文配合的那篇文章中深入讨论了这一问题)。就在不久之前，字符编码还是一个主要问题。尽管unicode编码标准已经存在了许多年，大量计算机工具仍未完全兼容它，或是兼容其他任何中文字符编码标准，如GB18030。幸运的是，随着计算机生态系统开始原生支持unicode，这种情况已经不再那么普遍了。编程语言Python的最新迭代Python 3已将unicode作为其默认的字符串格式，与使用bytecode的前一迭代Python 2不同。要理解数字人文中国研究的当前状况，关键在于认识到开发数字工具的学者和机构不断增加的开放性。这些工具越来越易于掌握，为学者们提供的结果也越来越令人鼓舞。随着各大学开始提供更广泛的培训，以及更多材料得以数字化，这一潮流还会加速。当下，数字人文研究者在某种程度上仍然隔绝在自己的小天地里，但这些方法将会逐渐成为学者工具箱中的标准配置。当然，并非所有学者都需要在工作中使用量化分析或文本挖掘，但他们需要熟悉这些方法，并能够评价它们，正如他们面对那些更广为接受的方法时一样。中国研究正处于一个激动人心的时刻，而我们将不断从新的方法和模型中了解到更多中国历史和文化中的有趣内容。

四、结语

本文完全着眼于西方数字人文汉学研究中以20世纪20年代前的材料为对象的部分，主要原因之一在于我本人的专长领域，但更迫切的理由是：数字方法有赖于使用数字化研究材料，而对那些研究更现代材料的学者来说，做到这一点要困难得多。这主要是因为版权上的限制：公版材料的入手更加容易，而要取得1925年之后出现的材料的使用许可，难度远大于前者。尽管如此，数字人文现代中国研究领域中仍然出现了一些重要的成果，包括但不限于弗莱堡大学的毛泽东遗产项目正在开展的工作(Daniel Leese、Wang Baigulahu、Amanda Schuman等)、戴安德(Anatoly Detwyler，关于20世纪20年代的科学与文学的研究)、苏真(Richard Jean So，现代中国文学)、郭旭光(Arunabh Ghosh，关于中华人民共和国初期的文献计量分析/文本挖掘)以及其他许多人的研究。