基于众包模式的美国反奴隶制手稿转录项目探析及其启示

2021-10-13 19:14李可儿陈建
档案管理 2021年5期

李可儿 陈建

摘  要:美国波士顿公共图书馆的反奴隶制手稿转录众包项目是档案众包实践的杰出代表,该众包项目在馆藏选择、平台应用、任务设计、激励机制、质量控制等方面具有诸多特色和创新。我国档案众包实践应积极吸收借鉴其先进做法,同时注重结合自身实际情况,在档案开放、需求导向、平台建设、技术创新、任务设计、社区建设、项目宣传等方面协同发力,加快档案众包实践的推进步伐,提升公共档案服务水平和公众获得感。

关键词:档案众包;波士顿公共图书馆;反奴隶制手稿转录项目;公众科学平台;馆藏档案

Abstract: The Anti-Slavery Manuscripts Transcription Crowdsourcing Project of Boston Public Library in the United States is an outstanding example of Archives crowdsourcing practice, which has many characteristics and innovations in collection selection, platform application, task design, incentive mechanism, quality control and other aspects. China's Archives crowdsourcing practice should actively absorb and learn from its advanced practice. At the same time, we should pay attention to combining actual situation of our own, and make concerted efforts in Archives opening, demand orientation, platform construction, technological innovation, task design, community construction, project publicity and other aspects to accelerate the pace of Archives crowdsourcing practice and improve the service level of public Archives and the sense of public gain.

Keywords: Archives crowdsourcing; Boston public library; Anti-slavery manuscripts transcription project; Citizen science platform; Collection archives

“众包(crowdsourcing)”是一个由“人群(crowd)”和“来源(source)”组成的术语,它最早由杰夫·豪于2006年在《连线》杂志中的文章《众包的崛起》[1]中提出。众包是指一个公司或机构把过去由员工执行的工作任务,以自由自愿的形式外包给非特定(而且通常是大型的)的大众网络的做法。[2][3]档案众包是以档案机构、社会公众为主体,档案资源为对象,互联网技术为依托而开展的档案资源建设实践。

本文特选取美国波士顿公共图书馆的反奴隶制手稿转录项目这一档案众包的典型案例作为研究对象,对其进行全面深入的分析,总结其特色及创新之处,并结合我国实际情况对档案众包工作提出具体建议。

1 档案众包模式兴起的实践背景分析

档案众包模式的兴起有其特定的实践背景,可概括为Web2.0技术的应用、业余爱好者的崛起、商业众包的成功经验三个方面。

1.1 Web2.0技术的应用。Web2.0不只是意味着技术的进步,也使得互联互享的精神深入人心,这为众包的发展提供了丰富的物质和精神基础。

1.2 业余爱好者的崛起。业余爱好者的崛起为众包提供了丰富的人力资源,一方面,众包以全世界的人才为基础;另一方面,就像不关心国籍一样,众包也不太关心专业资格,崇尚能者为王。[5]

1.3 商業众包的成功经验。众包最先应用于商业领域,各种成功案例为人们提供了许多有益的经验。Threadless公司通过众包竞赛的方式从网络上征集T恤设计方案;Goldcorp公司通过众包的方式发动群众勘探金矿的位置;众包平台mturk架起了企业与众包工作者之间的桥梁……这些经验为档案众包工作指明了方向。

2 波士顿公共图书馆反奴隶制手稿转录众包项目探析

2.1 项目简介。波士顿公共图书馆的反奴隶制收藏是美国最大和最重要的废奴主义材料收藏,包含从19世纪30年代至70年代的大约4万份函件、信封、报纸、手册、书籍和纪念品。主要藏品包括威廉·劳埃德·加里森、玛丽亚·韦斯顿·查普曼等人的文书,马萨诸塞州、新英格兰和女性反奴隶制协会的记录,以及威廉·劳埃德·加里森、西奥多·帕克等人的藏书。此外,该收藏还包括威廉·劳埃德·加里森的完整版《解放者》,该报纸是废奴运动的权威刊物,从1831年至1866年连续出版了35年。

反奴隶制手稿转录众包项目自2018年1月23日开始,到2020年8月12日结束,有26059人参与其中,共抄写了12247封信件。

2.2 馆藏选择。反奴隶制手稿十分契合开展档案众包工作的要求。其一,价值高、数量多且必须依靠人力才能完成转录。波士顿公共图书馆的反奴隶制收藏具有不可估量的历史价值和现实意义。由于馆藏的很大一部分为手写信件,靠当前的文字识别技术很难保证自动转录的准确度,只能依靠人工的力量去完成转录任务且只有靠众包才能解决这众多的困境。

其二,具有足够的吸引力。反奴隶制手稿收藏包罗万象,能够亲自转录对广大研究者、学生和历史文化爱好者而言是个不可多得的机会。

2.3 平台选择。该项目选择了第三方平台Zooniverse,它是全球最大、最受欢迎公众科学平台。截至2021年4月,Zooniverse拥有近223万注册志愿者,共完成近5.8亿次科学任务。[6]Zooniverse为公众科学项目的全过程提供全方位的技术和平台支持服务[7],这是普通的众包平台所不具备的独特优势。在Zooniverse创建项目十分便捷,同时,Zooniverse也为用户提供了相当强大的社区支持。[8]

2.4 任务设计。由于该项目的数据量大,需要人工判断,且可以分割成若干个小单元,故采取了“微任务”的众包形式。与以往的档案众包项目不同,反奴隶制手稿转录项目组将任务进一步细化,不再以“件”为一个任务,而是以“行”为一个任务单位,参与者可根据自身情况转录一行或几行。

项目转录界面简洁明了,且配有清晰易懂的教程。项目采取协同转录的形式,每位转录者在完成自己的任务后均须保存,否则转录内容将丢失。当一行文字受到了足够多次数的转录之后,行标记就会变为灰色,提醒后来的转录者去转录其他内容。当转录者发现一组文件的每一行都被转录过且行标记均为灰色时,就可以点击“完成”按钮进行最后的提交。

2.5 激励机制

2.5.1 授予勋章。当参与者完成了一定量的任务时,Zooniverse就会向他们颁发勋章。这些勋章是根据英国皇家的排名而命名的。最低一级的勋章为士,最高勋章为首长[9],它会被授予完成最多任务的人。授予勋章是对参与者工作能力的肯定,能让参与者获得满足感与成就感,以此形成良性循环。

2.5.2 社区互动。反奴隶制手稿转录项目拥有一个成熟的社区环境,利用Zooniverse的社区架构,项目组创建了属于自己的讨论社区。社区分为一般讨论、主题笔记、团队消息、自我介绍、解决问题等版块,满足了大部分的交流需求。良好的社区氛围也增强了参与者之间的凝聚力,给予他们一种归属感,这种情感上的激励也有利于人们更为积极地投入到项目中去。

2.6 质量控制。该项目质量控制包含前期、中期、后期三个方面。

2.6.1 前期——选择合适的参与者。像Facebook、Twitter这种大众社交网站上的网民素质良莠不齐,如果直接招募,后续将会花费大量时间和精力在筛选参与者上,不仅如此,被淘汰的网民很可能还会产生不满情绪,从而做出一些阻碍项目正常开展的行为。因此,相比传统的“海选”,更好的做法还是在特定的社群选择合适的参与者。

在Zooniverse注册成为参与者的人往往都受过科学教育,并对科学感兴趣,他们的参与无疑为保证项目质量提供了强有力的人才支撑,也有利于项目的持续推进。作为全球最大、最受欢迎公众科学平台,Zooniverse自然也不乏资深志愿者,他们不仅有着丰富的经验,还具有强大的影响力,与他们合作不仅可以促进项目的发展完善,也有利于扩大项目的知名度,从而吸引更多的人参与其中。

2.6.2 中期——创新工作方法。反奴隶制手稿转录项目创新了工作方法,与之前在Zooniverse登录的档案众包项目不同,它不再采用独立转录的形式,而是采用了一种新的工作方法——协同转录。两者最大的不同在于采用独立转录方法的參与者看不到前人的转录结果,而采用协同转录方法的参与者则可以看到。

根据Blickhan等人[10]的研究,2018年1月23日至9月1日,项目组在进行转录工作的同时也开展了一项实验。参与者被随机分配到独立转录或协同转录的系统中,两个系统均上传了由2173封信件组成的相同数据集,从这个数据集中选择5封信件(共19页文本)作为样本集,样本集由专家提供标准转录数据。

结果表明,被分配到协同转录系统中的参与者产生的转录数据与标准转录数据的差异明显小于被分配到独立转录系统中的参与者提供的转录数据。不仅如此,采用协同转录方法的参与者于2018年10月22日完成了转录任务,与此同时,采用单独转录方法的参与者却只完成了不到50%的任务。

实验证明,协同转录不仅能产生更高质量的数据,而且花费更少的时间来实现这一结果,基于此,项目组在实验结束之后关闭了独立转录系统,之后的参与者均采用协同转录的方法来完成任务。

2.6.3 后期——专家审核。虽然协同转录大大提升了项目完成质量,但并不能保证得出的数据都是完全正确的。对这样一个参与人数众多、体量庞大的档案众包项目而言,必须对成果进行系统的检查和整合,否则将难以实现数据的有效利用。根据项目组的官方博客,数据现在正由工作人员进行审核,审核完成后才能被上传到数据库中供人们免费利用。

3 美国反奴隶制手稿转录众包项目对我国的启示

3.1 做好档案开放工作。开放的档案资源是档案众包实施的基础,反奴隶制手稿转录项目能够成功上线的背后是海量已经开放的数字档案。目前,我国档案的开放程度远远不能满足档案众包工作开展的需要,因此,必须做好档案开放工作。

首先,要加强档案开放的制度建设,促进档案开放工作有序开展。其次,档案机构应转变思想,树立服务意识,以用户为导向,优化档案开放评估体系,不断满足用户的多元需求。再次,加快档案资源数字化进程,建立标准信息数据库,完善检索机制,降低利用门槛,实现档案资源更广范围的共建共享。最后,处理好“开放”与“保密”的关系,打破“开放危险、保密保险”的思维定式,要利用科学制度设计和专业技术手段来保证档案资源的安全,促进档案开放工作的长远发展。

3.2 以社会需求为导向。为了推广项目并确保其成功,有必要确定观众想从材料中得到什么,而不仅仅是该项目希望推广什么。[11]正如反奴隶制手稿转录项目符合了大众接触珍贵历史档案、体验新技术以及促进社会公平正义的要求,而大众需求的满足反过来又给予了该项目持续开展的强大动力。

因此,开展档案众包工作应以社会需求为导向,努力推出社会大众真正感兴趣的项目。档案机构应进行广泛且深入的调查,挖掘大众的需求所在,并根据调查结果上线众包项目。在项目运行过程中要虚心听取来自大众的意见和建议,博采众长,不断修正问题、完善项目,争取做出令大众满意、让大众有所得的优秀项目。

3.3 联动各方建立完善专业的档案众包平台。目前,我国的档案众包平台建设工作严重不足,初具规模的仅“上海图书馆众包系统”这一个平台。除了数量极少,平台的质量也远远不及国外。

以“上海图书馆众包系统”为例,一是在互联网上很难搜索到关于该平台的详细资料,甚至连平台入口都难以寻觅;二是平台使用体验不佳,网站的交互系统存在着一定的问题;三是网站缺乏许多必要的说明,初入平台的用户需要花费一定的时间去摸索,虽然可以向专家提问,但往往不能及时收到回复;四是上线项目严重不足,网站上只有75组有关盛宣怀档案的项目可供转录,且完成全部转录任务的仅有23组。

解决上述诸多问题需要多方携手合作,就如Zooniverse成功运作的背后,是美国公众科学联盟、牛津大学、阿德勒天文馆以及其他专家学者的共同努力。建议以初步建立的档案众包平台为基础,联合各档案机构、信息技术和网络多媒体领域的专家学者,进行形式多样的推广,扩大平台的知名度与影响力。

3.4 加强技术创新。在反奴隶制手稿转录项目中,组织者创新性地采用了协同转录的技术,兼顾了质量与效率,大大推进了项目进程。因此,应主动学习国外档案众包项目的先进经验,积极引进新技术、新方法,将其运用到档案众包工作中,同时注意结合实际情况做出相应的改进。

3.5 合理地设计任务。档案众包的任务设计应尽量遵循简单、清晰、有趣的原则。首先,应将任务尽可能细分,节省参与者时间,但也要掌握好分割的度,否则将会大大增加项目汇总的难度。其次,应配备简洁明了的任务说明,尽量添加相应的图片或视频进行演示,完成撰写后应先交给一部分有经验参与者查看,并根据他们的意见进行相应的修改,在使用过程中也应针对出现的新问题进行及时的修改。最后,任务设计应富有趣味性,对任务产生兴趣将会大大促进参与者的持续付出。

3.6 注重社区建设。建立配套的社区是档案众包项目成功的重要条件,得益于成熟且活跃的社区,反奴隶制手稿转录项目的参与者才能进行更为及时便捷的交流,各种问题才能被更为有效地解决,项目才能被持续推进。反观国内的众包项目,往往不注重社区的建设。以上海图书馆的盛宣怀档案抄录项目为例,平台并没有配备相应的交流社区,参与者只能通过私人渠道进行沟通。配套社区的缺乏使沟通变得低效,既不利于问题的及时解决,也不利于保持参与者的热情,最终导致项目进展缓慢。一个完善的众包社区至少应由专家、管理者和普通参与者三个群体组成,三者各有分工,专家负责统筹规划、答疑解惑等专业性工作,管理者负责制定并执行社区规则、上传下达等事务性工作,普通参与者应严格遵守社区规则进行交流。社区应根据不同的交流主题分设不同的版块,并完善搜索以及添加标签的功能,以便用户能够准确快速地筛选信息。

3.7 加大宣传力度。反奴隶制手稿转录项目的成功基于良好的群众基础,参与者的积极性较高。近年来,我国虽然积极进行档案开发利用的工作,但大众参与档案事业建设的热情依然不高,了解档案众包的人更是寥寥无几。不容乐观的现实条件为档案众包工作的开展造成了很大的阻碍,这意味着必须加大宣传力度,只有吸引到足够多的参与者,才能使档案众包成為可能。项目启动前,利用多种渠道,采取生动活泼的形式进行宣传,同时进行背景知识的科普,增进大众的理解,获得大众的认同。项目运行过程中,及时跟进最新进展,认真对待大众的批评建议并尽快回应。项目完成后,做出全面系统准确的总结,公布项目成果,展示接下来的工作计划。

*本文系2018年度国家社科基金青年项目——基于过程管理的历史档案开发利用众包模式研究(18CTQ039)资助成果。

参考文献:

[1]Howe J.The rise of crowdsourcing[J].Wired magazine,2006,14(06):176-183.

[2]Wikipedia.Crowdsourcing[EB/OL].(2021-4-23)[2021-4-24].https://en.m.wikipedia.org/.

wiki/Crowdsourcing.

[3]达伦·C·布拉汉姆.众包[M].余渭深,王旭,译.重庆:重庆大学出版社,2016:13-14.

[4]苏君华,姜璐.档案众包服务:模式、特征及质量控制策略[J].浙江档案,2020(07):28-31.

[5]杰夫·豪.众包:群体力量驱动商业未来[M].北京:中信出版社,2011:22.

[6]Zooniverse.The Homepage[EB/OL].[2021-4-24]. https://www.zooniverse.org.

[7][8]赵栋祥.公众科学平台:发展现状、服务实践与启示——以Zooniverse为例[J].图书情报工作,2018,62(17):120-128.

[9]大卫·艾化·格里尔.众包[M].肖江波,译.北京:人民邮电出版社,2015:202.

[10]Blickhan S,Krawczyk C,Hanson D R,et al.Individual vs.Collaborative Methods of Crowdsourced Transcription[J].Journal of Data Mining and Digital Humanities,2019(12):1-33.

[11]Mia Ridge.Crowdsourcing our cultural heritage[M].England:Ashgate Publishing Company,2014:53.

(作者单位:山东大学历史文化学院 来稿日期:2021-04-24)