基于网络众包模式的海量历史文献数字化处理方法研究

2019-03-18 02:14席运江林瑶瑶廖晓俞宽

现代情报 2019年2期

席运江林瑶瑶廖晓俞宽

摘要：[目的/意义]针对海量历史文献数字化所面临的文献数量庞大、耗时长、成本过高等问题，本文将众包理念引入传统文献数字化工作中，形成基于网络众包模式的海量历史文献数字化处理方法。[方法/过程]该模式根据历史文献特点，将网络大众自发知识生产模式与专家定向模式相结合，提出了相应的用户激励和质量控制方案，从而保证众包任务的高效率、低成本、质量可控。此外，以粤海关清末历史文献为试点验证众包模式在大规模文献数字化处理工作中的可行性、高效性。[结果/结论]该模式为处理历史文献处理提供了新的思路与方法，且具有广阔的应用前景。

关键词：众包模式;定向众包;粤海关历史文献;数字化处理;PDCA

DOI：10.3969/j.issn.1008-0821.2019.02.019

〔中图分类号〕G250.76〔文献标识码〕A〔文章编号〕1008-0821（2019）02-0161-08

历史文献作为国家历史文化的物质载体，记录着各个阶段的社会发展状况，内容涵盖史、经、哲等多个方面，反映着我国数千年历史文化传承与发展。历史文献的数字化处理逐渐取代原有的纯纸质文献整理，从而解决纸质文献不易存储、查阅标注及难以深入分析等问题。但对于海量历史文献的数字化处理工作，目前尚存在较多亟待克服的困难：历史文献数量庞大、种类形式多样、专业性强，因而人、物、财力成本巨大，严重制约了历史文献的数字化处理及应用。

针对这一问题，本文提出了基于网络众包模式的海量历史文献数字化处理方法，将众包理念与传统文献数字化处理工作相结合，以实现海量历史文献的数字化处理问题。

1文献综述

1.1众包概念及主要内容

众包（Crowdsourcing）[1]一词最早由美国《连线》（Wired）杂志记者杰夫·豪（Jeff Howe）于2006年提出，并在维基百科上将其定义为：“一个公司或机构把过去由员工执行的工作任务，以自由自愿的形式外包给非特定的（而且通常是大型的）大众网络的做法”。Surowiecki J（2006）曾在《群体的智慧》中提出“群众比少数人更聪明”这一观点，认为团体基于群体智慧所做出的决策往往要好于个体的单独决策[2]。而基于互联网的众包模式作为一种以网络作为共享平台，广泛吸收整合企业内外创新资源的合作模式，实际上就是对这种“群体智慧”的创新应用。

众包的兴起得益于互联网的普及、网络技术的发展、网络一代的出现以及个性消费者的崛起[3]。仲秋雁[4]等认为众包实际上是将软件开发领域中开放源代码的方法应用到其他领域中。Panchal等将众包分为基于竞争和基于合作两种不同的众包创新模式[5]。

众包不同于外包，外包强调的是将企业非核心的业务以一对一的形式外包给具备专业性的特定用户;而众包更倾向于资源共享、用户共创的生产方式，吸引外部非特定用户自愿参与企业事务中，倡导的是多样化及差异化[6]带来的创新潜力，利用群体智慧来实现企业竞争力的提升。

1.2众包平台及应用

众包问题的研究对象包括發包方、参与者和众包平台。发包方和参与方通过众包中介平台联系在一起，后者利用自身资源为前者提供任务解决方案并获得相应报酬。众包平台通常被分为解决问题和创意产生平台[7]，例如亚马逊推出的土耳其机器人网站[8]和Dell的“创意风暴”[9]。

近年来，越来越多公司认识到众包的重要价值：IBM投入10亿美元开发众包模型;搜狗输入法、猪八戒网借助众包的思维和形式，成功获取了数以万计的皮肤设计和词库及超过700万的“线上工人”;2014年在马航MH370的搜救过程中，美国卫星地图公司Digital Globe旗下众包平台Tomnod也曾采用众包方式招募大众参与处理其拍摄的高清海域卫星照，以加快搜寻效率。盛芳[10]等在其研究中展示了众包模式在图书馆界的成功应用，其中纽约公共图书馆利用众包模式，成功借助大众的力量将馆藏的4万多份菜单图片转换为可供检索的文本。以上案例都充分说明了众包模式在生产效率和成本方面的优势，也为本文众包模式的设计提供了有价值的参考。

2海量历史文献数字化处理工作分析

2.1海量历史文献数字化处理难点

历史文献数字化虽在一定程度改善了传统纸质文献的整理、查阅、存储及分析工作，但对于海量古籍的数字化处理方面，目前尚存在较多亟待克服的困难：其一，历史文献数量庞大且种类形式繁多，给文献全文识别、翻译等数字化工作带来很大困难。海量文献通常涉及多种汇编语言，同时手写纸质文献还易出现纸质老化、字体繁杂、字迹模糊涂改等现象，无法完全借助OCR等工具进行快速识别，依赖大量人工识别;其二，专业性较强的古籍要求翻译人员具备相关的专业及背景知识储备，见图1。以上这些都表明，海量历史文献的数字扫描、信息获取、图像处理计算机辅助设计等诸多步骤都需要耗费大量的人力、物力、财力，若单单依靠馆藏机构内少数专业人士，往往事倍功半。因此，若要高效保质的解决海量历史文献数字化的问题，就需要解决海量文献和专业性两个问题。

本文所研究的基于网络众包的海量历史文献数字化系统正是从以上两个问题的角度入手，借由网络众包平台，非定向招募普通用户参与到海量古籍

数字化工作中，以提高文献数字化的整体效率;此外，针对历史文献中强专业性的核心文献，采用“定向众包”的形式招募一定数量的领域专家，从而形成“网络大众+领域专家”的合作模式，利用多方资源以实现海量文献的高效数字化。

2.2基于WBS的工作分解

针对海量历史文献数字化处理工作，本文采用WBS方法对众包工作进行结构分解，逐步细化任务目标，依次确定各层级顺序及相应工作内容，使整体众包工作更为清晰明确。海量历史文献数字化处理核心工作分为以下4部分：历史文献数字化存储、历史文献文本化、历史文献翻译及历史文献挖掘与分析，见图2。

3众包模式设计

本文所设计的双向众包模式将是非定向众包和定向众包模式相结合，嵌入在难度系数较高的历史文献文本化和历史文献翻译两个部分，实现网络大众自发知识生产和领域专家的定向知识服务，从而兼顾海量历史文献数字化处理的效率和专业性要求，为后续的文献挖掘与分析提供坚实基础。

3.1非定向众包模式设计

非定向众包模式主要适用于非专业性任务。针对数量庞大、难度系数和专业性要求偏低的文献数字化任务，借由网络平台非定向众包给普通用户，利用“群体智慧”及资源实现海量历史文献的高效低成本数字化。同时借助质量控制策略在一定程度上解决众包用户知识储备、能力素质差异及所贡献成果质量参差不齐等问题。

3.2定向众包模式设计

定向众包模式适用于强专业性任务。针对部分难度系数及专业性要求较高的核心文献的数字化任务，普通用户往往在能力等多个方面无法胜任。此时就要根据实际需要定向招募一定数量的领域专家参与众包工作，可借助猪八戒等众包网站或是通过内推形式招募。借助领域专家的专业知识服务，以保障众包文献的专业性和准确性。另外，领域专家也能够为普通用户的众包工作及后续众包任务的质量审核提供一定的指导，从而提高整体的工作效率和质量。

3.3众包模式总体架构设计

海量历史文献数字化处理众包模式的总体架构设计分为以下3层：基础层、众包运作层及应用服务层，各层之间相互独立，功能上层层递进，如图3所示。

基础层负责海量原始历史文献的初步数字化处理及存储工作，即将原始文献拍摄为微缩胶片，再转化为数字图像存储于基础层，是整个双向众包模式得以顺利进行的资源保证和根基所在;众包运作层是以非定向大众知识生产为核心，辅以领域专家协同的定向众包模式，依托网络平台及众包资源库支撑进行海量文献资料的上传整理、用户招募筛选和任务分发审核，从而实现海量文献的数字化进程，具体涵盖众包资料管理、众包用户管理、众包质量管理及众包薪酬管理4个板块，各板块间相互关联，形成运作闭环，与基础层相互支撑，确保众包模式的顺利运作;应用服务层则主要面向专家学者、历史知识爱好者，用户可根据个人需求下载或购买相应的数字文献资源，以进行深入地分析和挖掘。

3.4众包模式的组织形式

本文众包模式采用传统组织形式和新型网络社区形式相结合的组织模式。传统组织模式偏重职能性，按职能将人员分类并负责指定的工作内容;新型网络社区形式即基于众包网站构建社区，即“众包社区”，实现众包参与者的知识共享、工作经验交流等。众包模式组织模式参考图4。

由管理员负责社区及用户维护和管理。将众包社区中的用户分为众包用户和非众包用户，各类用户之间均可进行相互交流。众包用户包含普通用户和定向招募的领域专家，所有的众包用户均从管理员处领取众包任务，提交后由校审员进行审核评估，最终根据评估结果由管理员下发薪酬。

3.5众包模式业务流程设计

基于双向众包模式的总体架构设计，进一步确定具体工作流程以保证文献数字化工作顺利开展。众包模式流程具体分为：海量历史文献整理分包流程、双向众包实施流程、众包任务校审及薪酬分发流程和文献资源存储发布流程。

3.5.1海量历史文献整理分包流程

从基础层调取存储的初步数字化的文献图片资源和待翻译的任务包，根据难度系数判别进行文本化和翻译任务分包，都区分核心和一般任务包，以便下一步双向众包流程的实施。参见图5。

3.5.2双向众包实施流程

双向众包实施流程包括众包用户招募与众包任务分发，其中众包用户招募包括非定向招募普通用户和定向招募领域专家。本文众包模式流程基于网站设计：首先，依托网络进行众包任务发布及宣传、众包用户招募，并根据报名者个人素质能力评估进行众包用户筛选;其次，通过筛选的众包用户，可在众包网站上浏览并选取感兴趣的众包任务。每个用户单次领取任务包不得超过3个，且难度系数在7及7以上的众包任务仅限领域专家用户领取，即由领域专家定向处理众包工作中核心且难度较大的文献，以避免众包任务堆积而降低众包效率和确保众包结果的专业性。参见图5。

3.5.3众包任务校审及薪酬分发流程

众包用户完成相应任务包后可在平台提交个人众包结果，校审员将会对其进行审核。未通过质量审核的众包文件将进行返工或取消该用户众包资质;针对通过审核的众包结果将根据质量进行薪酬评估，再由管理员进行薪酬支付。参见图6。

3.5.4文献资源存储及发布流程

最后，审核通过的文本化及翻译众包结果将管理员存储于基础层，并及时发布在网站上，以便后续的查阅研究。参见图6。

3.6众包用户激励及质量控制

3.6.1众包用户激励。

合理的激励机制能够有效激发参与者的积极性，并激励其持续输出高质量且具备创新性的成果。常见的激励形式有精神激励和物质激励，而对大多数用户来说，单纯的精神激励并不能持续性地

激励用户[11]参与。线性激励机制较固定薪酬激励机制来说，也更能够激发用户的参与积极性[12]。

1）眾包激励机制

本文所提出的众包激励机制以物质激励（线性激励机制）为主，并辅以精神激励（如可接触优质历史资源等），激励众包用户输出高质量成果。因此，众包薪酬体系即众包任务定价将是众包激励机制的核心部分。这里设众包任务薪酬为：

Y=γ（a.0+λn）

其中，γ为质量控制系数（根据众包成果达标与否，取γ=0，1;若γ=0，将该众包成果无效，需退回处理），a.0为固定薪酬，λ为激励系数，n为线性薪酬基数。激励系数取决于众包任务难度、众包质量及其他未知因素;而众包质量与受众包用户能力水平、努力程度相关[12]。

2）众包任务定价

基于以上，本文采用分级薪酬体系，根据具体的众包任务难度和众包质量、以及相应的激励系数，从而确定最终的众包薪酬，如表1。其中，q为任务质量，q=∑3.i=1q.i/3，分为不及格、及格、良好、优秀4个等级;d为任务难度d=∑2.i=1d.i/2，分为高、低两个等级;因此，共可得出7个薪酬激励等级（若q为不及格时，任务难度高低均为同一等级），可根据实际众包实施情况对具体激励系数设置进行自定义调整。

3.6.2众包质量控制

由于众包面向的是非特定的网络大众，参与者能力、素质等多方面的不确定性导致最终众包任务完成质量不一，往往事倍功半。因此，完善的质量控制体系是众包系统设计中必须考虑的重点之一。鉴于整个众包过程是动态变化的，本文考虑引入基于监测点的多层嵌套PDCA质量模型对众包质量进行阶段式动态控制，具体模型见图7。

首先将众包过程划分为众包准备、众包实施、众包质量审核及反馈改进4个阶段性进行质量控制，并各阶段选取相应监测点，嵌套PDCA进行阶段式

质量反馈，以便及时发现并排除质量异常点，确保众包工作顺利进行。

主要质量监测点选取如下：众包用户筛选和众包质量审核。首先，将众包用户筛选作为首个质量控制点，通过控制用户质量以确保众包工作能够兼顾质量与专业性。借助个人信息审查和能力测验等形式筛选合适的普通用户并定向招募一定数量的领域专家，以开展后续的众包工作。其次，众包任务执行阶段，注意控制众包任务的分发，避免单个用户单次领取的任务数量过多而导致众包计划超时。再次，将任务质量审核作为第二个监测点，校审人员对所有众包用户提交的结果进行审核，通过审核的用户可重新领取新任务。质量未达标的任务将被退回修改或取消该用户众包参与资质，遗留任务将回到第二阶段重新进行分发，从而形成闭环，循环迭代以实现整体众包质量的提升。

4粤海关历史文献数字化众包试点及效果评估

本文以广东省档案馆馆藏粤海关历史文献为数据源，通过小规模试点形式验证众包模式在海量历史文献数字化工作中的可行性并评估其实际效果。广东省档案馆约有藏档共321个全宗，其中的粤海关档案涉及1860-1949年的档案共13 260卷，内容涉及海关业务、贸易协定、社情民意等，以英文文献居多。

此次试点工作中，我们选取部分粤海关历史文献，人工将微缩胶片的扫描件按照章节编号整合成PDF文档，并将其录入上传至数据库作为待领任务包，以便后续试点众包工作运作。

4.1基于试点的众包模式运作

首先抽取500份左右粤海关英文文献整合成文本化任务包50个，其中标准件任务包46个、文本化后的待翻译任务包预计118个，具体分包及定价见表2。此外，每个任务包中都有必要的任务说明、操作流程、质量审核标准、保密协议等。

通过线上渠道结合E-mail的形式替代网站作为众包模式运作平台，将上述众包任务包通过线上渠道发布以招募众包用户，以高校学生为主要群体。少量核心、难度较大的任务包则通过专业网站（如猪八戒网）进行悬赏招募或定向招募专家进行处理。众包用户领取相应任务包后，在1～2周内提交个人完成结果。之后由校审员进行质量审核评估，经审核无误后将薪酬打入众包用户支付宝账户。同时将众包用户个人信息登记表、工作量及工作质量评估表、信誉度评价等进行整理归档，以建立众包用户资源库，可作为人才储备供今后使用。

4.2基于试点的众包模式完成情况及效果评估

经过为期1个月的众包试点运行，50个文本化任务包和118个翻译任务包均被领取，完成率都接近100%，较少出现退订，具体试点完成情况见表3。

基于以上粤海关历史文献众包试点的结果反馈，验证了本文设计的众包模式在历史文献数字化处理方面具备较大优势。

4.2.1用户参与度高

众包模式使得文献数字化工作难度得以拆解，从而降低了普通大众的参与门槛。非定向的招募形式为文献数字化工作带来了源源不断的人力资源，同时借由定向招募领域专家的形式弥补普通大众在知识储备和专业性上的缺陷，极大提高了用户的参与度。

4.2.2时间优势明显

针对约500份粤海关历史文献众包试点的耗时分析（见图8）可得，相较于传统模式，众包模式的应用使得原来文本化和翻译任务耗时从原来的2～3天和8～10天缩短至1天和3天，具备较大的时间优势。同时当众包模式应用在海量历史文献的数字化工作时，其人才、时间优势和规模效应也就越强。

4.2.3定向众包模式成本优势明显

基于试点结果统计得，文本化众包用户时薪约为9～12元/时，低于市场平均兼职价格13～18元;翻译工作用户每个任务包薪酬为40元，即时薪为15元/时，25元/千词，远低于市场价格。故众包模式通过其规模优势降低了对单个用户投入的成本，具有低成本性。具体如图9。

4.2.4定向众包模式质量可保证

基于众包模式的全流程质量控制，普通粤海关历史文献文本化及翻译试点工作各项关键指标平均分均在8分以上。标准件识别、翻译工作全部合格，优秀率分别达65%、60%以上，结合专家定向处理核心手写件，以保证众包质量。

综上，双向众包模式在整体运作上是完全可行的，且具有高效的、低成本的特点，同时拥有较高的参与度、专业性与完成质量，完全可以持续应用于海量历史文献数字化处理项目，可大规模开展与实施，且规模化优势明显。

5结论

本文针对海量历史文献数字化过程中所面临的文献数量庞大、耗时长、成本过高等问题，将众包理念引入传统文献数字化工作中，采用WBS方法分解海量历史文献处理工作，从基础层、众包运作层和应用服务层三方面构建基于网络平台的双向众包模式，创新性的将网络大眾自发知识生产模式与专家定向模式相结合，实现高效、低成本的历史文献价值挖掘。本文从组织构建和流程设计两大模块剖析众包模式的运作，针对用户激励和质量控制提出了具体的解决方案，并通过粤海关历史文献试点验证众包模式在大规模文献数字化处理工作中的可行性、高效性，具有较高的应用前景。但同时也存在一些不足，具体如下：其一，本文中仅大致描述整个众包系统及功能需求，尚未实现众包系统建设，在今后研究工作中需进一步完善;其二，本文的众包激励机制以物质激励为主，较为单一，日后可考虑根据用户反馈优化激励方案，以达到更好的激励效果;其三，众包模式的质量控制体系虽然通过了试点验证，当考虑到试点文献数量有限，如何确保大规模文献数字化处理的高质量依旧是未来探索的重点。

参考文献

[1]Howe J.The Rise of Crowdingsourcing[J].Wired Magazine，2006，14（6）：1-4

[2]Surowiecki J.The Wisdom of Crowds：Why the Many are Smarter than the Few and How Collective Wisdom Shapes Business，Economies，Societies，and Nations.[J].Personnel Psychology，2006，59（4）：982-985.

[3]张利斌，钟复平，涂慧.众包问题研究综述[J].科技进步与对策，2012，29（6）：154-160.

[4]仲秋雁，王彥杰，裘江南.众包社区用户持续参与行为实证研究[J].大连理工大学学报：社会科学版，2011，32（1）：1-6.

[5]Le Q，Panchal J H.Modeling the Effect of Product Architecture on Mass-Collaborative Processes[J].Journal of Computing & Information Science in Engineering，2011，11（1）：1-12.

[6]马卫，方丽，屠建洲.从外包到众包的商业模式变革及启示[J].商业时代，2008，（1）：13-14.

[7]Howe J，Booksx I.Crowdsourcing：Why the Power of the Crowd is Driving the Future of Business[C]//Crown Publishing Group，2008：1565-1566.

[8]Bloodgood M，Callison-Burch C.Using Mechanical Turk to Build Machine Translation Evaluation Sets[C]//NAACL Hlt 2010 Workshop on Creating Speech and Language Data with Amazons Mechanical Turk.Association for Computational Linguistics，2010：208-211.

[9]Jeppesen L B，Lakhani K R.Marginality and Problem-Solving Effectiveness in Broadcast Search[J].Organization Science，2010，21（5）：1016-1033.

[10]盛芳，李正龙，焦坤，等.众包与众包馆员制度：助推图书馆服务转型[J].图书情报知识，2012，（4）：95-102.

[11]张志强，逄居升，谢晓芹，等.众包质量控制策略及评估算法研究[J].计算机学报，2013，36（8）：1636-1649..

[12].张鹏，鲁若愚.众包式创新激励机制研究——基于委托代理理论[J].技术经济与管理研究，2012，2012（6）：45-48.

（责任编辑：郭沫含）

现代情报2019年2期

现代情报的其它文章: “五计学”的知识融合与应用研究; 我国“五计学”知识融合的思考; 我国化学领域青年科技人才论文产出分析; 近十年国内外管理学研究进展与发展趋势的比较研究; 近十年国内外计量经济学研究进展与趋势; 近十年来国内外现代经济理论研究进展与趋势