大数据时代档案信息资源共享平台数据采集系统设计与应用

2020-12-23 09:44卞咸杰

档案与建设 2020年10期

摘要：随着大数据、人工智能、移动互联网技术的不断成熟，档案信息资源共享平台的数据分析与研究已经成为档案信息管理工作关注的重点，而数据采集又是档案数据分析与研究的基础，因此，高质量的数据采集对档案大数据分析与研究具有重要意义。文章在探索档案信息资源共享平台数据采集所涉及的技术基础上，结合数据采集需求，提出了采用自然语言处理技术采集档案数据的结论，通過该技术对档案数据收集的优化，可更准确地确保档案信息资源的数据采集质量。

关键词：大数据；档案信息资源；共享平台；数据采集；自然语言处理技术

分类号：G273

Design and Application of Data Acquisition System of Archival Information Resource Sharing Platform in the Era of Big Data

Bian Xianjie

（School of Public Administration of Yancheng Teacher University， Yancheng，Jiangsu， 224007）

Abstract：With the maturity of big data， artificial intelligence and mobile Internet technology， the data analysis and research of archival information resources sharing platform has become the focus of archival information management. Data acquisition is the basis of data analysis and research of archives. Therefore， high-quality data acquisition is of great significance to large data analysis and research of archives. Based on the technology involved in data collection of archive information sharing platform， combined with the data collection requirements， this paper proposes the use of natural language processing technology to collect archive data. Through this technology， the data collection quality of archives information resources can be realized more efficiently and accurately after optimizing the collection of archives data.

Keywords：Big Data； Archive Information Resource； Sharing Platform； Data Acquisition； Natural LanguageProcessingTechnology

随着网络和信息技术的不断普及，人类产生的数据量正呈指数级增长，以大数据、物联网、人工智能、5G为核心特征的信息化变革正风靡全球。档案信息资源的记录方式由传统的文本类型向文本与图像、声音、视频等多媒体并存转变，档案信息数据的来源更加广泛、数量更加庞大。数据采集作为档案数据分析与研究的基础，其质量对档案信息资源共享平台数据分析与研究具有重要意义。

2015年9月，国务院印发《促进大数据发展行动纲要》，系统部署了大数据发展工作。2016年3月，《中华人民共和国国民经济和社会发展第十三个五年规划纲要》发布并提出：把大数据作为基础性战略资源，全面实施促进大数据发展行动，加快推动数据资源共享开放和开发应用，助力产业转型升级和社会治理创新。加快政府数据开放共享、促进大数据产业健康发展，成为大数据战略的重要部分。为推进大数据战略，全国各地纷纷成立大数据产业相关的数据管理部门[1]。在此背景下，档案信息资源共享平台建设步伐加快，“十二五”期间，我国初步建成以局域网、政务网、因特网为平台，以档案信息管理系统为支撑，以档案目录中心、基础数据库、档案利用平台、档案网站信息发布为基础的档案信息化体系[2]。大数据时代到来，数据的来源和生产机制发生了巨大变化，数据的意义急剧放大[3]，其中，档案信息数据的采集是平台实现档案信息大数据应用的基础。

在大数据平台下，由于档案信息数据源具有更复杂的多样性，数据采集的形式也更加多样。在数据采集阶段，增量档案信息数据同步，尤其针对那种可变（可删除、可修改）的档案信息数据源处理更加困难。现阶段，档案信息数据采集要解决上述问题，可采用的方式主要包括以下三种：一是放弃同步，采用直连形式；二是放弃增量同步，选用全量同步；三是编写定期Job，扫描档案信息数据源以获得待处理数据，并进行增量同步。

现有的增量档案信息数据采集存在缺陷，为提升档案信息资源共享平台的数据处理性能，需定期将超过时间期限的历史数据清除，若希望保留档案信息历史数据以备数据挖掘与分析，就会影响数据采集的效率。对于多媒体档案信息数据源，根据某种识别算法，识别并提取多媒体文件的特征信息，并将其转换为业务场景需要的数据模型，这种情况会导致档案信息数据提取耗时相对较长，也需要较多内存支持。由于档案信息本身的涉密特性，加上硬件基础设施和大数据应用方面的投入限制，当前在档案信息资源共享应用方面还存在一定缺陷，因此应对档案信息数据采集加大研发投入力度[4]。

1档案信息资源共享平台数据采集系统框架总设计

1.1平台数据采集系统设计目标

档案信息资源共享平台从数据源抽取出所需的数据，经过数据清洗，最终按照预先设定好的数据模型，将数据加载到档案信息资源共享平台数据仓库中[5]，对数据仓库中的档案信息资源数据进行分析处理。数据采集作为档案信息资源共享平台大数据运用中最重要的阶段，它通過传统互联网、移动互联网等方式，获得各种类型的结构化、半结构化及非结构化的档案信息资源数据[6]。由于采集的档案信息资源种类错综复杂，需对其进行数据分析，并从数据原始格式中提取出有用的档案信息资源数据。由于数据源头的采集有不准确现象，需对这些数据进行过滤、剔除，并要对数据结构进行语义分析，与目标数据结构比较，找出数据源与数据结构的映射关系，从而使数据进入档案信息资源共享平台设定的数据库。

1.2平台数据采集系统框架构建

相较于传统的纸质档案信息采集，现代互联网方式采集档案信息数据资源响应速度更快，节省了大量的人工时间[7]。数据采集系统在整个数据共享系统中扮演着重要的角色，数据采集系统技术架构可从物理层、逻辑处理层和网络层三个层次着手[8]。功能模块的构建应从档案信息的采集、审核、管理、共享和安全控制等多个方面去考虑，其中档案信息采集模块为最前端的，其任务是负责主动采集系统外部信息。采集方法有两种，一种是自动采集，一种是手工采集。这两种方法都是将在局域网、内网和互联网上索得的档案信息资源，纳入共享平台的数据库中[9]。由于档案信息资源数据源具有多样性，数据采集的形式也变得更加复杂多样。在档案信息资源共享平台大数据的采集过程中，其主要特点是并发量高，即多个用户同时访问和操作服务器[10]，如在高考时学生高考成绩集中入库，其并发的访问量在峰值时达上百万。这就要检查平台访问人数是否超过平台设计的极限值。若超过设定的极限值，那唯一方案就是升级平台的空间，以适应更多人的来访；若没有超过平台设定的极限值，就需要检查平台是否有占用CPU较高的可执行文本网页（一般指ASP、JAVASCRIPT、PHP、CGI等网页），优化程序结构和执行语句。因此，档案信息资源共享平台在设计数据采集架构时既要考虑数据采集的准确性，又要考虑数据采集的实时性与性能。对于档案形式为图片或者视频的数据，需在数据提取阶段加载数据后根据某种识别算法，识别并提取多媒体中的特征信息，并将其转换为业务场景需要的数据模型。采集流程整体框架如图1所示。

1.3平台数据采集系统的技术选型

档案信息数据采集系统是大数据档案研究的必要部分。由各种诊断系统、辅助系统和其他设备生成的信号通过各种数据数字化仪收集，最后以某种格式存储在磁盘上，以进行永久存储[11]。档案信息资源数据采集是平台进行大数据应用的基石，数据采集主要分为两部分，一部分是通过爬虫等系统采集数据，一部分是现有的数字化数据[12]。对于其中的数字化的数据，传统的档案信息资源数据采集一般采用人工方式输入或者通过Excel等导入工具导入。从现有条件来看，档案信息资源数据采集来源并不复杂，存储、管理和分析的数据量也相对较小，采用关系型数据库基本可满足档案信息资源平台的数据处理需求。而进入大数据时代，档案信息资源数据来源比较广泛，从移动互联网平台到其它需要介入共享平台的不同类型档案信息资源服务平台，数据类型也扩展到多媒体相关的数据类型，数据采集方式亟待转变。基于此，下面对系统接口、开放数据库、第三方平台三种采集方式进行分析。

（1）系统接口数据采集

档案信息资源共享平台系统接口数据采集方式是指采用开发API的方式进行档案信息资源数据调用，有两种模式。一种是共享平台提供API并提供授权，这需接入共享平台的档案信息资源服务平台并通过调用授权的API进行数据写入；另一种是现有档案信息资源服务平台提供API，共享平台通过主动调用API拉取档案信息资源数据。接口对接方式的数据可靠性与实时性较高，数据采集的质量也较高，然而缺点在于前期的分析与后期的开发维护成本较高，若平台的功能发生变化，就需要做相应修改和变动，这会间接导致交付周期变长。

（2）开放数据库数据采集

如果档案信息资源平台采用的是相同类型的数据库，如SQL Server，开放数据库就是档案信息资源共享平台数据采集最便捷的工具；如果需要共享的平台在相同的服务器上，且只要用户名设置得没问题，就可相互访问；如果两个系统的数据库不在一个服务器上，就建议采用链接服务器的形式处理，这就需要对数据库的访问进行外围服务器的配置。开放数据库方式可直接从目标数据库中获取所需数据，准确性高，实时性也能得到保证，这是最直接、便捷的方式。

（3）第三方平台数据采集

随着档案信息资源共享平台的数据量愈发庞大，可借助第三方平台进行档案信息资源数据采集，常见的第三方平台有Apache Flume、Scribe等。Apache Flume是一个分布式、可靠、可用的服务工具，用于高效收集、聚合和移动大量的日志数据，它具有基于流式数据流简单灵活的架构[13]，其可靠性机制和许多故障转移和恢复机制使Flume具有强大的容错能力。另外，Scribe也是Facebook开源的日志采集系统。

（4）数据提取自然语言处理（NLP）模型

在档案信息资源大数据采集技术中，有一个非常重要的环节就是数据转换。它将处理后的档案信息资源数据转换成不同的数据形式，并由不同的数据分析系统进行处理和分析。由于数据来源的多样性，不同类型的数据在不同的平台中所表达的含义不一定是完全一致的。为顺利使源头数据进入指定目标库，就需要借助自然语言学习系统进行语义分析。自然语言处理能支持文本实体抽取、文本分类、关键短语抽取、情感分析、关系抽取等算法能力，用户无需拥有丰富的算法背景，仅需标注或上传适量文档数据，即可通过平台快速创建算法模型并使用。

2档案信息资源共享平台数据采集系统功能设计

数据采集指将所归档的各类档案信息数据传输到档案信息资源共享平台大数据系统，这是第一步且最为关键，它是档案信息资源共享平台构建的重要基础，直接决定了在一个给定时间段内大数据系统处理数据流量的水平和能力。平台数据采集流程实现主要包括如下步骤：档案信息资源数据解析、档案信息资源数据清洗与数据去重、档案信息资源数据关系映射与数据转换。

2.1数据解析

档案信息资源数据的多样性，使平台在采集数据时的转换过程变得极为复杂，从而增加了后续平台数据处理的成本。平台运营管理者若能提供所需档案信息资源数据格式示例，将会极大提升平台数据采集效率[14]。档案信息资源数据解析是数据采集流程的第一步，在拿到待采集的档案信息资源数据后就需要对其进行解析，因为档案信息资源数据的来源一旦不同，其自身的格式就极有可能不一样，如数据格式有HTML、XMLJSON和其他格式的文件。对于不同类型的文件需要相应的解析器对其进行处理，以提取真正的档案信息数据。

2.2数据清洗与去重

由于平台部署要求的特殊性，数据采集系统设计时需要灵活考虑端到端系统中传感器数据存储和信号处理的发生位置，应允许任何位置的档案信息原始数据处理发生，包括移动设备、独立的数据采集基础设施[15]。档案信息资源数据在被解析后，得到的数据是不能直接使用的，需对其进行过滤，即去掉无关信息，尽量保持所有数据源抽取程序版本的一致，确保一次性处理数据的大批量性，而非零碎数据。在数据清洗之后，来自不同平台的数据可能会有重复信息，因而后续就需要对得到的批量档案信息进行去重处理。

数据清洗与去重部分可以采用五个步骤完成，主要包括预处理、缺失值清洗、格式内容清洗、去重清洗、非需求数据清洗。其中预处理阶段主要将数据导入处理工具，并采用人工抽查；缺失值清洗阶段需要确定缺失值范围，将不需要的字段去除，并将缺失内容补充完整；格式内容清洗阶段会遇到数据的格式和内容方面多样化的问题，格式内容问题是比较细节性的问题，这就需要将其处理成与元数据描述一致的状态；去重清洗阶段需将重复数据剔除，以免档案信息资源数据重复进入共享平台；非需求数据清洗阶段即删除不需要的字段，但在实际运用中需特别小心，防止误删须进入共享平台的字段。

2.3数据关系映射与转换

为提高档案信息的检索性能，在数据存储的设计结构中，须将采集到的档案信息数据集存储为紧凑型数据集合，以便将档案信息数据与元数据标题一起存储[16]。待数据进入目标档案信息资源共享平台之后，就需要对进入共享平台的数据进行关系映射。每条档案信息数据在进入目标表与目标字段互为映射前是不确定的，可通过百度的自然语言分析平台以源档案信息资源数据的标签信息与目标档案信息资源共享平台的数据结构进行比较分析。自然语言分析系统可根据异构平台的信息分析出语义间的相似度，这样就可以自动将采集到的档案信息资源数据汇集并使其准确进入目标平台的数据库。且在大数据采集过程中，将日常使用的映射关系写入知识库中，以便之后的数据采集可利用现有知识库。在档案信息资源数据备好后，为能准确进入共享平台数据库，须对采集数据进行转换，这里的数据转换主要是针对数据格式的转换。数据关系映射与转换流程如图2所示。

3档案信息资源共享平台数据采集系统应用效果分析

与传统数据数据采集模型不同，基于自然语言处理模型的档案信息资源共享平台可更准确且更智能地提取档案信息数据。作为档案信息资源共享平台基础模块，智能化的数据采集处理可对采集到的目标数据信息进行深入挖掘，找出数据信息的潜在价值，将具有潜在价值的数据与其他数据分隔开，便于平台管理人员对其进行操作。

3.1档案信息数据采集容错处理能力提高

档案信息数据源与目标档案信息数据在采集时不可避免地会产生誤差。在数据采集过程中，由于利用了自然语言处理技术的学习能力，相较传统的人工采集与非智能化采集流程，新数据模型采集到的信息容错率更低，能有效提高数据信息采集过程中的采集精度。同时，系统中还应用了容错技术，可甄别出采集到的错误信息，利用历史学习经验数据，对采集到的档案信息数据进行后继正确处理，从而提升数据信息的处理效果[17]。

3.2采集档案信息数据的效率更高

档案信息数据的采集效率高低主要看两方面，即采集的档案信息数据是否更加全面以及数据维度是否能满足不同的分析目标。通过对自然语言处理技术的应用，可自动生成更加全面的档案信息应用数据，包括用户行为相关参数，这些具有分析价值的数据可以支撑平台的大数据应用。优化后的数据采集系统采集数据的流程更加流畅。原始档案信息资源数据通过采集系统加以处理，将形成对用户更具价值的档案信息资源报告及可视化程度更高的图表信息。具体数据采集优化控制如图3所示。

4结语

档案信息资源共享平台的建设，在服务器、Web客户端、移动客户端等不同平台之间进行数据处理。通过对数据网络传输层面、数据库层面和平台服务架构层面等进行优化处理，最大限度地减少了档案信息数据传输过程中的数据量，解决了多用户及并发用户使用平台时调用服务的问题[18]。在此基础上，采用适合档案信息资源共享平台的数据采集架构，在具体的数据采集过程中引入百度的自然语言分析系统，有效地提升了档案信息数据采集的准确性。通过对档案专业数据的不断优化，形成档案信息资源数据知识库，为档案信息资源共享平台的数据采集积累宝贵的知识财富，从而促进档案信息资源共享平台的良性运行与发展。

*本文系2017年国家社科基金年度项目《大数据时代智慧档案信息服务平台构建与创新研究》（项目编号：17BTQ074）、2016年度教育部人文社会科学研究规划基金项目“大数据时代档案信息资源共享平台构建的研究”（项目编号：16YJA870001）阶段性研究成果。

注释与参考文献

[1]徐拥军，张臻，任琼辉.国家大数据战略背景下档案部门与数据管理部门的职能关系[J].图书情报工作，2019（18）：5-13.

[2]卞咸杰.大数据时代档案信息资源共享平台数据交互服务的研究[J].浙江档案，2018（11）：15-17.

[3]于英香.从数据与信息关系演化看档案数据概念的发展[J].情报杂志，2018（11）：150-155.

[4]IfigeniaVardakosta，KapidakisSarantos.Geospatialdatacollectionpolicies，technologyandopensourceinwebsitesofacademiclibr ariesworldwide[J].TheJournalofAcademicLibrarianship，2016（4）： 319-328.

[5]韩名豪.基于Hadoop的新闻事件数据查询与分析[D].北京：北京邮电大学，2018.

[6]南淑萍，张博，李力.基于决策树的数据挖掘技术在医疗设备成本绩效分析中的应用研究[J].长沙大学学报，2014（5）：64-66.

[7]AdeyinkaTella.Electronicandpaperbaseddatacollectionmet hodsinlibraryandinformationscienceresearch[J].NewLibraryWorld， 2015：588-609.

[8]程秀峰，肖兵，夏立新.知识融合视角下用户行为数据采集与共享机制研究[J].情报科学， 2020（1）：30-35.

[9]王烁.大数据时代档案信息资源共享平台建设研究[J].图书情报导刊，2016（12）：117-121.

[10]郑志新.大数据时代电子商务产业数据管理与共享机制[J].信息技术与信息化，2016（6）：98-103.

[11]WeiZheng，YuxingWang，MingZhang，FeiyangWu，ZhouYang.Afullstackdataacquisition，archiveandaccesssolutionforJ-TEXT basedonwebtechnologies[J].FusionEngineeringandDesign，2020，1 55：111450.

[12][17]杨迪，陈雪萍，冯宇等.基于企业海量电子文件的数据采集模型[J].电子技术与软件工程，2018（12）：175.

[13]卞咸杰.档案信息资源共享平台数据处理流程研究[J].档案管理，2018（6）：33-35.

[14]JoannaClifton-Sprigg，JonathanJames，Sun？icaVuji？.Freed omofInformation（FOI）asadatacollectiontoolforsocialscientists[J]. PloSone，2020（2）：e0228392.

[15]AndreasKipf，WaylonBrunette，JordanKellerstrass，Matthe wPodolsky，JavierRosa，MitchellSundt，DanielWilson，GaetanoBorrie llo，EricBrewer，EvanThomas.Aproposedintegrateddatacollection，an alysisandsharingplatformforimpactevaluation[J].DevelopmentEng ineering，2016：36-44.

[16]BrendaFarrell，JasonBengtson.Scientistanddataarchitectco llaboratetocurateandarchiveaninnerearelectrophysiologydatacollect ion[J].PloSone，2019（10）：e0223984.

[18]卞咸杰.大數据时代档案信息资源共享平台性能优化的研究[J].档案管理，2016（6）：17-20.