以信息抽取技术为核心的微档案馆服务研究

2016-02-03 06:58徐一男
山西档案 2016年2期
关键词:档案馆语义数字

文/徐一男

以信息抽取技术为核心的微档案馆服务研究

文/徐一男

当前,档案数字化中存在的整合广度及聚合深度不足的问题亟待解决。对此,档案工作者可利用微媒体平台,提供微档案馆服务,并以信息抽取核心技术实现基于主线关键语义的档案信息片段的聚合,提供用户实时、快速、准确的个性化档案服务。

微媒体;微档案馆服务;信息抽取

近年,为了进一步适应档案数字化的发展,许多档案馆开发或引入了基于多角度的数字档案整合平台。但它们多基于档案自身组织形式和外在特征来实现,即以单一档案为最小化单元的集合,很难满足用户对档案日益迫切的准确性、实时性以及个性化特定需求,同时,它们也很难适应微媒体下碎片化档案资源的用户需求。为此,笔者认为可以尝试利用多种具有广泛影响力的微媒体平台,提供微档案馆服务,并以信息抽取技术为核心,探索档案中关键语义片段聚合的用户服务。

一、数字档案的服务现状

(一)数字档案面临复杂的数据环境

传统的档案管理理念侧重于收集、整理和保存,而数字化档案出现后,其数据的管理更优化,在文献保障、信息参考方面的支撑功能也更加凸显。然而,随着海量结构、类型复杂的数据渗透到档案的业务工作的每个环节中,并逐渐成为了影响档案工作质量的重要因素之一[1],它标志着档案业界的大数据时代来临。显然,海量异构数据之间关联性的深度解析将成为数字档案服务的重要发展方向。同时,数据库技术、文本挖掘技术的成熟,给这一发展趋势带来新的契机。通过它们,档案工作者可以更加深入解析档案资源的构成及使用情况,从而制定有针对性的管理方案,进一步突破档案半封闭管理的工作瓶颈,充分发挥它作为决策和研究必备的文献支援和信息参考的重要职能。

(二)数字档案的整合现状

面对新形势,很多档案工作者不断探索基于数字化档案的整合思路,其中中间件跨库整合、数据实体仓以及元数据统一标引等方式[2]被使用最多,但它们在整合的深度、广度、准确度以及使用快捷性都存在诸多问题。其整合多是在自身基础上,对档案元数据进行聚类和利用,用户检索结果集都是返回基于元数据单元集合,缺乏对元数据内的具象信息关注以及它们之间关联性的深度挖掘,而许多用户经常提出了解档案内语义间关联性的需求。

二、数字档案的用户需求

(一)数字档案的碎片化需求

档案习惯被定位为根据需求,提供全文的模式,因此,基本现有的档案整合都围绕着文献进行。但及时、可靠的档案信息支撑往往比完整掌握其来龙去脉具有更重要的意义,基于一条主线的关联语义片段集合经常更有助于研究工作的进行。通常,在同类型档案中基于关键语义点的关联内容比对,更容易凸显事物间的细节差异,寻找到其发展趋势,从而做出正确的形势预判,这显然是使用中所迫切需求的档案服务模式。

另一方面,社会生活节奏的快速,使各种碎片化的文化快餐迅速填补了职业人群零碎时段,该方式日趋成为了青年群体新的学习和生活方式。档案馆作为重要的资料支撑机构,为适应用户的碎片化数据需求,有必要积极改进自身的服务模式。然而,当前数字档案无论从组织结构还是服务模式上都很难适应碎片化模式。在组织结构上,数字档案的多数整合结果均是以文献为最小集合单位,其更适合长时间、大篇幅的阅读、研究,与碎片化阅读存在天然的不融合。从服务形式上,当前的数字档案服务以PC为目标对象,因而整合、显示都是以WEB方式进行的,与智能手持终端显示的匹配度较低。

(二)深度揭示数字档案间的信息关联

面对用户碎片化档案需求,档案工作者应该积极探索一个理想的服务途径来适应这些变化。因而,信息抽取技术以其针对性强、深度挖掘能力突出等特点出现在视野中。信息抽取其实是文本挖掘中最先进的技术手段,档案的信息抽取不是单纯将索引点相关的档案子集提供给用户,而是根据用户需求,在数字档案中提取关联的碎片化档案聚合,并且建立提取的档案信息与原档案之间的联系,以便用户能够适时获取原档案的全文信息。同时,这一聚合形式,便于向用户揭示同类型档案中的内容信息之间的深度关联。

三、基于信息抽取的微档案馆服务

(一)微信息发布平台的涌现

无线互联网及3G技术的发展,使微信息化深入到生活工作的多个领域。移动智能终端服务下使用的微信息发布、交流平台,如微博、微信等,具有比传统网络服务更优化的功能,如即时视频和语音等,使信息传播更具视觉性和立体化。伴随着“微”力的急剧增加,许多公司及政府机构也相继建立了各类微媒体的账号,利用它的传播、交流特点以及面向的服务群体,提供更新的交流和沟通渠道。

(二)微档案馆服务的信息抽取功能

当前,微媒体已经成为人们学习和生活不可或缺的组成成分,其中微博、微信已经在青年群体社交、信息分享、资源获取等方面占据重要地位。显然,微档案馆服务是依赖微博、微信为平台,实现用户信息交互的延伸,即通过这些新的微媒体形式实现与用户的信息交互、情报互通,甚至一些数字档案可以通过微媒体的渠道来获得。然而,微档案服务的核心不仅是建立与用户的交互渠道,更需要的是为用户提供个性化的档案服务,即提供用户所迫切需求的档案文献资源。例如:档案用户需要某段文字档案、某幅图像档案或者某节音频、视频档案,传统的档案服务方式就是提供给用户档案全文,用户获得后还需要从中搜寻需要的信息。[3]用户可以通过关注微媒体上的档案馆账号,向管理员提出相关需求,档案管理员则根据需求搜集到的分散的、琐碎的、细微的关联档案信息以聚合方式提供给用户。这些微细的信息资源集合解决了用户迫切的困难,真正实现了人性化服务。

该模式的初衷是希望给用户提供更好的个性化服务,但在实际使用中存在耗费人力、效率低下、响应时间长等问题,不适于大规模展开。而在此基础上,我们利用信息抽取为核心技术来实现微媒体用户需求的数字档案信息聚类和显示。其过程是:用户在微媒体上关注档案馆,继而通过入口链接访问数字档案资源的界面,根据关键主线的语义和检索,直接获取到需要的档案信息片段。同时,信息抽取可以提取用户热词,作为用户标签。通过这些标签,用户可以更直接获取档案片段的聚合。

其中,信息抽取技术包含了自然语言处理、语料资源以及语义技术等手段,其基本过程分为:预处理、命名实体探测和事件探测。[4]在实施数字档案的抽取之前,可以按照档案的主题词、形成时间、责任者、类型等要素,建立语料词库,输出规范的信息点,并按照这些信息点与大量档案文献的关联信息进行匹配,完成、输出抽取的档案片段。

微档案馆服务以数字档案资源为背景,提供了更开放的档案服务,它固然在一定程度上改变了档案服务的形态,但由于微媒体中交互信息的缺乏监管性,所以在实施中,数字档案的安全性需要特别关注。而信息抽取技术在一定程度上保障了数据的安全性,即用户通过关键词获取的只是档案信息片段的集合,如用户需要进一步获取某一片段的完整档案或级别较高的重要数字档案也可以通过身份确认,如身份证、工作证等证卡的认证方式来实现。

四、信息抽取在微档案馆服务中的适用性

(一)信息抽取技术与微媒体的兼容性

网络中除了用户自主创作信息外,还存在大量的随处可见的综合信息,微媒体信息服务的基本功能就是通过spider等技术手段对各类网络综合资源进行的信息抽取,从而实现信息聚合。而微档案服务中的信息抽取与之相似,所不同的是所抽取的对象不是网络资源,而是档案馆数据库的档案信息。因而,它与微档案馆服务具有极高的兼容性。

(二)抽取信息的聚合模式与微信息服务语境的融合

在通过微媒体给用户提供档案资源时,根据其需求的关键语义,抽取的关联语块是以主题为核心的语义块集合,其外在呈现形式是片段组合,具有篇幅短小、信息集中、指向明确以及适合微媒体传播语境等特点,很适合被编辑成为微信、微博等发布的信息。关注用户可以通过多种形式方便的获取档案信息。因而,微档案馆服务的数据核心,即语义片段与微媒体服务环境可以无缝融合。

五、新服务的实现难点

(一)微媒体用户身份认证

除用户可通过该聚合获取公开档案信息,针对保密级别较高的档案,则需要通过用户身份确认来获取。在实施中,身份确认存在难度,它需要通过与用户信息数据库进行比对,创建之初在,由于条件限制只适合在档案馆所属的学校或社区等小范围内实行,大范围的推广条件尚不成熟。

(二)信息抽取的准确性

信息抽取在具体实施中,对关键语义解析的合理性、信息点输出的规范性都决定抽取结果集的准确。目前,其算法多样,有些还不成熟,很难保障用户检索的准确,因而,在算法优化上有很大的上升空间。

(三)微档案馆的信息管理

微媒体因实时性、开放性、自由性的被广大青年群体所接受,但其信息发布长久以来缺乏有效的筛选和监管。同样,在微档案馆的使用中如何对各类信息进行管理,从而屏蔽无关、垃圾信息,推送相关的档案信息也是需要摸索的过程。

数字档案整合是为了解决档案的信息孤岛现象,然而基于单一档案文件的聚合很多时候无法适应,实时的、碎片化的用户需求。有效档案信息经常被湮灭在大量的无用信息之中,用户不得不花费精力和时间提取。针对这点,档案工作者应该采用更积极、有效手段,提供更快速、可靠的服务。因而,以信息抽取为核心的微档案馆服务方式,通过微媒体平台,提供基于关键语义主线的档案信息片段的聚合模式,可以在一定程度上改善这一现状。

(本文系四川省教育厅资助人文社科一般项目“基于语义解析的艺术信息资源深度聚合研究”的阶段性研究成果,项目编号:15SB0213)

(责任编辑:闻 道)

[1] 韩翠峰.大数据时代图书馆的服务创新与发展[J].图书馆,2013,(1).

[2] 王斌,吴建华.档案网站信息资源整合方法与方案—“档案网站信息资源普查与整合研究”系列论文之二[J].档案学通讯,2010,(1).

[3] 鲍凌云.微时代下的微图书馆服务研究[J].农业图书情报刊,2014,(4).

[4] 李中言,李普跃.信息抽取技术在数字图书馆中的应用[J].现代情报,2007,(10).

Information Extraction Technology as the Core of the Microarchives Service


Xu Yi-nan

G275.1

A

1005-9652(2016)02-0058-03

徐一男(1982—),女,辽宁本溪人,四川音乐学院档案馆馆员,硕士研究生。

猜你喜欢
档案馆语义数字
语言与语义
云南省档案局办公室关于表彰2018年度《云南档案》优秀通联组及发行先进单位的通报
答数字
全省部分档案馆新馆掠影
批评话语分析中态度意向的邻近化语义构建
数字看G20
“社会”一词的语义流动与新陈代谢
“吃+NP”的语义生成机制研究
when与while档案馆
成双成对