浅析新闻出版行业领域知识服务的实现路径

2019-10-21 10:26马金鹏
科学与信息化 2019年2期
关键词:知识服务数据处理

马金鹏

摘 要 知识服务是一种新兴的目标驱动型服务方式,是将用户的精准需求与清晰的使用场景相结合,研究提出人性化的智慧服务解决方案。本文以新闻出版行业为例,利用工具书结构化特性进行知识点的梳理抽取,应用信息检索与数据挖掘加权(TF-IDF)算法,测算出知识与资源之间的关系强度,构建出涵盖图书、图片、视频、知识点等多形态的知识库,通过对知识服务平台的建设,探索和挖掘知识与资源之间的互联关系,提供知识内容检索、关联资源推荐及深入学习的支持服务。通过深入挖掘行业纵深领域的真实需求,形成知识服务的实践工作流程,总结知识服务的共性技术、工具和系统,在其他行业内起到示范和推广的作用,为知识服务之路开创新里程。

关键词 数据处理;知识服务;示范推广

本文主要是利用现有知识服务技术,尝试设计一套基于新闻出版行业的知识服务平台,内容主要涵盖三个部分:①知识加工,以现有资源为依据,以人工编辑为主,采用可视化构建工具完成知识体系框架建设,形成知识图谱文件;②知识储备,以知识体系为依托,对原始资料中的结构化数据、半结构化数据、非结构化数据进行科学抽取,然后进行数据清洗、关联,形成知识点,并进行知识关系强度计算,计算出知识点与知识点、图片与图书等元素的关系;③知识利用,平台搭建遵循质量管理规范体系,采用多种编程语言、数据库等开发工具,搭建面向专业领域的知识服务平台,实现知识检索、知识呈现和关联知识、关联资源推荐服务。

1 总体设计

系统实现的总体过程:知识加工过程采用手工加算法辅助的方式,输出知识内容和关系强度给知识存储过程,知识存储后,提供多个应用程序编程接口为知识利用服务作为支撑;知识应用环节,以知识库为内容支撑,以部分外部服务辅助,将用户与知识通过简单的检索,有效的连接起来[1]。

2 知识加工

知识加工过程中,专家参与确定知识体系形成结果输出,使用可视化手工构建工具形成知识体系图谱;将从工具书中抽取的知识点结构文本、图示和停用词等共同输入,经过核心算法的计算,完成关键词的抽取,通过分词、相似度的计算以及排序,形成关系强度的计算结果值[2]。主要步骤设计如下:

(1)根据已确认的知识体系表格,建设专业领域知识体系,形成知识体系文件。知识体系即为知识点的分类。

(2)选定专业领域内的权威辞典、辞书为知识点抽取的来源,先抽取知识点,以根据知识体系中的属性抽取三元组的类型,每个知识点由多个知识三元组组成,抽取的每个知识点,系统自动生成唯一标识。

(3)知识点抽取完成后,人工进行数据的清洗和校验,从知识点的重要程度、知识点抽取的正确与否两个角度筛选,最终保留少量的知识点关键词,以备计算关系强度使用。

(4)整理现有版权的可用资源,图书、图片、视频资源分别进行批量加工、标引,提供完整的、符合规范的数据内容,图书包括封面、元数据和内容文件。图片包括元数据、浏览级图片和高精度大图,视频包括元数据和音视频文件。

(5)通过信息检索与数据挖掘的加权计算出知识点与知识点、知识点与图书、知识点与图片、知识点与视频间的关系强度,形成规范的带有唯一标识的结果文本,以备建立知识库使用。加工流程如下图:

3 知识存储

知识存储即为知识库的建立过程,是知识数据、知识关联结果、各类型资源的入库过程。知识存储过程中,将知识加工形成的结果文件以及图书、图片、视频资源,全部入库到关系型数据库中,同时将知识相关的数据入到搜索应用服务器库中,知识存储的过程就是所有资源入库的过程。该过程提供多个应用程序编程接口,为知识利用提供数据支撑[3]。

系统采用关系型数据库和搜索应用两个数据库作为数据支撑,使用搜索应用服务器提供索引服务。知识数据、图书、图片、视频,所有的资源汇总到关系型数据库管理系统进行结构化存储,知识三元组、知识点和知识体系同步入库到搜索应用服务器中,建立索引库,提升检索的性能。知识存储的架构图如下图:

知识储备需要支持将已经加工标引完成的图书、图片、视频、知识点以及知识关系统一组织,建立便捷知识库。所有的资源入库后,需要按资源类型分别存储,提供各种检索查询服务,使得各类别资源具备可独立建库服务的能力,知识建库完成后,还需要同时完成索引库的创建,用以提升用户检索的性能[4]。

4 知识利用

在知识利用过程中,用户登录认证后便可实现通过检索服务,进行知识的获取和利用,绘制的知识图谱可呈现知识点与知识点间的关系强度,通过在线浏览器的接口调用,进行关联图书中段落内容的阅读,包括下载和播放与之相关联的图片和视频。

由专业领域知识服务平台来提供终端用户的注册、登录,知识检索,知识图谱的呈现,知识关联资源的推荐,以及知识的学习等服务。利用依托于知识点和知识点之间的关系强度,进行知识图谱相关的展示;利用知识点和资源的关系强度,为用户推荐与该知识点相关联的图书、图片、视频资源。在关系强度的计算过程中,可点击推荐图书直接跳转到内容进行学习使用[5]。

5 结束语

研究认为,在专业知识服务平台建设上,还有很多亟须完善和持续深入的地方:首先,在资源内容方面,知识点的范围局限限制了持续建设扩充的可能性,知识点的录入还应充分考虑对时下热点的关注;其次,在知识加工方法上,现有知识体系还可以依据某一个细分应用场景进一步细化,使得维度更多,体系更加精准;再次,还应持续深入得研究文本抽取技術,对于结构化不好的数据,依然可以依据知识体系的属性抽取出三元组信息,同时增加对于三元组数据的置信度计算,以确保数据的可用性。希望通过此次对专业知识体系、知识库的构建以及应用场景的设计中积累的经验,可以有效促进专业知识服务在具体行业中应用于发展进程,更好的体现专业知识服务的应用价值与现实意义。

参考文献

[1] 冯宏声.新闻出版业“十三五”时期的科技工作思考[J].科技与出版,2016,(06):28-35.

[2] 吴赟,孙梦如.中国出版业发展知识服务的路径思考——从爱思唯尔ClinicalKey超级医学平台谈起[J].出版广角,2017,(13):13-16.

[3] 刘涵宇.如何有效的向用户传递信息[EB/OL]. https://wenku.baidu.com/view/bd30a447844769eae109ed2a.html,2014-05-09.

[4] 王海艳.基于领域本体的可信服务组合[J].计算机应用研究,2012, 29(11):4193-4198.

[5] 梁莹.大数据分析在出版中的应用与展望[J].出版广角,2015,(2): 15-17.

猜你喜欢
知识服务数据处理
电容式传感系统数据处理电路的设计
基于ARCGIS 的三种数据处理方法的效率对比研究
贵州开建FAST科学研究与数据处理中心
高层建筑沉降监测数据处理中多元回归分析方法的应用研究
高层建筑沉降监测数据处理中多元回归分析方法的应用研究
视频大数据处理的设计与应用
基于知识服务的档案管理模式研究
跨境电商供应链中的知识服务供需匹配模型研究
构建图书馆知识服务理论体系的思考
嵌入心理契约的馆员知识服务能力建设研究