谈专业领域知识图谱建设实践

2018-09-18 10:03余敬春
出版参考 2018年4期
关键词:知识服务知识图谱

余敬春

摘 要:在原国家新闻出版广电总局“专业数字内容资源知识服务模式试点”工作倡导下,专业出版社基于自有优质资源,开展知识库建设为行业提供基于知识图谱的服务,是传统出版向知识服务转型的必由之路。本文总结国防工业出版社“雷达与探测知识图谱”项目实施经验,介绍了出版行业专业领域知识图谱建设研究;探索了从资源遴选、结构化加工、本体模型构建、知识元提取、关联关系构建的知识图谱建设全过程;探讨了知识图谱的评价与审核方法。

关键词:知识元 知识图谱 知识服务 知识本体

目前,知识图谱的建设已成为国内外出版社的必要工作。Springer Nature推出了SciGraph(科研图谱)服务,把自有和来自合作伙伴的资源,如期刊、论文、图书、专利,以及机构、作者等关联。Elsevier开发的知识图谱,把资源和软件工具关联,形成知识管理系统。电子工业出版社的数字产品“E知元”和人民法院出版社的“法信”数字网络服务平台,也创新性地利用了知识图谱技术。

一、知识图谱的内涵

专业出版社积累了丰富的内容资源,其涵盖范围较广,且大多是非结构化的不断更新的数据。知识图谱是知识间关系的最有效表示形式,通过提取知识元,建立知识元之间的关联关系,从内容资源中提炼知识元实体信息,从而打通资源内在脉络,支持内容的计算、重组、聚合、再创造形成新的知识对象,达到优化知识检索、共享和传承的目的。专业出版社通过构建行业知识图谱,可探索实现以“知识图谱+知识化内容资源”为主体的新型知识服务模式。

知识图谱在工业领域刚刚起步,很难找到现成的知识图谱为出版社所用,且建设耗时长,出版社需综合分析内容资源、智力储备和行业应用,选择最优质资源、最丰富内容、最迫切需要的细分专业领域,采用“逐点构建、连点成面”的方式,完成专业领域知识图谱建设。

为了使知识图谱能服务实际应用,出版社建设的知识图谱需满足三项原则:①面向应用。以实际应用为出发点,进行资源遴选、本体模型设计,以及技术和规范的制定等。②与内容资源结合。确保知识图谱通过标引能与内容资源紧密结合。③尊重著作权人学术观点。专业领域存在学术分歧,知识图谱的构建不在学术观点上厚此薄彼,尽量全面反映学术研究现状。

二、知识图谱建设研究

知识图谱建设的技术路径是构建本体模型,对本体进行实体扩充。其建设主要任务是知识元的提取与关联关系的构建,实施流程包括资源遴选、结构化加工、本体模型构建、知识元提取、关联关系构建等5个环节,如图1所示。

图1 知识图谱建设流程

1.资源遴选。知识图谱基于资源建设,只有优质的资源才能保证知识图谱的质量。出版社需组织领域专家或有丰富经验的编辑,通过分析资源的经典和时效性,以及对领域知识覆盖的广度和深度,从海量资源中挑选出与选定领域最相关的资源;同时,根据专业深度和应用目的,对这些资源进行分类,确定核心资源、辅助资源。例如,国防工业出版社“雷达与探测知识图谱”项目,遴选100多种近几年出版的重点图书或丛书,涉及原理、技术、系统、设备等。其中核心资源40余种,即成熟的教材、手册和工具书,对知识图谱的贡献度超过70%;科技专著则在专业纵深方向进行补充,属于辅助资源。

2.结构化加工。结构化加工的任务是:统一资源格式;标识内容中的标题、段落、图片和表格等(因为出现在不同位置的关键词,在知识图谱中的重要程度有明显的区别);规范元数据结构。内容资源经过结构化加工形成符合标准的XML文件和Epub文件。

3.本体模型构建。本体是知识元和知识元关联关系的集合,本体模型需构建一个完整、简洁、规范、结构清晰的描述规则或框架,清楚地描述知识元及其关系的类型、层级和结构,定义元数据即知识元实体信息描述规则。例如,“雷达与探测知识图谱”本体模型提取知识元类型10余类,包括:设备、方法、技术、产品、原理等;知识元元数据30余项,如图2所示;知识元关联关系20余种,如图3所示。

4.知识元提取。知识元提取是通过人工或程序辅助方法将资源中的专业知识提炼出来并完善元数据,实现本体模型到知识图谱建设的过程。目前,计算机技术的自动提取功能,对于语料匮乏的小领域而言,其提取效率还达不到使用需要,人工提取知识元是更加实用、可行的方式。知识元的提取包括:内容阅读、知识元提取、元数据编辑、知识元修正等4个环节,如图4所示。

(1)内容阅读:分为通读和精读。通读时了解图书的内容和编写风格,关注图书的结构和可提取的知识元,知识元描述信息从何处摘取等。精读时需分析图书中主要论述、附加描述以及涉及的各层级知识点。专业图书内容组织的特点一般是以章/节为一个相对独立的知识范围进行编写,所以,精读一般以章/节为基本单元进行。

(2)知识元提取:知识元的提取就是找到书中的知识点和相关描述,大部分在内容精读时可完成。科技图书通常表述比较严谨、规范,可以通过总结知识的表述形式来提高提取的速度和质量,常见的表达形式包括:定义型、引用型和举例型。例如:

定义型:

引用型:

举例型:

知识元提取应把握以下原则:是领域专业词汇、术语;是图书主要讲述或涉及的知识点;以名词或名词短语为主,避免使用动词,一般不用形容词或副词;提取的词出现频率较高;概念明确,叙述简练。如果提交时系统提示已经存在相同的词条,需仔细查看已有词条的详细信息,判断是否为相同概念。如果概念相同则放弃提交;如果概念不同则强制提交(此情况一般为“一词多义”)。

(3)元数据编辑:需要编辑的元数据项包括分类、详细描述、词条出处、词条位置等。“详细描述”字段即知识条目是对知识元定义性或描述性的内容,包括纯文本、图表或公式等。这些信息通常出现在提取位置附近,也有的需要從不同的位置分别提取、编辑、整合。其内容要求在任何语境中阅读时,均有完整的意义,不能带有“综上所述”“见××页”等承接前后文的文字。出现此类情况,需要加工人员对内容进行摘取、调整和补充。

(4)知识元修正:由于不同图书或加工人员对相似概念理解不一致,需对提取的知识元进行横向比较并修正。主要问题包括提取粒度、知识元名称和元数据的一致性。提取粒度的一致性是指同级概念下提取的子概念的细化粒度应一致。知识元名称的一致性主要考查词组或短语的一致性,例如,与“雷达功率”同级别或并列的概念“雷达波段”“雷达天线”也要用词组描述,不能仅用“波段”和“天线”。元数据的一致性是指同级或并列知识元的元数据的“详细描述”等需要二次编辑的项目应保持质量与程度一致。除了一致性问题,还需要考虑的是同义词的合并以及一词多义的判断。通过对比,确定概念是否相同,如果相同或相似则进行合并;如果不同则需修改元数据以做区分,使其差异尽可能清晰。

5.关联关系构建。通常,在知识元提取过程中建立与邻近资源相关知识元间的关联关系之后,还需设置专门的建立关联关系的环节,使更广泛的资源间建立关联。这个环节需系统整理、规范和挖掘广泛资源中知识元间的关联关系,同时形成对关联关系的数量及分布是否合理的评价指标。

(1)关系空间:关系空间包括关系的名称及元数据属性。关系空间在确定时应规范、统一。通常叙词表中有五类标准的关系名称,即用、代、属、分、参。在这五类关系之上,还需增加“扩展关系”和“自定义关系”。扩展关系是根据应用需要,在基本关系的基础上分解或细化出的关系名称,这些关系名称能夠更加清晰、准确地表现两个知识元之间的关系。在工程技术中,常用的扩展关系包括:“相关原理”“由……部件组成”“有……方法”“被替代”等。当增加了扩展关系,还存在没有合适的名称来描述的关系时,则允许加工人员自行命名新的关系名称,经过整理和规范,符合条件时纳入“扩展关系”。

(2)关系的判断:两个知识元之间的关系通过阅读图书内容、分析层次结构完成,找不到具体语境则依据加工人员专业知识或查找辅助资料来判断。例如:从上下级标题中分别提取的知识元,一般以属分关系为主,其次是相关关系以及其他关系;一般情况下,“×××又叫(也叫/又称)×××”这种句型的句子中知识元之间大多是用代关系。有些知识元之间的关系并不明显,不能简单地从标题层级、句型结构上分析出来,这时需要依据内容判断,尤其是扩展关系和自定义关系,需要认真理解知识元的含义及其逻辑关系,找到最适合的关系名称。

三、知识图谱的评价与审核

在知识图谱建设过程中,可通过量化度量的评价图谱,及时了解实施的进度和质量,示例如图5所示(图中每一个黑点为一个知识元,中间的连线为关联关系),其中包括核心集合、知识簇和孤立词。中心是核心集合,由具有关联关系的知识元构成;外层是知识簇,由若干有关联关系的知识元构成,对外没有关联关系;最外层是孤立词,与其他知识元没有关联关系。同时,引入了知识元/关系比和全局关系比两个概念来评价知识图谱的质量,知识元/关系比是一个知识元的关联关系的值,反映知识元的重要程度;全局关系比是全部关联关系与知识元个数的比,反映关联关系建设的合理性。一个健康的知识图谱应该只有少量孤立词、较少的知识簇和庞大的核心集合;知识元/关系比通常最大不宜超过50;全局关系比一般应大于2。

知识图谱构建阶段性工作完成后,必须由领域专家依据相关规范,对知识元及元数据、关联关系及元数据进行审核,包括其科学性、专业性、准确性和规范性等。审核发现的常见问题包括:知识元名称不规范,或内涵较大,需要修正或拆分;知识元间关联关系漏建等,需进行补充。

综上所述,知识图谱以可视化图谱的形式建立非结构化资源的内在联系,使传统出版社基于图书资源提供知识服务得以实现。专业领域知识图谱建设对出版行业而言,是一项新技术,也是一个新挑战;同时,它又是一个需要逐步更新、进化的大工程,是无法回避、必须跨越的壁垒。本文在总结“雷达与探测知识图谱”项目实施经验的基础上,讨论了知识图谱建设中资源遴选、人员组织、质量保障需要注意的问题,重点介绍了专业知识图谱建设中知识元抽取这个最关键环节的特点、方法,希望对出版社同行有所助益。

参考文献:

1. 张晓林.颠覆性变革与后图书馆时代——推动知识服务的供给侧结构性改革[J].中国图书馆学报,2018(1).

2. 张德政,谢永红,李曼,石川.基于本体的中医知识图谱构建[J].情报工程,2017,3(1).

(作者单位系国防工业出版社)

猜你喜欢
知识服务知识图谱
从西方国家保护消费者权益政策看用户信息消费的安全管理
从《ET&S》与《电化教育研究》对比分析中管窥教育技术发展