知识图谱构建之语义检索技术浅析

2020-11-24 14:36曾真岳阳市高级技工学校刘尧桂林旅游学院旅游数据学院

灌篮 2020年21期

曾真岳阳市高级技工学校刘尧桂林旅游学院旅游数据学院

知识图谱构建技术是近几年来研究比较热门的话题，知识图谱（Knowledge Graph）的本质就是一种语义网络，其主要目标就是将真实世界中的各种实体（Entity）、属性（property）以及实体与属性之间的关系（Relation）描述出来，知识元素是组件语义检索系统的基本单位，在汉语体系中，语义之间的逻辑关系是比较复杂的，需要结合上下文结构，需要了解当时的语境，需要确定具体的历史时期，这些因素都有可能展示出不同的语义含义和关系，达到计算机可读取、好理解以及用户查询方便的目的[1]。用户能通过搜索自己所需的关键词来获得相关更广泛、更深入的知识信息，大大提高获取知识的效率，其中语义检索技术恰恰就是核心关键所在。接下来，我们了解一下知识图谱的基本概念。

一、知识图谱的基本概念

知识图谱是21世纪提出来的，相当于将人工智能、大数据、数字化、可视化等相关技术进行融合后的新概念，它的数据形式并不单一，不同的名称实体、属性关系等数据需要从不同的地方去采集，有结构化的，有半结构化的，也有非结构化的，使得互联网中的海量无序信息的表达变成更好组织、管理和理解的数据模式，达到更接近人类思考和认知模式[2]。知识图谱作为一种新型的技术概念展现在大家面前以来，得到了研究者们广泛的研究，其中语义检索就是知识图谱的研究热点之一。

二、知识图谱构建的相关技术

知识图谱构建是融合了实体链接、知识可视化、知识分析、关系提取、语义检索等相关技术。具体如下：

（一）实体链接（Entity Linking）

实体链接就是指对用户查询时，对其输入的语句中的实体进行自动识别，并将其与知识图谱的相应节点进行链接。主要步骤有两个，一个是对自然语句中的主语和宾语进行实体识别，主要包括姓名、单位名称、项目名称、地方名称等几类实体[3]。另外一个是对自然语句中的实体关键词进行歧义消除，比方说一语双关或一词多义的问题，主要是要结合自然语句中的上下文意境来判断，将自然语句中出现的相关名称链接到知识图谱里相应的实体节点上，充分利用上下文，分析不同含义的实体出现在该处的概率，已到达精准链接的目的。

（二）知识可视化（Knowledge Visualization）

知识可视化是指把现实世界中所关心主体知识和客体知识进行抽象描述，并将其关联起来，知识可视化需要通过计算机数字化后，实现计算机可识别、分析的数据，再结合机器学习模式，不断进行数据修正，以达到人类识别和理解知识的常规模式。

（三）知识分析（Knowledge Analysis）

知识分析是指通过智能系统来实现推理的程序，通过机器学习模式，并设置合理的逻辑关系的规则，让系统按照设定好的逻辑关系规则去搜索知识库里的信息，然后进行数据匹配，产生或论证出新的知识。知识分析的关键就是对知识之间的逻辑关系，潜在的语境进行甄别，判断出最合理的语义关系，得到用户预期的需求。

（四）关系提取（Relation Extraction）

在当前信息爆炸、海量数据充斥互联网的时代背景下，信息抽取工作就显得格外重要。关系提取顾名思义，就是在语句结构中，试图用计算机的语言区识别文字体系中的逻辑关系，主要是从海量的非结构和半结构的数据信息中，提取出与用户检索相关的内容，再通过计算机的处理，将这些不够结构化的数据变成结构化的数据，提高后期的检索效率，使得这些信息能够成为计算机可识别和使用的格式。关系提取主要分两个步骤，一个是从文本内容中判断实体是否有关联，另一个就是抽取到与之有关系的实体之间的关系是哪一种属性[6]。

（五）语义检索（Semantic Search）

语义检索顾名思义就是针对中文语句中的文字含义用计算机搜索的方式来进行操作的事情，在知识图谱中找到对应的实体、概念、属性和联系，搜索结果以结构化信息内容展示在用户面前，直接满足用户关联信息需求，而不是一个个独立的互联网网页[7]。

三、语义检索技术

语义检索技术是知识图谱构建中非常重要的一环，它能改善当前搜索引擎的搜索效果，不再刻板的研究和分析用户搜索时所输入关键词的字面意思，而是通过关联分析，能准确地挖掘到用户所要找寻的具体内容和可能需要但并没有及时想起来的信息，达到一种精准提醒和引导的作用，辅助用户找到自己更喜欢的内容[7]。所以说，在知识图谱技术领域里，语义检索技术是相当重要的一环，也是未来互联网研究热门之一。

（一）语义网的概念

说起语义检索，就不得不提到语义网，它是在Web 3.0这一概念中诞生的，说白了就是希望通过人工智能来进行表达的一种网络。它不再是简单的识别词语和概念的表面含义，关键是能够对实体之间的逻辑语句进行甄别、判读、推理、学习和互动，以达到更高效、更精准的信息交流，使得用户在网络上获得更有价值的数据信息[8]。

语义网不同于现在普通的网页，常规的网页更多的是静态信息的展示和呈现，数据没有变换，而语义网中提供的数据主要都是针对可以编辑的动态数据，用户能够对数据进行更改和编辑，并且可以成为机器硬件可读取的数据，能够让计算机进行逻辑运算和处理，以给出用户能够理解的结果出来。

（二）语义关系

语义关系是语言词汇之间的存在某种意义上的关系，如聚合关系、组合关系和逻辑关系等。在中文语句中，不同的语气、停顿都能产生不同的意思和理解，这就导致了一句话的语义关系需要结合上下文的结构来理解。如：①我不想吃了，②米饭不想吃了，③虾不想吃了。

这三例句法关系都一样，都是主谓关系。但其背后隐藏的语义关系是比较复杂的，打个比方说，小明爬过岳麓山没有？这里就有两个意思，一层意思是小明以前去爬过岳麓山，有没有爬到山顶并不确定，另一层意思是，小明从岳麓山山顶爬过去，明确是到过岳麓山山顶的。所以说这句话不同的人就有不同的理解，是有歧义的。中文的语义存在多种含义联系，需要结合当前语境才能获得比较准确的理解，只有把多种理解的语义之间的联系建立成计算机模型，才可以更为合理和精确的解释负责的中文语法结构。

（三）语义模型

何为语义模型？简而言之，就是针对语义概念用计算机的手段建立的模型，模型能够给出词的语义，例如判断这个词是地名、日期、书籍、歌曲等等。语义相似度是在语义检索中最重要的也最难解决的问题，传统的文本相似性有时无法有效发现语义类检索-解答结果对，如：①存在输入错误。例如输入的错误检索“稻城雅丁”（稻城亚丁），对于这种错误我们希望系统能够自动的纠错；②存在表达冗余。例如输入“三国志智慧的现实意义”，在这个语境下，“智慧”是一个无关紧要的词。如果强制去匹配“智慧”的话，反而匹配不出真正想要的结果；③存在语义鸿沟。比如“皮鞋消音”，其中“消音”这个词的与：“皮鞋”在一起的表达比较少见，使得同时包含“皮鞋”和“消音”文档较少。而类似的表达如“皮鞋走路声音大如何消除”等可能较多。用户输入的检索和用户生产内容之间存在了语义鸿沟；还有其他类型表达不完整，意图不明等等的相似性。检索和解答就相当于钥匙和锁之间的关系，它们之间的关联分析可以很高的帮助语义检索结果排序[9]。

（四）数据语义

语义检索的基础是需要在数据语义知识库中进行，这个知识库的建立重点在于将真实世界中的概念或对象进行数字化，形成数据语义，实现数据语义与现实语言联系起来。如果从未使用过计算机数据库的人试图从中提取信息，则用于访问数据库的单词和短语是没有意义的[10]。语义检索是智能化搜索服务的前提，探索文本信息数据语义化，实现文本信息从基本机器可读逐渐向计算机可理解、可计算、可推理的方向迈进，是语义检索有效性的保证。

四、总结

综上所述，语义检索在知识图谱技术领域中占有非常重要的一环，使用者能通过输入关键词就能实现自己个性化信息需求，语义检索起到了至关重要的作用，也是知识图谱构建的关键所在。本文从语义网的概念、语义关系、语义模型和数据语义等方面来论述语义检索技术的优势、要领、基础和核心需求，为智能化搜索服务提供一定的参考。