工程机械装备案例库知识图谱构建与应用*

2022-09-01 07:34周文杰余军合邓慧君范存庆
机械制造 2022年6期
关键词:机械装备案例库钻头

□ 周文杰 □ 余军合 □ 王 瑞 □ 邓慧君 □ 范存庆

1.宁波大学 机械工程与力学学院 浙江宁波 3152112.宁波大学 信息科学与工程学院 浙江宁波 315211

1 研究背景

在信息化发展过程中,企业的工程案例数据随着时间的推移越来越庞大。这些知识资源是企业极具价值的财富,有效利用这些知识资源有助于驱动企业产品创新设计,使企业在不断变化的市场中保持竞争力。随着企业工程业务的不断发展,知识资源的复杂性不断提高,侧重点分散,各自针对单一问题。而工程机械应用场景具有多样化特点,需要采用非结构化模式进行存储表达,如文本、图像等。传统的存储表达方式在面对高复杂性知识资源和非结构化模式时无法适应,导致知识资源得不到有效、统一表征,严重影响知识重用率。

随着大数据、云计算、人工智能的迅猛发展,采用大数据手段解决知识重用及知识挖掘问题成为主流。其中,知识图谱技术是研究热点,在知识统一表征方面日益受到关注和青睐。知识图谱的本质是构建具备语义处理能力和开放互联能力的知识库,对现实世界的概念、关系等进行形式化描述[1],已成为各领域广泛使用的一种提高知识重用率的方法。李秀玲等[2]提出一种面向工艺重用的工艺知识图谱构建方法,用于解决工艺知识重用和共享方面的难题。杨玉基等[3]提出四步法构建领域知识图谱,将其应用于基础学科教育,构建地理学科知识图谱。Long Jiawei等[4]构建股票市场及其交易信息知识图谱,通过深度学习对股价进行预测。Zhang Chao等[5]提出一种基于知识图谱的知识重用方法,用于支持新产品开发过程中的知识驱动决策。Yuan Jianbo等[6]提出一种基于非结构化生物医学领域特定上下文的最小监督知识图谱构建通用方法。刘梓权等[7]提出利用现有电力设备缺陷记录语料,构建电力设备缺陷知识图谱的方法。张海涛等[8]提出构建重大突发事件领域的事理图谱,研究并揭示重大突发事件演变的规律与逻辑。Fang Weili等[9]将计算机视觉算法与本体模型相结合,开发出能够在遵守安全法规的同时自动准确识别危险的知识图谱。郭榕等[10]基于电网故障处置文本,提出一种自顶向下和自底向上相结合的电网故障处置知识图谱构建方法,实现了可视化,并对其在智能信息检索和辅助故障诊断中的应用进行了分析。

从以上各领域知识图谱的构建和应用中可以看到,随着信息技术的不断发展,知识图谱技术日趋成熟,越来越多的高质量领域知识图谱被构建和应用。构建知识图谱,一般采用自顶向下或自底向上的方法。自顶向下的方法指预先定义模式层本体模型,然后从数据源中抽取实体关系属性,填充至本体模型。自底向上的方法指先从数据源中抽取实体关系属性,在对所得的知识类型定义审查之后加入知识库。在工程机械装备领域,案例库数据规模较小且封闭,工程机械装备使用场景不一,业务关系复杂,知识结构复用难度较高,知识图谱的构建有一定难度。笔者拟采用自顶向下和自底向上相结合的方法来构建工程机械装备案例库知识图谱,研究基于案例库的业务查询及可视化、基于知识图谱推荐两个应用点。自顶向下和自底向上相结合的方法指在模式层中采用自顶向下的方法,在数据层中采用自底向上的方法,用模式层中定义的本体模型映射数据源中抽取的知识类型,进而构建工程机械装备案例库知识图谱。

2 工程机械案例知识分类

工程机械装备案例库知识图谱属于特定领域知识图谱,是企业工程案例库数据基于概念节点及关系的实体扩充与丰富,是一种结构化语义知识库。工程机械装备案例库存储工程案例知识,一般意义上的工程案例知识范围很广,内容也非常丰富。为保证工程案例知识能够被精准表示和重用,将工程案例知识分为三类。

第一类为工程场景类知识,指描述工程场景的知识,是融合多种要素、多项知识的综合规划知识,主要来源是工程项目中的外部知识,如工程领域、工程地理位置、施工单位、施工对象等,是工程案例知识中较为宏观的部分。

第二类为工程业务类知识,指在工程施工中产生的业务知识,主要来源是工程项目中的各项数据,如项目名称、设备名称、设备参数等,是工程项目中真实发生的知识数据,目前主要存储于企业文本表格或数据库中,其本质是个性化实例知识。

第三类为工程规则类知识,是基于技术角度描述工程业务得以实现的依据,代表工程项目中的技术准则,主要来源是技术指导手册、业内常识、专家经验知识等,是已经验证过的正确的知识,目前主要依赖于人工总结,对工程决策具有重要的指导意义。

3 工程机械装备案例库知识图谱构建

工程机械装备案例库知识图谱从语义角度出发,以三元组形式描述工程案例知识。工程机械装备案例库知识图谱在逻辑上可以分为模式层和数据层两个层次。模式层是工程机械装备案例库知识图谱的核心,其本质是建立工程机械装备案例库知识模式,存储的是实体、关系、属性三者之间的关联关系。数据层对工程机械装备案例库中的知识进行处理,在模式层的引导下,转换为结构化知识图谱。

工程机械装备案例库知识图谱构建流程如图1所示,主要包括三个核心步骤。

第一步,模式层构建采用自顶向下的方法,对三类工程案例知识通过领域本体设计的方法进行梳理,对业务和功能需求进行分析,预先定义模式层中的实体集合、实体属性集合、实体关系集合,形成清晰明确的层次结构。

第二步,数据层构建采用自底向上的方法,对数据库数据、云平台数据、文本表格数据、专家知识进行清洗和预处理,并对目标数据进行实体、属性、关系抽取,对抽取得到的形式化知识进行实体对齐、链接、消歧,在模式层的引导下完成构建。

第三步,生成工程机械装备案例库知识图谱,具体包括设计知识图谱的存储方式,建立多层次实体关联关系,实现模式层到数据层的映射。

4 模式层

工程机械装备案例库知识图谱模式层的本质是建立工程机械装备案例库知识模式,相当于关系数据库的表结构,存储经过提炼的工程知识实体及实体间的关联关系,是工程机械装备案例库知识图谱中的核心部分。为了保证模式层能够准确、完整地表达工程案例知识,使用自顶向下的方法,从宏观角度出发进行模式定义。模式层概念关系如图2所示。

针对三类工程案例知识,确定本体的专业领域和范畴,了解应用的背景和需求,明确模式定义的目的、范围、用途等。考虑复用现有模式的可能性,基于三类工程案例知识,逐步向下进行细化,以形成准确的层次结构。分析业务逻辑,包括对象梳理、流程梳理、业务优化、逻辑建模四个部分,核心是以业务场景为分析对象,理清场景和业务对象的关联关系,可以充分运用专家知识,结合场景目标,梳理业务对象和业务流程,并对业务进行优化,最终对业务场景实现逻辑建模和本体建模,根据业务需求完成实体集合定义和实体属性定义。图2中,实体类概念部分为模式层中的概念层,基于三类工程案例知识进行扩展得到。实体属性值部分为定义实体概念的属性值。通过评估分析,选择拥有迫切需求、知识基础良好、业务逻辑清晰明了的业务场景,规避基础较差、非结构数据多、信息化不完善的场景,从整体角度进行功能需求解读,完成关系集合的定义。

模式层概念关系图谱模型如图3所示。

5 数据层

工程机械装备案例库知识图谱数据层的作用是在模式层的引导下,将工程案例知识转换为结构化的工程机械装备案例库知识图谱。数据层采用自底向上的方法构建,主要包括知识抽取、知识融合、知识存储表达三个步骤。

5.1 知识抽取

基于错综复杂的数据库数据、云平台数据、文本表格数据、专家知识构建工程机械装备案例库知识图谱,首先要进行知识抽取,目的是从源数据中提取特定类型的信息,如实体、属性、关系,并将特定类型的信息以特定的形式进行表示和存储。以上三类特定类型的信息是工程案例知识的重要组成元素,工程机械装备案例库知识图谱的优劣由知识抽取结果直接决定。数据在整体上表现出多源异构多模态特征,因此要将结构化数据和非结构化数据分开处理。结构化数据包括数据库数据、云平台数据,非结构化数据包括文本表格数据、专家知识。

数据库数据和云平台数据是工程案例知识中的显性知识,描述了工程机械装备的应用场景,具体如设备库、设备数据、项目信息等,属于结构化数据,具有固定的格式和显式表达结构,逻辑清晰,知识表达好,存储类型一般为关系型数据库、链式存储结构等。对于关系型数据库,知识抽取方法为建立数据库中概念与模式层中本体的对应关系,实现自动获取实体、属性、关系。使用D2RQ平台将数据库中的各个表映射为知识图谱的某个类型,同时将表格中的列设置为对应类型的属性,每一行代表一个实体,实体间的相互关系通过表链接模式来表达。对于链式存储结构,使用图映射的方法即可完成转换。

文本表格数据和专家知识是工程案例知识中的隐性知识,描述了工程机械装备的应用规则,具体如技术手册、专家报告、施工说明书等,属于非结构化数据。对非结构化数据进行知识抽取,关键在于从目标文本表格数据和专家知识中对命名实体进行检测并分类,挖掘实体之间的关联关系,搭建实体与实体之间的语义桥梁,并识别出实体的属性,对实体进行补充,使实体更加完整。一般采用监督学习的知识抽取方法,通过已知的实体对未知的实体进行自动标注,但文本表格数据和专家知识通常较为封闭、稀疏,传统的知识抽取方法并不适用,因此还需要设计合适的知识抽取方法对文本表格数据和专家知识进行实体、属性、关系的抽取。

5.2 知识融合

通过知识抽取,初步实现从数据库数据、云平台数据、文本表格数据、专家知识中抽取实体、属性,以及实体与实体的关系。当然,工程案例知识繁杂,质量良莠不齐,不同数据源的实体容易产生歧义,并且实体间的关系较为模糊,想要得到合理的数据层,还需要进行知识融合,对近义词进行整合,对歧义词实现消除,确保知识的质量。

知识融合主要包括实体链接和实体对齐两个步骤。实体链接指将知识抽取之后的实体链接至正确的实体类别中的方法,如将“冲击锤”链接至“钻头名称”这一实体类别中。工程机械装备案例库知识图谱使用构建语义模型的方法,构造基于语义特征的实体和实体分类集合的特征向量,计算实体和实体分类集合间的余弦相似度,得到精确的相似度,再基于实体与实体分类集合的相似度进行实体链接[11]。

在现实世界中,一个实体往往有多种称呼,例如“西红柿”和“番茄”,代表着同样的客观事物。在工程机械装备案例库知识图谱中,也会存在这种现象,引发实体冲突、指向不明问题。通过实体对齐,可以消除异构数据中实体冲突、指向不明的问题。工程机械装备案例库知识图谱采用局部集体实体对齐的方式,通过pagerank算法计算实体间的权重,加权求和后获得实体间的相似度,基于实体间的相似度进行实体对齐。

5.3 知识存储表达

知识融合后,可以得到初步的本体雏形。要形成高质量的知识,还需要进一步进行知识加工。工程机械装备案例库知识图谱属于领域知识图谱,数据具有一定的封闭性,大部分数据未公开公布。对此,使用人工编辑的方法,将获取的知识映射至模式层,再由数据层完成工程机械装备案例库知识图谱的构建,采用基于图模型的Neo4j数据库进行知识存储表达。

6 应用实例分析

选择某钻井公司桩基施工案例库进行工程机械装备案例库知识图谱的应用分析。这一钻井公司需要针对不同钻井场景,选择合适装备和工艺参数进行钻井操作。在桩基施工案例库中,将钻井装备、钻头、施工案例的数据作为试验数据,主要涉及钻头、项目信息、地层信息、控制参数、施工工效等。试验数据在结构上呈现多源异构形式。

6.1 模式层构建

该钻井公司的业务场景主要为桩基施工。针对业务场景,确定将钻头作为工程机械装备案例库知识图谱的核心,构建钻头名称、钻头类别、项目、地层信息、控制参数、施工工效的业务耦合关系。因为地层特征信息杂乱冗余且不规范,所以将地层信息分为多个地层属性,主要包括颜色、结构、硬度、塑性、韧性等,然后自顶向下构建本体模型作为模式层。模式层构建结果如图4所示,模式层节点包括钻头名称、钻头类别、项目、地层信息、地层属性。钻头名称的节点属性有钻头特征、钻头种类、适用范围,地层信息的节点属性有地层详描、施工工效。模式层的关系包括钻头名称和钻头类别名称的归属关系、钻头名称和项目的应用关系、项目和地层信息的包含关系、钻头名称和地层信息的施工关系、地层属性和地层信息的构成关系。

6.2 数据层构建

在试验数据中,钻头名称、钻头类别、项目等为结构化数据,在数据库中已有定义,因此以模式层为基础,应用D2RQ平台将其转换为钻头名称集合、钻头类别集合、项目集合、钻头名称与钻头类别关系集合、钻头名称与项目关系集合、地层详描属性集合、施工工效属性集合。

地层信息为非结构化数据,并且描述不规范,有大量杂质和冗余,因此需要设计合适的知识抽取方法对地层信息进行实体、关系、属性抽取。实体抽取的任务主要包括:提取地层信息的主体特征,作为地层信息的节点名称;提取地层信息的部分特征,作为地层属性节点;提取地层信息与地层属性的关系。对地层信息文本表格数据进行分词处理和词性标注,构建地层信息集合、地层属性集合、地层信息与地层属性关系集合、项目与地层信息关系集合。知识抽取的部分实体见表1,知识抽取的部分关系见表2,知识抽取的部分属性见表3。

表1 知识抽取的部分实体

表2 知识抽取的部分关系

表3 知识抽取的部分属性

6.3 形式化表示

通过Neo4j数据库实现三元组数据的存储,通过可视化的方式构建出最终的工程机械装备案例库知识图谱,部分内容如图5所示。

6.4 业务查询

工程机械装备案例库知识图谱构建规范、结构简洁、数据质量高,因此相较于传统的查询搜索,基于工程机械装备案例库知识图谱的业务查询提供了更为丰富的语义特征和结构化的表示形式,可以对项目或者钻头名称等实体进行可视化查询。Cypher语言是基于Neo4j数据库的一种描述性图形查询语言,具有丰富的表现力和较高的查询效率。在进行业务查询时,将Cypher语言转换为查询子图,与整个工程机械装备案例库知识图谱进行匹配。工程机械装备案例库知识图谱识别检索式中的实体,并对实体间的结构关系进行查询扩展与推理。最后,工程机械装备案例库知识图谱对检索处理的结果进行相关性排序,向用户返回图形化知识结构。

基于工程机械装备案例库知识图谱的业务查询过程如图6所示。针对给定的项目“阳江风电”,利用文本分类模型识别出给定的实体,规范实体名称。利用Cypher语言对已确定的实体名称进行搜索,可以查询出与该项目相关的实体,如“截齿筒钻”“球齿滚刀钻头”“全风化花岗岩”等。通过点击节点,多级扩展图谱信息,形成以“阳江风电”为核心的知识网络,向关联知识扩展,扩大业务查询的范围。可视化业务查询结果如图7所示。

6.5 个性化推荐

个性化推荐是工程机械装备案例库知识图谱在工程领域的应用场景之一,可以根据用户的检索请求提供相关对应实体的建议,以帮助用户更好地获取所需要的知识。在新的项目工程中,面对新的施工条件,钻头的选型依赖于设计人员的专业知识和设计经验。应用工程机械装备案例库知识图谱,可以在钻头选型过程中根据所存储的知识和关联关系,给予当前的业务进程辅助推荐和决策,降低对设计人员的强依赖性,提高选型效率,降低选型风险。

将钻头与地层信息的业务关系转换为钻头名称与地层属性的业务关系,利用向量空间模型K1~Kn形式化表示钻头名称与地层属性的业务关系,为:

(1)

式中:ti为第i个地层属性;si为第i个钻头名称;ωi为ti相对于si的重要程度;n为实体数量;m为桩基施工案例数量。

ωi的计算采用词频-逆文本频率方法得到,计算式为:

ωi=Tilog(S/t+β)

(2)

式中:Ti为第i个地层属性与钻头名称的业务频率,即该地层属性与钻头名称产生业务的次数与钻头名称总业务数量之比;S为地层属性与钻头名称业务关系总量;t为地层属性业务数量;β为经验常数,通常情况取0.01、0.1、1。

通过式(2)可以得到施工条件与设备名称基于业务的关联矩阵Kn×m,为:

(3)

为解决矩阵稀疏性,还要对其进行归一化处理,最终基于迪杰斯特拉算法进行路径计算,根据需求查询与检索节点最短路径的节点,完成节点的推荐。由于迪杰斯特拉算法是从一个顶点到其余各顶点的最短路径算法,解决的是有权图中最短路径问题,而归一化后的权重体现的是相关性,因此还要用1减去归一化后的权重,成为不相关性,再将其输入工程机械装备案例库知识图谱。最终得到的不相关矩阵R为:

(4)

不相关矩阵的行表示地层属性,列表示钻头名称,不相关矩阵中的内容表示地层属性相对于钻头名称的反向重要度。将构建的不相关矩阵转换为钻头名称-权重-地层属性三元组,存储至Neo4j数据库。

基于工程机械装备案例库知识图谱的钻头推荐过程如图8所示。面对新的地层信息时,可以通过简单的人工抉择,将地层信息分为多个地层属性输入推荐条件,如“厚层状”“砂质结构”“裂隙发育”等。使用迪杰斯特拉算法对地层属性与所有钻头的权重进行计算,通过排序得到最相关的一个或多个钻头,为施工人员提供选择,完成推荐。

钻头推荐示例如图9所示,图中数字为地层属性与钻头名称的权重。

7 结束语

在各个领域的知识重用中,知识图谱已成为举足轻重的角色。目前,知识图谱在互联网、医疗、金融等领域都具有不俗的表现。领域知识图谱具有行业壁垒高、专业性强的特点,针对工程领域知识,提出工程机械装备案例库知识图谱的构建方法,分析基于某钻井公司桩基施工案例库的工程机械装备案例库知识图谱应用,尝试工程机械装备案例库知识图谱在工程领域垂直深化的可能性,为工程案例知识重用提供新的解决方向。在工程领域,对大量非结构化数据、表单、图片进行自动化识别处理,以及将知识图谱更好融入业务场景,仍然存在挑战,相信在不久的将来,知识图谱在工程领域的应用会越来越可靠和成熟。

猜你喜欢
机械装备案例库钻头
心血管外科教学案例库的建设及应用研究
钻完井工程钻头费率合同模式的构建与实施
《宁夏大学学报(自然科学版)》入选2021年度中国高校科技期刊建设示范案例库
国内首个海事司法案例库正式上线
基于实践应用的基坑工程设计案例库建设研究
PDC 钻头落井打捞方法分析与应用
近钻头地质导向在煤层气水平井的应用
长拖农业机械装备集团有限公司
长拖农业机械装备集团有限公司
长拖 农业机械装备集团有限公司