基于案例信息检索的汽车故障诊断系统的构建

2022-11-11 02:08唐伟萍赖德鹏
大众科技 2022年10期
关键词:分词故障诊断案例

唐伟萍 赖德鹏

基于案例信息检索的汽车故障诊断系统的构建

唐伟萍赖德鹏

(广西电力职业技术学院,广西 南宁 530007)

传统车辆维修养护诊断模式依赖于人工经验和配套设备,已经适应不了汽车更新换代的速度,迫切需要更高效更智能的定位故障、快速检修技术来提升车辆安全性和可靠性,从而诞生了车辆故障诊断技术这个综合性学科。文章通过基于人工智能设计思想,采用大量的维修实例可以作为系统的训练样本,应用最新信息技术完成汽车故障认知诊断系统的设计与实现,为用户提供一个高效简便的故障诊断平台,为专业维修人员解决汽车故障、对汽车维修提供依据,经实验测试,系统大大降低故障诊断难度,节约故障诊断时间,带来良好的经济效益。

案例信息检索;车辆诊断;系统构建

引言

据公安部2022年7月6日发布的2022年上半年全国机动车统计数据显示:截至2022年6月底,全国机动车保有量达4.06亿辆。说明随着人们物质生活水平的提高,汽车逐渐成为每个家庭必备的交通工具。同时,随着信息技术发展和工业化程度的加深,更先进更智能的精密电子和计算机信息技术应用到汽车上,除了代步需求外,更安全、更舒适、更智能成了汽车品质评价的重要指标,也促使汽车结构日趋复杂,日常检测、常规保养显得越来越重要。如何排除汽车安全隐患、存在故障快速定位检修成了汽车售后服务行业的重点和难点,迫切需求新技术新方法为汽车维修业提供更直接、更准确、更简便的车辆故障诊断[1]。

汽车厂商旗下品牌多样化是当前一个显著特点,伴随汽车加载设备复杂化,给传统主要依靠工人经验和仪器分析的诊断极大的困惑和被动。汽车故障诊断技术是以车辆故障诊断学理论为指导,应用信息化技术对车辆各种指标进行采集分析,并将数据存储,形成专业级案例库,方便同类故障诊断时进行检索[2],为精确诊断提供依据,从而实现故障诊断预防、故障快速定位及准确维修提高技术支持,进而提高汽车的安全性和可靠性。

1 相关技术概述

1.1 故障诊断

故障诊断的目的是检测对象运行时特征信息进行综合分析,判断运行状态是否正常,一旦有异常特征被捕捉,马上对故障产生的成因进行分析,给出诊断结果并给出具体解决方案,从而实现对设备全生命周期监管,进而避免故障引发的安全隐患,降低损失[2]。本质上是基于故障特征进行成因分析推理的技术或解决方案,一般分定期检测和按需特殊诊断两种,分设备信号采集、特征码分析、案例匹配分析和诊断结果反馈四个过程[4]。

1.2 自然语言处理

自然语言处理是计算机科学技术与人工智能、大数据挖掘相融合的一个重要方向,萌芽于1949年美国人威弗提出的机器程序思路,兴起于1956年人工智能诞生,壮大于20世纪90年代计算机算力、存储的快速提升和互联网快速发展,逐渐出现基于统计、实例和规则的语料库产品,实现信息学、哲学、统计学等多学科交叉融合[5]。因为涉及人类字、词、句、段的组合,对象是人类常用语言,基此而产生的理解和翻译,进而形成信息检索和文本归类,均属于自然语言处理范围,目前主要分语言学、数据挖掘、AI和认知、语言工程四个方向[6]。

1.3 车辆诊断技术

因为汽车零部件质量、寿命、使用环境的差异以及驾驶习惯[7],不可避免出现故障,同时由于检测、保养和使用汽油等消耗品的差异,也导致成因各异,因此,在车辆全生命周期中重视故障预防和处理,定期检测、及时排除隐患显得非常必要。随着计算机技术和智能技术的发展,逐步出现了工人经验法、仪表诊断法、专家系统诊断法和数值特征判断法等新技术和新方法,随着更多学科的融合和技术迭代赋能[8],汽车故障诊断技术开始向网络化、智能化、自动化的迈进。

2 基于案例信息检索的车辆故障诊断系统总体设计

由于汽车品牌和车型众多,大大增加了汽车维修人员判断的难度,而准确锁定故障是维修的基础,因此,建立基于案例信息检索库的车辆故障诊断系统可以方便维修人员科学了解故障成因,有效提高故障判断准确度和维修维护的效率。设计的关键包括准确的需求、合理的架构。

2.1 需求分析

清晰可行的需求是系统开发成功的前提。一个成熟科学的汽车故障诊断系统应该能够根据维修人员输入相应故障现象,马上能反馈故障成因和解决建议,为准确维修提供科学依据和可靠指导。在此过程中,对输入故障描述进行中文分词,通过词条相似度计算机匹配案例,对零配件标注,数据信息存储是关键。根据对南宁市不同品牌4S店维修人员的调研,经过整理梳理,得出系统工作流程如下所示:

step1:维修人员输入故障描述。

step2:中文分词。系统对输入的故障描述进行中文分词处理,解决计算机不能直接使用自然语言问题。

step3:案例匹配。文本相似度计算,反馈计算结果,同时要充分考虑复杂度,进而提高结果的准确度。

step4:器件标注。目的是提高器件和故障的关联度,进而提高维修人员对诊断结果中涉及器件的敏感度,从而遇到同类故障时迅速作出预判。

step5:数据管理。一是不断地为系统添加和存储新的案例数据,从而训练系统模型,提高检测能力和匹配度;二是记录用户习惯,形成关联记忆,方便检索。

step6:输入新的描述跳转step2,否则结束。

2.2 系统总体架构设计

系统主要面向汽车维修维护专业人员或者汽车专业师生,因此系统应具有经济性、操作简易性和可拓展性。也就是说,一是尽量降低成本,减少时间、地域、设备等制约;二是用户均为专业人员,交互界面一定要方便输入,方便检索,方便阅读和分析;系统通过物理接口能与车载平台互连互通,方便记忆用户习惯,同时预留下一步连接互联网或者应用公有云的方式。基于此,设计总体架构如图1所示。

图1 系统总体架构设计图

用户使用终端输入故障描述,数据库同时记录用户输入习惯,以生成关联记忆;终端收到输入信息后传递至案例匹配接口,和数据库中的语料库进行对比,得出匹配结果并返回给用户。

3 系统关键技术的设计和实现

3.1 案例分词技术

这是基于中文分词基础上延伸出来的技术,将输入的内容切分成一个个单独的词条,相较以英文为代表的分词技术,中文分词相对滞后,主要难点在于歧义识别和新词识别,因此模型训练越久准确率越高。按照分类方式不同,常见案例分词有基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法,这三种方法各有优缺。

由于故障诊断结果准确性和诊断速度直接关键到用户对汽车故障诊断系统的体验,因此选择基于字符串匹配和语料库统计混合的分词方法,工作流程如下所示:

step1:输入描述预处理,去掉标点符号、段落标记、空格等,切分成短句;

step2:按规则切分成最小原子;

Step3:使用N-最短路径算法切分;

step4:识别未登录词;

step5:重复、重叠词性合并;

step6:输出分词结果。

其中语料库存放的是真实语言材料,是经过取样和预处理后的电子文本数据库,系统采用基于字符串和专用车辆故障描述结合的处理方法,原子分词就是对预处理后的断句进行原子切分。首先对所有原子进行遍历,然后再把原子和后面相邻原子进行组合,同时匹配词典确认是否新词。N-最短路径分词是最大路径和最短路径取均值,将前N个最优路径予以保留,通过Dijkstra算法求解出N条最优路径,通过分词二维表转化为Dijkstra算法矩阵实现。未登录词识别主要是针对词典未录入的词,通过隐马尔可夫模型实现识别和应用。

3.2 案例匹配技术

案例匹配,实际上是在分词基础上,通过特定算法通过文本相似度计算,与语料库故障描述进行匹配,为器件标注服务。主要有词项加权、词向量计算、和编辑距离三种方法,词项加权主要分通过打分公式计算的有无监督计算和利用机器学习方法预测权值的有监督计算两种;词向量计算主要有基于神经网络模型和基于辅助特征扩充两种;编辑距离是字符串转换,计算编辑次数,以距离最小为越优。

本系统通过构建汽车故障搜索引擎,可以有效提高系统交互性和体验感。建立方法如下:首先检索已有案例生成案例库;接着进行预处理,包括词性一致词和中文分词等,同时为新案例构建索引;最后,用户向系统提出访问请求时,触发索引进行查询并向用户返回结果。

文本相似度计算是系统的核心,通过合适的算法可以实现信息检索的智能化和自动化。由于输入故障描述经过案例分词后数据量很大,给故障检索引擎造成较大的被动,因此结合相似度算法计算结果进行关联度排序,可以大大提高用户搜索的过程和效率。根据故障检索引擎和系统实际,我们选择TF-IDF算法进行案例匹配,并与调整向量和编辑距离共同实现相似度计算。TF-IDF算法是一种无监督的计算方法,也是主流词项加权算法,其中TF指的是词频,就是该词在文本中出现次数除文本总词数的商,代表该词与文本关联度;IDF代表某词规律出现程度,定义为逆向文件词频。因此,某词重要性等于词频和逆向文件词频两者的乘积。TF-IDF算法是通过公式1实现的。

其中,f表示某词出现的频率,N为文本总数,n词语出现文本次数。虽然TF-IDF算法能很好实现完整句子通过分词后计算得到该查询与案例的关联度,但实际应用中,往往出现某词出现频率很高,但没有被赋予匹配权重的情,这就是该算法的不足,因此,系统通过结合向量打分、编辑距离打分来解决。

计算结果出来后,需要精确定位故障码,本系统故障诊断代码根据《吉利帝豪品牌汽车发动机车间手册》进行试验,具体操作流程如下:

step1:案例库中包含故障码的信息,全部生成故障码表,建立故障码和案例映射关系,以提高检索效率;

step2:故障码表生成索引,方便查询;

step3:通过案例分词进行计算,如果结果包含故障码则通过索引直接得到匹配案例。

3.3 器件标注技术

器件标注是根据案例匹配计算结果,对出现的汽车专用器件或部件进行标记,目的是方便维修人员针对性进行检查,提高故障维修服务效率。主流算法包括TextRank算法和主题模型算法两种。前者基于PageRank算法,一般用于文本关键字和摘要的生成,通过有向图节点根据有向边求解实现;后者则是通过主题挖掘得到语义关联度进行建模,使用模型统计,判断文档中包含主题及其所占的比例,一般通过矩阵迭代计算的收敛结果作为最终值,常用有PLSA和LDA两种训练推理方法。

经过调研,结合行业实际,系统采用TextRank算法进行器件标注。首先,对已有案例提取与主题关联度最高的部分关键词,该过程使用TextRank算法实现;其次,选取这些关键词数据查询,建立数据库词条匹配内容的索引,完成标注;最后,生成检查数据,输出结果。使用TextRank算法能有效提高计算的复杂度,提升计算效率。

3.4 数据管理

数据管理主要包括语料库、案例库、器件库和用户操作习惯记录四部分,前面三个主要是侧重系统使用过程的数据收集、存储和应用,后者则是通过隐马尔夫模型记录用户输入习惯,从而实现使用过程中生成的海量故障诊断案例、汽车维修数据和用户操作数据的分析和处理,通过数据关联索引为提高案例匹配精确率和高效性提供支撑,也应系统进一步拓展和丰富完善奠定基础。

系统用户习惯记录主要通过隐马尔可夫模型(Hidden Markov Model,HMM)实现,HMM是一个关于时序的概率模型,拼音汉字的转化可以当成序列标注问题,给定一个线性输入序列M=(m1,m2,m3,......,mn),相应给输入的每个关键词打上标签,集合中对应某个标签N=(n1,n2,n3,......,nn),ni是mi的标记。通过HMM可以快速描述一个隐藏不可观测的状态随机序列,同步生成一个可观测随机序列的过程。

4 系统测试

4.1 测试环境

系统运行测试环境由以下四个部分组成,编程环境使用Win10 64位操作系统,3.0 GHz处理器,16 G内存,确保满足可移植可拓展性,方便修改和完善,同时使用BCG等界面增强工具增加人机交互的美观性和友好度,体验感更强;编程语言使用Python语言,这是目前主流面向对象的解释型开发语言,能够很好地兼容当前汽车入式系统使用的C/C++,同时有丰富的库供调用从而具有很好的拓展性,提高开发效率;开发平台选择pycharm,是Python开发常用的集成环境,有直接简便、可直接操作的代码编辑、编译、调试器和图形化操作工具,能够跨平台使用,有较好的移植性和较高的开发效率;数据来源选择吉利汽车公司帝豪品牌故障手册,由于系统基于案例匹配,因此在测试过程中同步进行数据收集,力求数据真实相关。

4.2 测试结果

系统测试目标是以最少代价在最短时间内尽最大可能找出缺陷,通过优化和完善,提高系统的质量和用户满意度,降低系统缺陷给用户带来损失的风险。从5个角度使用18种测试方法对系统开发过程中进行测试,具体见表1所示。

表1 系统测试情况表

经过测试表明,符合开发要求,同时具有以下特点:界面友好,简洁易用;系统运行流畅,结构完整;模块功能完备,协作性强;具有可拓展性和可移植性。

5 结束语

汽车除了代步作用外,更舒适、更安全、更智能成为人民对汽车功能需求新的期盼,这迫使汽车结构越来越复杂,无形中增加了保养和维修的难度,在此背景下,对汽车故障进行诊断和修理成了该行业的重点和难点。本文首先对汽车故障诊断关键技术进行梳理,设计一个基于案例信息检索的汽车故障诊断系统,并对系统关键技术进行阐释,为用户提供一个直观简捷的故障诊断系统,方便维修人员对汽车故障快速定位准确判断和高效修理,经过测试,系统界面友好,操作简捷,性能优异,基本达到预期目标。

由于受时间和经费等限制,系统还存在不少需完善提高的地方,比如诊断方案中解决方法比较简单,还需要进一步丰富;核心算法不够先进,可考虑引进神经网络、粒子群等智能算法提高运算能力;系统可考虑引入云平台实现随时随地使用。这都是系统下一步努力的方向。

[1] 王韵. 基于案例信息检索的车辆故障诊断系统[D]. 长春: 吉林大学,2016.

[2] 吴夫青. 车辆制动系统常见故障诊断及预防措施[J]. 时代汽车,2022(9): 174-175.

[3] 王鹏宇,王峻. 车辆走行部车载故障诊断系统应用与实践[J]. 甘肃科技,2021,37(18): 53-56.

[4] 吉武俊. 车辆排放系统故障诊断方法研究[D]. 郑州: 河南职业技术学院,2016.

[5] 何真承. 基于4G网络和CAN总线的车辆在线故障诊断系统设计与实现[D]. 重庆: 重庆大学,2019.

[6] 万山林. 大数据地铁车辆牵引系统故障诊断技术的分析[J]. 科学技术创新,2020(16): 82-83.

[7] 孙丽娟. 基于云平台的车辆故障诊断系统研究[D]. 杭州: 浙江科技学院,2020.

[8] 马立玲,郭凯杰,王军政. 基于改进SVM的车辆传动系统故障诊断方法[J]. 北京理工大学学报,2020,40(8): 856-860.

Construction of Vehicle Fault Diagnosis System Based on Case Information Retrieval

The traditional vehicle maintenance and diagnosis mode depends on manual experience and supporting equipment, which can not adapt to the speed of vehicle replacement. There is an urgent need for more efficient and intelligent fault location and rapid maintenance technology to improve vehicle safety and reliability, thus giving birth to the comprehensive discipline of vehicle fault diagnosis technology. Based on the design idea of artificial intelligence, this paper adopts a large number of maintenance examples as the training samples of the system, applies the latest information technology to complete the design and implementation of automobile fault cognitive diagnosis system, provides users with an efficient and simple fault diagnosis platform, and provides the basis for professional maintenance personnel to solve automobile faults and automobile maintenance. Through experimental test, the system greatly reduces the difficulty of fault diagnosis and saves the time of fault diagnosis, and brings good economic benefits.

case information retrieval; vehicle diagnosis; system construction

U472

A

1008-1151(2022)10-0004-04

2022-05-30

2020年度广西高校中青年教师科研基础能力提升项目“基于案例信息检索的汽车故障诊断系统的研究与开发”(2020KY41016);2022年度广西高校中青年教师科研基础能力提升项目“一种交流充电桩检测装置设计与研究”(2022KY1348)。

唐伟萍(1983-),女,广西玉林人,广西电力职业技术学院副教授,研究方向为计算机技术应用。

猜你喜欢
分词故障诊断案例
基于包络解调原理的低转速滚动轴承故障诊断
案例4 奔跑吧,少年!
分词在英语教学中的妙用
结巴分词在词云中的应用
结巴分词在词云中的应用
随机变量分布及统计案例拔高卷
数控机床电气系统的故障诊断与维修
发生在你我身边的那些治超案例
因果图定性分析法及其在故障诊断中的应用
一个模拟案例引发的多重思考