关键词检索法在客票系统知识库中的应用研究

2015-06-28 15:55刘婷婷汪健雄贾成强
铁路计算机应用 2015年11期
关键词:客票规章知识库

刘婷婷,汪健雄,贾成强,贾 静

(中国铁道科学研究院 电子计算技术研究所,北京 100081)

检索法在客票系统知识库中的应用研究

刘婷婷,汪健雄,贾成强,贾 静

(中国铁道科学研究院 电子计算技术研究所,北京 100081)

本文介绍客票系统的知识库系统现状和关键词检索法,对客票系统知识库中不同类型的知识如何有效地和各类检索技巧及算法特点结合在一起,从而形成与之相匹配的检索方法进行研究。应用这些检索方法将使客票系统知识库的检索达到便捷、高效、准确的效果。

中国铁路客票发售和预订系统(简称:客票系统)经历了近20年的发展,目前已形成集互联网售票、手机售票、窗口售票、电话订票、自动售票等多渠道售票模式,服务范围也发展到覆盖客票核心业务、自动售检票业务、旅服业务、公安验证业务、铁路客服技术支持业务等。业务领域的扩展对运维人员的知识掌握提出了更高、更全面的要求。建立客票系统运维知识库已成为支撑客票系统运维技术发展的重点。对于知识库的检索方法也成为快速、准确获取解决方案和信息依据的关键技术。

1 客票系统知识库现状

1.1 客票系统知识库数据源组成

目前,客票系统的知识库数据来源主要有3个途径:(1)由运维技术支持工程师事件录入库中提炼、挖掘、整理得到,具有针对性强、可操作性强、实效性长的特点。(2)由专家经过总结提炼的各业务模块常见问题汇总得到,具有业务性强,注重逻辑、分析的特点。(3)由系统说明文档中总结出来的信息作为知识点,具有更新快,时效性强的特点。

1.2 客票系统知识库检索方法

客票系统知识库信息的检索方式主要采用核心关键字匹配的方法,结合目录划分对知识点信息进行检索。

关键词检索是目前检索中较为通用的技术,它通过人工或计算机对数据信息内容预先进行加工分析,将能反应主题概念具有实质意义的词抽取出来进行标引,再通过标引进行信息定位。用户根据自己的信息需求,利用关键词入口,输入自己的关键词,系统根据查询指令查找符合条件的内容,并把检索结果提供给用户的一种检索方法。

由于目前客票系统知识库的应用主要以检索问题解决方案为主,加之对关键词长度的定义较短,系统采用了布尔逻辑检索技术。

2 客票系统知识库的检索技术及算法研究

2.1 关键词类型

关键词检索法主要依据是关键词类型,主要分为以下两类。

2.1.1 核心关键词

是指能体现主题的词或词组,它的特点是比较短,目标明确。在客票系统知识库系统中适用于信息量较短的事件类信息检索。

2.1.2 长尾关键词

其特征是比较长,往往由2~3个词或短语组成,具有可延伸性强、针对性强、范围广的特点,在文件信息搜索方面具有优势。在客票系统知识库系统中适用于规章类、业务系统类、资源类等知识内容较长的信息检索。

2.2 关键词检索技巧

2.2.1 布尔逻辑检索法

检索信息量较大时采用布尔逻辑检索可以提高检索准确率。采用逻辑符“与”检索,可以在一次检索数据量大的情况下,通过“与”的关系加强二次检索的专指度,限制检索结果的数量,提高检索结果命中率。采用逻辑符“或”检索,可在检索结果过少的情况下,扩大检索范围,提高检索结果查全率。采用逻辑符“非”检索,采用提出不要的概念,从第1个关键词中剔除第2个关键词,最终达到提高检索准确度的目的,如图1所示。

图1 逻辑关系图

2.2.2 截词检索法

截词检索就是部分检索或模糊检索,是一种计算机被检索信息与被标引词部分匹配的智能型检索技术,是针对于关键词检索容易出现漏检现象的一种扩检方法。用户可以根据需要在检索词的合适位置进行截断,同时加上一个替代符号,完成检索词的输入。根据截断位置的不同可分为前截词、中截词、后截词、前后截词;根据截断字符数量的不同可分为有限截词和无限截词。截词检索具有灵活性高,匹配度高的特点。

此检索法在文字较多的文件类信息的搜索方面具有优势,在客票系统知识库中适用于规章类、业务系统类、资源类知识的检索。 它的优势在于可以将语言表述不完全一致,但关键词相似,而且在不限制关键词字符长度的情况,将尽可能多的关键词加以组合,形成检索条件,完成对信息的检索。

2.3 关键词检索频率统计

关键词检索频率统计即关键词词频统计,它能够较为客观准确的反映出结果。该方法是目前网页搜索中计算相关度的基本方法。能够从信息中抽取表达主题含义的关键词,略去只起到语法作用的无用词。一个词在信息中出现的频率越高,就表示它与该主题的关联程度越大,将其作为标引词的准确度越高,权值越大。在与提问关键词匹配时,它所代表的信息与查询关键词的相关度就越高。

2.4 排序算法的应用

排序算法即PageRank算法。它的基本原理是:如果从A网页可以链接到B网页,则表示A认同B,如果A是重要的,则B也是重要的,如果同时还有很多网页可以链接到B,则说明B的重要性大于A,通过算法计算出PR值进行排序,在检索结果中PR值高的排在前面。

3 各类检索方法在客票知识库系统的应用

3.1 知识库在客票系统中的意义及作用

面对数据量大、问题时效性强、解决问题及时度高、政策规章多、服务对象众多等特点,要求运维工程师对于客票系统所有业务都要熟练掌握,而且要随时应对不断变化的技术规章,以及在应对现场出现的各类突发问题时做到随问随答。客票系统知识库系统正是客票运维服务的有力保障。它不但解决了大量知识的信息储备问题,而且通过关键词检索方法的运用,能够实现对知识的全面快速检索和解决方案的准确定位。

3.2 客票系统知识库系统中的知识类型

由于客票系统日趋复杂、业务量快速增长、技术覆盖面逐步扩大、服务对象日益增多,客票系统知识库建设也将向着信息含量更多、更全,检索速度更快、更准的方向发展。

客票系统知识库系统中包含现有的事件处理类知识、规章类知识信息、信息传递类知识、业务系统相关类知识、资源类知识,成为内容全面、形式多样的各类型信息整合体。

在知识库检索方面需要结合不同类型知识的特点应用不同的检索方法,以达到知识信息的快速检索、结果内容的准确输出,提高知识库信息的利用率的标准。

3.3 事件类知识的检索方案

目前客票系统知识库主要以事件类知识为主要检索对象,采用的是布尔逻辑检索法。客票系统知识库检索界面如图2所示。

图2 知识库检索界面图

事件类的知识其内容描述简单明了,关键词简短明确,因此适合使用布尔逻辑检索法。但由于目前系统中只有3个关键词可以输入,而且逻辑关系只能选择一种并保持相互逻辑关系一致,这样就形成了一定的局限性。如果能够将逻辑“非”的关系加入,并且3个关键词间可以自由组合逻辑关系,检索结果就会更加准确高效。同时在输出检索结果时配合使用检索频率统计算法计算出目标结果及各自的相关度,按照排序算法以预先设定好的排序方案列举解决方案,这样用户就能在最短时间内获取有效的解决方案。

3.4 信息传递类知识的检索方案

信息类知识主要以通话记录、传真电报为主。此类信息时间戳明确,内容重复性高,而且多以图片格式出现。

使用核心关键词检索,可以将关键词长度放大,使用长尾关键词检索,以短语或短句的形式配合布尔逻辑检索法,按照时间戳将目标结果输出。也可以使用截词检索法,把与输入信息相近的,匹配度高的信息筛选出来按照时间戳输出结果,从而达到快速检索,准确输出的要求。

3.5 规章类、业务系统类知识的检索方案

规章类知识主要包括客运规章、技术规范等,具有内容条目清晰,信息量大,关键词出现频率高,多以文件形式出现且篇幅较大的特点。

业务系统类知识主要包括升级说明、版本管理等,具有时间戳明确,信息量大特点。

由于这两类的知识,内容都较多,而且多以文档形式出现,因此在检索时要检索题目和内容,在此使用截词检索法要优于布尔逻辑检索法。不去判断关键词间的逻辑关系,而直接采用模糊查询,检索与之相匹配的信息,通过应用频率统计法,将匹配度进行计算,得到准确的结果信息,再通过排序算法,按照预设顺序进行排序输出。

这两类知识还具有相互依存的关系。一次版本的升级必然依据相关规章的制定或修正,反之亦然。因此,在检索这两类知识时要充分发挥检索频率统计法的特点:统计与目标相关联的信息关联度,关联度越高,说明它们之间的依存性越高。检索到的一种类型的知识点,通过二次检索关联到与之相匹配的另一类型的知识点。

例如:需要检索“铁路始发改签规则改变,可实现全国任意站改签。”相关的文档信息,改签规则的具体内容和规则执行时间。这条检索信息中关键词为“始发改签”、“任意站”,通过使用检索频率计算法,计算所有信息中该关键词出现的频率,频率越多的则说明该信息对于需要检索的信息匹配度越高,相对来说匹配度低的如始发改签故障处理方法就会由于频率低而被过滤掉,不在结果中出现。再通过排序算法将结果按相互的关联权值由大到小排序,实现检索结果的合理筛选及排序。

假设此时的检索结果属于规章类知识,而用户需要得到在此规章的指导下所涉及的版本升级时间及具体内容,此时可通过一次检索结果再次使用检索频率统计法计算得到与之匹配度最高的二次检索结果,即获得版本升级相关信息的知识检索。

3.6 资源类知识的检索方案

资源类知识主要包括故障手册、培训资料、考核试题库等,它的特点是内容条目清晰,信息量大,形式多样,包括Word、Excel、PPT、PDF格式以及图片、视频格式等。

检索故障手册、培训资料等时可以参照规章类、业务系统类知识的检索方法,获取信息内容。检索考核试题库、视频类可以参照事件类知识的检索方法,获取信息内容。

各类型的知识所对应的特点及其适用检索方法如表1所示。

表1 知识类型的对比

4 结束语

客票系统拥有庞大的数据量,复杂的运算法则及大量的使用者。本文研究如何利用关键词检索方法的各类检索技术和计算方法,将客票系统知识库的应用向着全面、便捷、高效并且实用的方面发展,在今后的实际应用中具有重要意义。

[1]朱小平.关键词检索技术与应用技巧[J].咸宁学院学报,2006(8).

[2]张 帆,朱红涛.基于关键词的网络信息检索优化[J].探索情报科学,2005(6).

责任编辑 陈 蓉

Key words retrieving method in knowledge base of Ticketing and
Reservation System

LIU Tingting, WANG Jianxong, JIA Cheng qiang, JIA Jing
( Institute of Computing Technologies, China Academy of Railway Sciences, Beijing 100081, China )

This article introduced the current condition of the knowledge base of the Ticketing and Reservation System(TRS) and the key words retrieving method(KWRM) technology, researched on that how the knowledge with different types in the knowledge base could be combined with the skills and algorithms of the retrieving effectively to form the corresponding retrieving methods at the same time. These methods could make the retrieving easily, eff i ciently and exactly in the knowledge base of TRS.

Ticketing and Reservation System; knowledge base; KWRM(key words retrieving method)

U293.22∶TP39

A

1005-8451(2015)11-0061-04

2015-04-10

刘婷婷,助理研究员;汪健雄,副研究员。

关键词:客票系统;知识库;关键词检索法

猜你喜欢
客票规章知识库
汉语近义词辨析知识库构建研究
过度限制地方政府规章重复立法之思考
过度限制地方政府规章重复立法之思考
中国铁路客票在跨境客运中的互通方案
基于TRIZ与知识库的创新模型构建及在注塑机设计中的应用
青海省人民政府关于修改和废止部分省政府规章的决定
统一招投标法规——谈法律与规章的修改
高速公路信息系统维护知识库的建立和应用
航空公司客票直销的现状与分析
基于大数据的客票超售策略