面向知识图谱的多语言电子商务智能系统研究

2019-10-09 10:45王一成万福成
关键词:多语种语种语料库

王一成,马 宁,万福成

(西北民族大学 中国民族信息技术研究院,甘肃 兰州 730030)

0 引言

随着信息技术的发展,围绕移动互联网开展的信息服务是国家信息技术发展的重大趋势.以信息技术为核心的新型电商产业以其高效环保、高附加值、人群就业形式多样灵活等优势在全球范围内蓬勃发展,成为各国参与全球分工与协作、优化资源配置的重要方式.同时,随着新丝绸之路经济带这一宏伟计划的大力推进,为我国西北地区的发展营造了良好的便利环境.新丝路经济带沿线在中国境内汇聚多个民族,语种包括汉语、民族语和其他外语等多种语种.而这一区域信息不通畅、交通不发达、文化教育相对落后,发展缓慢.在全球信息技术迅速崛起的今天,以民族信息技术为基础的多语言电子商务平台的开发与应用研究,可以推进该区域的信息化进程,并带动沿线经济的联动融合,进而惠及民生,促进一路一带的科学发展.

本研究旨在解决互联网+时代,新丝绸之路经济带受众人口最多的主要语言间的电子商务平台构建.在统一平台上解决新丝绸之路经济带不同语系、不同语族、不同语支的自然语言处理问题,进行创新性研究.本文提出的多语言电子商务智能系统,将为新丝路经济带沿线,以及我国民族聚居地区和使用少数民族语言的地区服务,完善互联网+电子商务与居民之间的关系纽带,完善我国信息服务业的多语种支持功能,加快沿线地区间的经济发展.本文根据已有的知识图谱和多语言信息处理研究现状,结合信息技术、人工智能、大数据的资源优势,建立面向知识图谱的多语言电子商务智能系统,提出将知识图谱应用于商品信息关联,对知识图谱的应用产生积极的推动作用.

1 相关背景

电子商务最早起源于欧美地区,在20世纪90年代中期,欧洲开始摸索移动终端银行交易项目应用的可行性,首先在捷克首都开展应用.电子商务最早出现在芬兰,有人通过手机短信购买了两瓶可口可乐,这也是全球首个通过移动平台完成交易的案例.进入新世纪以来,电子商务实现了跳跃式的发展,特别是以中国为主的新兴国家发展迅猛.当下的电子商务网站早已不是单一的商品信息罗列和展示,而是涵盖了复杂信息交互处理和业务逻辑等需求,进而要求进行快速频繁的变动和调整.在此背景下,静态单一语种解决方案的局限性已越来越明显,不适应其对多语言支持的需求.

我国西北大部分地区,电子商务发展水平较低,相较于东南沿海地区有较大差距.区域内发展不平衡,加之民族语言较多,平台标准化建设以及新兴技术与电子商务融合情况等都存在较大困难,这也进一步阻碍了电子商务的快速发展.但在西北地区党委、人民政府的正确引领和大力扶持下,该地区互联网经济模式有了长足发展.特别是贫困地区不断加大电子商务进乡村建设工作,助力脱贫攻坚,使农村信息化程度有较大进步.

2 理论技术

2.1 多信息融合的多语互译

2.1.1 语种口语词汇识别与处理

本文研究电商交易过程中用户与智能客服交流中产生的口语化现象,主要集中于间断、省略、重复、词序颠倒和冗余等.对冗余现象涉及的词符长度、词符分布进行归纳整理,探索冗余现象对机器智能问答的影响.研究多语种实体归一化模型,同一命名实体在相同语言、不用语言中的变体,汉语词汇在不同语言中的翻译及对应关系,同一环境下多语种语言共现的规律,多语种实体映射、语义映射关系,实现基于向量空间的多语种词汇之间的关系映射.

2.1.2 面向言语的机器翻译扩展与翻译优化

解决单一翻译模型的不足,以及多个模型松散融合方法的缺陷.针对口语化文本翻译中的间断、停顿、反复,词法、句法、语义等信息的综合利用,实现机器翻译扩展和优化翻译结果,构建基于向量空间的语种相近语言之间的短语、口语文本翻译理论,完成源语言到目标语言的言语行为映射.

2.1.3 多信息融合的多语互译方法

根据民族语等多语言的特点,本文面向机器翻译的知识概念体系及相应的语言规则,构建语料库资源.研究资源受限条件下在规则、实例的基础上多语种机器翻译技术统计机器翻译方法.研究多信息相融合的机器翻译模型,实现多信息相融合的多语(民族语、外国语)互译方法.

2.2 基于深度学习的知识建模及深层表示

2.2.1 融合句法和语义线索的多语种商品信息知识深层表示

基于多语言的句法和语义信息,构建多语言概念语义电子商务领域知识模型,结合命名实体和特色商品专业词汇的词汇语义联系,对知识及其载体,采用可视化技术描述、显示、绘制、构建、分析、挖掘知识的相互联系,形成区域特色产品的多语言实体知识图谱.

2.2.2 多语言动词行为知识建模

本文基于研究院的前期研究,构建了多语种动词词典,并在此基础上,针对多语种动词特征,研究在词汇级别上的多语种动词分类和动词词义的语义联系,以及动词的同义联系,上下位联系,形成以多语种动词为核心的谓词论元结构.

2.2.3 基于语义角色和语义分类的多语言格框架

研究在句子级别上的多语言语义格框架,定义句子本体,识别多语言的语义角色和语义分类的明确联系,借助名词的层级结构来编码语义角色的选择约束.

2.3 面向电子商务的问题分析及问题分类方法

2.3.1 复杂问题分析方法

对于问题分析的多语言浅层语义信息表示、标注与句子中谓词相关的语义角色,构建多语言句子转化为深层处理的形式化模型.在无监督词义相似度的关键词扩展方法的基础上,结合知识图谱资源,实现准确、高效的查询关键词扩展方法.采用多语种篇章结构表示方法,融合民族语等语言特征,实现面向商品资讯系统的民族语篇章结构分析方法.

2.3.2 面向电子商务的问题分类方法

制定面向电子商务的问题分类体系,结合词符、词性、语块(chunk)、命名实体、中心语块和相关词等,研究综合多源知识问题分类方法,研究双关语、限制性成分、定义性成分,以及解决问题所需的整个子线索.建立领域知识的表示方法,研究问句模型的类别区分方法,构建特定领域问答系统的语义分析、理解、生成的语义理解的同一框架.探索在基于规则的简单语法分析和深度统计分类方法的基础上来确定一个问题是否应该被分解,以及怎样分解才最容易回答,最终实现面向电子商务的问题分析及问题分类方法.

3 系统构建

本文在当前常用的商品信息展示与推荐系统中,加入知识图谱理念及多语言信息处理技术,构建一种新型的电子商务平台.这是高新技术的研发及应用智能电商平台体系研究的核心内容.

面向知识图谱的多语言电子商务智能系统构建的核心技术模块主要包含以下几方面.

3.1 多语言语料库库建设

3.1.1 语料库的设计

训练语言模型用语料库构建的基本原则就是能够用尽量少的语料去覆盖尽可能多的自然语言现象,同时避免数据稀疏问题,而且还要考虑到各个语言之间的差异性所带来的影响.将语种识别算法与语料的挑选算法相结合,使构建的语料库具有一定的典型性和代表性.文本语料挑选算法分为两个阶段:初选阶段和基于Greedy算法的优化阶段.

3.1.2 语料库的建立

语料库设计好之后建立多语言句对齐的平行语料库,以汉语文本为基础进行其他语言的文本翻译.这里翻译的语言主要包含藏语、蒙古语、维吾尔语、英语.获得多语言文本后对其以句对齐格式进行对照保存,为后续训练和测试做好准备.其中多语言商品类目语料库构建如图1所示.

图1 多语言商品类目语料构建示意图

3.2 多语言语种识别系统

3.2.1 基于N-gram的文本语种识别

文本语种识别过程使用N-gram模型,是指给定的文本中包含N个最小分割单元的连续序列.此处用到的文本语种识别系统分别对训练文本和测试文本进行词句单元抽取及词频统计,然后通过相似度对比排序,判断语种类型,其基本流程如图2所示.

图2 基于N-Gram的文本语种识别流程图

3.2.2 多语种商品命名实体识别

多语种商品名识别方法主要包括基于规则和基于统计方法分为两类.两者各有优劣.本系统基于统计的方法.该方法具有便于移植,特征描述相对简单,人工干预较少等优点.本文使用多条件随机场模型处理语料,就可得到以中文为基准的多语种商品名标注集.

条件随机场模型(CRFs)随着近年来大数据、云计算的兴起,该理论被广泛应用于复杂统计信息处理领域.其原理:对于给定的观测序列T={t1,t2,…,tn},条件随机场将其对应的状态序列S={s1,s2,…,sn}的条件概率定义为:

式中,Z(T)为归一化因子,使得所有状态序列的概率和为1;qj(si-1,si,t,i)为观测序列i-1和i标记处的状态转移函数;pκ(si,t,i)是观测序列标记处的状态特征函数;lj和mk是相应特征函数的权值,通过训练估计得到.

基于条件随机场的商品名识别主要由5个步骤:①特征模板生成.②特征选择.③参数训练.④数据处理.⑤商品名识别.总体流程如图1所示.

图3 基于条件随机场模型的商品名识别流程图

3.3 基于知识图谱的商品字典

知识图谱也被称为科学知识图谱,是结合了应用数学、信息科学和图形学等多种方法的前沿技术.运用知识图谱提升搜索效率,不仅能快速找到相关联的信息,也让搜索更有深度和广度.本文采用复旦大学GDM实验室提出的CN-DBpedia知识库标准,以实体为中心的三元组格式,即<实体,属性,属性值>,生成商品值字典,具体流程如图4所示.

图4 商品值字典流程图

3.3.1 中文知识图谱

本系统中一个三元组可以对实体类别、本体进行描述,也可以对实体某个属性描述.例如对新疆特色农产品一〇三团甜瓜的部分描述如表1所示.

表1 新疆特色农产品一〇三团甜瓜的部分描述知识库

3.3.2 消除歧义实体

考虑到农产品也存在歧义的现象,在知识库中搜索如“一〇三团甜瓜”一词,会出现多个同名实体,比如农产品推广“一〇三团甜瓜”、新疆生产建设兵团“一〇三团甜瓜”和农产品品牌“一〇三团甜瓜”等.显然这些实体对应的属性和属性值不符合地点的特征,这就要进行消除歧义实体的工作.

由于农产品实体具有固定的属性,比如别名、主要产地、品质特点、批准文号和地理标志等属性,这就需要事先总结出农产品的共有属性,并把这些属性做成一个属性模板.再拿这个模板和知识库中搜索到的实体所对应的全部属性进行比对,进行相似度计算,设置一个阈值,过滤掉低于这个值的实体.这样就能有效消除歧义的实体.值得注意的是,这种方法可能无法过滤掉一些属性比较相似的同名实体,还需要进一步的人工处理.由于前面经过了过滤处理,人工处理的工作量得到显著降低,这样就会极大地提高实体选取的准确度.

3.3.3 属性值字典生成

以前面处理为基础,可以得到准确的商品实体,对每一个商品实体的所有属性p,构建<实体,属性p的属性值>格式的属性值字典.操作时只需从知识图谱中取出商品A下包含属性p的三元组即可.由于知识图谱中采用多个三元组来存储一个实体属性的不同属性值,在生成属性值字典时需要合并多个值.

4 结束语

本文将多语言知识图谱库应用于商品信息抽取中,通过训练知识库中数据,从而实现新丝绸之路经济带多语种在翻译记忆的机器翻译中自动标注,得到商品名等专业词汇互译训练模型之后,转入多语言解码过程.融入深度学习封闭域上的统计机器翻译方法,通过利用大量的多语种商品评论信息,使用神经网络学习以汉语为基轴的双语词对齐数据话题表示,获取商品名集对应的所有关联实体.过滤掉歧义实体、少量人工处理之后,读出地点实体的所有三元组,生成商品信息值字典,进一步完善系统的多语自动标注.

本文实验尽管只进行了少量的人工处理,但是实际应用中,商品名数据量过于庞大,对区域内全部的商品信息知识化仍然存在问题.而且,生成商品属性字典时,字典的大小,将会直接影响商品查询及推荐的效率和准确率.如何提高商品查询及推荐,有待更深入的研究.

猜你喜欢
多语种语种语料库
青岛市多语种应急语言服务现状与需求调查研究
语联世界,言通天下
《波斯语课》:两个人的小语种
《语料库翻译文体学》评介
基于JAVAEE的维吾尔中介语语料库开发与实现
语篇元功能的语料库支撑范式介入
北美“新清史”研究的基石何在——是多语种史料考辨互证的实证学术还是意识形态化的应时之学?(上)
从英语硕士到法国博士——我的留学规划和多语种学习之路
走出报考小语种专业的两大误区
小语种报考,你知道多少?