基于信息抽取的电子商务联盟系统

2011-12-08 12:15谭龙江
关键词:异构贝叶斯检索

谭龙江

基于信息抽取的电子商务联盟系统

谭龙江

为解决同类电子商务中的信息异构等问题,研究并实现了一种基于信息抽取的电子商务信息共享联盟系统。给出了该系统的系统组织模型,各个功能模块,信息抽取关键算法以及运行流程。该系统通过异构网页挖掘进行信息整合,采用贝叶斯算法进行按需信息抽取。仿真证明该系统具有较高的信息自动处理性能和较好的客户需求匹配度。

信息共享联盟;电子商务;信息抽取;信息整合

目前,电子商务领域已经形成了庞大的、广泛的、分布式的异构数据库和应用计算平台。它给人们提供了一个非常广阔的商务活动空间,帮助人们获取所需要的各种商业信息、资源。然而由于信息形式的多样性和信息存储的异构性,网络资源的有效利用率总是很低[1]。以福建泉州地区为例,就服装电子商务信息资源而言,整个行业拥有数十个相关数据库,各企业的小型公开数据库数量更多,运行的相关网站多达700多个。这些数据库与网站中有相当一大部分数据的信息相同,而存储结构和表现形式却是相异的,具有分散、异构的特征,不利于客户的集中查询。因此如何更加有效地组织、整合各类分散信息,使客户能高效地搜索到所需资源并从中获取所需知识已经成为当今电子商务技术发展的一个研究热点。目前,电子商务领域中大部分的有效资源都保存在数据库之中,而体现于Web页面之上。人们最常用到的Web搜索引擎也大都是基于静态或动态Web页面的关键字搜索,无法直接面向数据库;此外,数据库中的数据量通常远超Web页面的信息承载能力。因此,通过搜索引擎等普通工具进行搜索具有相当的通用性,却缺乏必要的针对性和专业性,及时性也较差(搜索引擎遍历网页的周期较长)。特别是当客户搜索某些专业领域资源(如电子商务中的供需信息)时,搜索到的结果中往往会存在着诸多完全不相关的信息。如果能够将这些分散的、异构的数据库数据按照某种统一格式进行标准整合与共享,会极大限度地提高资源利用率。

一 系统结构与功能模块

为解决上述问题,本文提出了基于信息抽取的电子商务信息共享联盟模型,该系统将信息搜索源(数据源)定位为电子商务客商的Web服务器与数据库数据,因此可以从宏观上把握所共享信息的类别等相关辅助搜索的信息(即能实现基于内容的搜索);同时在信息共享的过程中不会修改联盟成员(即资源提供者)数据库的数据信息及数据库结构。其本质特点是在逻辑上将各个信息资源的异构数据连接在一起,在物理上则对加盟数据按照元数据规范标准进行整合并备份上传至联盟。

如图1所示,本系统的系统结构与核心功能子模块包括:

(1)客户信息接口:该模块负责本系统面向客户(包括B2B和B2G电子商务各方)的通信。该模块除具有传统的客户注册等功能外,还负责客户需求初始化采集、信息封装打包等任务。

(2)客户信息管理模块:该模块与传统的客户管理模块不同,它不但管理注册信息等客户元数据(客户的自身描述信息),而且存储和管理客户的个性化需求信息,不断从更新的客户元数据、客户反馈信息与检索关键词等资料中抽取和挖掘客户的需求,作为信息抽取的依据。

图1 电子商务联盟系统结构

(3)信息采集模块:该模块自动采集、分类、管理相关电子商务系统中各类资料的元数据(文件名、地址、关键词、受关注的热度等);采集到的数据将进行分类处理,实时数据(例如:特定网站更新后的标题)等注入“信息VS需求”匹配数据库;历史数据归一化处理后,存入中心信息库;按客户需求采集所需的信息(从信息联盟接口和中央信息目录库)可以直接提交给客户。

(4)“信息VS需求”匹配数据库管理模块:为向客户提供高效准确的信息服务,该模块在系统的存储空间中建立一个实时库(内存库,以倒排表形式存储数据可达2G以上);该模块在接收到客户既往需求以及电子商务信息注入后,首先将这些信息作同构化向量处理,当有新信息进入库中时,该模块自动从数据库中检索匹配程度较高的信息,在它们之间建立关联,以便在进一步的信息发布过程中实现信息抽取的联动;例如:客户给出“袜子”关键词时,旧系统很难从中检索出跟“袜”相关的表项;而该模块能够自动根据客户的历史检索喜好,根据分词与匹配相关原则,提供相关的分类明细目录“长筒袜类、短袜类、特种袜类”等。

(5)电子商务联盟互联接口:针对电子商务客商分布的广泛性和使用接入网的异构性,该模块一方面实现服务器中的各个数据库服务器与文件文档服务器的互联,使得服务器间可以获取彼此公开发布的内容;同时,为实现不同数据库平台的互联,该模块采用JDBC数据库接口,但该模块并不把所有数据全都提取出来,而是通过对各个数据库元素的遍历,抽取高频词与主题词,从而建立各服务器的元数据目录,以便客户检索。例如:系统客户登录特定服务器后,提出检索生僻词,如本地服务器没有此类信息,则由该模块向联盟互联接口模块提出检索请求,该模块即检索服务器元数据列表,确定生僻词可能存在的服务器,并代替客户发出检索请求,异地服务器获取相关检索结果后,提交给客户。这种信息联盟模式不但避免了客户直接进入数据库检索的繁琐操作,而且保证了检索的高效性和安全性。

二 关键技术

异构电子商务网站系统中的网页结构繁复,层次不清,而且网页内的嵌入的文件类型复杂;因此,网页优化系统在处理这类数据时,很难兼顾实时性和处理效果。此外,异构网站系统的信息还存在来源不同、排版格式不通、访问频率不同等差异,导致信息同构化具有相当难度。本系统为解决上述问题,采用了贝叶斯网络进行信息按需抽取。贝叶斯网络是一种特殊的因果推理网;该网络是由节点和有向边组成的有向无环图;其中,每个节点代表一个检测信号构成的随机变量,其概率分布说明该变量处于该变量状态集合中每个状态的概率值,每条有向边代表两节点之间联合或推论的依赖关系,由与连接相关的条件概率矩阵定量描述。

基于贝叶斯网络的联盟同构信息抽取如图2所示。网络节点分为两类:假想(Hypothesis)节点(H 节点)和事件(Event)节点(E 节点)。假想节点表示客户对某种商务的需求评估取值;而事件节点表示在一定的微观检测范围内发生的需求事件。通常的需求事件可分为两类,一类是可直接观测的(例如:短期内频繁出现的检索词),称为事件线索或事件征兆(Event Cue),另一类是不可直接观测的(例如:不同网站之间网页之间的关系)。贝叶斯网络设定节点之间的有向边表示假想之间、假想和事件之间以及事件之间的因果关系;本系统中采用了存储在文件中的条件概率矩阵描述两者之间的关联程度。设定一个有向联结为: X→Y,则其条件概率矩阵定义为:

图2 贝叶斯在电子商务联盟中的应用

贝叶斯模型采用网络来描述事件和假想之间的相互关系,采用条件概率矩阵描述各个节点之间的关联程度。电子商务联盟系统应用该模型从观测到的事件出发,逐层推理,最终得到假想的状态或发生过的既有事件。当

多个电子商务服务器发现需求事件发生时,将同时发送需求信息给联盟中心,以执行需求分类的推理过程:所有服务器中的事件状态概率都运用贝叶斯方法,联盟系统一方面通过Web内容归一化处理,使得所有数据进入统一的数据表中待用,另一方面根据客户需求等信息随时对数据库中保存的先验概率和条件概率进行调整,使得贝叶斯模型中得到每次更新的结果。由此可见,贝叶斯网络中的假想状态不但与现在最新获得的事件相关,而且与以前一段时间内事件累积的经验相关;因此,本系统在抽取过程中具有信息的时间经验累计能力,这种记忆能力是传统的基于产生式硬性对照规则的旧系统无法达到的。

三 仿真实验结果

电子商务联盟系统已经在泉州地区服装行业进行了实地仿真。实验中,通过2个月的实地应用,系统管理员向网站用户发放调查问卷,就采用本系统前后的客户满意度在线对比(与通用搜索引擎等方法)调查;用户调研共进行200人次,最终收到有效调查表172份。表1列出了主要的调查内容及数据;从7个子调查指标和总体满意度中可以看出,电子商务联盟系统不但提高了客户使用的方便性,并且提高了客户的满意程度。

表1 电子商务联盟系统应用效果

四 结论

解决同类电子商务中的信息异构等问题,研究并实现了一种基于信息抽取的电子商务信息共享联盟系统。该系统通过异构网页挖掘进行信息整合,采用贝叶斯算法进行按需信息抽取。仿真证明该系统具有较高的信息自动处理性能和较好的客户需求匹配度。该系统未来的研究重点将集中在多领域的电子商务信息融合上。

[1]黄炜,张李义.基于语义爬虫的商品信息主题采集研究[J].现代图书情报技术,2010(1).

[2]郑宇飞,刘磊等.农村科技信息共享服务系统的设计和实现[J].计算机科学,2005(8).

[3]傅魁,聂规划.面向电子交易的商品供应信息抽取模型[J].武汉理工大学学报(信息与管理工程版),2007(7).

[4]肖建鹏,张来顺,任星.直推式支持向量机在Web 信息抽取中的应用研究[J].计算机工程与应用,2009(2).

[5]于鲁波,陈超.互联网商品信息抽取技术[J].计算机工程,2008(5).

[6]周法国,王映龙等.非结构化信息抽取关键技术研究探讨[J].计算机工程与应用,2009 (14).

ClassNo.:TP393DocumentMark:A

(责任编辑:包贵鑫 郑英玲)

E-commerceUnionSystemBasedonInformationExtraction

Tan Longjiang

In order to deal with the series problems of information heterologies in E-commerce sites, a novel union system is proposed and researched based on information fusion and extraction. The system model, some function modules, key algorithms and work flows are presented in this paper . And the system utilizes web mining to deal with information island problems and uses Bayes algorithm to extract web information to match the clients’ requests. Simulation results show that the system has better performance in the information processing and the client's satisfaction than the traditional one .

information sharing union; E-commerce; information diffusion; information retrieval

谭龙江,博士,西南财经大学;讲师,华侨大学经济与金融学院,福建·泉州。研究方向:电子商务等。邮政编码:362021

本文受福建省社科基金资助项目(编号:2010B064)资助

1672-6758(2011)02-0049-2

TP393

A

猜你喜欢
异构贝叶斯检索
试论同课异构之“同”与“异”
异构醇醚在超浓缩洗衣液中的应用探索
overlay SDN实现异构兼容的关键技术
基于贝叶斯估计的轨道占用识别方法
专利检索中“语义”的表现
LTE异构网技术与组网研究
基于互信息的贝叶斯网络结构学习
一种基于贝叶斯压缩感知的说话人识别方法
IIRCT下负二项分布参数多变点的贝叶斯估计
国际标准检索