Web挖掘在电子商务信息搜索中的应用

2009-03-23 02:40熊志文
计算机时代 2009年1期
关键词:检索电子商务

熊志文

摘要:随着电子商务的深入发展,互联网已成为电子商务的基础。电子商务环境下,如何从互联网中挖掘和利用数据是企业非常关心的问题。文章结合当前的电子商务环境,对重要信息的搜索问题进行了分析,提出了采用Web挖掘在互联网中搜索重要信息的方法,给出了该方法的一个实现技术。实验结果表明该方法可以在互联网中高效准确地搜索重要信息。

关键词:Web挖掘;电子商务;检索;元搜索引擎

0引言

随着全球信息化的发展,电子商务在企业经营中的应用日益广泛,它将打破时空界限,改变贸易形态,改善物流、资金流、信息流的环境,有效地降低企业生产成本,加速整个社会的商品流通。电子商务环境下的企业与外界联系增多,企业为了提高自身竞争力,必须摆脱传统相对狭隘的经营模式,不断提升对潜在竞争对手、产品、客户、供应商以及关键的价值来源等重要信息的获取能力。但当前在互联网中要获取有用的商务信息并不容易,因为在扩大搜索范围时,难以保证所有搜索结果都是相关和有效的。

针对上述问题,本文引入了基于Web挖掘的电子商务信息检索方法。Web挖掘是数据挖掘技术在Web环境下的应用,它从大量的Web文档集合和在各站点浏览的相关数据中发现潜在的、有价值的信息,是提高电子商务企业运作效率的工具。根据挖掘对象的不同,Web挖掘一般可以分为三种:Web内容挖掘、Web结构挖掘和Web使用挖掘。Web内容挖掘是从页面摘要及其文档内容中获取有用知识的过程,一般包括文本文件和多媒体文档的挖掘;由于有用知识除了在Web页面内容中,也包含在页面结构中,所以Web结构挖掘是从万维网的组织结构和网页的相互链接中进行挖掘,发现页面间的关系,改进搜索引擎的性能;而Web使用挖掘则是通过挖掘相应站点的日志文件和相关数据发现站点浏览者的行为模式,识别用户的喜好、满意度,发现潜在用户,增强站点的服务竞争力。

本文中的信息检索方法使用通用的搜索引擎工具在互联网上搜索相关页面信息,再采用Web挖掘对相关页面信息进行分析筛选,从中提取辅助商业决策的重要信息,为企业赢得更多潜在利润。

1搜索方法的框架

传统企业经营模式中,信息收集的渠道往往具有垄断性,企业的经营受到地域的限制,相关的供应商和客户也比较固定,企业竞争压力小。而在电子商务环境下,市场和业务范围通过互联网大大扩展,供应商和企业终端用户行为发生根本性变革,企业面对相邻和传统上不相关的价值链上的竞争者,使得企业竞争压力增大。对竞争对手、产品、客户、供应商以及关键的价值来源进行调查和评价,然后根据自己的竞争优势设计各种战略显得至关重要。

为了适应电子商务环境下大范围、高强度的竞争,企业需要充分利用电子商务的有利条件,挖掘潜在竞争对手、客户、供应商以及关键的价值来源等信息。这些信息在本文中称为重要信息。重要信息是从相关页面信息中筛选分析得到的。

本文的搜索方法(其实现框架如图1所示),利用通用搜索引擎和Web挖掘技术对互联网上的信息进行搜索、分析筛选,主要功能包括4个方面:

(1)生成搜索关键字集合。根据用户的查询请求,生成相对应的搜索关键字集合。

(2)收集相关页面信息。根据搜索关键字集合在互联网上收集相关的页面信息。

(3)获取重要信息。对收集的页面进行分析筛选获取重要信息。

(4)用户交互。将重要信息以用户需要的方式显示。

其中功能(2)和(3)的实现质量非常重要,将直接影响获取的重要信息的质量。

2搜索方法的实现

搜索方法实现的核心思想是利用通用搜索引擎和Web挖掘技术对互联网上的信息进行搜索、分析筛选得到重要信息。首先由用户发出查询请求,然后根据用户的查询请求生成适当的搜索关键字集合,利用搜索关键字集合进行重要信息的获取并将结果返回。

2.1生成搜索关键字集合

在互联网中要获取有价值的商务信息不容易,因为目前网络信息的搜索大多是精确匹配,返回的结果不但有较大冗余,还包含许多不相关的信息。根据用户查询请求生成恰当的搜索关键字集合可以提高搜索的准确性。本文中搜索关键字集合生成的方法是基于语义网的,先要进行电子商务信息领域的领域概念词分析,建立相关的领域概念词词典。

搜索关键字集合生成过程如图2所示。首先从用户输入的查询请求中抽取有效检索词,然后将检索词在概念词词典中进行语义分析和匹配,获取搜索关键字集合。其中抽取有效检索词的过程主要由6部分组成,如图3所示。

2.2收集相关页面信息

收集相关页面信息,就是利用搜索引擎在互联网上收集与搜索关键字集合相关的页面信息。搜索引擎(Search Engines)是指对互联网上的信息资源进行搜索整理,然后供人们查询的系统,目前商业化的通用搜索引擎数量较多,如Excite、Google、百度、雅虎、搜狐等。虽然通用搜索引擎可以从互联网上搜索需要的信息,但是存在着不足:

(1)每个搜索引擎覆盖互联网的范围是有限的,不同公司开发的搜索引擎有不同的地域和语言倾向;

(2)搜索结果中有已经失效的页面信息;

(3)搜索结果中有不相关的页面信息。

因此,为了更高质高效地收集相关页面信息,本文采用了元搜索引擎技术。元搜索引擎是指在搜索引擎之后或之上的搜索引擎,是在通用搜索引擎的基础之上建立起来的可以同时或分时查询多个通用搜索引擎的网络信息查询系统。元搜索引擎实际上是借助传统的Internet搜索引擎提供信息查询服务的。检索时,元搜索引擎根据用户提交的检索请求,调用通用搜索引擎进行搜索,再对搜索结果进行汇集、整理、排列等优化处理后,以统一格式反馈。元搜索引擎主要由用户接口界面、查询调度机制、搜索引擎代理和结果处理机制四部分组成。文中的元搜索引擎结构如图4所示,主要分为6个功能模块:

(1)用户接口模块负责和用户交互,用户可以通过此模块下达查询请求、设置系统的参数和获取搜索得到的相关页面信息;

(2)引擎代理模块根据用户的查询请求生成搜索关键字集合,然后根据设置调用通用搜索引擎在互联网上搜索相关的页面信息,通用搜索引擎再将搜索结果返回给引擎代理模块;

(3)分析验证模块对搜索结果进行解析并对网络链接的有效性进行验证;

(4)信息处理模块对分析验证后的结果进行整理、归纳和分类,得到与查询请求相关的页面信息;

(5)信息存储模块负责把整理得到的相关页面信息存储在数据库中;

(6)查询处理模块把用户需要的页面信息以用户需要的格式进行反馈。

2.3获取重要信息

利用搜索关键字集合在互联网上可以获得许多相关的页面信息,但其中的一部分与用户的需求不相关,因此需要对从

互联网上获得的页面信息进行分析筛选,从中找出重要信息。分析筛选的功能如下:

(1)从有效页面的摘要中提取描述词汇;

(2)分析页面描述词汇和特定领域词的相关性进而得出页面信息和用户需求的关联性;

(3)根据页面信息和用户需求的关联性来分类处理搜索结果;

(4)根据事先设定的阈值,筛除关联性小于阈值的页面信息;

(5)分析关联}生大于阈值的页面信息从中获取重要信息;

(6)将重要信息进行存储以备用户使用。

本文判断搜索结果与用户需求的关联性采用了向量模型。假设有s个页面信息和N个特定领域词,搜索页面j和特定领域词的相关性如公式1如示。

其中Pj是N维向量,由第i个特定领域词相对搜索结果页面j的权重Wij组成。T也是一个N维向量,由第i个特定领域词在特定领域的权重Wij组成。i=1,2,3,…,N,j=1,2,3,…,s。

Wij和Wij的计算公式分别如公式2和公式3所示。Fij是特定领域词i出现在搜索页面j中的次数,ni是搜索结果中出现特定领域词i的页面的个数。

利用通用搜索引擎可以在互联网上大范围搜索相关页面信息,使重要信息的获取源头渗入到网络的方方面面,保证了信息获取源头的广覆盖性,经过有效的分析筛选,最终获取的重要信息在广覆盖的前提下被准确的提取出来,这些保证了最终获取的重要信息兼有准确性和广覆盖性。

2.4用户交互

用户交互是以用户为中心的,查询请求由用户下达,重要信息也必须以用户需要的方式显示。用户可能会希望在更大的范围搜索重要信息,而交互时只显示最关心的一部分重要信息,这就使得用户提交的查询请求和浏览请求往往是不同的。

如果把系统从互联网上收集重要信息看成是第一次信息过滤,那么用户提交浏览请求就可以看成是对信息的第二次过滤。用户的浏览请求以范式的形式表示。若用户在浏览请求中提交了4个查询词q1,q2,q3,q4构成表达式ql^(、q2V q3)^q4,那么系统将根据这个表达式所对应的范式从搜集到的重要信息中抽取用户最关心的显示给用户。

3实验结果和分析

实验的目的是通过实例验证搜索的效果。本文中以搜索义乌的小商品为例,搜索对象包括戒指、项链等,并且把直接用通用搜索引擎搜索得到的有效页面和全部页面的数量比称为通用搜索查准率,把使用本文搜索方法搜索得到的有效页面和全部页面数量比称为Web搜索查准率。用不同查询请求对义乌戒指进行搜索查询的结果如表1所示。

表1说明直接用通用搜索引擎搜索查询重要信息,其查准率比用本文中的方法进行查询的查准率要低。当查询请求逐渐复杂的时候,通用搜索查准率下降的速度明显快于Web搜索查准率。由此可见,本文中的方法能够更有效地在互联网上搜索重要信息。

4结束语

本文针对电子商务环境下重要信息的搜索问题,引入了Web挖掘技术,提出了一种在互联网搜索重要信息的实现方法。这种方法采用通用搜索引擎收集页面信息,具有范围广的特点,同是对收集到的相关页面信息进行分析筛选,保证了提交给用户的重要信息有更高的准确性。总之,本文中提出的信息搜索方法对电子商务环境下进行大范围信息搜索有很好的应用价值。

猜你喜欢
检索电子商务
2025年我国农村电子商务交易额达到2.8万亿元
2019年第4-6期便捷检索目录
《电子商务法》如何助力直销
电子商务
《国外医药抗生素分册》第37卷1~6期(2016年)目次检索
专利检索中“语义”的表现
关于加快制定电子商务法的议案
电子商务人的核心能力
期刊订阅电子商务平台
国际|标准|检索