Web数据挖掘研究与探讨

2010-04-11 08:06刘树超李永臣武洪萍

制造业自动化 2010年9期

关键词：数据源日志结构化

刘树超，李永臣，武洪萍

LIU Shu-chao1, LI Yong-chen2, WU Hong-ping1

（1. 山东信息职业技术学院，潍坊，261041；2. 潍坊市社会保险事业管理中心，潍坊 261061）

Web数据挖掘研究与探讨

Research and discussion of Web data mining

刘树超1，李永臣2，武洪萍1

LIU Shu-chao1, LI Yong-chen2, WU Hong-ping1

（1. 山东信息职业技术学院，潍坊，261041；2. 潍坊市社会保险事业管理中心，潍坊 261061）

WWW是一个巨大的、分布广泛的、全球性的信息服务中心，它包含了丰富的信息资源。Web数据挖掘可以快速有效地获取所需要的信息。本文重点探讨了Web挖掘的基本原理和关键技术，针对Web挖掘的分类进行了描述，论述了Web挖掘的挖掘流程、应用领域及研究发展方向。

数据挖掘；Web内容挖掘；Web使用挖掘；Web结构挖掘

0 引言

随着Internet/Web技术的快速普及和迅猛发展，Internet已经成为人们获得信息的重要手段，但它是巨大的、多样的和动态变化的。随着Web站点的规模和复杂度的增加，站点设计和维护工作变得越来越困难。作为网站经营者，希望根据用户的访问兴趣、访问频度、访问时间动态地调整页面结构，改进服务，开展有针对性的电子商务以更好地满足访问者的需求。而从访问者的角度出发，他们希望用最简洁的方式得到最精确的信息，希望得到个性化的服务。Web数据挖掘就是为顺应这种需要而发展起来的数据处理技术，即利用数据挖掘的思想和方法，在Web上挖掘出有用的信息。

1 Web数据挖掘的含义

Web数据挖掘（Web Data Mining WDM）是将数据挖掘技术运用于Web数据，提取人们感兴趣的、隐藏其中的、有用的、新颖的模式或知识的过程。也就是说，针对包括Web页面内容、页面之间的结构、用户访问信息、电子商务信息等在内的各种Web数据，应用数据挖掘方法以帮助人们从WWW中提取知识，为访问者、站点经营者以及包括电子商务在内的基于因特网的商务活动提供决策支持。Web挖掘与数据挖掘一样也是一个交叉研究领域，它涉及Web技术、数据挖掘、计算机语言学、信息学等多个领域，像人工智能、机器学习、概率统计及数据库等仍然是Web挖掘的基础。另外，由于Web挖掘的特点，像信息检索（Information Retrieval,IR）和信息抽取（Information Extraction,IE）等研究领域的交叉研究更值得关注。

2 Web挖掘的数据来源及特点

2.1 Web挖掘的数据来源

Web挖掘面向的是网站数据。凡是在Web站点中对用户有价值的数据都可以成为Web挖掘的数据源。其中包括网页文本信息、网页链接信息、网站的访问记录及其他可收集的信息等。但是，不同的挖掘目的、不同的挖掘算法总是依靠不同的一种或几种数据源。通常，Web挖掘的数据源有以下几种类型：

1）内容数据：即Web页面，如HTMLXML文档、动画、图片、语音和图像等。

2）用户访问数据：即描述用户使用网络资源的数据，通常以日志文件的形式存在，如服务器日志（Server logs），错误日志（Error logs）和Cookie logs。

3）结构数据：如网页的内部链接和网页间的超链接。

4）在线市场数据：是和市场活动相关的信息。通常是用传统的关系数据库结构来存储，如电子商务网站的电子商务信息等。将它们和访问日志集成，有助于提高Web挖掘的准确度。

5）其他数据，主要包括用户注册信息等一系列数据。

2.2 Web数据源的特点

Web上的数据具有非结构化、动态、不完全、混沌的特点和巨大、分层、多维的形式，Web挖掘与传统的数据挖掘相比，有其自身特有的性质与要求，可以归纳以下几点[1,2]：

1）数据量巨大，Web数据涉及各种不同行业与领域，又由于连接在Internet上的电脑数量非常巨大，所以，Web数据目前以TB数量级计算，而且仍然在迅速增长，这就要求Web挖掘方法在对大数据集进行挖掘时依然具有高效率。

选择150羽1日龄罗曼蛋公鸡，饲养至10日龄(母源抗体效价平均为1.0±0.0 Log2)选取120羽随机分为4组，每组30只，14日龄和28日龄分别全部用1羽份的法氏囊疫苗点眼滴鼻，每次免疫的同时，第1组在基础日粮中添加1%的中药复方多糖，第2组在基础日粮中添加1%的黄芪多糖，连续3 d，第3组为免疫不用药疫苗对照组，第4组为不免疫不用药空白对照组(见表1).

2）动态性，Internet本身就是一个时刻动态更新和变化的系统，网页数量猛增，页面内容也经常更新，如新闻、股票市场、服务中心和企业网都在定期更新Web网页，网页链接和访问记录也在不断更新。因此需要借鉴数据仓库的某些技术，以此保存Web上动态更新的数据。

3）多样性，Web数据经过滤后，既有数值型(整型、实型)、布尔型，又有分类数据、性质描述数据以及Web特有的数据类型如URL地址、E-mail地址等。这些新的数据类型需要对原有数据挖掘方法进行改进和扩充。

4）异质性，Web上的数据可以是自由文本、文档、图像或其它多媒体数据，也可以超级链接、URL地址、E-mail地址和用户访问信息（Web日志），它们虽然有相似的特征，但在本质上差别是相当大的。

5）异构性，Web上的每一个站点就是一个数据源，每个数据源都是异构的，这就构成了一个巨大的异构数据库环境。其构造特征也存在很大的差异。大多为半结构化数据或非结构化数据，相对于Web数据而言，传统的数据库都有一定的数据模型，可以根据此模型来具体描述特定的数据，但Web上的数据没有特定的模型描述。半结构化是Web数据的最大特点。

3 Web挖掘的分类

根据数据源种类的不同，Web挖掘可以分为三类[2,9,10]：Web内容挖掘（Web Content Mining）、Web使用挖掘（Web Usage Mining）和Web结构挖掘（Web Structure Mining）。（文献[4]提出Web结构可以被认为是Web内容挖掘的一部分。）图1给出了Web挖掘的分类图。

图1 Web挖掘分类图

3.1 Web内容挖掘

Web内容挖掘是从网页内容、数据、文档中发现信息、抽取知识或模式的过程。由于Web数据分布广泛，如电子商务数据、数字图书馆数据、FTP上的数据、以及其他各种通过Web可以访问的数据库。既有来自于数据库的结构化数据，也有用HTML标记的半结构化数据和无结构的自由文本。数据源的复杂决定了Web数据类型的多样性，但是主要有文本(Text/HTML/XML)、图像(Image)、声音(Audio)、视频(Video)、元数据(Metadata)以及超级链接(Hyperlinks)等几种数据类型。Web内容挖掘就其挖掘内容而言，可分为基于文本信息的Web文本挖掘和基于多媒体信息的Web多媒体挖掘。就其挖掘策略的不同又可分为Web概要（即直接挖掘Web文档的内容）和搜索引擎结果概要（即对搜索引擎的查询结果作进一步的处理，得到更为精确和有用的信息，以增强搜索引擎的内容查询功能）。按实现方法又分为信息查询（Information Retrieval,IR）方法和数据库方法。IR方法主要应用IR技术，评估改进搜索信息的质量，处理无结构数据和HTML标记的半结构化数据；数据库方法是把半结构化的Web信息重构得更结构化，然后可以使用标准化的数据库查询机制和数据挖掘方法进行分析。

3.2 Web使用挖掘

Web使用挖掘也称为Web日志挖掘、Web访问信息挖掘或Web使用记录挖掘。现在许多商务及交易都是通过Internet或Web来实现的。从而每天在服务器方都会产生大量的访问数据，这些数据通常是由服务器自动产生并将其存放在服务器日志文件中。Web使用挖掘可以对用户访问Web时在服务器方留下的访问记录进行挖掘。Web使用挖掘面对的是在用户和网络交互的过程中抽取出来的第二手数据，这些数据包括：网络服务器日志记录、代理服务器日志记录、浏览器日志记录、用户注册信息、Cookie中的信息、鼠标点击流、用户对话或交易信息等一切用户与站点之间可能的交互记录。它通过挖掘Web日志文件及其相关数据来发现用户访问Web页面的模式，帮助理解用户的行为，从而改进站点的结构或为用户提供个性化服务。

Web使用挖掘的研究方向主要有两个：一般的访问模式追踪和个性化的使用记录追踪。一般的访问模式追踪通过分析使用记录来了解用户的访问模式和倾向，以改进站点的组织结构；而个性化的使用记录追踪则倾向于分析单个用户的偏好，是根据不同用户的访问模式，为每个用户提供个性化的定制站点。

Web使用挖掘的关键在于当用户访问网络时能够预测出用户的行为和活动。其挖掘方法主要有以下两种：一是将Web访问记录的数据作为原始数据，应用特定的预处理方法进行处理后再进行挖掘；二是将Web访问记录的数据转换为结构化数据并存储在数据库或数据仓库中，然后再使用数据挖掘算法对其进行挖掘。

3.3 Web结构挖掘

Web不仅由页面组成，而且包含了链接页面的超级链接。超链接反映了Web页之间的某种关系，如继承关系和引用关系。但是目前大多数的Web搜索工具很少将Web结构考虑进去，仍将Web看成是相互独立文档的集合。Web结构挖掘是在Web的组织结构和链接关系中进行挖掘。Web结构挖掘的对象可以是Web页面之间的超链接，也可以是Web页面的内部结构。Web结构挖掘的基本思想是将Web看作一个有向图，他的顶点是Web页面，页面间的超链接就是图的边。然后利用图论对Web的拓扑结构进行分析。

由于Web文档之间的关联关系使得WWW不仅可以揭示Web文档所包含的信息，也揭示了文档间的关联关系所代表的信息，反映了文档之间的某种联系，同时能体现某个页面的重要程度，利用这些信息可以对页面进行排序，发现重要的页面。挖掘Web结构的目的是：发现Web的结构和页面的结构及其蕴含在这些结构中的有用模式；对页面及其链接进行分类和聚类，找出权威页面。在Web结构挖掘领域最著名的算法是Page-rank方法[5]和HITS方法。他们的共同点是使用一定方法计算Web页面之间超链接的质量，从而得到页面的权重。IBM Almaden Research Center开发的Clever系统和Google搜索引擎就采用了该类算法。

4 Web挖掘流程

Web挖掘就是利用数据挖掘技术从网络文档和服务中发现和提取信息。与传统数据和数据仓库相比，Web上的信息是非结构化或半结构化的、动态的，并且是容易造成混淆的，所以很难直接以Web网页上的数据进行数据挖掘，而必须经过必要的数据预处理。典型Web挖掘的处理流程如图2所示[6]：

图2 Web数据挖掘的工作流程

1）资源发现( Resource Finding)：是指从Web获取并返回文本资源的过程。文本资源最常见的是HTML文档，其他的还有电子邮件、新闻组、BBS、网站的日志数据或通过Web形成的交易数据库中的数据等。

2）信息选择和预处理( Information Selection and Pre-processing)：是从取得的Web资源中剔除无用信息和将信息进行必要的整理。例如，从Web文档中自动去除广告连接、去除多余格式标记、自动识别段落或者字段，并将数据组织成规整的逻辑形式甚至是关系表。

3）模式识别（Model Identify）：这个阶段主要运用数据挖掘技术和统计方法，从Web使用记录中挖掘知识。实现算法可以是统计分析、路径分析、关联规则、序列模式以及分类聚类等。

4）模式分析(Model Analysis)：这个阶段的任务是采用合适、成熟的技术和工具，进行模式的分析，从而辅助分析人员的理解，使采用各种工具挖掘出的模式得到很好的利用。目前常用的方法有：采用类似SQL的形式化查询进行分析；先将数据导入多维数据立方体中，再利用OLAP工具进行分析并提供可视化的结果输出。可视化技术被经常应用到模式分析的结果显示。

5 Web挖掘的应用领域

Web挖掘技术的应用涉及了搜索引擎、电子商务、企业危机管理等多方面。对于搜索引擎而言，通过借鉴Web挖掘技术，可以实现搜索引擎结构的挖掘，改进和提高搜索引擎的质量和效率，确定权威页面，提高查准率与查全率。在电子商务中，运用Web挖掘技术可以进行流量分析，找到网站中最重要的部分，进行广告分析，确定广告的点击率，进行用户来源分析，进行浏览器和平台分析，为网站设计和优化提供依据。同时可以得到关于群体用户访问行为和方式的普遍知识，用以改进Web服务设计。更重要的是，通过对用户特征的理解和分析，如对用户访问行为、频度、内容等的分析，提取出用户的特征，从而为用户定制个性化的界面，有助于开展有针对性的电子商务活动。在企业危机管理中可以运用Web挖掘技术搜集企业经营环境信息，分析企业经营状况，监督网上舆论，进行风险分析、控制和预防危机。文献[3]以搜索引擎为重点论述了Web挖掘的应用。

6 Web挖掘的发展方向

目前，在国内外Web挖掘的研究是前沿性的研究领域。将来的研究方向主要有以下几点：Web数据挖掘中内在机理的研究；Web知识库（模式库）的动态维护、更新，各种知识和模式的融合与提升，以及知识的评价综合方法；半结构、非结构化的文本数据、图形图像数据、多媒体数据的高效挖掘算法；Web数据挖掘算法在海量数据挖掘时的适应性与时效性；基于Web挖掘的智能搜索引擎的研究；智能站点服务个性化和性能最优化的研究；关联规则和序列模式在构造自组织站点的研究；分类在电子商务市场智能提取中的研究。

7 结论

本文讨论了Web数据挖掘的概念、基本原理和关键技术，阐述了Web数据挖掘的分类、工作流程、应用领域及今后的发展方向。如何进一步发展Web资源，势必要进行更加深入的研究，Web数据挖掘的研究将充满挑战又极富发展潜力。

[1] 马保国,侯存军,王文丰,钱方正.Web数据挖掘技术及应用[J].计算机与数字工程,2006,34(6)：20-22.

[2] 张蓉.Web挖掘技术研究[J].计算机工程,2006,32(15)：4-6.

[3] 薛鸿民.Web数据挖掘技术研究[J].现代电子技术,2006(15)：99-101.

[4] 刘晓鹏,邢长征.基于Web文本数据挖掘的研究[J].计算机与数据工程,2005,33(9)：75-79.

[5] Kleinberg J.Authoritative Sources in a Hyperlinked Environment.In ACM SIAM Symposium on Discrete Algorithms,1998.

[6] R.Kosala,H.Blockeel.Web Mining Research：A SLINey.SIGKDD Expioration, 2000,2(1)：1-15.

TP391

1009-0134(2010)09-0163-03

10.3969/j.issn.1009-0134.2010.09.50

2010-02-03

刘树超（1963 -），男，高级讲师，学士，研究方向为数据仓库与数据挖掘。