基于Web数据挖掘技术的个性化推荐系统研究

2017-03-14 02:24李常福

网络安全技术与应用 2017年2期

关键词：日志数据挖掘预处理

◆李常福

（郑州市中心医院河南 450000）

基于Web数据挖掘技术的个性化推荐系统研究

◆李常福

（郑州市中心医院河南 450000）

考虑目前电子商务网站快速发展及应用趋势，结合水果网络购买平台实例。基于Web数据挖掘技术构建个性化推荐系统，整个个性化推荐系统的实现及设计过程可为Web数据挖掘技术在电子商务中的应用提供参考。

Web数据挖掘；个性化；推荐系统

0 前言

基于Web的数据挖掘技术就是数据挖掘技术的一个分支，离不开数据挖掘的基本理念、原理及方法。只是将数据挖掘的应用领域缩小到了Web数据这一范畴之内，通过对Web相关数据的统计，发现其核心信息，目前已在电子商务得到了深入的应用。在购物网站中，有效运用Web数据挖掘，提取Web日志中的有用信息，找出用户感兴趣的商品及所需的服务，构建个性化推荐系统，进而为用户提供个性化的商品推荐服务，这种基于Web数据挖掘技术的个性化推荐系统不仅在一定程度上提高购物网站的销售业绩，同时也促进了Web数据挖掘技术的应用。因此，以Web数据挖掘技术为背景，研究个性化推荐系统，具有重要的意义。为了充分说明Web数据挖掘个性化推荐系统的构建、实现与应用过程，文章主要以某水果网络购买平台的设计与实现为例进行分析。

1 推荐系统架构

在网络购物平台的应用过程中，Web数据挖掘的主要研究对象是用户与网站交互时服务器段所产生的日志记录文件。它主要包括Web服务器用户访问日志、代理服务器日志、客户端日志等。文章主要针对服务器段产生的用户访问日志进行数据挖掘处理。基于Web数据挖掘的水果网络购买平台充分考虑了数据挖掘与分析的需要，系统架构设计采用MVC架构，综合利用SpringMVC、Spring、Hibernate等开源框架。采取Model View Controller分层思想进行系统架构的构建，并通过搭建MySQL数据集群完成系统内数据的存储。

2 推荐系统设计

水果网络购买平台是一个具备各项功能的电子商务系统，不仅需要为相关用户提供登陆服务、水果选择服务，还需要为系统的管理者提供客户订单处理、相关公告发布以及网站正常运行等服务。为了实现这些服务功能，该系统的总体设计如下。

2.1 推荐系统总体设计

基于水果网络购买平台的实际需求结合Web数据挖掘技术本身的特点，采用Web日志挖掘技术对系统中用户访问日志记录文件进行Web数据挖掘，借助Hadoop平台对系统中的用户访问日志记录文件进行统计分析，找到浏览用户的行为模式，挖掘用户可能感兴趣的商品，并作出合理的推荐，对统计分析结果汇总，为系统决策者决策提供理论依据。为了完成上述过程，水果网络购买平台Web日志挖掘推荐系统功能模块主要包括Web日志数据预处理、数据汇总展示、个性化商品推荐三个组成部分，详细设计内容以下进一步阐述。

2.2 推荐系统详细设计

2.2.1 数据预处理模块设计

数据预处理是进行数据挖掘的基础，特别是基于Web的数据挖掘，数据预处理则是重中之重。Web日志文件广泛的存在于各类Web应用中，只要用户与Web应用产生交互，在服务器后台就会生成日志文件。然而在这些海量的日志记录中存在着很多无用记录和错误记录。在数据预处理的数据清洗阶段就要将这些无用、错误记录删除，提供低纬度、低冗余的数据源供其它阶段使用，如图3所示。通过初步的数据清洗，得到的日志记录数据维度已大量减少，可应用到下阶段的工作中去。已清洗日志记录包括请求用户IP、请求时间戳、请求方法、请求文档URL、被请求文档URL、HTTP版本信息、请求返回码和代理服务器信息，已清洗的日志记录将会保存在系统数据库visit_log表中，这个过程就是图1的属性提取过程，是针对本系统的特殊设计。

图1 数据预处理流程

2.2.2 数据汇总展示模块设计

数据统计汇总模块主要是将数据库中visit_log统计分析汇总，然后展现给系统管理人员，以供决策需要，流程如图2所示。首先从MySql数据库集群中读取visit_log中的日志记录，然后通过调用相应的MapReduce任务处理日志记录。通过对visit_log中的日志记录进行统计便可得到PV页面访问量，IP统计是针对访问过该系统所有IP地址进行的统计汇总。

图2 数据汇总流程

2.2.3 个性化商品推荐模块设计

个性化商品推荐模块负责根据用户的浏览记录推荐该用户可能感兴趣的商品。当用户向网站系统发起请求时，服务器接收用户请求得到用户IP地址，然后根据IP地址去数据库集群中进行匹配，如果匹配到某条记录，通过获取该记录中的请求URL值，根据请求URL值可以判断出该用户浏览过哪件商品。如果匹配到多条记录说明数据库中保存了多次用户浏览记录，根据请求URL可以判断出该用户浏览过哪些商品，根据这些商品信息可以构建出该用户的商品偏好矩阵，同理可以通过MapReduce任务得到当前系统所有浏览用户的商品偏好矩阵。得到这两个矩阵以后便可以将这两个矩阵作为协同过滤Mapreduce任务的出入，作业执行完毕时即可输出该用户的推荐信息列表，选取排名靠前的商品推荐给用户即可，进而完成整个个性化推荐过程，该模块的详细流程设计如图3所示。

图3 个性化推荐模块流程

3 结束语

从上述分析可以看出，基于Web数据挖掘技术的个性化推荐系统整体实现思路和过程并不是很复杂，但有些关键技术需要进行深入研究和不断深化；一是Web日志文件用户识别方法，主要是为了杜绝误识别现象的发生；二是协同过滤推荐算法，通过对推荐算法的优化可提高推荐效果；三是Web服务器的性能，可通过构建可扩展的Web服务器集群来解决单机性能的限制，这些将是个性化推荐系统构建和应用过程中需要进一步细化、深入研究的关键问题。

[1]李彬，刘莉莉.基于MapReduce的Web日志挖掘[J].计算机工程与应用，2012.