浅谈基于Web挖掘的个性化搜索引擎技术

2018-09-22 02:49谢海艇
发明与创新 2018年21期
关键词:信息检索搜索引擎日志

谢海艇

山东体育学院 山东 济南 250000

引言

搜索引擎的基本概念出现于20世纪70年代,并于20世纪90年代中期得到快速的发展。随着Web信息的迅速增加,搜索引擎市场出现了前所未有的繁荣景象,搜索引擎正向着智能化、个性化等适应不同用户需求的方向发展。目前,搜索引擎仍然存在很多的局限性,主要表现在以下几个方面:查询精度不高且不能根据用户兴趣返回信息、资料检索与用户的交互不够、查询结果排序不合理、不能处理多种格式的文件等。

一、Web挖掘技术概述

Web挖掘[1]是指从异构的分布式互联网数据中收集信息,利用计算机网络技术和人工智能技术,不断地发现有用的数据模型和隐含知识。根据挖掘对象的不同,Web挖掘可分为Web内容挖掘、Web结构挖掘以及Web日志记录挖掘。

Web内容挖掘是基于Internet中各种网站的数据内容,以获得有效的知识驱动模型,并自动检索网络资源,提高网络数据的使用。

Web结构挖掘是研究Web文档的链接结构,找到链接中隐含的可用模式。其中两个最著名的算法是PageRank算法和HITS算法。

Web日志记录挖掘也称为Web日志挖掘,以Web服务器访问日志为主要数据,分析用户的浏览行为与页面之间的结构类型,改进站点结构,为用户提供个性化服务。

二、基于Web挖掘的用户个性化数据库

用户个性化数据库以用户的多维信息为基础,不断深入挖掘用户的浏览行为,并根据页面权重、时间间隔、下载信息等因素不断更新数据库,帮助用户查找真实需求的资源信息[2]。用户个性化数据库包括信息收集与信息更新。

1.收集用户访问信息

如何获取有关用户的个性化信息是用户个性化数据库需要解决的首要问题。用户个性化数据库的数据信息主要来自于用户提交的信息以及分析用户的访问日志。用户在访问互联网的过程中,提交的查询关键词、停留网页时间、下载状态等信息会在Web服务器上留下记录,并形成用户访问日志。用户个性化数据库通过不断分析用户访问日志,挖掘用户的潜在个性化信息。

2.更新用户个性化信息

用户的个性化需求不是一成不变的,大多数用户的个人特征数据会随着时间推移而变化。其主要表现形式有两方面,一为兴趣领域的变化,二为兴趣程度的变化。用户兴趣的变化将不可避免地影响用户个性化数据库的内容,这就要求用户个性化数据库具有自主学习的能力,并根据用户的兴趣变化不断更新数据库中的相关特征项。

本文采用改变权重的方法更新用户的个性化特征项,公式如下:

i为用户访问网站的参数。针对不同用户的访问行为进行定义,如用户对访问内容进行下载、对网页进行全文浏览、对部分网页内容进行浏览、未对网页进行浏览等。不同的访问行为反应了用户对信息的满意程度,依次为i确定不同的数值。

t是时间参数。用户通常会长时间浏览他们感兴趣的页面,否则浏览时间将会变短。

三、基于Web挖掘的个性化搜索引擎模型

个性化服务的目标是反映用户之间的差异,尊重用户的个性特征并向用户提供各种信息服务[3]。基于Web挖掘的个性化搜索引擎模型主要为用户提供个性化的信息检索服务,便于用户查阅使用。

本系统主要包括个性化数据库、检索系统、后台管理系统。

个性化数据库主要表示用户的兴趣趋势,通过不断挖掘用户访问日志,自动更新用户的个性化特征项。

检索系统主要基于用户查询关键词,在检索信息的同时计算相应页面的权重,以此为依据进行排序,并把检索结果反馈给用户。

后台管理系统主要加强子系统之间的通信连接,维持系统的稳定运行。

四、结语

随着互联网信息的急剧增加,搜索引擎技术在信息检索中发挥的作用越来越大。相信随着科学技术的进步,网络信息检索技术的发展也会越来越快。※

猜你喜欢
信息检索搜索引擎日志
一名老党员的工作日志
扶贫日志
游学日志
医学期刊编辑中文献信息检索的应用
在网络环境下高职院校开设信息检索课的必要性研究
基于神经网络的个性化信息检索模型研究
网络搜索引擎亟待规范
基于Nutch的医疗搜索引擎的研究与开发
一种基于粗集和SVM的Web日志挖掘模型
基于Lucene搜索引擎的研究