数据挖掘在个性化图书推荐中的应用

2011-12-20 03:49王蕊
城市建设理论研究 2011年23期
关键词:决策树

王蕊

[摘要] 采用数据挖掘中的决策树方法,对图书馆的图书借阅数据进行研究和分析,提出了基于读者阅读兴趣的个性化图书推荐模型,结果表明,该模型能够为老读者个性化推荐新书,为新读者个性化推荐图书,较好地实现了图书馆的有针对性的创新服务。

[关键词] 决策树 个性化图书推荐 兴趣模型

引言

以读者为中心,根据读者各种不同的个性化信息需求,实现个性化信息服务,是图书馆服务发展的必然趋势[1]。在用于图书馆个性化信息服务的众多技术中,数据挖掘技术[2]有着重要的地位。为了向老读者推荐符合其阅读兴趣的图书,预测新读者将来可能的阅读兴趣,从而推荐合适的图书信息[3]。本文利用数据挖掘技术中的决策树算法对某高校图书馆的读者借阅数据进行分析,根据不同阅读兴趣对读者分类,建立了基于读者阅读兴趣的图书推荐模型,为新老读者提供具有针对性的图书推荐服务。

1准备借阅数据

为了对数据进行挖掘并得到正确的结论,选择合适的图书借阅数据并进行预处理是非常必要的。数据来源为某高校图书馆近4年读者借阅记录,数据源为学校图书馆管理信息系统数据库,数据库类型为SQL Server 2000。为简化数据处理、建模和分析过程,本文从众多数据库表中选出以下几张表:流通库、读者库、馆藏书目库、分类检索表和检索索书号库。为保护读者隐私,本文中所有数据包括读者姓名、读者条码、联系方式等信息均经过技术处理。对以上数据处理后,构建用于分析的数据大表。

以流通库为事实表,根据其外键将几张表合为一张大表,其字段有:读者条码、读者姓名、性别、读者级别、读者专业、所属院系、索书号、书名、外借时间、图书类别。为方便分析,把图书按索书号分为理工、医学、文学、外语、社科等类别。部分数据见表1。

2构建模型

构建模型就是在数据准备后,从数据中采集业务相关的样本数据集,探索数据的规律,针对数据建模的数据集数据进行修正,选择一种或几种挖掘方法,进行数据模型构建,从技术和业务两个层面进行模型评估。从图书借阅数据表中建立两种模型,一个现有读者图书推荐模型,一个是新读者图书推荐模型。

表1 图书借阅数据表

读者条码 读者姓名 性别 读者级别 年级 读者专业 所属院系 索书号 书名 外借时间 图书

类别

0101045XX 张** 女 本科生 2004 临床医学 临床医学系 I247.5/CMX 星恋 2008-12-23 文学

0101055XX 念** 男 本科生 2005 临床医学 临床医学系 R6/WZD=7 外科学 2008-12-19 医学

0601075XX 李** 男 专科生 2007 市场营销 管理学院 E892.25/SWY 孙子兵法 2009-1-12 社会科学

1002065XX 张** 女 本科生 2006 计算机 信息工程学院 TP312C/ZJY C++面向对象程序 2008-12-30 理工

2.1数据抽样

当进行数据建模时,要从数据源中取出业务问题相关的样本数据集。由于本文研究的图书馆数据量3万多条记录,这里把整个数据集作为研究对象。

2.2数据探索

结合技术知识与业务知识,探索数据的规律和趋势,确定数据变量的类型,研究各变量之间的相关性,确保数据集能满足解决业务问题的要求。针对数据建模的数据集,还要增删、结合或生成一些新的变量。对数据各个变量进行分布分析,结合数据建模目标,对数据进行归并、补缺、转换或过滤。

2.3建立模型

(1)现有读者阅读兴趣模型

图1现有读者图书推荐模型

首先由图书借阅数据表可统计出借阅各类图书的读者。当新书编好索引号便可以归入某类图书中,该书上架后利用该模型可以向喜欢该类图书的读者发出电子邮件,推荐该书。

(2)新读者阅读兴趣模型的建立

为了对表1的图书借阅数据进行分析挖掘,从而得出分类规则,现在以图书类别为决策类别属性,其他为条件属性。首先对表1中数据初步分析,可知读者条码、读者姓名、索书号、书名、外借时间这些属性对决策属性“图书类别”没有贡献,不能作为条件属性。至于年级,新读者的年级也不可能与现有读者的年级相同,但它应该对决策属性“图书类别”有贡献,故可将2007级、2006级、2005级、2004级改为低年级(包括本专科1年级、专升本1年级)、中年级(含本科2、3年级和专科2年级)、高年级(含本科4年级、医学本科5年级、专科3年级、专升本2年级)。经过分析后得到表2,篇幅所限,只列出部分数据。

表2 图书借阅决策表

序号 性别 读者级别 年级 读者专业 所属院系 图书类别

1 女 本科生 高年级 临床医学 临床医学系 文学

2 男 本科生 中年级 临床医学 临床医学系 医学

3 男 专科生 低年级 市场营销 管理学院 社科

4 女 本科生 中年级 计算机科学与技术 信息工程学院 理工

可以做分类分析的数据挖掘软件很多,这里选用MS SQL Server Analysis软件的决策树分类算法[4]对表2进行分析。因为经过分析形成的决策树较大,故将决策树整理得到表3,这里仅列出部分数据。

表3 图书推荐决策表

专业 年级 读者级别 性别 类别及百分比(%)

农业 医学 外语 文学 理工 社会科学 其他

临床医学(4731) 中年级(1437) 专升本(122) 0.83 20.00 8.33 40.83 3.33 21.67 4.17

非专升本(1325) 0.15 61.07 6.45 21.68 2.33 5.85 2.48

非中年级(3294) 专升本(246) 0.39 41.73 21.05 13.78 4.33 12.99 4.72

非专升本(3048) 男(1148) 0.26 23.62 7.35 41.00 4.07 16.35 7.36

女(1900) 0.21 25.42 12.58 48.17 1.52 8.02 4.09

计算机科学与技术(793) 高年级(113) 0.83 0.83 0.83 4.93 75.21 14.88 2.48

非高年级(680) 0.15 3.49 11.05 24.27 44.33 13.37 3.35

注:表中括号中的数字为图书借阅次数,空白处表示该属性对分类没有贡献。

由表3可以得出如下規则(这里仅列出一个规则):

条件:专业=临床医学 并且 年级=中年级 并且 读者级别=专升本

结论:借文学类书的占40.83%,借医学类书的占20%,借社科类书的占21.67%。

分析表3中数据可知,在表2中,专业属性对分类的贡献最大,其次为年级、读者级别、性别,而所在院系对分类没有贡献。另外将百分比小于10%的类别忽略掉,这样能够为新读者重点推荐图书。

3测试模型

有了上述两个模型,就可以为新老读者个性化推荐图书了。

对于老读者,图书馆新书入库上架后,利用现有读者阅读兴趣模型,新书会根据索书号加入到某一图书类别,然后该类图书会向已经归到该图书类的读者自动发出Email,对该新书感兴趣的读者阅读邮件便获知了该书入库的信息。经推荐实验并抽样调查学生读者可知书目推荐符合学生兴趣率达90%以上。

对于新入学的学生,根据新读者阅读兴趣模型中的分类规则,向新读者推荐图书,经推荐实验并抽样调查学生读者可知书目推荐符合学生兴趣率达85%以上。

4 模型评估

确定模型的数据输入、输出和分析建模结果的发布方式:以数据接口的方式发布,把分类结果定期写回数据库,实现与原有图书管理系统的集成,提供给图书馆管理人员使用。现有读者阅读兴趣模型处理借阅信息的结果可以帮助我们:(1)根据读者群需求特征提供信息咨询和定制服务,引导用户快速查找所需的数据和信息,协助图书馆更好地提供服务;(2)根据分群结果,提供符合用户需求的个性化服务内容。新读者阅读兴趣模型对新生推荐图书可以帮助我们:(1)帮助培养新读者的的阅读兴趣,节省其查找图书的漫长过程;(2)极大提高图书馆图书的使用效率。

此外,读者阅读兴趣模型的推荐结果有利于图书馆提高图书资源采购的针对性,有利于馆藏资源的整合,能够使有限的资金发挥最大的作用。对于图书馆网站栏目、内容层次、读者角色的划分都有着重要的参考意义。

5 结束语

本文建立了一个基于数据挖掘的读者阅读兴趣模型,尝试在利用数据挖掘技术对图书馆借阅数据进行分析,建立了向老读者个性化推荐新书、向新读者个性化推荐图书的模型,对于培养新读者阅读兴趣,提供符合老读者的个性化书目信息,做出了有益的探索,并对一个图书馆藏书结构建设有很大的帮助。下一步将结合其他数据挖掘技术对图书借阅进行处理分析,以提高所推荐书目对读者兴趣的符合率,更好的为读者提供个性化服务。

参考文献:

[1] 唐安顺. 浅谈图书馆的个性化信息服务[J]. 图书馆, 2009(4): 126-127.

[2] 王艳. 数据挖掘在数字图书馆中的应用[J]. 情报科学, 2003(2): 211-214.

[3] 杨文珠. 图书馆个性化信息服务技术与应用分析[J]. 图书馆理论与实践, 2008(4): 92-94.

注:文章内所有公式及图表请以PDF形式查看。

猜你喜欢
决策树
简述一种基于C4.5的随机决策树集成分类算法设计
一种改进的MEP决策树剪枝算法
决策树学习的剪枝方法
改进的ID3算法在个人贷款信用风险评估中的应用
ID3分类及其剪枝算法研究
不同年龄段关于养老问题认知的差异
森林资源动态监测系统与ENVI决策树分类技术的应用
基于遥感技术的植被信息提取方法研究
决策树在成绩分析中的应用
决策树在成绩分析中的应用