基于协同过滤的数字校园个性化推荐研究与应用

2018-04-21 11:41郑明舒畅黄宇健

科学与财富 2017年36期

郑明舒畅黄宇健

摘要：互联网的迅猛发展改变了人们的生活方式，数字校园发展也在悄然的发生变化。来自各个不同地区的学生个体，其文化背景、家庭经济状况、喜好特点、学习情况差距较大，学生接受网络信息的多样化、复杂化等，都给高校数字校园的管理工作带来了巨大的挑战，同时，资源的丰富性，信息过载，使得用户在面对大量信息时无法从中获得对自己真正有用的那部分信息，对信息的使用效率反而降低。由此，本文将对数字化校园图书资源进行个性化推荐的研究，选取学生课程信息、图书借阅信息，通过协同过滤推荐算法进行挖掘和分析，来提高图书资源的使用效率，避免信息过载，主动为用户进行选择或直接为其提供有针对性的资源信息，为学校管理决策提供支持，为学校教育工作的改进提供有效的依据。实验结果表明，该算法能有效提高校园图书信息化服务的推荐质量，节省用户获取有用资源的时间。

关键词：数字校园；协同过滤；个性化推荐

一、引言

大数据时代数字化校园如何在现有互联网基础上营造更加丰富多彩的数字化氛围，捕获师生更为真实的兴趣需求，创建一个便捷的信息沟通与交流环境，便成为在新一代数字校园建设发展中，我们必需面临和思考的问题。而高校师生这类对于信息异常敏感和关注的群体，其每天都要面对大量的各类信息，客观上造成了所谓的“信息冗余”。

数字校园中图书资源面临的是数字资源呈几何级增长，面对海量的数字资源，利用推荐技术可以更智慧、更高效的将图书资源向用户推荐[4]。

本文将从5个方面来对数字化校园个性化推荐进行研究：第1节简单介绍了数字化校园与图书资源的相关概述，在概述中介绍了协同过滤的概念及本文的结构安排。第2部分从数字化校园图书资源的现状出发，提出目前数字化校园中图书资源存在的问题及解决办法。第3部分根据提出的问题和解决策略，通过传统协同过滤推荐算法的研究提出本文基于K近邻用户和N近邻项目的有效结合的算法。第4部分通过相关数据集，采用相关相似性的计算方法得出K近邻用户和N近邻项目有效结合的实验，并通过借阅量、点击率的方法验证该方法的可行性。最后，对数字校园进行前景展望。

二、存在的问题

高校数字化校园的目标是实现高校教学、科研、管理、服务的数字化与信息化，实现教育资源的合理分配与利用，提高办学质量、办学效益和科研水平，提高高校管理水平。我国推广教育信息化已有多年，高校经过多年的信息化建设，已经建成完善的校园主干网络，建设了统一认证平台、教务管理系统、科研管理系统、人事财务管理系统、教学资源库、精品课程与视频公开课、学生信息管理系统等涵盖教学、科研、管理的应用系统，这些信息化建设内容在高校实际应用中效果良好，为高校智慧校园的建设创造了很好的基础。[2]但高校这些应用系统的建设与多年的应用，积累了大量的数据，导致用户无法从中获得对自己真正有用的那部分信息，信息过载和信息决策迷航现象。其次，对于师生个体而言，他们之间的需求在一定程度上并不具有普遍性，比如兴趣爱好、地理位置、閱读习惯、学习特点等。虽然国内对于推荐系统研究已经应用于教育领域中，但数量比较少，且并未具体结合师生真实的应用数据进行深度数据挖掘、兴趣预测并形成推荐。因此，个性化推荐是解决信息过载的有效途径之一，它特点用户地域分布，学习特点及兴趣偏好提供推荐信息，从而帮助用户进行，引导用户，减少用户时间和精力的投入，提高决策效率。为学校师生提供更好的数据服务，建立基于图书资源的个性化推荐，解决信息过载，节省资源获取时间成为本文要解决的问题。

个性化推荐中，传统的协同过滤的算法核心是分析用户兴趣，在群体中找到与指定用户的相似（兴趣）物品，综合这些相似用户对某一信息的评价，形成系统对该指定资源对此信息的喜好程度预测。近年来协同过滤的算法在国内外得到了广泛研究。但应用于数字校园较少。因此，研究协同过滤推荐算法应用于数字化校园图书资源是有必要的。

因此，本文正是利用数字校园里的课程、图书借阅数据进行数据挖掘，推测用户的潜在兴趣和爱好，构建协同过滤推荐算法，从而筛选和过滤出有用的图书资源信息，展现用户最关注和最感兴趣的个性化信息。

三、相关工作

3.1研究开发目标

本文研究的目的是为了建立基于图书资源的个性化推荐，解决数字化校园中图书资源的信息过载、个性化匮乏等问题，基于图书资源的个性化推荐将主要对数字校园里用户的课程、图书资源数据进行研究，推测用户的潜在兴趣和爱好，并构建协同过滤推荐引擎，为用户展现其最关注和最感兴趣的个性化图书资源信息。所以，首要目标是获取高校各个业务应用系统中的用户业务数据，并根据用户的属性及行为数据进行兴趣建模，准确理解用户当前情境下的需求，然后基于此设计高效的推荐算法，通过推荐系统接口，提供个性化推荐服务，从而能够更加有针对性的服务于各类用户。

3.2协同过滤概念及推荐算法

本文通过用户课程、图书借阅情况建立兴趣模型，调用相应的算法分析用户的兴趣度，进行个性化推荐。该模型的构建其实质是用户-物品兴趣矩阵的形成过程。该项兴趣矩阵可以通过相关相识度算法进行分析，从而达到个性化推荐的目的。而推荐算法中使用最广的为协同过滤推荐系统和矩阵分解推荐系统。

本文中的协同过滤推荐系统，首先是根据特征进行相似性匹配运算，选择K个相似性最高的用户作为目标用户的近邻，根据K个近邻用户偏好，预测目标用户未选择或访问的项目。选择N个兴趣度最高的项目通过权重筛选相应类型作为推荐结果展示给用户。而度量相似性的方法有很多，常见的有cosine相识度，Jaccard相似度，欧式距离，Pearson相似度等。本文根据图书借阅及课程选择数据集的特点，选择余弦相似度，通过协同过滤来描述用户兴趣模型，并对局部进行修正。

3.3推荐流程

推荐流程包括以下几部分，如下图3.3.1用户兴趣模型的创建过程。

1.筛选数据集。通过从服务器获取用户课程数据、图书借阅相关数据集。筛选出课程、借阅书籍名称、学号、选修标识等必要的数据集。将数据集进行必要的清洗，将标称型数据处理为哑变量。同时，统计图书借阅类型次数，作为最终推荐时的权值。如用户A，借阅了4本书，疯狂英语、口语500句、体育与健康、心里健康，根据书籍的类型分类，其2本为英语类，1本为体育类，1本为综合类，故相应的权重w1=2，w3=1，w10=1，其他类型未选择的，则w2...w4为0。构建的矩阵如上表3.3.1形式。考虑某些用户没有借阅信息或者借阅书籍较少的情况，课程表的数据将作为解决冷启动办法。

2.建立用户-项目矩阵。通过处理好的特征进行余弦相似性匹配运算，获得每个用户与其他用户的相识度。形成相似度矩阵User—Similarity[U][N]。

3.寻找K近邻。通过其相识度最小的K个做为相似性最高的用户作为目标用户的近邻用户。

4.获取N近邻项。根据K各近邻用户的偏好，只筛选图书特征作为候选项，来预测目标用户未选择或未访问的N个兴趣度最高的项目。

5.获取最终推荐项。通过选择的N个兴趣度最高的项目，通过权重w1....wn给予相应类型的排名，从而作为推荐结果展示给用户。

3.3.1用户兴趣模型的创建过程

四、实验结果及分析

本文采用的实验平台为 PC（Intel（R），CPU 2.93GHz，RAM 4 GB）和Windows 7 操作系统，开发工具使用 Python2.7，Spyder 和 Oracle，算法使用 Python语言编写。

4.1.数据集

为了验证本文所提及方法在数字校园环境下的有效性和可行性，本系统主要使用图书借阅、课程数据集，故主要对用户的借阅书籍信息进行数据挖掘。由于用户的借阅书刊信息与用户所学的专业有很大的联系，在本系统中还需要对读者的专业加以考虑，因此需要从图书馆系统的数据库中提取读者专业属性数据和书刊借阅数据。本文数据源来自某高校图书馆集群管理系统数据库文件，取2014年1月至2015年1月的借阅数据，共计106238条。选取的数据集包括用户编号、读者院系、读者借阅证号、记录号、读者借阅证号、索书号、书名、分类号、作者和出版社、选课时间，选课课程，课程类型。读者信息表因为有私人信息没有列出。该数据中的部分数据样本如下表所示。

图4.1部分数据样本

为了达到实验的可操作性，必须将数据集进行清洗，筛选出适合推荐算法。

首先，将书籍名、学院、课程标称型数据转换为哑变量，如将每门课程当做一个特征，用户选了该门课程，则记录数据为1，否则为0。同时根据《中国图书馆分类法》將分类号转换为哲学、军事、经济、文化、教育等22种类型，再将用户历史借阅书籍通过该类进行统计次数，作为推荐结果的排名权重。同时，对于课程需要清洗含（上）、（下），（一）等后缀标记，让相同课程尽量归为同一类。如网球（一），网球（二）都属于网球。经过上述一系列预处理后，最终用于实验的数据格式如下表。

图4.2部分处理后数据样本

4.2实验结果分析

基于协同过滤推荐算法，通过计算用户与用户之间的相识度，来进行偏好预测。截选部分推荐结果如表1。其中，学院类型、专业课不作为推荐结果，只作为训练特征，推荐参考理由。通过协同过滤算法推荐结果，用户3产生了4个偏好最高的候选项；通过历史借阅书籍对应的类型可知，艺术类权重最高。因此，将项目3和项目4排列在项目1之前优先推荐给用户3。

表1算法生成结果部分数据

通过随机筛选1000个用户的借阅情况及点击信息分析，如下图1可知，推荐前，未借阅人数较多，书籍借阅总数较少，推荐后未借阅人数明显增加，借阅1-3本人数明显增加。图2可知，未推荐前浏览基本处于2500水平，通过推荐后，用户点击数明显上升，协同过滤推荐算法比传统不进行推荐其图书借阅有明显提高，从而表明在数字校园个性化服务领域的有效性和可行性。因此，可以在数字校园中使用协同过滤算法进行推荐来节省用户检索资源的时间，提升个性化服务质量。

图1 没有推荐前与推荐后的借阅本书对比图2 没有推荐前与推荐后的点击浏览对比

五、前景展望

数字化校园建设是一个长期的、系统性工程，涉及学校的每个职能部门，一个成功的数字化校园可以推动学校管理体制和思想观念的转变，大数据、云计算、物联网、移动互联技术的发展为高校数字化校园个性化建设提供了技术基础。在海量数据中，挖掘、分析出大数据背后隐藏的有价值信息，可以更好地提高数据管理质量，提高学校各职能部门的工作效率，为学校领导层的决策提供科学依据，在教学、管理、校园安全等方面提供有益的帮助，同时对实现高校教育信息化可持续发展有着重要的推动意义，未来的校园将是智慧校园，会更加完善，更具“智慧”。

参考文献

[1]刘敏斯，陈少波.大数据时代高校智慧校园建设研究.2015（08）.

[2]张维国.大数据时代数字化校园建设的研究.2015（09）.

[3]高滢，齐红，刘亚波，刘大有.基于用户等级的协同过滤推荐算法[J].吉林大学学报（理学版），2008，46（3）： 489～493.

[4]林敏.基于云计算的协同过滤推荐算法在智慧图书馆中的应用.2013.