基于用户画像的个性化图书推荐研究

2020-03-31 03:02俞奕

办公室业务·上半月 2020年1期

基于用户画像的个性化图书推荐研究

文/武汉科技大学图书馆俞奕

【摘要】目的/意义：运用个性化推荐服务，满足高校读者的个性化需求。方法/过程：首先分析读者身份信息和历史借阅行为信息数据，然后创建图书馆读者的用户画像标签模型，最后结合个性化推荐算法构建智慧阅读推荐系统。结论：图书馆可以通过用户画像标签快速了解读者群体的兴趣方向。

【关键词】用户画像;个性化推荐;智慧图书馆;阅读推广

在全民阅读推广活动中，图书馆始终是活动的主导力量和核心机构。在举办阅读推广的活动时，往往需要提前了解各类读者的兴趣爱好，设计活动主题以激发他们的阅读热情。然而读者群体的需求十分复杂，每个人的阅读喜好一方面会受到年龄、性别、学历等自身属性的影响，另一方面还会受到社会新闻、朋友交际以及阅读历史等动态属性的影响。因此，相似甚至相同的阅读推荐书单就不能满足这种多元化的个性需求。所以，如何对读者的兴趣进行描述以及对这些群体进行个性化的图书推荐就成了图书馆的一项重要研究内容。在图书馆的借阅系统中，存储着大量的读者身份和书籍描述的信息，还有每天都在动态变化的图书借阅信息和网络检索、浏览信息。如今，大数据技术日益成熟，基于图书馆大数据的用户画像不仅可以全面的描绘出用户的阅读兴趣方向，还可以对用户实现精准的个性化推荐。

一、用户画像概述

“用户画像”的概念提出者是Alan Cooper，他将用户画像解释为“Personas are a concrete representation of taget users”，表示為“建立在一系列真实数据之上的目标模型，是真实用户的虚拟代表”。这种构建方法主要通过调查问卷、电话访谈等方式来判定用户的特征类别，早期被应用在交互设计或产品设计领域中，是一种刻画目标用户和联系用户诉求的有效工具。在大数据时代，还有一种表达是“User Profile”，表示运用数据挖掘和分析技术，全面系统地搜集用户信息资源，包括用户背景、用户行为习惯等主要特征，形成个性化用户档案模型。用户画像的目的是对目标用户的信息进行深度挖掘并开展个性化的阅读资源服务，增加用户的黏度和信誉度。

二、用户画像构建

标签化是用户画像的核心，标签具有语义化和短文本两个重要特征，不仅便于用户理解，也便于标签提取和聚类分析。构建图书馆的用户画像标签，需要利用管理系统中已采集的大量用户身份和行为数据进行分析。在对原始数据进行整合和筛选后，根据数据的属性和重要性，可以划分为两类标签数据，分别是静态标签数据和动态标签数据。

（一）静态标签数据。静态标签数据的特点是信息内容稳定几乎无变动，存储格式多为结构化形式，利于计算机检索和统计分析。数据对象主要分为两类，由图1所示。一类是读者的身份信息，其中读者证号、级别、姓名、性别、学院、学历等属性起主要标签作用。另一类是书籍的描述信息，主要包括：MARC号、书名、索书号、作者、摘要、出版社和出版时间。MARC号和索书号是两个重要的书籍标签。MARC是图书编目的重要信息，根据《中文文献CN-MARC著录规则》中对中文图书著录的描述可以发现，标识块606为主题字段，字段内收集了对应图书的主题词。索书号主要由《中国图书馆图书分类法》，简称“中图法”规定。中图法是我国目前绝大多数图书馆使用的图书分类方法。中图法按照学科体系将各种学科门类的文献信息划分为5大部类、22大类，每一大类下根据每种学科的具体内容层层展开。根据中图法规范所确定的图书索书号能够比较准确地反映图书的主题内容。

图1 静态标签数据类型描述

（二）动态标签数据。动态标签数据是指在图书馆的读者交互管理系统中不断变化的行为信息。如图2所示，动态标签数据主要包括图书借阅行为信息、OPAC检索信息、书籍浏览信息和留言板信息。信息形式包含结构化和非机构化数据。其中图书借阅行为信息主要包含：读者证号、MARC号、财产号、续借标记、借阅时间和还书时间。其中续借标记和借阅时长（还书时间—借阅时间）可以间接判断用户对该类主题的喜好程度。OPAC检索信息则包含检索时间和检索关键词，这些信息可以通过词频统计对关键词的重要性进行排序，从而获取群体用户的阅读兴趣趋势。书籍浏览信息主要包含：MARC号、网页点击量和借阅量。留言板信息为非结构化数据，包含：读者证号、留言时间和留言内容，运用语义分析技术对读者留言的内容进行文本分析可以发现用户的潜在需求。

三、个性化资源推荐

通过对读者进行标签化处理，构建用户画像后。可以根据协同过滤和K-means算法对用户进行聚类，将用户和馆藏资源进行智能匹配，完成个体和群体用户的个性化主题推荐。

（一）个体用户推荐。协同过滤算法可划分为UserCF（基于用户的协同过滤算法）和ItemCF（基于物品的协同过滤算法）。UserCF的算法基本思想是根据目标用户的兴趣爱好寻找相似的“好友”向目标用户进行推荐，这种思想与用户在图书借阅行为中的兴趣偏好特征聚类的想法一致。UserCF推荐算法的主要步骤是：步骤1：采集读者的行为数据，对读者的行为特征进行标注和量化。步骤2：对处理后的用户画像特征矩阵进行度量。核心工作是计算目标读者与其他读者的兴趣特征相似度。步骤3：根据度量结果由高到低排序，然后列出与目标读者的兴趣特征耦合度最高的TOP5读者列表。步骤4：根据步骤2中选取读者的三类最高兴趣点，获取TOP5读者的借阅书单的集合。步骤5：对TOP5读者阅读书单列表中的所有借阅书籍按照兴趣点分类和筛选，去除读者已借阅书目后，根据累计借阅次数依次降序排列。最后综合图书重要性对推荐书目进行微调，输出最佳匹配书目。图3所示为武汉科技大学图书馆举办的个性化图书推荐活动的个人图书推荐页面。

（二）群体用户推荐。群体用户推荐主要反映的是一个群体的共同特征。该特征虽然不能代表任何单个用户的最主要兴趣方向，但是却可以最大程度的满足大多数用户的共同爱好趋势。通过K-means聚类处理，读者群体最终收敛得到的聚类中心就是该读者群体中所有对象的代表，其各个参数就是集体阅读兴趣方向的反映。例如：对主题词标签为“人工智能”、索书号标签为“TP181”、借阅量标签为10次以上且身份标签是本科生的群体进行聚类。对聚类后产生的读者群体举办一次以人工智能为主题的读书会活动，让这些有相同兴趣爱好的读者群体聚在一起以书会友，增进知识交流。活动中选取的图书既可以是群体内借阅人数最广泛的图书，也可以是与主题标签最接近且出版年限最新的图书。图4所示为武汉科技大学图书馆举办的以“人工智能”为主题的图书分享会活动。

四、结语

本文提出基于用户画像的图书馆个性化图书推荐服务，以图书馆管理系统中的用户大数据为基础，运用数据挖掘和统计分析技术，提取用户的兴趣标签，对读者的兴趣方向进行用户画像建模，最后运用协同过滤和K-means算法实现个体的图书推荐和群体的图书推荐服务。研究结果表明，用户画像技术在图书馆阅读推广上有一定的有效性。笔者拟在今后的研究中进一步探寻图书馆大数据在文本语义分析和深度学习技术上的应用。

【湖北省图工委科研基金研究项目：基于协同过滤技术的图书馆个性化资源推荐（编号：2017-YB-04）;湖北省图工委科研基金研究项目：大数据环境下高校图书馆数据可视化分析与实践—以武汉科技大学图书馆为例（编号：2016-YB-03）】

【参考文献】

[1]何娟.基于用户个人及群体画像相结合的图书个性化推荐应用研究[J].情报理论与实践，2019，42（01）：129-133+160.

[2]许鹏程，毕强，张晗，牟冬梅.数据驱动下数字图书馆用户画像模型构建[J].图书情报工作，2019，63（03）：30-37.

[3]翟秀凤.基于用户画像的个性化资源智慧推荐系统研究[J].图书情报道刊，2018，3（12）：17-21.

[4]陈丹，柳益君，罗烨，钱秀芳，吴智勤.基于用户画像的图书馆个性化智慧服务模型框架构建[J].图书馆工作与研究，2019（06）：72-78.

[5]李新广.数字图书馆的用户偏好模型及个性化推荐研究[D].武汉大学，2011.

[6]王庆，赵发珍.基于"用户画像"的图书馆资源推荐模式设计与分析[J].现代情报，2018，38（03）：105-109+137.

[7]曲立平，吴家喜.基于评分可靠性的跨域个性化推荐方法[J].计算机应用，2018，38（11）：3081-3083+3088.

[8]宋楚平.一种改进的协同过滤方法在高校图书馆图书推荐中的应用[J].图书情报工作，2016，60（24）：86-91.

[9]朱白.数字图书馆推荐系统协同过滤算法改进及实证分析[J].图书情报工作，2017，61（09）：130-134.