基于“用户画像”的图书馆资源推荐模式设计与分析

2018-03-14 05:46赵发珍
现代情报 2018年3期
关键词:用户画像画像标签

王 庆 赵发珍

(1.西北工业大学图书馆,陕西 西安 710072;2.兰州大学图书馆,甘肃 兰州 730000)

随着大数据技术的应用及用户需求的多元化,图书馆转型升级势在必行。在转型发展过程中图书馆开始重视通过用户及资源大数据分析,了解用户需求并利用新型智能技术来创新服务模式,以满足用户多元个性的需求从而提升图书馆的价值。在图书馆用户需求感知方面,传统的用户需求以调研为主,主要了解用户需要什么?什么时候?什么方式?以分析小体量结构化数据,甚至在经验直觉的基础上分析用户需求。随着互联网技术的发展,用户信息行为轨迹及相应数据越发全面并且更易获取,对用户信息行为数据的分析能够更加准确掌握用户的需求偏好进而实现个性化服务提供了可能。同时随着图书馆馆藏资源的增加,尤其是数字资源的增加,使得用户寻找自己感兴趣的资源越发困难,图书馆也无法准确、及时的将海量资源推送给有需求的读者,用户画像作为大数据时代实现精准营销及服务的应用方法之一,为馆藏资源推荐提供了新思路。用户画像已成为当前的一个热门话题,且被广泛应用于计算机领域和电子商务领域。对用户与图书馆相关的门户平台、系统等交互产生的信息进行深度挖掘,通过构建图书馆用户画像预测用户的资源兴趣偏好,并提供精准的资源推荐服务是解决资源利用率的重要途径。本文通过借鉴计算机领域和电子商务领域的应用实践,引入用户画像来了解图书馆用户的资源偏好及需求,并构建用户画像模型以重塑图书馆资源服务模式,实现更加精准的资源服务内容。

1 用户画像概述

“用户画像”有两种概念,一种是由交互设计之父Alan Cooper最早提出的用户画像(User Persona)的概念(也叫用户角色),即“Personas are a Concrete Representation of Target Users”。Persona是真实用户的虚拟代表,是建立在一系列真实数据(Marketing Data,Usability Data)之上的目标用户模型[1]。它是通过调研问卷、电话访谈等手段认知及获得用户的定性特征,是描绘或者抽象用户属性差异的方法,这是早期用户画像构建方法。另一种英文表达是“User Profile”,是在大数据环境下产生的,与数据挖掘、大数据分析相关,通过数据建立描绘用户的标签,具体而言通过分析消费者社会属性、生活习惯、消费行为等信息而抽象出该消费者需求偏好的一个标签化的过程。构建用户画像的核心工作即是给用户贴“标签”,而标签是通过对用户信息行为分析而来的高度精炼的特征标识。简而言之,用户画像为了让团队成员在产品设计的过程中能够抛开个人喜好,将焦点关注在目标用户的动机和行为上进行产品设计。用户画像将用户的属性、行为与期待联结起来。本文所指的用户画像即为第二种“User Profile”。

用户画像通过对用户属性和用户行为数据挖掘、分析进而提取用户的兴趣标签,了解用户需求的过程。用户画像多用于个性化推荐服务、精准营销及用户拓展等方面,如企业进行精准营销如广告投放、产品研发[2-3]、移动用户画像构建及个性化服务提供[4]。在信息内容推送领域,Amazon通过用户在网站上的浏览、购买和评分等行为进行用户画像。构建用户画像多采用统计、贝叶斯网络、神经网络、主题模型、聚类分析等方法。Xu G等[5]提出通过数据统计的方法对用户的浏览记录和点击情况进行分析。王庆福[6]和张小可等[7]采用贝叶斯网络构建用户兴趣模型,从而刻画用户画像。辛菊琴等[8]提出了基于产品特征建立用户画像,然后采用神经网络训练得到具体的用户画像模型。单晓红等[9]以在线评论数据为基础,从用户信息属性、酒店信息属性和用户评价信息属性三个维度构建用户画像模型的概念模型,并采用Protégé工具建立本体来实现用户画像属性之间的关联,完成对酒店用户特征的完整刻画。

图情领域用户画像相关研究成果较少,主要有:胡媛等[10]对数字图书馆用户画像进行建模分析,在此基础上构建综合服务能力评价指标体系,为数字图书馆社区用户描述提供了参考。刘速[11]以天津图书馆为例,从数据来源、数据采集、信息识别、模型搭建等方面就用户画像的构建进行详细阐述,并提出可视化统计描述、多维度交叉分析、用户关系图谱等用户画像分析方法。汪强兵等[12]融合内容与用户行为的用户画像构建系统能够挖掘用户在阅读文献时的兴趣,并进行用户画像构建。陈慧香等[13]探讨了国外图书馆领域用户画像的研究现状,从定义与组成、算法与技术、模型构建、实践应用等方面作了详细的阐述。韩梅花[14]提出了在大数据背景下基于“用户画像”的抑郁症阅读疗法新模式。

2 图书馆资源推荐服务研究现状

图书馆根据读者个性化需求开展具有针对性和主动性的资源推荐服务,是提升资源服务质量及资源利用率的重要手段。目前图书馆资源推荐主要通过现场推荐及网络推荐系统渠道进行资源推荐。在图书馆资源网络式推荐中相关的研究主要围绕读者个性化推荐模式及计算机领域信息推荐系统相关推荐方法的应用、技术的改进和完善等展开。邱均平等[15]研究了资源的协同推荐系统,李默等[16]研究了图书馆学术资源推荐策略及系统架构,陈淑英等[17]从某高校图书馆图书借阅管理系统抽取2011级1 200名本科生的4年图书借阅日志数据,利用多维属性间关联规则数据挖掘技术,探索其图书推荐服务策略,何胜等[18]提出一种以文献“混合关联”为主要内容的图书馆文献推荐方案及实现算法,并应用Spark内存计算技术设计实证案例,毕强等[19]运用聚类分析、语义相似度计算、协同过滤推荐算法等方法,提出了基于领域本体的数字文献资源聚合及服务推荐的方法和途径,洪亮等[20]基于相似用户有相似选择的考虑,引入角色的概念模拟用户兴趣选择,设计一种有效的WSSQ算法构建用户信任网络,由此给出改进的情境感知推荐方法,并在扩展的Epinion数据集上进行仿真实验。袁辉[21]结合重庆大学智慧图书馆系统,对用户各类信息数据进行挖掘分析,预测和标定依赖事件发生进程产生的各类文献需求,可有效提高图书推荐服务的准确性。尹丽玲[22]提出一种新的融合内容特征和非内容特征以及用户行为的推荐算法,以实现学术资源的优质推荐。

纵观学术界在图书馆资源推荐领域所开展的研究,其研究侧重点主要从技术角度出发,集中在将不同的算法和分布式平台引入文献推荐,以提高资源的准确性和多样性,但缺乏从用户视角对其偏好、时间、情感、行为等个人因素的考虑,导致用户细分不足、对用户的信息行为特征分析不深、用户的阅读、研究偏好及相关需求不够了解,推送内容不够精准。同时,图书馆现有的资源推荐方法及文献服务过程中用户难以从海量的资源中全面获取到所需要的文献,面对海量的资源列表清单无所适从,通过逐个浏览资源库费时费力且难以判断自己真正需要的资源。李民等[23]通过对国内116所“211工程”院校图书馆资源推荐系统进行网站访查和问卷调查,其问题主要表现在图书馆推荐系统个性化程度不高,过于依赖图书管理集成系统所附带的推荐功能,不够系统化、智慧化;推荐系统满意度有待提高。随着大数据技术的发展完善及文献服务水平的提高,图书馆需要分析在大数据环境下用户资源的新需求,需要提出新的资源推荐设计方案。通过研究用户阅读行为、兴趣偏好,发现用户的群体特征及需求,能够更好地为用户定制资源,细化资源服务,用户画像应用而生。目前,基于“用户画像”的信息智能推送服务已经广泛应用于豆瓣、亚马逊、京东、淘宝、百度等电商和信息服务企业,为用户提供个性、精准的物品相关信息推荐。图书馆应该借鉴该领域的成功模式,将用户画像及智能推荐技术融合引入馆藏资源的个性化推荐机制。

综上所述,用户画像的研究为刻画用户特征及分析需求,为图书馆的精准营销、资源服务推荐、科学决策等提供应用基础。基于用户画像的用户行为及需求分析与图书馆资源精准推荐在本质上相契合。随着智慧图书馆及新一代图书馆管理系统的发展,用户在实体图书馆及网络虚拟资源及服务的利用过程中,其信息行为轨迹及其数据更易获取。图书馆用户画像主要是基于真实积累的用户信息行为结合具体的服务场景产生一系列标签,这些标签共同构成了对于一个用户的真实描述。用户画像在图书馆资源推荐中的应用价值主要有:1)分析资源潜在读者,进行精准推荐;2)对资源进行个性化定制。读者根据自己的专业背景、阅读偏好定制相关资源,系统根据读者定制情况分析资源侧重点及偏向,从而为订购资源提供科学依据;3)资源利用效果评估。根据用户资源偏好,对该类读者进行资源推荐,通过可视化技术分析资源在某段时间内的利用效果。因此,本文提出了“用户画像”与图书馆个性化推荐融合模式,为资源推荐服务提供新思路。

3 图书馆用户画像模型构建

3.1 图书馆用户画像数据源

构建用户画像是为了还原用户信息,因此数据来源于所有用户相关的数据。图书馆用户画像数据通常处于多种服务系统中,在数据获取时各系统间无关联,相对独立,在构建用户画像之前,首先要实现各系统之间数据的整合。图书馆用户画像首先根据用户的基本信息及行为数据对用户进行初步“刻画”,然后关联用户的动态行为数据进行画像的完善即修正标签体系。用户数据分为静态数据(相对稳定的用户信息)及动态数据(用户不断变化的行为信息)。用户的基础数据如年龄、学历、研究领域等变化较慢,属于静态信息;动态数据包括图书馆门户、图书管理系统、机构知识库、教务选课系统、移动访问平台(微博、微信、APP)等个人网络行为数据、用户互动数据、与其他用户数据等,如表1所示。数据采集主要通过利用用户身份统一识别号ID(如读者证号)登录图书馆门户及识别用户常用电脑设备机器码,识别用户的网络行为数据,这样能更全面收集用户数据。由于图书馆服务类型及用户群体的不同,既有针对单一用户的资源服务,也有针对群体用户的资源服务,因此本文根据上述两类读者为对象进行构建,以此提高用户需求偏好的准确度。

表1 图书馆用户画像数据来源

3.2 图书馆用户画像模型

用户画像的构建是一个长期逐步完善的过程,其目标是通过分析用户行为,最终为每个用户打上标签,为进一步精准、快速地分析用户行为习惯、阅读偏好等信息,以便提供个性化服务。图书馆用户画像的模型构建过程主要有整合图书馆相关系统即平台的用户数据,获取和研究图书馆用户基本信息、用户交互信息、用户行为信息数据进而统计、分类/聚类分析,给用户打标签建立标签体系,细分用户并勾勒出单用户及用户群体的画像。如图1所示。

图1 图书馆用户画像的框架模型

首先要整合用户数据,如在图书馆管理系统、图书馆门户、移动服务平台、机构知识库以及开发的其他信息系统用户身份统一识别信息、属性信息、互动信息、资源检索、浏览、访问、收藏、分享、评价、用户之间关注互动信息、访问时间、资源下载量、收藏量等等。然后对这些用户的基本信息及动态行为信息数据利用网络爬虫、文本挖掘、网站日志获取等技术进行数据抓取,按照一定规则和筛选标准进行数据归类,并形成数据库文件。将获取的大数据进行清洗、转换、规约等预处理,并进行聚类、关联、序列化等数据深度挖掘分析。再次要建立标签体系。用户画像标签是对用户相关的抽象数字经过统计分析处理后还原成更具指导意义、更形象、更容易被理解的信息,即从用户海量数据中抽取关键信息,发掘数据之间的关联关系。模型标签层完成对用户的标签分类建模和用户标识,需要要有明显的区分度。通过标签建模分析,可以进一步挖掘出用户个体特征和群体特征向量。相较于单用户画像,群用户画像分析用户群体特征的相似度、如用户群体基本属性的相似度、用户之间相互关注、用户对资源和服务评价相似度以及用户浏览、利用某类资源的相似度等。还要根据用户基本信息数据及动态行为数据更新情况,反馈到模型标签库中以便及时调整其标签。根据单用户及群用户的画像库建立需求预测模型。最后通过用户需求预测在图书馆服务层对单用户及群用户分别开展有针对性的个性化信息服务。另外,用户画像并非一成不变的,用户的需求及兴趣偏好会随着时间的推移逐渐演变,需要定期进行优化更新。

在用户画像建模中会应用到一系列算法及技术。如机器学习,对用户收集的底层数据进行规整处理,并将其转化为相同维度的特征向量,这些特征标签能够使用户画像更加丰富;聚类分析,在没有先验知识的前提下,根据数据的相似度将数据聚合成不同的类(簇),使想同类中的元素尽可能相似,是数据挖掘中一种重要的算法,在图书馆用户细分过程中主要使用聚类算法而k-means算法就是解决这类问题的常用算法。除此之外还涉及大量的文本挖掘、自然语言处理、网络爬虫、预测算法、相似度计算、关联规则等技术和统计算法。

4 用户画像视角下资源精准推荐模式

4.1 用户画像视角下的资源推荐流程

用户画像视角下的资源推荐流程是根据前期勾勒出的用户画像模型,预测用户的需求偏好及潜在资源需求,然后将用户感兴趣、有价值的资源信息精准推送给用户。具体流程内容包括:用户数据及馆藏资源元数据的采集与处理、用户画像特征提取,标签建立并细分单用户及相似群体用户、资源与用户匹配、推送结果的展示。其中数据处理包括用户数据的处理和馆藏资源数据的处理。馆藏资源元数据进行揭示、组织、分类、相似性计算并匹配等。推荐系统进一步感知、发现、关联资源与用户的需求偏好,根据用户当前的情景(位置、时间)及相应的特征标签,为用户个性化推送其感兴趣的资源。推送结果的展示主要通过图书馆服务平台如门户、移动端等分别推荐给单用户及群体用户。如图2所示。经过时间的推移,用户再次检索、发现馆藏资源,用户的资源需求偏好及基本数据可能会发生变化,此时需要对用户画像进行监测及修正,通过用户数据及资源数据的处理生成新的用户画像及不同资源推荐内容,并改进推荐系统实现精准推荐,通过资源推荐系统在服务平台上重新更新、推荐、展示。如此循环最终形成一个良性的用户资源推荐生态系统。

图2 用户画像视角下的资源推荐流程

4.2 基于用户画像的单用户及群体用户的资源推荐

图书馆资源推荐系统是资源与用户资源需求之间的连接点。将馆藏资源属性特征及内容特征进行提取并描述建立资源特征模型,最后形成资源集。同时将用户通过用户画像进行标签化处理,通过用户对相似资源的利用、评价等行为,计算用户之间的相似性并完成细分单用户及相似用户群体,最后将用户标签通过描述形成多个主题,其主题与相似资源进行匹配,匹配成功则通过推荐系统进行推荐,匹配失败则通过反馈机制进行反馈。如图3所示。

4.2.1 单用户与群体用户兴趣及行为模型建立

图书馆用户的兴趣模型及行为模型主要依据用户画像中的标签体系来完成,包括用户兴趣及行为数据的分类、整理,兴趣、行为模型的表示、更新,计算出单一用户及群体用户相似度。通过户标签体系聚类生成标签层次结构并归纳为若干主题,利用主题描述用户兴趣及行为。这种主题法结合粗粒度及细粒度的表示方法,能够较好的描述并展示出多层次、更全面的单用户及群体用户兴趣主题。此外,用户的兴趣会随时间的推移不断变化的,包括原有兴趣的增加或衰减,新的兴趣生成,因此动态实时地更新用户原有的兴趣行为模型是极为必要的。除了图书馆单用户外,还存在一些群体用户,这些用户通常检索相似的资源、与有相同资源的用户进行关注、互动、分享、对同一资源进行评价等因为共同兴趣偏好而表现出较强的群体特征。群体用户的兴趣及行为模型构建方法与单用户兴趣模型建立相通。首先根据用户标签体系对多个用户进行聚类,通过用户间之间的关注、同一资源评价、互动等信息行为进行相似度计算,寻找相似用户并提取相似用户群体特征,形成用户相似群。需要说明的是相似群之间尽可能的体现出差异性,如相似群1与相似群2的距离大一些,能明显区分出兴趣偏好的不同之处。对群体用户的更新除了用户兴趣的变化外,可能涉及到用户的增加与减少的问题。

图3 基于用户画像的资源推荐模式

4.2.2 单用户与群体用户资源精准推荐

在对用户进行打标签、聚类、相似度计算等分别建立单用户及群体用户兴趣模型后,将用户与馆藏资源进行匹配。馆藏资源同样首先进行数据处理。对单用户及群体用户资源的数据处理即匹配过程大致相同,包括:资源属性特征描述、资源内容特征抽取及标识、资源之间语义相关性分析,资源特征表示及动态组织,资源集的确定,资源与用户主题的匹配等。资源推荐系统能否成功实现精准推荐,取决于形成的用户标签与馆藏资源信息的匹配度。一方面将资源通过分析进行聚合形成相似资源集,另一方面通过用户画像所建立的标签体系进行主题描述建模,即将用户的资源偏好映射到主题中并最终形成多个主题。在多个主题与相似资源集之间进行匹配,如果匹配成功则通过推荐系统进行推荐,匹配失败则通过反馈机制进行反馈。同样,群体用户根据其群体用户画像的标签以及计算出用户之间的相关性并形成相似群,将相似群的标签映射并描述为多个主题,其主题与相似资源集之间进行匹配。与单用户不同的是,群体用户是一种基于对资源的共同兴趣偏好特征所进行的资源推荐,首先根据用户资源检索、浏览、评价、收藏、分享、下载等行为数据,计算出用户之间的相关性,然后聚类得到相似用户群,最后建立用户群体的兴趣及行为模型。

5 结 语

大数据时代基于用户画像的图书馆馆藏资源推荐模式为图书馆个性化推荐及资源服务质量的提升带来了新的发展机遇。本文通过上述模式设计,讨论了通过用户属性数据、动态行为数据、交互数据等多维度分析用户兴趣偏好,并形成标签体系最终建立用户画像模型。利用勾勒出的用户画像进一步细分用户,从单用户及群体用户的角度去开展馆藏资源精准的推荐。值得注意的是,虽然本文从多个维度建立用户画像,现实中用户画像的标签体系可根据各图书馆实际情况进行设计,并非要从多个维度去构建设计,但要结合实际的应用场景,构建满足条件的用户画像模型即可,且所设计到的数据要真实可靠。同时以上更多的是一种馆藏资源精准推荐模式的分析设计,并未涉及具体数据、算法及相关技术的应用,在构建用户画像时,能够为图书馆利用用户数据及馆藏资源数据并预测用户潜在需求及资源需求偏好提供一个系统性、框架性的参考。下一步的研究重点在于具体的用户画像的利用,如依据国内外智慧图书馆实施情况,进一步提取用户及资源数据进行分析,以进一步验证方案的实用性与有效性。

[1]库珀.交互设计之路[M].北京:电子工业出版社,2006:10.

[2]曾鸿,吴苏倪.基于微博的大数据用户画像与精准营销[J].现代经济信息,2016,(16):306-308.

[3]余孟杰.产品研发中用户画像的数据模建——从具象到抽象.设计艺术研究,2014,(6):60-64.

[4]黄文彬,徐山川,吴家辉,等.移动用户画像构建研究[J].现代情报,2016,36(10):54-61.

[5]XU G,ZHANG Y,ZHOU X.Towards User Profiling for Web Recommendation[J].Lecture Notes in Computer Science,2005,lncs 3809:415-424.

[6]王庆福.贝叶斯网络在用户兴趣模型构建中的研究[J].无线互联科技,2016,(12):101-102.

[7]张小可,沈文明,杜翠凤.贝叶斯网络在用户画像构建中的研究[J].移动通信,2016,40(22):22-26.

[8]辛菊琴,蒋艳,舒少龙.综合用户偏好模型和 BP 神经网络的个性化推荐[J].计算机工程与应用,2013,49(2):57-60.

[9]单晓红,张晓月,刘晓燕.基于在线评论的用户画像研究——以携程酒店为例.情报理论与实践[EB].http://kns.cnki.net/kcms/detail/11.1762.G3.20171122.1026.004.html.

[10]胡媛,毛宁.基于用户画像的数字图书馆知识社区用户模型构建[J].图书馆理论与实践,2017,(4):82-85.

[11]刘速.浅议数字图书馆知识发现系统中的用户画像——以天津图书馆为例[J].图书馆理论与实践,2017,(6):103-106.

[12]汪强兵,章成志.融合内容与用户手势行为的用户画像构建系统设计与实现[J].数据分析与知识发现,2017,(2):80-86.

[13]陈慧香,邵波.国外图书馆领域用户画像的研究现状及启示[J].图书馆学研究,2017,(20):16-20.

[14]韩梅花,赵景秀.基于“用户画像”的阅读疗法模式研究—以抑郁症为例[J].大学图书馆学报,2017,(6):109-114.

[15]邱均平,张聪.高校图书馆馆藏资源协同推荐系统研究[J].图书情报工作,2013,(22):132-137.

[16]李默,梁永全.高校图书馆学术资源推荐策略及系统架构研究[J].图书馆学研究,2015,(14):57-61.

[17]陈淑英,徐剑英,刘玉魏,等.关联规则应用下的高校图书馆图书推荐服务[J].图书馆论坛,2018.

[18]何胜,熊太纯,柳益君,等.基于Spark的高校图书馆文献推荐方案及实证研究[J].图书情报工作,2017,(23):129-136.

[19]毕强,刘健.基于领域本体的数字文献资源聚合及服务推荐方法研究[J].情报学报,2017,(5):452-460.

[20]洪亮,钱晨,樊星.移动数字图书馆资源的情境感知个性化推荐方法研究[J].现代情报技术,2016,(8):110-119.

[21]袁辉.基于确定事件的智慧图书馆推荐服务策略实施探究[J].图书馆建设,2017,(8):74-77.

[22]尹丽玲.跨类型的学术资源优质推荐算法研究[J].情报学报,2017,(7):715-722.

[23]李民,王颖纯,刘燕权.“211工程”高校图书馆馆藏资源推荐系统调查探析[J].图书情报工作,2016,(9):55-60.

猜你喜欢
用户画像画像标签
威猛的画像
“00后”画像
画像
无惧标签 Alfa Romeo Giulia 200HP
不害怕撕掉标签的人,都活出了真正的漂亮
标签化伤害了谁
基于多进制查询树的多标签识别方法
潜行与画像