学术资源推荐服务中多维度用户画像构建

2021-04-23 05:50顾亦然郭玉雯
软件导刊 2021年4期
关键词:画像学术维度

顾亦然,郭玉雯

(南京邮电大学自动化学院、人工智能学院,江苏南京 210046)

0 引言

随着大数据时代的来临,信息超载是互联网用户面临的一个严重问题,学术研究领域也深受影响。论文、会议报告、专利、学术博客和学术新闻等学术资源呈爆炸式增长,面对海量学术资源,科研人员往往需要花费大量时间和精力查找所需资源。常规的关键词搜索模式未考虑用户研究背景、用户偏好、行为目的等信息,无法很好地满足各类型学者的个性化需求,因此个性化推荐系统应运而生。然而,现有个性化推荐系统仍存在很多问题,大量无关的冗余信息严重影响了对有效信息的检索、选择及利用。近年来,用户画像概念被引入学术资源推荐领域,弥补了个性化推荐服务的缺陷。本文从多个维度分析学术用户画像,构建学术用户画像模型,为学术资源推荐服务优化提供一种新思路。

1 国内外相关研究进展

用户画像这一概念起源于交互设计之父Cooper[1],其定义用户画像为真实用户的虚拟代表,是“建立在真实数据之上的目标用户模型”。如今,用户画像广泛应用于电子商务等多个领域,为制定真实商品及虚拟产品推荐策略提供多元化的参考依据。在学术资源(尤其是图书馆资源)推荐领域,也有很多学者针对用户画像概念开展了大量研究。

现有研究中对学术用户画像的构建,主要通过分析用户学术行为,挖掘用户的兴趣、研究方向等学术偏好,并找出影响用户偏好和兴趣的因素,赋予用户不同的标签信息,从个性化角度优化学术资源推荐算法。如李丹等[2]通过将显式和隐式相结合获取用户信息,深度探讨用户潜在兴趣,从而提供个性化的推荐方案;刘海鸥等[3]基于图书馆用户的基本信息、内容偏好,以及互动数据、情境数据等进行标签化识别,构建图书馆用户画像,引入情境化的推荐方法;Javier 等[4]根据用户与Web 应用程序的交互方式确定用户在人口学上的差异性表现,将用户偏好与用户体验作为控制变量,采用多元回归方式进行分析,对用户具体需求及偏好等进行分类,实现个性化推荐;Leung 等[5]从搜索日志中获取用户画像信息,考虑用户的积极和消极两方面偏好,以提升聚类算法质量,提高推荐结果的准确性。

随着学术社交媒体(如科学网、科研之友、Research-Gate 等)的发展,用户的社交网络关系也成为学术资源推荐的重要依据。李默等[6]利用信任度分析与社会网络关系挖掘技术对协同过滤推荐方法进行改进,提高了学术资源推荐系统的推荐质量;Mazhari 等[7]基于社交网络中的友谊关系建立推荐平台,构建用户画像,挖掘并分析用户模型,找出影响友谊形成的因素及不同因素之间的影响程度,在社交网络中提取用户真实数据,从而建立推荐系统;Amoreti 等[8]基于情境感知理论提出Universal Profiling and Recommendation(UPR)方法,揭示了用户个体行为与群体行为之间的关联性,并使用K-means 算法对用户进行聚类,从而找到用户偏好和兴趣;Li 等[9]根据作者的合著关系,利用随机游走算法提出ACRec 模型,将合著顺序、合著时间点及持续时间作为连接要素,进行学术协作推荐。

综上所述,当前国内外研究多以挖掘用户偏好、用户社交关系等作为优化推荐策略的核心。大多数研究在建立学术用户画像模型时只考虑了与学术活动直接相关的因素,围绕用户的学术兴趣、研究方向、学科需求等进行模型构建,导致用户画像的呈现过于扁平化,赋予用户的标签具有集中化、单一化的缺陷,稀疏的标签维度也可能使推荐结果陷入过拟合。考虑学术社交网络的因素是对学术用户画像的丰富与完善,但同时也存在着一定局限性:需要用户存在学术社交媒体使用记录,无法对一个新用户进行社交网络关系定位,也增加了冷启动问题的负担;从用户关系角度出发,缺乏语义理解等。因此,本文考虑从新的视角出发,试图挖掘用户个体本身的属性,而不单单考虑与学术活动相关的信息标签,进一步拓宽学术用户画像维度,将所有标签重新组合,赋予合适的语义信息,从而增强学术资源推荐服务的客观性。

2 多维度学术用户画像模型

建立多维度的学术用户画像模型,可以全方位、多层次地获取用户属性,更精准地反映用户特征,满足用户多样化的阅读需求。多维度的学术用户画像主要由维度分析和模型构建两部分组成。

2.1 维度分析

确立用户画像维度是建立用户画像模型的基础。本文选取以下3 个维度:基本信息、行为特征和学术人格,如图1 所示。

Fig.1 Structure of multi-dimensional user profile图1 多维度用户画像结构

2.1.1 基本信息

用户基本信息,除用户性别、年龄等基础属性外,更重要的是与学术相关的信息,如学历、专业、身份以及研究方向。学历的高低影响了学术用户对学术资源的需求水平,而专业与研究领域能帮助推荐系统快速定位用户所需的资源内容。

2.1.2 行为特征

用户学术行为是指用户在获取学术资源信息时的行为,包括在各类学术资源平台(例如文献数据库、学术搜索引擎等)的查询、选择与利用行为。学术用户的行为特征具体体现为对文献的检索、收藏、下载、引用等行为。这些行为的实质是与学术资源平台交互的过程,通过分析用户与平台交互的频率、时间、内容等,便可从中获取该用户学术行为规律,为向其推荐学术资源提供指导。

2.1.3 学术人格

学术用户在搜寻学术信息过程中会受到很多因素影响,具有不同于普通用户搜寻信息的复杂性和层次性[11]。除基本信息和行为特征外,还存在一些难以直观描述、与用户所处科研情境相关的特征,对于学术资源获取造成一定影响。这些特征反映了学术用户在科研活动中影响其学术行为的一系列因素,即学术用户的“学术人格”属性,可划分为3 个子维度:学术动机、认知风格及领域知识。

(1)学术动机。学术动机是指获取学术资源时的动机倾向。从学术用户完整的科研过程来看,一般分为科研筹备、科研进行、科研产出3 个主要阶段。在不同阶段,学术用户对学术资源的获取目的也有一定区别,表1 描述了3个阶段的不同特征。

Table 1 Characteristics of research stage表1 科研阶段特征

为了更简洁地描述不同科研阶段的特征,本文将学术动机提炼为模糊型和明确型两类。在已知学术用户的不同学术动机之后,学术资源推荐服务便可在策略上作出相应调整,即面对具有模糊型学术动机的用户,倾向于推荐范围更广、内容更多的学术资源;面对具有明确型学术动机的用户,则以文献的高相关性、高凝练度作为推荐的优先指标。

(2)认知风格。人们采集并处理信息时,会表现出个体差异,这种差异性体现在感知、记忆和思维过程上[12],由此形成不同的“认知风格”。学术用户在获取学术资源时也会受到认知风格的影响。目前分类方式之一是分析用户处理信息时采取的不同策略倾向,根据其对信息的感知是否受到环境影响分为场独立型和场依存型。①场独立型用户不易受外界环境影响,而是更多地从自身经验出发去吸收信息,较少受到干预和暗示,这类用户在学术资源获取上呈现出一种“专一性”,他们可能不会关注自身学科或研究领域以外的学术信息,因此在为其提供推荐服务时可剔除与用户学科相关性低的文献,保留用户学科领域内的相关资源;②场依存型用户会参照外部信息进行判断,容易受到外界的影响和驱动,此类用户在学术领域表现为对学科融合、学科交叉内容的较高包容性,其在浏览学术文献时,可能不仅对自身学科范围内的资源感兴趣,对于其它学科中的类似问题或关联学术信息也会表现出一定关注度,因此在为其进行推荐服务时,也可以适当地提高交叉学科内容的权值,以“投其所好”,同时也有利于启发出新的学术研究方向。

(3)领域知识。领域知识代表学术用户在获取学术资源过程中因知识储备不同而产生的经验差异。简单来说,作为刚接触科研活动的初级用户,使用学术资源平台的时间较短,阅读科研类文献的能力也偏低,缺乏领域知识的群体在浏览信息时会自然地采用“简单优先”的模式,容易陷入无特定“方向感”的迷失状态[10]。具备领域知识的用户因其专业知识及学术资源平台使用经验较为丰富,善于利用高级检索、重组关键词等平台功能,并以更专业的角度阅读文献内容。因此,不同领域知识的学术用户也需要不同的推荐服务。

2.2 模型构建

2.2.1 数据采集

为了获取学术用户画像建模过程中所需的真实数据,本文设计一套调查问卷进行数据收集。针对基本信息和学术人格两个维度,调查问卷分为两部分:第一部分多采用选择题形式,包括年龄、性别、学历、专业、身份、从事科研工作时间、研究方向等问题,用于收集基本信息;第二部分对用户科研进展情况和使用学术资源平台的熟练度作进一步调查,并结合第一部分获取的身份、职称及从业时间等信息,可得到用户学术动机和领域知识情况。对于认知风格的调查,采用心理学领域常用的量表测验,设立8种情景并让用户选择与自身相符的情况。为了补充验证量表结果的真实性,问卷还设置了一个镶嵌图形实验,要求用户在一幅复杂图形中找到指定的简单图形,认知风格更偏向于场独立型的用户能够更快地在复杂图形中寻找出简单图形。这些问题的结果能最终反馈被调查用户的“学术人格”。

针对行为特征维度,则通过查看学术用户在学术资源平台的行为日志进行获取。本文根据收集的数据构建出多维度学术用户画像模型。

2.2.2 基本信息模型

本文将基本信息模型分为年龄、性别、学历、专业、身份和研究方向6 个子维度。为了简化信息,年龄维度采用年龄段的形式,研究方向由调查问卷中用户自行填写的信息进行描述。基本信息模型如表2 所示。

Table 2 Model of basic information表2 基本信息模型

2.2.3 行为特征模型

行为特征由用户的检索、收藏、下载、引用4 个维度组成。各维度取值如下:①检索维度:用户的检索词K、访问页面的时间T(单位:min)、检索页的文献名P;②收藏维度:用户的收藏页文献名C;③下载页面:用户的下载页文献名D;④引用维度:用户的引用文献名R。

Table 3 Model of behavior characteristic表3 行为特征模型

2.2.4 学术人格模型

学术人格模型包含的学术动机、认知风格和领域知识3 个子维度均由调查问卷获取的数据进行描述,其中学术动机和领域知识可由用户勾选的结果直接获得。学术人格模型如表4 所示。

Table 4 Model of academic personality表4 学术人格模型

为了准确判断学术用户的认知风格,本文将问卷中的部分文字性结果进行量化,定义3 个变量:量表值N、速度值V 和认知风格指数S。N 值代表用户在量表测验题目的得分情况,每道题分值越高,即越符合所描述的情景,该用户在此题的情境下更偏向于场独立型认知风格;V 值代表用户在镶嵌图形实验中的作答情况,用户完成镶嵌图形实验的速度越快,越能反映该用户的场独立型认知趋势;S 值反映了用户认知风格的最终情况,用户的S 值越高,说明该用户越偏向于场独立型认知风格,S 值越低,则代表该用户偏向于场依存型认知风格。S 值与N 值、V 值呈正相关关系,S 值计算公式为:

3 调查问卷结果分析

3.1 数据处理

3.1.1 量表测验

量表共有8 道题,具体问题及问卷结果如表5 所示。

Table 5 Questionnaire results of user’s cognitive style trends表5 用户认知风格趋势量表结果

考虑到实际情境的复杂性,不能以单纯的分值高低作为评判依据。N 值具体计算过程如下:量表题目Q1~Q8的平均分为,用户第k 题勾选的分值为Mk,若Mk≥(1≤k≤8),则该题实际得分nk=1,反之nk=0。计算公式为:

3.1.2 镶嵌图形实验

安排镶嵌图形实验的目的是通过考察用户能否在排除背景干扰的情况下快速察觉到指定的简单图形位置。在镶嵌图形实验中,被调查用户在复杂图形中找到指定简单图形的情况如图2 所示。

Fig.2 Results of embedded figure test图2 镶嵌图形实验结果

文字选项和速度值V 的关系如表6 所示,平均值V 为2.76。

Table 6 Relationships between text options and speed value表6 文字选项与速度值关系

3.2 结果分析

从收集到的问卷情况来看,接受调查的人群中男女比例为55.17%∶44.83%,约接近1∶1;用户专业以工学为主,兼具哲学、法学、教育学、理学、医学和管理学专业的用户;在学历方面,硕士占比89.66%,本科生占比10.34%,用户群体均为学生。下面主要针对本文提出的用户画像中第三维度“学术人格”的调查结果进行分析。

在本问卷针对科研阶段的调查结果中,有37.93% 的用户选择科研筹备阶段,51.72% 的用户选择科研进行阶段,10.34% 的用户选择科研发表阶段。可以看出,学术用户在科研工作道路上的确会经历不同的科研阶段,在学术资源搜寻过程中也会有不同的学术动机。

统计受调查用户的认知风格指数S,计算得出基准值S˙=11.316,结果显示,参与调查的学术用户中有55.17% 的人群具有场独立型认知风格,44.82% 的用户具有场依存型认知风格。

对于领域知识水平的统计,信息来源包括用户的年龄、学历、职称以及从事科研工作的时间、使用学术资源平台的熟练度等。在此次问卷调查中,本科学历用户毫无例外选择了“直接使用一个或若干个关键词进行检索,尽量扩大搜索范围”,而硕士学历用户中有近一半用户选择的常用检索手段与本科学历用户相同,另有38.46% 的用户选择“使用关键词的同时选择一定限制条件(短语、标签等)”,还有11.54% 的用户作出了“以作者或发表单位、所属期刊为检索标签,遍历相关学术资源”的选择。从中可以看出,学术用户随着科研经验的逐渐累积,领域知识也不断扩充,初级用户和经验用户对于学术资源的获取也存在着一定差异。因此,将学术用户的学术经验水平融入用户画像中是必不可少的环节。

通过对问卷结果的分析,学术用户存在不同的学术人格,融入学术人格后的用户画像更加立体,能够极大地改善学术资源推荐服务的个性化和准确性。

4 学术资源推荐服务结果验证

为了验证本文设计的用户画像维度体系在学术资源推荐服务中的可信度,选取参与调查问卷的3 位用户。邀请3 位用户使用CNKI 知网数据库搜索所需的学术资源,再将基于多维度学术用户画像的推荐列表发送给用户。最后,以满意度评分的方式测验本文提出的用户画像对学术资源推荐服务是否具有优化效果。

以邀请的测试用户中序号为28 的人为例,分析调查问卷结果并抓取该用户调查当日的CNKI 知网数据库记录,最终得出其多维度学术用户画像模型如图3 所示。

Fig.3 User profile No.28图3 序号为28 的用户画像

邀请测试的3 位用户对知网检索结果和本文优化推荐结果的评分如表7 所示。

Table 7 Rating of the user under test(out of ten)表7 测试用户评分(满分:10 分)

考虑到每位用户的个人评分标准不同,对测试结果采用min-max 标准化方法进行归一化处理,并将分数范围设置为0~1。具体评分如表8 所示。

以上结果说明,基于用户画像体系的学术资源推荐服务对于传统推荐服务可起到一定的优化作用。

Table 8 Rating of the user under test(after normalization)表8 测试用户评分(归一化处理后)

5 结语

引入用户画像概念能够帮助学术资源推荐系统往更加个性化、精确化的方向发展。本文在常规的用户基本信息和行为特征基础上,挖掘出与用户本身相关的学术人格属性,按照学术动机、认知风格和领域知识3 方面进行划分,力求构建一个更立体、丰富的学术用户画像。学术动机决定了学术用户使用学术资源系统的目的,认知风格反映了用户在处理学术信息时的心理倾向,领域知识为学术资源筛选提供了依据,从而促进学术资源推荐服务的不断优化,为用户画像理论的发展提供新思路。

下一步本文将会拓宽调查问卷范围,弥补用户群体较为单一,且数量不足的缺点,统计与分析出“学术人格”这一概念更多相关信息,例如:不同专业领域和不同学历水平下,场依存型与场独立型用户占比关系等。这些工作将会在接下来的研究中逐一实现,真正将本文提出的学术用户画像应用于资源推荐服务中。

猜你喜欢
画像学术维度
威猛的画像
“00后”画像
画像
如何理解“Curator”:一个由翻译引发的学术思考
浅论诗中“史”识的四个维度
光的维度
“五个维度”解有机化学推断题
潜行与画像
人生三维度
学术