基于用户画像的数字人文服务策略

2019-04-27 02:10张红伟解素芳王春梅

中华医学图书情报杂志 2019年12期

张红伟,邢丹,陈玲，解素芳，王春梅

随着大数据、云计算等新兴数字技术的发展，人文研究出现了革命性的转变，数据密集型研究不断加剧。“数字人文”的出现不仅为传统人文研究带来了新方法，注入了新活力，还拓展了人文研究领域[1]。李泉在《数字人文：开创人文研究的新纪元》一文中指出：“数字人文堪称人文研究的‘开天辟地’与‘创世纪’，能够开创人文研究的新纪元”[2]。数字人文研究在世界各地如火如荼地展开，“大数据视域下数字人文研究”入选2018年度“中国十大学术热点”，数字人文的高热状态在近几年将一直持续下去[3]。图情界如何为数字人文学者提供个性化的服务成为当前的棘手问题，画像技术的发展为数字人文服务提供了新思路。

1 数字人文个性化服务

当前数字人文服务主要从基础设施建设、技术体系框架及科研服务内容等宏观层面进行，如何进行数字人文个性化服务等以微观层面研究较少[4]。针对个性化研究，周谦豪等设计了一款数字人文工具——inBooks，该工具不仅能通过纸本图书的图像获取数字人文资源，还可以构建个性化知识网络[5]；曾子明和秦思琪采用深度学习方法和哈希方法构建了面向数字人文的移动视觉搜索模型，探讨了图像语义特征提取和检索流程，为获取数字人文视觉资源提供了新思路[6-7]；上海图书馆推出家谱知识服务平台，该平台实现了基于概念的精确查询，以“时间轴”“地图”等为用户提供可视化家谱数据展示[8]。以上研究从不同侧面探讨了数字人文领域的个性化服务，然而这些研究远远无法满足数字人文学者的个性化需求。针对数字人文特点及学者不同的研究兴趣，如何提供优质的个性化服务仍是图情界急需探索的难题。

2 用户画像技术

用户画像是一种刻画用户信息模型的技术，在挖掘用户真实数据的基础上，按照需求提炼出用户信息，呈现虚拟的用户信息全貌，以此为基础为用户提供精准个性化服务[9]。用户画像技术近年引起了电子商务、金融、社交网络等各界的广泛关注和研究。图情领域为了提供更贴合用户需求的个性化服务，也引入了用户画像。李丹等利用显式和隐式相结合的方法获取读者信息，构建读者画像，采用协同过滤的方法向读者推荐兴趣度排名靠前的N项内容[10]；刘海鸥等将情景兴趣应用于读者画像，通过计算与当前情景相似的历史情景获取读者感兴趣的内容[11]；何娟在画像模型中构建了个人画像和群体画像，综合二者的阅读特征对读者进行个性化推荐[12]；张海涛等通过对中国知网和Web of Science中有关用户画像的文章进行定量和定性分析后，指出用户画像研究虽然取得了一些成果，但主要集中于社会化问答社区、数字图书馆和舆情传播等主题，其他主题的研究比较薄弱[13]。随着数字人文研究的快速发展，数字人文研究学者队伍不断壮大，成果数量急剧增多，学者对数据处理的技术服务需求进一步增强。如何利用用户画像刻画出数字人文学者信息，针对具体需求提升数字人文学者的个性化服务水平值得深入研究。

3 数字人文视域下学者画像系统构建

数字人文学者在研究过程中经常需要用到一些软件工具，如SPSS、Eviews等[14]，并且在数据管理计划、元数据、数据仓储与保存、数据出版、数据分析可视化等数据处理环节中，不同学者的关注点也不尽相同[15]。针对数字人文的特点，本文设计了一个数字人文学者画像系统，旨在从研究内容、常用科研工具和所关注的数据处理环节等方面刻画出数字人文学者特点，在此基础上实现更贴合需求的数字人文个性化服务。

3.1 数据的采集和处理

学者数据信息是构建画像系统的基础。学者数据主要包括基本信息、发表论文、内容偏好、常用科研工具和所关注数据处理环节等5方面的内容。其中基本信息包括学者姓名、年龄、性别、机构、专业等，发表论文包括论文题目、发表期刊、发表时间等；内容偏好是根据发表论文提取出的研究兴趣与方向；常用科研工具包括SPSS、Eviews、SAS、ACCESS、Ucinet、CiteSpace、VOSviewer、Gephi等，数据处理环节包括数据管理计划、元数据、数据仓储与保存、数据出版、数据分析可视化等。

本文采用改进的爬虫技术从中国知网和学者主页爬取学者的基本信息、论文、常用工具、关注的数据处理环节等信息。获取的论文在经过去重、去停用词等预处理后，将论文用向量空间模型(Vector Space Model，VSM)表示，利用TF-IDF算法进行特征提取并赋予相应的权值，提取出论文的特征向量，将论文转化为可以计算彼此相似度的向量。一篇论文可表示为：

d=(t1,t2,…tn;w1,w2,…,wn)

式中，n表示向量维度，tk表示论文第k个特征项，wk是tk(1≤k≤n)相应的权值。两篇论文的相似度可以表示为：

(公式1)

sim()的取值范围是[0，1]，sim()越大，表示两篇论文的相似度越高；相反，sim()越小，表示两篇论文的相似度越低。在提取论文信息的基础上分析得出学者的研究偏好，并对常用工具和关注的数据处理环节等内容进行补充。

3.2 数据聚类

本文采用Single-Pass算法对论文进行聚类。按照论文到达的次序，将第一个到达的论文设为一个类簇C1，然后将后续到达的论文di与现有的类簇C计算相似度，选择相似度最大的类簇Ci。如果相似度大于阈值θ，则把论文di归入Ci，并更新Ci的向量；否则，将论文di设为一个新的类簇，直到将所有的论文都归入相应类簇为止。

本文以常用科研工具为依据对学者进行聚类。数据采集处理后，系统将保存常用工具信息表，该表列出所有的人文学者与其常用科研工具，如果学者使用该工具则用1表示，不使用则用0表示。如学者0001常使用SPSS和SAS而不使用Eviews，学者00002常使用Eviews和SAS而不使用SPSS(表1)。该表对每个学者使用的科研工具进行聚类。此外，每个科研工具对使用学者进行聚类，统计出每个科研工具的使用者(表2)。学者Si与学者Sj关于常用工具的相似度用公式(2)表示。

sim(Si,Sj)=n/N

(公式2)

式中，n表示学者Si常用科研工具与学者Sj重复的数量，N表示学者Si常用科研工具的总数。对数据处理环节也进行类似聚类。

表1 学者─常用科研工具对应表

表2 常用工具─学者倒排表

4 个性化服务

4.1 兴趣相近学者查询

为了促进科研交流合作，学者需要寻找与自己研究内容相近的学者。本文设计了以下查询途径：第一，学者可以根据研究兴趣相似度大小，直接从相应类簇中提取一定数量的学者；第二，学者可以根据同时使用的某一个或几个常用科研工具寻找相应学者，也可以根据常用工具的相似程度寻找相应学者；第三，学者可以根据所关注的不同数据处理环节寻找相应学者。此外，学者还可以综合权衡以上3种因素的相似度寻找相应学者，计算方法如公式(3)所示。

sim(Si,Sj)=αsim1+βsim2+γsim3

(公式3)

式中，sim1表示学者Si和Sj的研究兴趣相似度，sim2表示常用科研工具相似度，sim3表示关注数据处理环节相似度。系统根据用户对3种因素的重视程度设置α、β和γ的值，其中0≤α,β,γ≤1，并且α+β+γ=1。系统根据学者需求，利用公式(3)提取一定数量的学者进行推送。

4.2 文献精准推送

现有文献根据Single-Pass算法形成稳定的类簇。当有新文献出现时，该文献根据Single-Pass算法进行聚类，归入类簇Ci，Ci中所有文献都是围绕同一主题展开的研究，存在强相关性，所有作者也具有相同的研究兴趣。因此，系统将新文献推送给类簇Ci中其他文献的作者。

4.3 其他推送内容

在学者根据研究兴趣、常用科研工具及数据处理环节进行聚类后，系统根据具体需求进行精准推送。当举行某个科研工具的培训时，将培训信息推送给使用该工具的所有学者；当举行有关某个数据处理环节的会议时，将会议信息推送给关注该数据处理环节的学者；当需要寻找某个工具或数据处理环节的专家时，直接根据学者画像推出相关专家名单。

4.4 嵌入式服务

数字人文馆员嵌入科研过程，根据学者画像，分析数字人文学者及团队在科研过程中可能遇到的困难及需求，随着科研进程的不断推进，提供全方位的知识获取、数据管理及科研工具支持等高层次服务。同时注重对学者数字人文研究素质的培养，特别是不断提升其数据处理及科研工具使用的能力，营造数字人文研究的浓郁氛围。

5 结语

针对数字人文个性化服务能力不足问题，本文提出了一种基于用户画像的个性化服务策略，从研究内容、常用科研工具和所关注的数据处理环节等方面提取数字人文学者信息，构建学者画像，采用Single-Pass算法对论文进行聚类。分别以常用科研工具和所关注数据处理环节为依据对学者进行聚类。在此基础上，为数字人文学者提供了兴趣相近学者查询、精准文献服务及嵌入科研过程等个性化服务，使数字人文学者从繁杂的资料收集和数据处理工作中解脱出来，将精力集中在解决科研问题本身上，有助于数字人文研究的快速发展。