基于CiteSpace的用户画像知识图谱分析

2023-11-02 05:10崔兴文肖厅
九江学院学报(自然科学版) 2023年3期
关键词:用户画像知识图谱聚类

崔兴文 肖厅

摘要:为了明确用户画像研究热点和趋势,文章运用CiteSpace软件定量化分析知网1496篇用户画像文献。研究结果表明,国内对用户画像研究呈现增长态势,总体经历了研究萌芽、快速发展和质量提升三个阶段,虽然研究机构和作者群体稳定,但尚未形成核心作者群和跨专业领域的合作。研究趋势方面,大数据、数据挖掘、图书馆、机器学习、人工智能、精准营销、知识服务、协同过滤等是主要研究热点;前沿研究聚焦于信息服务、融媒体、数据采集、媒体融合和聚类。

关键词:Cite space,用户画像,知识图谱,聚类

中图分类号:TD723

文献标识码:A

文章编号:1674-9545(2023)03-0052-(07)

DOI:10.19717/j.cnki.jjun.2023.03.011

2008年大数据概念在科技领域中被提出,历经十几年的发展,全球进入了大数据时代[1]。政府单位、私营企业、事业单位储存了大量的数据。如何使用好这些数据成为一个挑战。在这样的背景下,用户画像技术诞生了。如今,用户画像运用在各行各业。电子商务企业根据消费者在网上的行为(搜索、购物、社交、浏览记录)可以实现精准营销;大学图书馆利用用户画像技术,为学生提供精准的信息服务;医院使用用户画像技术,为患者提供个性化医疗照顾。在这些互联网平台,用户的行为、兴趣点、关注度、观点等各种数据形成了用户画像。用户画像是基于多个数据源获取和处理的,具有普惠性和可迭代性,可以帮助企业和个人更好地了解和服务于用户。用户画像是一个十分精准的工具,能及时洞察消费者的需求。

美国工程师Alan Cooper最早在1999年提出用户画像(persona)[2],他认为Persona侧重于探索用户的动机,是描述目标用户的用户原型而非真实存在的用户。用户画像最早应用在电子商务上,网站通过分析用户的数据,形成用户标签,从而把网络中虚拟的人具体化,以此为用户提供针对性的服务[3]。国内用户画像相对于国外研究较晚。最早国内研究用户画像是2014年期刊《信息通信》提出对手机用户进行画像,从而向用户进行有针对性地营销[4]。随后几年学者分别在电子商务领域[5-6]、医疗健康领域[7]、旅游行业[8-9]、图书馆领域[10]和短视频行业[11]对用户画像进行了研究。目前,已有部分学者分析了用户画像的知识图谱。例如,徐芳[12]采用文献调查的方法,发现国内模型单一且模型构建缺乏评价和反馈机制、应用领域发展不均衡;刘海鸥[13]通过综述文献得出我国理论研究与实践薄弱,给出了用户画像对图书情报学的启示;赵雅慧[14]分析国内外文献得出我国理论研究薄弱,整体研究偏向实践,缺乏多源用户数据融合、用户隐私保护、用户画像更新及质量评估。已有文献仅是在研究现状和大致方向上做了定性的分析总结,研究结论存在一定的局限性,不能有效反应最新研究进展和前沿热点,也未能对文献所体现的深层信息进行挖掘和展示,缺乏定量的分析。用户画像知识图谱分析是基于citespace技术和知识图谱技术,对用户画像进行分析的一种新方法。citespace是一种通过对文献引用关系进行分析的可视化工具,在科学研究、学术领域中得到广泛应用。知识图谱是一种用图形符号表示真实世界中知识单元(实体、概念、事件等)及其属性、联系的图形数据库。用户画像知识图谱分析作为一种基于多维度数据和多源数据构建的知识图谱,可以实现对用户画像的更为全面的分析,为个人和企业提供更为准确的用户服务。用户画像知识图谱分析是基于构建好的用户画像知识图谱,对图谱进行分析和解释的过程。用户画像知识图谱分析可以帮助个人和企业更好地了解和服务于用户,提高用户体验和用户满意度。。

基于此,笔者拟通过覆盖全知网的用户画像文献数据对用户画像知识图谱分析进行研究。通过分析文献的基本特征、发文作者、发文机构、高被引文献来揭示目前国内研究现状;然后以关键词为主题路径的知识图谱,通过关键词聚类、关键词共现分析出国内研究热点;最后通过关键词突现来探查未来研究方向。文章希望通过数据分析出用户画像的研究方向和热点,同时发现过去研究的不足,以期助推国内用户画像的研究和进步。

1研究方法和数据准备

1.1共词分析

共词分析是通过对文献中共同出现的关键词次数分析,来分析出该领域研究热点。关键词是作者在写论文时,提取的能代表论文的主题和热点,因此关键词虽然占篇幅较小,但十分重要。因此选择关键词共现来分析研究热点较为合适。

1.2引文分析

引文分析是通过统计学的方法对引用与被引用文献进行数量特征和内在规律的文献计量方法。一般地,一篇文献被引次数多就被认为在该领域越重要,被关注度就越高。通过分析引用较高的文献可以快速把握当前这个领域内的主流研究方向和热点。

1.3知识图谱法

知识图谱法就是将学科发展进程、演变机理及其內在逻辑关系可视化。它以科学知识为计量研究对象,运用计算机、统计学、数学等多个领域知识,将科学发展规律绘制成二维图形,即知识图谱。citespace是目前国际上知识图谱较为成熟的分析软件。由陈超美博士和大连理工大学WISE实验室联合开发的科学文献分析软件。cite space创建了从“知识基础”到“知识前沿”的理论,特别适合研究某个主题的演进历程。通过分析研究作者机构来分析国内研究情况,其次对关键词时区视图、关键词共现来分析国内研究的热点,最后后通过关键词突现来探究未来研究的方向。

1.4数据来源

作者在中国知网上检索主题词为用户画像,选择范围为全部文献,得到中文文献1834篇。在数据采集后,需要对数据进行预处理,包括数据清洗和特征提取等。通过数据清洗,删除无效数据和冗余数据,确保数据的质量。通过特征提取,将数据转换为可用于构建知识图谱的形式。删除与主题无关、重复、报告文献,得到1496篇,导出格式为Reworks。详细情况如表1所示。

2用户画像和知识图谱基本概念

2.1用户画像

用户画像是指基于用户行为、兴趣点、观点等数据,对用户进行描述和归纳的过程。用户画像是数据挖掘、机器学习、深度学习等技术领域的学术工作,与个性化推荐、广告精准投放、内容筛选等众多领域密切相关。在数字广告行业,术语“人群定向”通常用来描述这种定制服务。

用户画像通常包含以下几个方面的内容:

(1) 用户基本信息。该类信息包括用户的年龄、性别、职业、所在地、语言、文化程度等基本信息。

(2) 用户行为数据。用户行为数据包括用户在平台上的点击、评论、分享、观看视频等行为。

(3) 用户兴趣点。用户兴趣点是指用户对某些事物或现象产生的兴趣。这些兴趣点可以通过用户在平台上的交互、观看、搜索等行为进行挖掘。

(4) 用户社交数据。用户社交数据包括用户在平台上的好友、关注、粉丝等数据。

2.2知识图谱

知识图谱是一个基于分布式图数据库的知识库。它由亿万个名词、动词、副词、形容词、名词短语、和逻辑关系等组成。这些语言单元构建起一个多层次、深层次的知识关系网络,帮助人们更好地理解和组织知识,也为机器学习和自动化推荐等领域提供了很好的基础支持。

知识图谱主要由三部分组成:

(1)实体。实体是知识图谱中的基本元素,可以是任何事物,如人物、组织机构、地点、产品等。每个实体都有一个唯一的标识符,可以用来区分不同的实体。

(2)属性。属性是实体的特征,描述不同实体之间的差异。例如,人物的属性可能包括姓名、性别、年龄、出生地等。

(3)关系。关系是实体之间的连接,描述它们之间的联系和依赖关系。例如,人物之间的关系可能包括亲戚关系、工作关系、朋友关系等。

3数据基本分析

3.1年度发文量分析和预测

发文量的数量反映出该领域被关注的程度。发文数量随时间变化如图1。

由图1可知,有关用户画像的研究始于2014年,2014—2021年发文量一直增加。这其中又分为两个阶段。第一阶段2014—2016年发文量呈现一个稳定态势,第二阶段2017—2021年开始爆发性增长,增量明显,增速较快。以2017年为转折点,用户画像研究急剧增多,这在很大程度上与2017年国家实施《大数据产业发展规划》有关。说明政府政策对用户画像的研究有很大的影响。对变量年份和发表的文章进行相关分析,相关系数为0.976显著相关,说明发表的文章与年份相关性显著,可以进行拟合分析。使用软件SPSS进行回归拟合分析,得出变量之间的数学关系式为y=-26.8+11.6x+5.2x2(y表示篇数x表示时间)根据方程预计未来研究会越来越多。目前,用户画像的研究仍然是一个热点,处于一个由浅入深的阶段。

3.2核心作者

对发文作者进行统计,根据普赖斯定律,核心作者计算公式为:

MP为核心作者最少发文数,NPmax为最大发文数[15]

根据统计结果,最大发文数是16,因此MP约等于3。即发表文章在3及以上可以认为是核心作者。由普莱斯定律可知当核心作者发表论文数超过一半时,可以认为该领域形成了核心作者群。由统计结果计算得核心作者发文量占27.4%。显然没有形成核心作者。

3.3作者共现

分析作者合作网络,可以展示用户画像领域内核心作者及其团队合作情况。从中国知网获取用户画像的数据,导入数据,勾选关键词点击运行得到如图2。在图2中,作者的名字越大表示该作者发的文章越多;作者名字之间的连线表示双方有合作发文。分析高产作者,由图二可知刘海鸥(16篇)张亚明(6篇)张海淘(6篇)黄文娜(5篇)等为主要发文作者,是该领域的主力军。刘海鸥、张亚明、黄文娜、张艳丰、徐海玲等与其他作者连线较多,表明他们与其他作者合作发文情况较多。但从整体来看整个研究团队多为松散点状,合作情况不多。作者和作者之间合作发文有利于加深学术交流和发挥各个学科的优势,因此,国内用户画像文献虽多,但还仅仅处于发展阶段。

3.4研究机构分析

运行软件对研究机构进行分析,勾选机构点击运行得到如图3。机构名称越大表示发文量越多,连线表示机构之间存在合作关系,且线越粗表示合作发文量越多。从发文量来看吉林大学管理学院(30篇)发文量最多,其次是武汉大学信息管理学院(23篇)、南京大学信息管理学院(13篇)、燕山大学经济管理学院(11篇)、华中师范大学信息管理学院(10篇)。从地理位置上看,研究机构地理范围覆盖广,说明用户画像引起了国内各地学者高度关注。從研究机构来看,主要是国内顶尖高校说明用户画像热度较高且存在一定的门槛。

图3 机构共现图

3.5高被引文献

论文的质量往往是通过被引次数来体现的。往往那些被引次数高的文献在本领域内起着非常重要的作用。读者可以关注高被引文献作者和期刊来快速了解用户画像。因此分析高被引文献具有重要意义。通过知网检索用户画像,被引降次排序得到了五篇高被引文献,提取了作者、题名、期刊名、发表年份、被引频次和主要的研究成果。

4研究现状与演进趋势

4.1研究热点分析

研究热点是指最近一段时间,出现数量较多的文献讨论某一科学问题。通过关键词共现可以知道当前学者研究的热点问题。图4表示的是关键词随时间的变化,节点名称越大表示出现的次数越多,研究的热度越高。由图4可知,用户画像研究与精准服务、大数据、情感分析密切相关。由表3可知当前研究的热点有用户畫像、大数据、精准营销、图书馆、精准服务、数据挖掘。由关键词共现图谱,可以将用户画像的研究分为萌芽—快速发展—质量提升三个时期。2014—2015年为萌芽时期。2014年国内提出用户画像用于在移动用户中进行精准营销。这一时期多为介绍国外的概念或者提出用户画像在某个领域中应用的设想。2016—2019年为快速发展阶段。国内学者应用用户画像在各行各业,这一时期学者研究较多的在于如何构建用户画像,采用新的算法列如机器学习、人工智能运用到用户画像。这一时期国内学者应用研究最多的是图书馆用户画像研究。2020—2022年这一时期为质量提升。从以往静态的用户画像提出动态的用户画像,将时间因素地理位置考虑进去。这一时期用户画像的模型更复杂,数据来源更加广泛,对用户画像更加精准。

在关键词共现分析基础上,利用Cite Space软件,对关键词进行聚类分析,得到关键词聚类图5。由聚类结果得到以用户画像、大数据、精准服务、推荐系统、数据挖掘、情感分析、用户体验、精准营销、机器学习、数据采集等10大方面的聚类主题。

4.2研究前沿分析

突现词是指最近一段时间内突然出现的词,并且呈现出热度很高的趋势。通过分析突现词我们可以识别出某一领域近期研究的热点和未来的趋势。图6为突现词谱。由图6可知共出现六个研究前沿信息服务、服务模式、融媒体、数据采集、媒体融合、聚类。由此推断国内用户画像呈现以下发展态势。国内当前注重实践,理论研究较少,未来理论研究将是一个重要方向。当前产业界的实践应用远超前于学术界的理论研究。用户画像的理论研究需要进一步加深。当前用户画像的数据来源单一,虽然有部分学者融合行为内容数据对用户画像,但是数据整体上仍然呈现单一。未来数据如何能实现来源多、融合好需要学者进行研究。当前国内学者构建好一个用户画像模型,缺乏评价反馈机制,无法判定模型的好坏。

5结论

用户画像知识图谱分析是一种基于citespace和知识图谱技术的新方法,可以帮助个人和企业更好地了解和服务于用户,提高用户体验和用户满意度

通过上述分析得出如下结论:

(1)国内对用户画像的研究一直处于增长状态,且在2017年开始出现爆发性增长。预计未来用户画像会继续成为学者研究的热点。

(2)国内对用户画像的研究主要是国内知名高校,研究机构和作者较为稳定且机构间的合作稳定,但是还没有形成核心作者群,作者和作者之间发文较少,研究团队分布多为点状或星状说明用户画像研究中团队主体之间合作力度还远远不够,缺少跨领域跨专业的合作。

(3)用户画像的研究经历了萌芽—快速发展—质量提升三个阶段。用户画像、大数据、精准营销、图书馆、精准服务、数据挖掘为当前研究热点。当前国内注重实践研究,缺乏理论研究,且产业界研究远超理论界。学者构建用户画像缺乏反馈和评价机制,有时直接忽视需求。

(4)信息服务、融媒体、数据采集、媒体融合和聚类是未来的研究方向。数据来源的类型多样性,多样性数据的融合好与坏,这是未来能否实现更加精准的用户画像的关键,也是未来研究的热点。

(5)国内学者对用户画像的研究应用较多的是图书馆用户画像,研究对象单一。虽然学者提出的用户画像模型很多,但是模型仅仅是提出设想,缺乏应用实践和反馈。

参考文献:

[1]徐宗本,冯芷艳,郭迅华,等.大数据驱动的管理与决策前沿课题[J].管理世界,2014,30(11):158.

[2]姚望.基于用户画像的新媒体精准营销研究[J].商场现代化,2022,41(8):54.

[3]张慷.手机用户画像在大数据平台的实现方案[J].信息通信,2014,28(2):266.

[4]刘蓓琳,张琪.基于购买决策过程的电子商务用户画像应用研究[J].商业经济研究,2017,36(24):49.

[5]于宝君,韩磊,周昕.基于在线评论的低幼儿阅读群体用户画像研究[J].情报科学,2021,39(8):112.

[6]滕春娥,何春雨.在线医疗社区用户画像构建与应用[J].图书情报工作,2021,65(12):147.

[7]崔春生,王雪,李文龙.情境环境下基于用户画像的旅游产品推荐算法研究[J].数学的实践与认识,2019,49(20):122.

[8]刘海鸥,孙晶晶,苏妍嫄,等.基于用户画像的旅游情境化推荐服务研究[J].情报理论与实践,2018,41(10):87.

[9]李晓敏,熊回香,杜瑾,景紫薇.智慧图书馆中基于用户画像的图书推荐研究[J].情报科学,2021,39(7):15.

[10]徐立萍,何丹,陆元文.基于用户画像的智能推荐研究——以抖音APP为例[J].传媒,2022,24(12):53.

[11]徐芳,应洁茹.国内外用户画像研究综述[J].图书馆学研究,2020,31(12):7.

[12]刘海鸥,孙晶晶,苏妍嫄,等.国内外用户画像研究综述[J].情报理论与实践,2018,41(11):155.

[13]赵雅慧,刘芳霖,罗琳.大数据背景下的用户画像研究综述:知识体系与研究展望[J].图书馆学研究,2019,30(24):13.

[14]王一. 基于Cite Space的移动图书馆知识图谱构建研究[D].长春:吉林大学,2016.

[15]张婉丽,盛武.我国绿色煤炭知识图谱构建与分析[J].华北科技学院学报,2022,19(2):63.

User Portrait Knowledge Graph Analysis Based on Cite Space

CUI Xingwen,XIAO Ting

(School of Economics and Management,Anhui University of Science and Technology,

Huainan,Anhui 232000,China)

ABSTRACT In order to clarify the hot spots and trends of user portrait research, CiteSpace software was used to quantitatively analyze 1496 user portrait literatures on CNKI.The research results showed that the domestic research on user portrait presents an increasing trend, which had experienced three stages: research germination, rapid development and quality improvement.Although research institutions and author groups were stable, core author groups and cross-professional cooperation had not yet been formed.In terms of research trends, big data, data mining, library, machine learning, artificial intelligence, precision marketing, knowledge service and collaborative filtering were the main research hotspots,Cutting-edge research focused on information services, financial media, data collection, media convergence and clustering.

KEY WORDS cite space;user portrait; mapping knowledge domain;data analysis

(責任编辑 宁樊西)

猜你喜欢
用户画像知识图谱聚类
基于DBSACN聚类算法的XML文档聚类
基于高斯混合聚类的阵列干涉SAR三维成像
把声音的魅力发挥到极致
移动用户画像构建研究
基于知识图谱的产业集群创新绩效可视化分析
基于知识图谱的产业集群创新绩效可视化分析
基于知识图谱的智慧教育研究热点与趋势分析
基于微博的大数据用户画像与精准营销
从《ET&S》与《电化教育研究》对比分析中管窥教育技术发展
移动互联网下手机用户使用行为特征的研究