一种多视角用户画像体系知识图谱构建方法简述

2020-09-29 07:54刘文敏孟繁瑞
科学与信息化 2020年25期
关键词:用户画像知识图谱

刘文敏 孟繁瑞

摘 要 在互联网应用大爆发背景下,用户画像技术得到广泛应用,但现有的基于虚拟身份信息的用户画像难以针对同一人进行有效关联。本文提出了通过不同虚拟身份用户的行为、内容抽取静态用户画像标签,以实现关联用户真实身份、动态融合用户画像标签的知识图谱构建思路和方法。

关键词 用户画像;知识图谱;虚拟身份;用户标签

根据相关部门统计, 2020年第一季度,我国网民规模达到9.04亿,互联网普及率更是达到64.5%,互联网已成为人民生活不可或缺的一部分。近年来,用户画像技术在各个领域得到了广泛应用,但现有用户画像数据的采集大多基于虚拟身份信息,用户的各虚拟身份之间难以有效关联,想要进一步更为完整、全面、精确的刻画用户画像困难重重。为初步构建解决上述问题的方法,本文将通过用户行为、内容等方面,多视角研究用户画像关联关系,从而拓展用户画像能力,提高用户画像质量。

1用户画像相关背景

用户画像研究领域中,相关研究多集中在推荐系统等商业领域,研究对象往往是使用某一产品或者服务,以及具有相似背景、兴趣的用户群体所呈现出的具有共同特征的集合,即挖掘用户群体显著特征的概念模型[1]。对于用户画像应用,目前一般集中在三个方面。一是User Portrait即用户肖像,主要应用于用户肖像的绘画;二是Persona即用户画像,主要应用于创造一个虚拟用户,更加关注用户建模和模拟用户技巧;三是User Profile即用户文件,主要应用于描述用户兴趣的文件,更加体现用户个性化的需求,侧重于存储数据及其结构。视角不同,方法不同。按研究视角,用户画像方法可归结为四类进行分类,即基于虚构的视角、基于目标导向的视角、基于角色的视角以及基于参与的视角。其中,基于虚构视角的用户画像方法建立在主观设想上,后面三种人物画像方法通过采集用户数据来支撑画像结果。用户画像作为用户细分的一项基础性工作,在商业系统中,往往通过挖掘海量数据中用户相关行为数据,标记出用户的属性、特点、行为、倾向等,再对每一细分群体的典型特征进行抽象,从而实现对用户准确分类、深刻理解,最后实现对互联网用户的精准管理,甚至是行为推断、倾向引导。用户画像技术在微观层面揭示了单个用户的信息行为特征,能够直观地体现用户偏好领域、情感强度、态度倾向、认知与感知等,用户画像技术在宏观层面显现群体行为,更能够从更高层次体现集体情感倾向。

2用户画像体系知识图谱构建思路

知识图谱是一种可视化的知识领域映射,用户画像体系知识图谱建立在用户画像标签基础上,重在展现标签之间相互联系。对用户画像打标签的过程,主要根据人口统计学方法,搜集、整理、分析和运用各种能够反应用户画像的真实数据,再按统一标准结构抽取用户画像属性指标,从而真实反映现实社会生产中的各种数量表现、数量关系及其变动的规律性,最终期望能够揭示人群现象和过程的本质联系,以及人群总体的规模、结构、分布及其发展变化的趋势。本文利用静态和动态两类指标构建用户画像体系。其中,静态指标是指能够从现网数据中直接提取的属性信息。动态指标则是指利用静态属性抽象出来的标签化属性[2]。

3用户画像体系知识图谱构建方法

(1)静态虚拟身份抽取。一般来说,采集静态指标,需要事先规划好画像的维度及数据需求。以从某知识库中抽取静态虚拟身份为例,可抽取如下数据组。①标识信息属性组。该属性组可以根据IP、终端、常用ID等能显著区分虚拟身份类别,生成唯一虚拟身份标识。②终端信息属性组。该属性组可以针对已生成的能够标识终端的标识信息等虚拟身份标识,并提取设备相关属性。③网络信息属性组。该属性组可以针对已生成的标识信息,关联IP、MAC等虚拟身份标识,提取网络相关等属性。④身份信息属性组,关联性别、民族等属性。⑤位置信息属性组,关联位置、进入时间、离开时间、停留时间等属性。⑥信息行为属性组,关联url、搜索词等属性。⑦经济行为属性组,关联收支、类别、收支、类别等属性。⑧交互行为属性组,形成虚拟身份之间的交互行为。⑨虚拟身份关联属性组,利用各表内虚拟身份及各类标识符之间交叉重叠关系,评价虚拟身份与虚拟身份关联权重。

(2)身份融合及动态真实身份标签融合。利用上一步产生的各类虚拟身份属性,通过虚拟身份关联关系及权重与用户相结合。同时,在静态指标的基础上,抽取共性特征形成标签,进而进一步构建动态指标。

(3)知识图谱构建与管理。用户画像知识图谱是一个动态发展、不停迭代的过程,为确保用户画像质量,需要建立统一的标准工作流,从而实现全生命周期规范化管理,具体流程如下。①需求收集。沟通各方,形成统一化模板,收集整理标签画像需求,建立人物画像标签需求库。②设计验证。组织业内专家,对需求库中的需求进行评审,对具有相关性的需求进行合并,以尽量少的标签覆盖需求库,初步建立用户画像知识图谱,并通过系统性的分析、试验等方式驗证标签效果。③动态调整。在生产过程中,对知识图谱中的每个标签进行评估,分析标签之间的相关性,对具有相关性的标签进行合并,对功能低的标标签进行删除。对生产中的产生的新属性评估后加入新标签。标签的合并、删除以及加入需要有严格的人工审核机制。上述过程循环进行,达到让用户画像效果阶梯式上升目的[3]。

4结束语

为了提高分析效率,理想化的用户画像体系知识图谱各个维度,即标签应该是相互独立的,以减少冗余信息,通过不同标签的组合能够明确指向到某一类或者目标人群,这需要从顶层设计入手构建用户画像体系,然后通过试验分析验证体系的有效性。但在实际实践中,目前已有的画像系统多采用自底向上的方法进行设计,仅依靠单一数据必然难以达到理想化目的,本文初步探索了如何利用自底向上及自顶向下相结合的方式从多个视角构建用户画像知识图谱。用户画像本身作为一项系统级技术,更需要根据数据特点,自底向上建设知识库,自顶向下用户画像设计体系,才能最终得到切实好用、准确、真实的用户画像数据。

参考文献

[1] 亓丛,吴俊.用户画像概念溯源与应用场景研究[J].重庆交通大学学报(社会科学版),2017(5):86-87.

[2] 佚名.第45次中国互联网络发展状况统计报告[ED/OL]. http://www.cac.gov.cn/2020-04/27/c_1589535470378587.htm,2020-4-28.

[3] 李保澄,刘硕.基于用户画像技术的公安教育大数据应用[J].广西警察学院学报,2018(3):124-128.

猜你喜欢
用户画像知识图谱
贝叶斯网络在用户画像构建中的研究
把声音的魅力发挥到极致
国内图书馆嵌入式服务研究主题分析
国内外政府信息公开研究的脉络、流派与趋势
移动用户画像构建研究
基于知识图谱的产业集群创新绩效可视化分析
基于知识图谱的产业集群创新绩效可视化分析
基于知识图谱的智慧教育研究热点与趋势分析
基于微博的大数据用户画像与精准营销
从《ET&S》与《电化教育研究》对比分析中管窥教育技术发展