基于知识图谱的社交网络用户行为研究进展

2021-02-26 02:56杨晓晖孙莹
关键词:知识库图谱可视化

杨晓晖,孙莹

(河北大学 网络空间安全与计算机学院,河北 保定 071002)

随着Web技术的不断发展,人类先后经历了以文档互联为特征的“Web 1.0”时代与数据互联为特征的“Web 2.0”时代,迈向基于知识互联的崭新“Web 3.0”时代.知识互联将特定数据输入到特定情境中,其中DBpedia项目[1],是目前最具有代表性的大规模开放域链接数据.2012年,Google正式推出称为知识图谱的搜索引擎服务,目的在于使用语义检索从多种来源收集信息,提高Google搜索的质量[2].知识图谱描述各种实体及关系,构成一张巨大的语义网络图,具有“图”和“谱”双重特点,紧密的数据关联性与强大的语义处理力是对语义网络的全面总结与升华[3].

国内提及“知识语义网络”的文章于2005年发表,从数据格式及存取、数据分析算法、可视化和互动设计、科学计量学等方面阐述知识图谱,将这个极其重要、拥有广阔应用前景的交叉领域称作“Mapping Knowledge Domains”.刘则渊教授将知识图谱引入国内并创建WISE实验室,开拓了国内知识计量学与科学知识图谱研究的新方向[4].由于中文知识图谱的构建对中文信息处理和检索具有重要的研究和应用价值[5-6],近年国内推出了大量以中文为主语言的知识图谱,主要基于百度百科和维基百科的结构化信息构建.上海交通大学的zhishi.me,SPARQL终端用于用户查询操作,以HTML的形式给出返回结果[7];清华大学的Xlore,是第一个大规模中英文知识平衡的知识图谱[8];复旦大学的CN-pedia,从纯文本页面中提取信息,由过滤、融合、推断等操作,形成了高质量的结构化数据[9].官赛萍等[10]讨论了知识图谱上的推理方法与技术.王鑫等[11]以数据模型的结构和操作两大要素为主线,研究知识图谱多方面数据.

社交网络是知识图谱应用较广的垂直领域之一,在用户行为分析、信息智能化处理等方面知识图谱有着很好的发展前景.朱世玲[12]采用网络“基因”图谱来唯一标识实体及其身份属性和行为属性.目前,社交网络中各式知识图谱应运而生,社交图谱思想源自 FOAF ( 即朋友的朋友)[13],用于维护并挖掘用户社交关系,动态获取用户网络行为信息,随新出现的用户、事物及关系动态更新的用户真实社交关系图谱.当前网络社交应用众多,社交用户数据丰富但知识匮乏,而智能化社交关系网络需要基于知识图谱,可视化表示社交网络中的用户行为,以此分析社交用户行为关系,实现用户行为关系数据从“数据-信息-知识”的转化,完善社交关系体系.

1 知识图谱

知识图谱是运用结构化语言,描述现实世界中存在的实体或概念间关系的知识库集合.基于三元组是知识图谱的一种通用表示方式,以“实体-关系-实体”或“实体-属性-属性值”为基本形式呈现[14].知识图谱可被看作一张具有知识结构的网图,图中的节点表示实体或概念,边表示关系或属性,本质上是一种语义网络,通过关键词映射到语义知识库的概念上,核心是利用知识库进行语义推演.

基于图的数据结构,知识图谱的存储方式有2种:RDF存储格式和图数据库(graph database)[15].实际研究中,所需实体及关系较为复杂,大多以图数据库为存储介质,例如开源的Neo4j、Twitter的FlockDB等.知识图谱的构建以知识库为主,存储社交用户的行为数据及关系数据,知识库是以事实为基本单位组成的知识集合,如表1所示.

表1 大规模知识图谱库汇总

续表1Continued Tab.2

2 行为可视化

2.1 行为表示

社交网络拥有庞大的用户群,用户的行为关系数据存在于非结构化的文本数据、半结构化的网页及部分用户信息系统的结构化数据中.知识图谱用来描述关系网络,直观的表示方法能够高效地分析复杂关系网络中潜在的行为数据.

面向社交网络,基于知识图谱描述用户行为关系信息,抽取大量计算机可读的行为关系数据[16],根据社交行为形成网状结构,结构为有向有环图,每个点代表每个用户的数据信息,点与点间的路径看作用户间的行为关系.实际应用中,根据真实需求挖掘用户间行为联系这一问题可描述为在有向有环图中寻找相邻节点问题,或路径导航问题.

三元组是知识图谱的通用表示方式,借助三元组描述社交用户的行为关系信息,由2个具有关联关系的用户实体和实体间关系组成,直观表示用户行为,即G=(head,relation,tail),其中head为三元组中头实体,tail为三元组中尾实体,relation={r1,r2,…,r|R|}是用户知识库中的关系集合,包含|R|种不同行为关系.三元组的基本形式包括实体1、关系、实体2和概念、属性、属性值等.实体是行为图谱的最基本元素,如用户、网络平台等;关系存在于不同实体间,如用户自发行为、点赞转发行为、评论文字、@提及等;概念主要指集合、对象类型、事物种类等,如大V用户、活跃用户、安全用户等;属性指对象可能具有的特征,如用户基本信息、地理定位、在线时间等;属性值指对象特定属性的值,如用户资料完整度、用户安全指数、属性相似度等.通过全局唯一的ID标识用户实体,实体间内在特征通过用户属性-属性值表示,外在关联通过用户关系表示,三元组描述已有事实.

2.2 可视化关键技术

可视化表示社交用户的行为关系为一个有向有环图,建立以行为关系为核心,带有语义性的用户知识库,旨在实现从语义理解社交用户意图,根据实际情况及用户需求状况反映用户的行为关联,为数据分析的准确性提供保障.

运用知识图谱技术可视化表示社交用户的行为关系,构建过程主要包括数据源选取、数据采集与处理、可视化表示等步骤,其中,可视化表示是重中之重,由行为知识抽取、行为知识表示、行为知识加工3部分组成.

2.2.1 行为知识抽取

行为知识抽取面向开放的社交网络用户,通过自动化技术从半结构或无结构数据中抽取可用的行为知识单元,包括用户实体、行为关系及属性等知识要素,形成本体化的高质量知识表达.涉及的关键技术包括实体抽取、关系抽取、属性抽取.

实体抽取,从原始数据源中自动识别用户实体.英文语境中,Wu等[18]提出WOE系统,使用wikipedia中信息框的内容标记语义内容.Surdeanu等[19]提出MIML模型,将同一用户实体在不同网络环境中呈现不同行为关系.Liu等[20]运用K-近邻算法和条件随机场模型识别文本数据.Ling等[21]借鉴Freebase的实体分类归纳112种实体类别,基于条件随机场模型进行用户实体识别,采用自适应感知机算法对用户实体自动分类.汉语文本中王莉峰[22]提出领域自适应的中文实体关系抽取,针对文本内容提取用户知识.王志超[23]面向知识图谱设计了一种基于开放域抽取的实体行为抽取框架.秦兵等[24]提出面向大规模网络文本无指导的中文开放式实体关系抽取模型UnCORE,采用全局排序和类型排序方法挖掘行为关系指示词,运用行为关系指示词和句式规则过滤关系三元组,抽取用户间行为关联.

关系抽取,以关系联系用户实体形成网状知识结构,解决用户的实体语义链接问题.Wu等[18]通过自监督学习得到抽取器,较TextRunner系统[25]提高了准确率.Schmitz等[26]提出了第3代OIE系统OLLIE,弥补并扩展OIE的模型及相应的系统.Akbik等[27]提出可抽取任意语句中实体行为关系的方法KPAKEN,适用于小规模开放域语料.随后,实体间关系模型替代了人工构建的语义规则.Domingos等[28]提出简易的马尔可夫逻辑TML,分解用户知识,利用社交网络中丰富的用户属性数据、行为数据等推理用户实体间关联,实验表明,TML能够表示用户实体间的行为关联,具有较强的行为表达能力.

属性抽取,对用户实体而言,如用户基本信息、地理定位、在线时间等,通过属性完整刻画用户实体.属性抽取的目标是从数据源中选取用户实体的属性信息,为每个本体构造用户属性列表,属性值为用户实体的附加属性值,以此形成完整用户实体的行为图谱维度[29].Suchanek等[30]提出基于规则与启发式算法的属性抽取方法可从半结构化数据中抽取用户属性信息,扩展为用户知识库.

2.2.2 行为知识表示

近年人工智能、机器学习等表示学习技术的发展,实体的语义信息可以表示为低维实数值的向量,对用户知识库的构建有重要意义[31].

知识表示学习,将对象投影到统一的低维空间,一方面通过分布式模型刻画用户行为关系的语义关联程度,有效缓解数据稀疏性问题[32];另一方面建立统一表示空间,融合社交用户信息.行为知识表示学习代表模型包括单层神经网络模型[33- 34]、双线性模型[35-36]、神经张量网络模型[37]、矩阵分解模型[38]及翻译模型[39]等,如表2所示.各模型的效率对比通过时间复杂度和空间复杂度说明,其中n和m分别表示用户和行为关系的数量,d和k分别表示用户的维数和行为关系嵌入空间的维数,如表3所示.此外,Wang等[40]提出了一种将多模态自动编码器与TransE模型相结合的新的表示学习方法TransAE,不仅将结构知识编码,而且还可以将多模态知识编码为最终表示形式,在链接预测和三元组分类上可以显著提高性能.明等[41]研究卷积神经模型构建细粒度关系描述的表示,提出关系文本的知识表示学习方法,采用关系描述作为表示学习的辅助信息,实验表明此方法具有较优性能.Seo等[42]提出基于路径的知识图表示学习方法RKRL,将中间实体的表示形式和关系路径上的关系进行组合,以学习更多的知识表示形式.Sun等[43]利用关系路径的语义信息,提高知识表示学习的辨别力,并在投影实体时添加了与关系类型相关的权重以区分关系类型.Zhang等[44]提出利用实体属性信息,运用深度卷积神经网络模型对属性信息进行编码,并利用属性信息和三元结构信息学习知识表示,生成基于属性的实体表示.

表2 知识表示学习代表模型

表3 模型在时空复杂度上的对比

2.2.3 行为知识加工

行为知识加工,融合、推理与更新用户知识库内容,消除实体、属性及关系之间的歧义,增强用户知识库内部的逻辑性和表达力,并在已有知识基础上推理用户行为关联,更新用户知识库,不断完善新产生的行为关系数据[45].Song等[46]将不同来源获得的知识有效地组织和整合到知识库中,并对知识加工涉及到的方法进行研究.行为知识加工的关键技术包括实体对齐、本体构建、知识推理和知识更新.

实体对齐,归并具有不同标识但表示同一用户的实体,使其拥有全局唯一标识,创建大规模的统一用户知识库.社交网络中存在重复属性数据,相似行为数据及孤立数据等,用户数据质量不一,计算复杂度较大,用户知识库规模对实体对齐产生影响.从用户知识库体系差异角度出发,Parundekar等[47]和Jain等[48]针对Linked Open Data取得高效的实体对齐效果.从知识库的内容差异角度出发, Volz等[49]提出Silk采用索引的方式管理数据资源,降低计算条目间“SameAs”关系的时间复杂度.Chen等[50]利用属性值对作为特征模板,运用扩展向量空间模型对文本内容歧义识别;Niu等[51]提出Zhishi.me利用实体名称归一化进行实体对齐.

本体构建,对社交网络中用户及行为关系的形式化表达,本体是包含用户行为关系的集合,用来描述现实世界的用户知识模型.社交网络中常见的本体构成要素包括

1)个体:基础对象,即社交用户.

2)类:集合、概念及对象类型等,即用户类别,如大V用户、活跃用户、安全用户等.

3)属性:实体的属性,即用户资料、地理位置、在线时间等.

4)关系:类与个体间关联或个体与个体间关联,即用户行为间关联关系.

5)函数术语:在声明语句中,代替具体术语的特定关系构成的复杂结构.

6)约束:采用形式化方式声明,以用户需求为输入且合理的情况描述.

7)规则:用于描述依据特定形式,某种需求能够得出的逻辑推论,如用户个人资料等属性信息用if-then式语句形式的声明.

8)公理:采取特定逻辑形式构成的本体.有别于形式逻辑中的“公理”.在行为图谱的本体构建过程中,公理仅包括确定为用户先验知识的声明.

9)事件:用户属性或行为关系的变化.

知识推理,在已有用户知识库基础上进一步挖掘知识,扩展用户知识库,形成完善的用户知识体系.统一管理用户知识,将动态演化的行为关系扩充到用户知识库,对提高用户知识库的覆盖能力十分重要.知识推理能够完成用户数据收集、明确用户行为安全性、行为关联关系分析等.知识推理分为基于符号逻辑的推理和基于图特征模型的推理.基于符号逻辑的推理,基于一阶谓词逻辑和描述逻辑等,利用规则推理出新的用户间行为关系,还可进行逻辑的冲突检测.

知识更新,社交网络用户人数不断增加,用户属性及行为关系信息不断增长,行为知识需不断更新完善.从逻辑层面讲,包括数据层更新与模式层更新.数据层更新指用户、行为关系及属性的更新.模式层更新指本体中元素的更新,其中行为关系的更新影响到有直接或间接关系的子关系和用户[52].

2.3 候选行为识别

与高质量的常识性行为知识相比,数据挖掘抽取的行为知识更能反映当前用户需求,及时发现最新的实体或事实,但质量相对较差,需要对候选行为知识进行识别,评估知识的置信度,提高社交用户的行为关系可视化表示的准确性.

将得到的候选行为知识表示为知识图,名为提取图(extraction graph, EG),提取图中节点表示用户,与节点具有关联的标签表示用户属性类别,节点间的有向边用户行为关系.由关联数据和语义组成的提取图中的概率推理具有重要意义.因此,运用概率软逻辑(probabilistic soft logic, PSL)这一识别技术修正提取图[53],结合聚合分类和基于本体信息的规则等,完成对候选行为知识的识别.

概率软逻辑是在关系域集体概率推理,将相似度与关系结构的概率推理有机结合,具有关系结构的概率模型.运用PSL识别提取图,引入概率建模框架,对连续值的随机变量进行概率推理,其中的推理是高度可扩展的凸优化问题,能够在几分钟内处理数以百万计的事实.该方法的强大之处在于,面向社交网络的用户关系和相似行为信息,高效地声明各种行为集合标准.PSL程序由具有连接体和单文字头的一阶逻辑规则组成,规则被标记为非负权值,PSL使用规则来捕获域的依赖结构,构建联合概率模型.每条规则都有相关的非负权值,捕获规则的相对重要性.此外,PSL将一阶逻辑规则作为图模型的模板语言,使用区间[0;1]中的连续性真值而不是0或1布尔值.

3 典型应用

知识图谱将复杂数据信息表示为易于人类理解的形式.探索应用场景时,应充分考虑以下优势:1)对异构、动态的半结构化、非结构化数据的有效组织与表达能力;2)依托于强大知识库的深度知识推理能力;3)与深度学习等领域相结合,扩展的认知能力.在对知识图谱技术有丰富积累的基础上感知用户需求,为大规模知识图谱找到更广泛的应用之处.

面向社交网络构建的网状结构作为新型社交关系可视化方式,改变传统用户知识的表达与获取方式,加速用户数据、信息到知识的转换,给出局部知识到全局知识的统一表现形式,以直观的方式呈现社交网络中的用户及行为关系,旨在维护用户社交关系,挖掘社交网络深层的用户价值,是解决社交用户的行为关系问题的新一代用户分析工具,为研究社交网络的用户行为信息提供新思路.

基于知识图谱,可视化表示社交用户行为关系,为海量、异构、动态的用户数据的表达与分析提供有效方式,将复杂的行为数据以直观的方式表示为易于理解的形式,根据各种社交网络中的用户行为分析其中的潜在行为,对相关用户主体(如亲友、陌生人等)及关联行为进行挖掘,如图3所示.目前主要可用于用户信息检索、用户安全评测、行为关联推理等方面.

图3 知识图谱数据处理过程Fig.3 Knowledge graph data processing

3.1 用户信息检索

针对大量社交用户数据检索用户信息是一项复杂的任务.用户信息检索时,基于知识图谱,可视化表示用户各项信息,建立大规模用户知识库对用户属性及文本内容进行语义标注,从中检查相关用户实体对、实体关系及属性并进行扩展.可利用用户名称检索用户属性,采用文本匹配、关键字匹配的检索方法将文本内容转换为本体定义的用户概念,提升用户信息检索精度,从而提高查询、检索用户各项信息的准确性及用户信息检索的效率.

3.2 用户安全评测

社交用户行为关系的可视化表示能够辅助安全领域的用户安全评测问题,根据用户属性、行为、关系等数据对用户自身进行智能化分析,依托巨大的用户知识库并使用自然语言和基于证据的学习能力为用户安全评测提供支持,供安全人员参考.以用户知识库为基础,综合多个用户本体资源,包括社交平台、自媒体等相关本体,通过专家知识规则,运用正则表达式、隐马尔可夫模型等人工智能技术解决社交网络中用户安全评测问题.

3.3 行为关联推理

行为关联推理是用户行为研究的一种高级形式,可视化表示社交用户的行为关系,将行为关联问题分为若干个用户知识问题,从用户知识库中抽取匹配信息,并检测匹配信息在时间和空间上的吻合度,最后将用户知识问题合并为用户行为关联问题.

4 总结与展望

知识图谱是建立在多学科领域研究成果基础上的一门实用技术,是信息检索、人工智能、自然语言处理等交叉领域的理论研究热点和应用技术的集合,不仅是一门实用技术,更是一种战略思想.就社交网络而言,由于用户和行为关系数据具有复杂性、多样性等特点,可视化表示用户的行为关系,建立用户知识库便十分重要.运用此技术挖掘用户行为信息,推进数据挖掘、网络图论等领域的研究,将其广泛应用到用户信息检索、用户安全评测、行为关联分析等方面.目前虽有很多进行知识图谱的研究,但基于知识图谱,可视化表示社交网络的行为关系仍面临巨大挑战.

1)社交网络用户行为挖掘

真实社会中的同一个人在不同的社交网络中所在位置和所起作用不同,异构网络无共同特征,网络规模千差万别.社交网络中,聚合不同社交平台中身份不同的同一现实用户是社交网络用户行为挖掘的难点,也是实现可视化表示社交用户行为关系的关键.

2)文本抽取难度大

行为知识抽取时,面向社交网络开放数据源的知识抽取方法研究处于起步阶段,部分研究成果虽在特定数据集上有较好效果,但应用于社交用户行为关系的可视化时普遍存在准确率低、限制条件多、扩展性差等问题,尤其在抽取用户发布博文内容涉及的纯文本抽取时面临挑战.

3)实体对齐准确率低

行为知识加工阶段的主要挑战是实现有较高准确率的实体对齐.虽然相关研究已有很长历史,但由于社交用户的行为知识来源的异构性、多样性及复杂性导致用户在不同数据源中存在多源指代问题,目前的研究对可视化表示社交用户的行为关系的帮助较少.如何在跨语境,跨社交平台的条件下准确地将文本中抽取的社交用户进行同一现实用户的实体归并是当前的重要问题.

猜你喜欢
知识库图谱可视化
基于图对比注意力网络的知识图谱补全
自然资源可视化决策系统
思维可视化
汉语近义词辨析知识库构建研究
自然资源可视化决策系统
基于知识图谱的我国短道速滑研究可视化分析
图表
主动对接你思维的知识图谱
我国联合虚拟参考咨询系统知识库现状研究*
——基于与QuestionPoint的对比
位置与方向测试题