跨社交网络用户识别综述

2021-03-07 04:23

网络安全技术与应用 2021年4期

（四川大学网络空间安全学院四川 610065）

随着社交网络的发展以及其多样性，社交网络活跃用户数量逐年递增，根据Statista 的统计报告显示（https://www.statista.com/statistics/272014/global-social-networks-ranked-by-number-of-users/），截至2020 年10 月，Facebook 活跃用户数达27.01 亿，Twitter 活跃用户数达3.53 亿。出于不同的目的，用户可能会使用多个社交网络，使用Facebook 与生活中的朋友联系，使用Twitter 发布自己的兴趣爱好，使用LinkedIn 来求职以及获取职业信息，并与工作上的同事联系。如果能够识别出不同社交网络平台中具有相同身份的用户，就可以整合出该用户较为全面的个人信息，以及绘制出其较为完整的好友关系，从而能从中挖掘出一些隐藏的信息。

商业销售角度上，网购零售平台可以利用跨社交网络用户识别，如网络购物网站和社交网络关联识别得到用户的喜好以及购买倾向，进而发掘潜在客户；信息安全角度上，用户就可以注意这些属性以及好友关系可能会泄露其个人隐私，同时，也让社交平台知道其在个人信息安全方面存在的隐患。

在现实世界中，对于同一实体有许多种描述方式，并且大多数情况下，这些实体信息是彼此分离，没有任何联系的，因此就有研究人员提出如何有效将不同信息源的数据融合在一起也成了一个研究点。广泛学习（broad learning）也就应运而生，最初它被提出主要是用于将不同种类的大规模数据进行融合，再对这些融合数据进行数据挖掘与分析[1]。跨社交网络用户识别实际上也用到不少广泛学习中的概念和方法，如多源社交网络融合，社交网络对齐等。跨社交网络用户识别将有助于社交网络好友推荐，信息传播和社区检测等。

1 面临的问题

用户识别主要是通过特征工程或者深度学习等方法，从用户信息中发现能够表征用户的特征，进而实现用户识别。用户信息包括用户配置文件（profile）、用户发布的内容（user-generated contents）和社交关系（relationships）。在实际的社交网络中，往往面临以下问题，这些问题对于跨社交网络用户识别也是巨大的挑战。

（1）用户信息虚假性。为了保护个人隐私或者隐藏自己的真实意图，用户在填写用户信息时，可能会填写虚假的信息。

（2）用户信息异构性。出于不同的使用目的，用户可能会构建适应于不同社交网络的用户信息，来迎合不同的需求，如在Twitter中的用户属性往往会更加生活化，在LinkedIn 中的用户属性往往会更加正规化。

（3）用户信息不完整性。由于社交网络的数据获取限制以及用户可以选择公开或不公开自己的信息，研究者很难获得用户完整信息。

近年来，社交网络的用户剧烈增长，用户数量越来越多，这无疑给用户识别带来了挑战和机遇。

2 用户识别方法

近年来，国内外有许多关于社交网络用户识别的研究。跨社交网络的用户识别又可以称为用户身份关联[2]、用户文件匹配[3]、用户账号匹配[4]、用户身份识别[5]、锚链接预测[6]等、。其研究方向主要包括基于用户属性的用户识别、基于发布内容的用户识别、基于用户社交关系的用户识别以及综合上述方法的用户识别。我们可以将用户识别定义为：判断社交网络G1中的用户与社交网络G2中的用户是否在现实中是同一自然人，如果属于同一自然人，则称用户和用户为关联用户（锚链接用户），否则为非关联用户（非锚链接用户）[7]。

在实际的社交网络中，用户可分为认证用户和非认证用户。认证用户主要是一些组织账号或者具有一定知名度的用户，非认证用户主要是普通用户。大多数研究主要关注非认证用户的用户识别。

现有研究大都基于两个社交网络进行用户识别，然而在现实世界中，人们通常同时使用多个社交网络。研究有多个社交网络的用户被定义为“多个匿名社交网络的对齐”问题[8]。基于多个社交网络的用户识别需要保证两两锚链接用户之间满足传递关系。

2.1 基于用户属性的用户识别

在社交网络中，用户属性包括用户的显示名、用户ID、头像、地理位置、个人简介、用户头像等。

部分研究仅利用单一属性进行用户识别。仅利用用户显示名分析不同社交网络的关联用户[9-12]，从用户名中间提取一系列特征，结合提取的用户名特征来判断用户识别结果。仅利用用户头像进行用户识别[13]、从头像中提取出直方图特征或者利用人脸识别方法或者主成分分析等。仅利用地理位置[14-16]，例如轨迹相似度分析等。大多数研究选择其中的一个或多个属性，这也证明这些属性有助于判断社交网络上的关联用户。

这些研究旨在证明单一属性对于实现用户识别的可行性，但社交网络中并不只包含单一属性，还有其他的属性信息可用于用户识别，可以充分利用多个属性背后隐藏的信息和社交关系信息，来提高用户识别的准确性，挖掘出更多关联用户。Li 等人[17]利用显示名和用户ID 来识别关联用户。Motoyama 等人[18]利用多种属性信息，如显示名、地理位置、年龄、电子邮件等来进行用户识别。Raad 等人[3]FOAF（Friend of a Friend）配置文档进行用户识别，计算两个配置文档中用户属性的相似度，并给不同的属性分配不同的权重，再基于用户属性相似度来计算两个用户之间的相似性。Lu 等人[19]对部分对齐网络（如：电子商务网站和社交网站）进行用户识别，给出了用户名和邮件地址的相似度匹配方法以及用户个人兴趣相似度匹配的方法。何鹏涛等人[20]利用用户的注册信息包含的属性信息，计算个人简介、地理位置、教育工作信息的相似度，并利用维特比算法来进行三个社交网络的用户识别。

用户出于对个人隐私的保护，用户可能会填写虚假的个人资料信息，或选择不填写。基于用户属性的用户识别的准确性会有所降低。

2.2 基于发布内容的用户识别

在社交网络中，用户发布内容包括发布内容的地理信息、时间信息、文本信息、多媒体信息、写作风格和内容主题等。

Li 等人[3]计算了用户发布内容在空间，时间和文本内容三个维度上的相似性，并提出了一种三级级联的融合分类器来判断用户识别结果。Goga 等人[21]综合附加到发布内容后的位置信息，发布时间信息和书写风格来识别用户。Nie 等人[22]先识别出重要用户，将重要用户和待识别用户的发布内容融合，得到一段长文本，通过LDA 识别出长文本的主题，将用户识别转发为主题相似度判断。张树森等人[5]利用发布内容中的文本内容、多媒体内容和时间序列信息来进行用户识别，包括内容口语化程度、复杂程度、规范化程度、用户图片特征以及构建与时间序列拟合的函数。

由于用户隐私设置和社交网络对数据采集的限制，基于发布内容的用户识别的鲁棒性会有较大的影响。

2.3 基于社交关系的用户识别

在社交网络中，社交关系包括正在关注关系和关注者关系[23]，目前研究基于这两种关系可以构建出无向网络和有向网络，有向网络又可分为单向网络和双向网络。

由于用户在不同社交平台上形成社交关系网络相对来说更稳定，因此可根据账号的社交关系形成该账号的社交关系网络，并与其他账号的社交关系网络做相似性计算。Xuan 等人[24]调查发现通常情况下用户会在不同的社交网络平台上维护相似的好友圈，并利用社交关系信息进行用户识别，提出FRUI 算法。Zhang 等人[25]通过考虑多个网络之间的本地和全局的相似性，结合能量模型提出COSNET 模型。Cheng 等人[26]通过共享参数的神经网络来获取用户对社交关系的网络结构向量，并提出了深度主动学习模型DALAUP。Zhou 等人[27]对网络进行采样并学习网络节点的向量表示，通过深度神经网络对齐锚节点，利用双重学习范式和策略梯度法关联用户。Pedarsani 等人[28]在无种子节点的条件下，采用贝叶斯方法进行用户识别，并在较为相近的两个网络中取得了较好的结果。

近来用户表示学习受到学术界的广泛关注，诸如随机游走[29]、卷积神经网络（Convolutional Neural Network，CNN）[30]、图卷积网络（Graph Convolutional networks，GCN）[31]、图神经网络（Graph Neural Networks，GNN）[2]被应用于用户表示学习（也称用户嵌入或图嵌入）。这类方法相当于将用户的各类信息映射到一个隐空间，这个隐空间的向量能够有效表征用户。Man 等人[32]利用网络嵌入方法来发掘网络结构的规律，通过跨网络映射来识别关联用户。Zhou 等人[33]提出一种基于朋友关系的无先验知识用户识别方法FRUI-P。Liu 等人[23]将用户的正在关注关系和关注者关系都嵌入到网络中，以此来进行用户识别。Wang 等人[2]生成异构图来表示用户配置文档、发布内容和社交关系，并利用基于注意力机制的图神经网络来进行用户识别，通过多个注意力层来聚合用户信息，并通过多层感知来预测用户识别结果。

社交关系相较于用户属性而言更稳定。但由于社交网络的开放性，任何用户都能关注其他用户，导致被关注者可能并不认识关注他的人。由于社交网络对数据采集的限制以及获得多层社交关系成本较高。因此在实际社交网络中，社交关系通常比较稀疏且不完整。

2.4 综合上述方法的用户识别

在用户属性中加入社交关系，由于社交关系具有稳定性，可以避免一些用户属性缺失或虚假带来的负面影响；在社交关系中加入用户属性，可以识别出一些社交关系稀疏的用户，并提高用户识别模型的准确率和召回率。通过综合多种识别方法对用户进行跨社交网络用户识别，防止只采用一种计算方法而造成误差[34]。正如之前所提到的隐空间映射问题，其实用户属性也可以像社交关系一样被映射到隐空间中，将离散属性变量转变为连续的变量，并且提取中间具有代表性的属性，也相当于一个降维的过程，这样可以设计一个通用隐空间模型，来将属性和社交关系映射到隐空间中，再通过优化函数来提高效果。

Zhang 等人[35]利用显示名、地理位置和社交关系三种信息，从每种信息中提取出一些特征，最后利用分类器判定用户是否关联。Zhang 等人[36]结合用户属性和网络结构来链接多种共享实体的潜在链接。Jain 等人[37]提出了一个身份识别系统Finding Nemo，充分结合了用户属性和链接信息，用于找出一个Twitter 用户在Facebook 中的账户。Li 等人[38]结合用户显示名和社交网络的信息冗余来实现用户识别。Bartunov 等人[39]提出了JLA 算法。该算法主要用来合并用户通讯录，从局部方面来进行用户识别。JLA 算法将用户属性和好友关系网络相结合进行匹配，通过构建一个统一用户属性与社交关系的匹配模型，并使用条件随机场来进行账号匹配。

3 数据集

目前没有研究用户识别的公开数据集。一些研究从社交网络上用爬虫或者公开API 采集实验数据，一些研究使用kong 等人[6]论文中使用的数据集，该数据集是在2012 年11 月采集形成的。多篇论文曾采用该数据集来验证用户识别实验，如Zhang 等人[40]和Liu 等人[23]。Liu 等人[23]曾在 GitHub 上公布了该数据集引用要求（https://github.com/ColaLL/IONE）。

有部分研究从rocketreach（https://rocketreach.co/）和about.me（https://about.me/）网站上获取用户在不同社交网络上的账号，并将其作为groundtruth（锚链接用户）。Lim 等人[41]采集about.me 网站上的用户的关联账号，包括社交网络Flickr、Google+、Instagram、Tumblr、Twitter 和 Youtube，其数据集也公开在 GitHub 上（https://github.com/kite1988/aboutme）。

4 展望

本文整理和归纳了跨社交网络用户识别的研究现状和实验数据集获取方式。目前，大多数有关跨社交网络用户识别的论文都针对两个社交网络进行实验，较少有论文直接对三个及三个以上的社交网络做用户识别。一个是因为三个及三个以上数据集获取难度较大，另外也因为三个及以上社交网络用户识别和两个社交网络用户识别的方法有较大的区别。

由于用户对个人隐私的保护和社交网络对数据采集的限制，我们可以充分利用可获取的各类用户数据，包括用户属性信息、发布内容和社交关系信息，来帮助提高用户识别的准确率和召回率。可以利用特征工程从各类用户数据提取出能有效表征用户的特征，也可以利用各类用户数据形成图结构，将这些提取出的信息输入自己构造的机器学习模型或深度神经网络模型来进行用户识别。