浅析移动社交网络语义话题的若干关键技术

2016-11-16 15:25赵建东陆奎李雪萍
电脑知识与技术 2016年25期
关键词:移动网络

赵建东+陆奎+李雪萍

摘要:随着移动终端的普及,手机用户之间的沟通、传播与分享正在构建自组织移动社交网络并逐步渗透到人们日常生活、工作、学习和娱乐中,而移动社交网络也将成为一种全新的连接并融合物理空间和网络空间的真实社会网络模式。随之而来的对日益海量和错综复杂信息的移动网络语义话题的研究也日趋困难。因此,该文以海量的、高阶异构的移动社会网络数据为背景,提出了以语义话题发现、搜索和溯源为目标来探究社交网络及其语义话题的关键技术。

关键词:移动网络;语义话题;话题溯源;潜在语义;话题搜索

中图分类号:TP393.092 文献标识码:A 章编号:1009-3044(2016)25-0227-03

Abstract: With the popularity of mobile, the communication, spread and sharing between mobile phone users are building self-organization mobile social network and gradually permeating into Peoples Daily life, work, study and entertainment. Mobile social network will also become a new real social network model with connecting and integrating the physical space and cyberspace .Of course the increasing and complex information semantic topic research has become increasingly difficult. Therefore, based on the mass, the high order heterogeneous mobile social network data, This article put forward to found , search, and trace semantic topics to explore social network and the key technologies of semantic topics.

Key words: mobile network; semantic topic; topic roots; latent semantic; topic search

1 背景

随着智能手机等移动设备的普及,使用移动设备来访问社交网络逐渐成为主流,随之带来了大量崭新的研究和应用机会,例如位置服务、传感器技术与社交网络的结合以及针对移动社交网络数据的管理与挖掘等。近期,在多个国际学术会议中,如UbiComp和ACM SIGSPATIAL,移动社交网络都是研究热点。伴随着SoLoMo(Social、Local、Mobile三个字母开头组合而成的,即社交加本地化加移动)概念的风靡,国内外创业公司也开始关注这个领域。

互联网的普及使人类以前所未有的广度和深度及时记录和存储信息,且各种形式的Web社会网络为用户提供了一个信息传播与信息共享的平台。用户与Web的高互动性极大促进了社会行为向Web行为、现实社会关系向网络社会关系的转化过程。然而,目前话题模型是单一同构的纯文本或纯关系模型,无法体现移动社会网络中人-社区-知识三者间的异构关系和动态性。而且移动社会网络上社会化标注不规范性的特点和一些不确定的话题来源会降低算法的效率和性能,使得无法揭示移动社会网络的结构特性、进而更准确地对话题进行发现、检索以及溯源。因此,迫切需要在新的领域出现新的技术的出现对移动社会网络的特性进行全面准确地把握和利用。

2 移动社交网络语义话题的研究

2.1 遇到的问题

由于以人、社区和知识为主体的移动社交网络呈动态变化趋势,如个人社交环境的变化、社区成员的增减和语义话题的改变,使得在人-社区-知识间构建稳定的关联模型变得十分复杂。目前话题模型是单一同构的纯文本或纯关系模型,此类模型无法体现移动社会网络中人-社区-知识三者间的异构关系,而且当前的模型构建算法均不能表达移动社会网络中人、社区和知识三大主体的动态变化过程,因此如何有效的表达人-社区-知识间的异构关系以及移动社会网络的动态性是移动社会网络潜在语义话题发现的基础问题。

其次,移动社会网络上社会化标注具有不规范性。如何对不规范的社会化标注进行准确、智能的规范标注是语义话题搜索面临的新挑战。另外,传统的基于关键词的匹配搜索已经不能满足移动社会网络上实体之间的高阶异构关联特性。例如:当用户在社会网络中搜索一个特定关键词的时候,不仅需要预测用户搜索目标(如:人、文档和社区),还需要在语义话题的层次上进行匹配。这是因为社会网络生成的信息大多数是短文档,很多短文档在语义上和查询相关,但很可能不包含查询的关键词。因此,如何自动预测用户的查询动机以及如何在语义话题的层次上进行语义搜索也是移动社会网络必须解决的难题。

最后,话题的来源具有不确定性。日常生活中话题的传播范围较小,而社会网络的发展放大了个人的话题传播范围。比如,舆情在网络上具有表达快捷、信息多元、互动性强等传统媒体无法比拟的优势。但同时也容易出现一些失真的、虚假的言论。各种不良话题开始借助于社区媒体这种跨地域、跨国界、开放式的通信方式进行传播。特别是反动、不利于社会安定的言论传播,需要找到话题的源头,锁定谣言的散布者以平息谣言,打击非法分子,维护社会稳定。目前的研究主要关注话题的检测和跟踪,而话题的溯源研究还没有相关报道。因此,迫切需要在这方面开展工作。

2.2 关键技术

具体而言,本课题的研究内容如图1所示,主要包括如下几个方面:

2.2.1 隐含语义空间中潜在语义话题的发现

LDA模型描述了社区与知识话题的生成过程,步骤如下:

1)对于每个社区dS,根据θd~Dir(α),得到多项式分布参数θd;

2)对于每个知识话题zK,根据Φz~Dir(β),得到多项式分布参数Φz;

3)对于社区d中的第i个人md,i根据多项式分布zd,i~Mult(θd),得到话题zd,i;根据多项式分布md,i~Mult(Φz),得到社区d的成员md,i。

其中:Dir表示Dirichlet分布,Mult表示多项式分布。这一模型可由下图2表示,改模型表示法也称作“盘子表示法”。其中的阴影圆圈代表可观测变量,隐含变量则由非阴影圆圈表示,箭头方向代表两变量间的条件依赖性,方框表示重复取样并将重复次数显示在方框的右下角。 根据LDA的生成模型,整个基于所有的参数和变量的联合分布概率可以表示为:

使用吉布斯取样法进行Φ和θ的最大概率估算时,为满足语义网络中人-社区-知识的动态特性,分别建立人-社区计数矩阵C和个人-知识矩阵D,在每一次取样循环中,社区di的潜在语义知识话题可通过对社区di中的第j个实体的语义知识话题结构的整个条件后分布进行取样得到。

?ij表示人和社区对应的知识结构不在计数中,当人-社区-知识概率结构发现改变时,矩阵C?ij和D?ij会被更新。在多次迭代之后社区-知识话题分布θd和个人-知识分布Φz的值可以用下以公式估算。

2.2.2 MapReduce的优化策略研究

针对高阶异构对象的同构化,研究统一关系矩阵中线性加权系数在一定区间范围内的最优参数,采用网格寻优方法确定最优参数。考虑到移动社会网络中数据的海量性,基于MapReduce实现高阶异构实体对象的同构化算法。首先,在数据划分阶段将每个系数的范围n等分,这样n阶异构对象最多产生nn个网格区间,在这些网格区间上进行MapReduce计算,每个计算的结果都是候选的最优解,在Reduce阶段将他们输出到最优解集合中。在map阶段,如果map处理的数据网格所含数据较多会影响到map阶段数据处理的性能。因此为了提高Map阶段数据处理的性能,引入贪婪算法思想,在Map数据处理阶段,用近似最优解代替最优解。基于该算法,从待计算的数据集中随机抽取一部分数据,求出最优解放入一个集合A中;然后在随机抽取一部分数据求出最优解,加入到集合A中。直到次数足够多,那我们可以认为集合A中的最优解就是原数据集的最优解。MapReduce的执行流程图如图3所示。

在Map阶段产生的文件需要在Map端、Reduce端两端并行的传输,而如果当多个Reduce端同时读取到一个Map端的数据时,就会造成数据传输的阻塞,降低效率从而使得性能急剧下降。因此,为了提高数据传输的性能,本文提出一种数据主动推送的方式来代替MapReduce编程模型中Reduce节点读取Map节点数据的规约方式。首先用代替原模型的集合,在执行完Map操作后,调用NKV路由算法,计算出效率较高的集合。该集合表示key值为S-Key的结果,应该被推送到key值为R-key的Reduce节点上。

2.2.3 话题溯源递推过程的终止条件研究

话题溯源时确定话题的终止条件,必须掌握话题的传播模型。已有的话题传播模型假设网络是静态的,而没有考虑到网络的动态变化过程,且假设每个节点仅仅有两种状态。为解决这些问题,我们提出话题传播的网络动力学模型ANR,使用三个状态,并基于场理论考虑网络的动态变化过程,研究话题端到端传播的临界点。以N表示未接触话题状态(未激活状态),A表示接触话题并传播状态(激活状态),R表示接触话题而不愿传播状态(即免疫状态)。设未激活态到激活态的概率为,激活态到免疫态的概率为μ,则三种状态的动力学方程为:

设a(t),n(t),r(t)分别为A,N,R状态的密度,当传播话题人员与不愿传播话题人员充分混合以后,ANR模型的动力学可以用以下微分方程组描述

随着时间的增加,话题溯源的范围越小。经过充分的迭代缩小话题范围,最终话题的源头就可以找到。话题的传播密度r(T)与传播率存在一一对应关系。只有当阈值<时, 才能停止搜索话题的源头。此处

其中为移动社会网络图生成矩阵的最大特征值。

3 结束语

移动互联网的普及使人类以前所未有的广度和深度及时记录和存储信息,且各种形式的社交网络为用户提供了一个信息传播与信息共享的平台。而本文以移动社会网络数据的海量性、高阶异构性和语义信息不完整性为应用背景,以语义话题发现、搜索和溯源为目标,以建立移动社会网络信息关联体系为核心,以移动社会网络中高阶异构的"人-社区-知识实体"海量信息关联挖掘为切入,从潜在语义话题发现、海量数据优化策略算法以及话题溯源三个方面对移动社交网络语义话题进行说明,更好地处理和理解移动社会网络中的数据,并在此基础上实现语义话题的发现、检索以及溯源,推进社会网络的进一步发展。

参考文献:

[1] Fox J, Moreland J J. The dark side of social networking sites: An exploration of the relational and psychological stressors associated with Facebook use and affordances[J]. Computers in Human Behavior, 2015, 45(4): 168-176.

[2] Tsiotsou R H. The role of social and parasocial relationships on social networking sites loyalty[J]. Computers in Human Behavior, 2015, 48(5): 401-414.

[3] Van Royen K, Poels K, Daelemans W, et al. Automatic monitoring of cyberbullying on social networking sites: From technological feasibility to desirability[J]. Telematics and Informatics, 2015, 32(1): 89-97.

[4] Park J. The effects of personalization on user continuance in social networking sites[J]. Information Processing & Management, 2014, 50(3): 462-475.

[5] 杨建武. 基于核方法的XML文档自动分类[J]. 计算机学报, 2011, 34(2): 353-359.

[6] 卢汉清,刘静. 基于图学习的自动图像标注[J]. 计算机学报, 2008, 31(9): 1629-1639.

[7] 王鹏,张磊,任超,等. 云计算系统相空间分析模型及仿真研究[J]. 计算机学报, 2013, 36(2): 286-296.

[8] 史英杰,孟小峰. 云数据管理系统中查询技术研究综述[J]. 计算机学报, 2013(2): 209-225.

猜你喜欢
移动网络
移动网络的大学英语微课自主学习引导研究
蜂窝网络终端直通通信功率控制研究
移动网络下社区医疗卫生服务创新研究
论中学生沉迷手机的原因与危害及应对措施
微信营销的发展前景分析