社交网络中领域专家发现模型研究

2018-09-26 11:30高晓波方献梅
软件导刊 2018年7期
关键词:用户行为领域专家社交网络

高晓波 方献梅

摘要:随着Web2.0和移动终端设备的发展,社交网络日益普及,寻找社交网络中的领域专家已成为研究热点。微博是当今流行的社交网络,以新浪微博数据为例,首先按用户发布的微博主题将用户划分为各个领域,然后提出在各领域内计算微博社交网络用户权威值的模型。模型充分考虑了用户发布的微博数目、用户粉丝数以及粉丝评论、转发和提及用户等行为对用户权威值的影响,最终计算出用户权威值。实验结果证实了该领域专家发现模型的合理性与可行性。

关键词:微博;社交网络;用户行为;专家发现;领域专家

DOI:10.11907/rjdk.181611

中图分类号:TP301

文献标识码:A文章编号:1672-7800(2018)007-0067-03

Abstract:WiththedevelopmentofWeb2.0andmobileterminaldevices,socialnetworksarebecomingpopular.Howtolocatetheexpertsinaspecificfieldisaresearchfocusinthisarea.SinaWeiboisoneofthemostpopularon-linesocialisingtoolsinChina.ThispapertriestouseamathematicalmodeltodistinguishexpertsfromnormalusersofSinaWeibo.Firstofall,usersaredividedintodifferentfieldsaccordingtotheposts'theme.Andthenthemodel,whichtakesintofullaccountseveraluserbehaviors,includingtheamountofthepostsandcomments,numberoffansandforwardrates,willcalculatetheauthoritativevalueofeachuser.Theresultoftheexperimentverifiestheadvancementofthismodelintherealnetworkenvironment.

KeyWords:microblog;socialnetworking;userbehavior;expertslocating;domainexperts

0引言

据中国互联网络信息中心发布的第41次全国互联网发展统计报告,截至2017年12月,中国网民规模达7.72亿,互联网普及率为55.8%,微博用户使用率已达到40.9%,知乎、豆瓣、天涯社区用户使用率均有所提升,表明越来越多用户通过各种社区平台进行互动,以获取和表达观点,各种网络社区已成为人们发表言论的重要场所。新浪微博作为我国主流的微博服务提供商之一,一条微博可以包含140字左右的文字,用户可以在微博中添加URL短地址服务、图片、音视频及地理信息等。微博社交网络的海量数据资源中不仅包含大众普遍关注的社会信息,也包含了用户行为特征及热点事件。社交网络中用户的关注、发帖、转帖、评论等行为蕴含了用户偏好、用户权威性等信息。对社交网络中的用户行为进行分析,可以评估用户影响力。

目前活跃在互联网上的专家主要是通过互联网平台相互传播而形成的具有影响力的意见领袖,他们在互联网上发表对某个领域的观点,并得到大量普通网民的关注、支持、转发、评论,从而形成对民众的观点引导和舆论影响。他们的话题之所以受到广泛关注,主要在于其发表的观点具有良好的指导性、前瞻性和可靠性,能为普通民众提供有效的信息指导。社区专家发现已成为国内外学者的研究热点之一。

近年来,专家发现得到了快速发展,主要集中在知识分享平台(CQA)、学术文献专家和信息管理系统中。问答平台[1]具有明确的问与答关系,答题者具有较为明显的专家特征,通过研究用户历史问答记录领域知识的相关性,得到用户的专业知识、声誉和权威性。周光有等[2]基于用户局部相似性,实现问答平台中用户的主题敏感概率模型进行专家估计;RiahiFatemeh等[3]使用集合概率模型和统计主题模型实现问答社区的专家发现;FermeierRalphf等[4]在wiki中通过语义相似度补充专家本体,实现根据专业知识水平和同行评审协作的专家识别;WuChi-Jen等[5]通过构造P指数评价专家,从而实现领域内的专家发现;NaqviMohsin等[6]提出基于时态关联规则的专业知识挖掘算法实现学术专家发现。

Web社区中的专家与普通用户并没有显著区别,且零散地分布在互联网中,这与知识分享平台和学术专家平台具有很大区别。目前已有学者研究Web社区中的专家发现,但主要是将Web社区作为一个社交网络进行分析。SuHang等[7]研究在一个特定领域的社交平台中进行专家发现,但并不适用于广义的社区平台;YinHongzhi等[8]提出通過影响力对专家小组进行识别,但是忽略了领域特征;SmirnovaElena[9]提出用贝叶斯层次概率模型综合分析社会关系和文本主题,大大提高了专家发现效率,但没有揭示交互关系与主题特征的逻辑关系,缺乏精确的概率函数;JianJiao等[10]通过构造空间向量模型计算文本相关性,通过改进的PageRank算法计算用户关注度,实现对专家的综合排名;LiuYang等[11]研究基于语义知识网络推理对查询条件与专家特征进行相关性度量的排序方法;CraigMacdonald等[12]研究专家文档排名与专家排名的关系,提供基于文档权重的排序方法;DavoodiE等[13]提出一种基于内容和关系的混合推荐算法,运用社会网络分析,并考虑用户经验背景、知识水平、个人偏好等因素,匹配最合适的专家进行推荐;PhamXH等[14]提出RecSys框架,在发现用户偏好和判断的基础上,匹配知识的特征属性和具有价值的相关专家。

本文以新浪微博社交网络为研究对象,判断一个用户是否是专家(意见领袖),通常需要综合利用微博用户多方面信息,如用户活跃度、用户标签、用户评论及转发微博、用户关注的用户群及关注该用户的用户群等。基于微博用户之间的关注、转发、评论等关系构建微博社区的用户行为交互关系网络,按照用户发布微博所属主题将用户划分到各个领域,从真实微博社区中提取各领域用户的相应数据,根据模型计算用户权威值,排名靠前的用户即是筛选出的相应领域专家(意见领袖)。

1社区用户交互关系网络图

社交网络已成为网络信息传播的重要途径,为广大用户提供了开放、自由的虚拟讨论空间。在各社区平台提供了不同主题类别,社区用户可针对感兴趣的主题发表微博,用户间的交互方式有评论、转发等关系,通过这些关系建立用户之间的交互关系网络图G=(U,E)。其中U表示网络中的节点集合,即社区用户;E表示网络中的边集,etij∈E表示用户Ui和Uj间存在关系t(t可以是评论、转发、提及等)。

图1给出的是微博社区用户交互关系的一部分。微博社区中每个用户有档案信息(包含用户发布的微博数等信息)和社会关系信息,两个用户间的交互关系可以是单向的,也可以是双向的。图1中,用户U5有1个单向交互关系(如所发微博被用户U7评论过)和3个双向交互关系(如U5和U4在所发微博中都提及到对方),U6和U7间既有单向交互关系(U7对U6的微博进行评论),也有双向交互关系(U6和U7相互转发对方微博)。

本文以新浪微博社交网络为研究对象,通过网络爬虫抓取2016年9月10日-2017年5月12日的数据,构建社区用户间的交互关系网络。

2Web社区领域专家发现模型

本文提出的社区领域专家发现模型首先通过LDA主题模型[15],抽取用户微博主题,将主题分配给各个类别,并通过微博主题分类将用户分为不同类别,在各类别领域不仅考虑用户所发微博数目和用户社会关系(关注历史),还考虑用户间的交互行为(评论、转发及提及)。模型提出的专家权威值包含两部分:用户初始权威值与粉丝影响力。

2.1LDA主题模型

LDA是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,可用来识别文档中的主题信息。LDA生成方法如下:

Chooseparameterθ~p(θ);

ForeachoftheNwordsw_n:

Chooseatopicz_n~p(z|θ);

Chooseawordw_n~p(w|z);

其中θ是一个主题向量,向量的每一列表示每个主题在文档中出现的概率;p(θ)是θ的分布;N表示要生成文档的单词个数,w_n表示生成的第n个单词w;z_n表示选择的主题,p(z|θ)表示给定θ时主题z的概率分布;p(w|z)表示给定z时w的分布。其图模型如图2所示,其中D表示文档总数,Nd表示文档d中的单词总数。

获取用户所发微博,按LDA模型找出微博主题。主题可能有多个,通常一个人在擅长领域会发布较多微博,因而本文选取其中出现概率最大的一个主题,也即取出一个用户最擅长的,并最终分配到对应的8个类别:娱乐、科技、商业、运动、教育、新闻、生活、闲聊。

2.2领域用户权威值初始化

利用LDA模型将用户分配到相应领域,然后可以分领域计算各领域内的用户权威值。一般而言,高权威用户的粉丝较多,发布的微博也较多,因而对用户权威值进行初始化时,需要充分考虑这两方面信息。

定义1(关注→)新浪微博中,如果用户Ui关注了用户Uj,记为Ui→Uj,则用户Uj称为用户Ui的关注好友,用户Ui称为用户Uj的粉丝。

用户的初始权威值使用公式(1)进行计算。

式(1)中,Auth(Ui)表示用户Ui的初始权威值,F(G,Ui)表示微博社交网络中用户Ui的粉丝数目,max(F(G,.))和min(F(G,.))分别表示用户的最大粉丝数和最小粉丝数,N(G,Ui)表示用户Ui发布微博数目,max(N(G,.))和min(N(G,.))分别表示用户发布的最大和最小微博数目。α、β为调节系数,且α+β=1。初始权威值越大,说明该用户影响力越大,越有可能是需要寻找的专家。

2.3粉丝用户影响力

在新浪微博中,一条微博受到关注,除微博内容本身和发布微博的用户影响力外,还与微博传播网络中粉丝用户的影响力有关。

定义2(用户交互系数Ci,j)Ci,j为用户Ui和该用户粉丝Uj之间的交互系数,表示用户Uj对用户Ui微博的评论频率及用户Uj在自身微博中转发或@Ui(提及用户Ui)的微博比例。Ci,j的值由公式(2)进行计算。

式(2)中,Ti和Tj分别表示用户Ui和用户Uj发布的微博数量。考虑到微博的时效性,Ti和Tj选取用户最新发布的至多200条微博。Rj,i表示用户Uj对用户Ui微博的评论次数,Rtj,i与Mj,i分別表示用户Uj转发与提及用户Ui的微博次数。γ为正整数,用来线性放大用户间的行为交互影响。

用户的最终权威值由用户初始权威值和粉丝权威值两部分构成。

3实验

3.1实验数据

本文实验数据来自新浪微博2016年9月10日—2017年5月12日的数据,去掉一些无效和空信息后,有191037个用户的2753208条微博信息,以及微博评论信息、转发信息和所有用户的关注好友信息及粉丝信息。

对用户发布的微博使用LDA主题模型进行分类,将微博用户分为8个领域,考虑到粉丝数少的用户影响力较小,因而本文只选取粉丝数在120个以上的用户。

3.2实验结果

使用公式(1)计算各领域用户的初始权威值,这里α取0.8,β取0.2,然后使用公式(3)计算每个用户的最终权威值,本文使用P@10及MAP评估专家发现结果,结果如表1所示。

4结语

Web社区中各专家的专业程度、影响力等各不相同。本文以新浪微博数据为例,首先按用户发布的微博主题将用户划分为各个领域,然后提出在各领域内计算微博社交网络用户权威值的模型,模型提出用户的最终权威值由用户初始权威值和粉丝权威值共同决定。实验结果验证了算法的合理性与可行性。

参考文献:

[1]LIUDR,CHENYH,KAOWC,etal.Integratingexpertprofile,reputationandlinkanalysisforexpertfindinginquestion-answeringwebsites[J].InformationProcessing&ManagementAnInternationalJournal;,2013,49(1):312-329.

[2]ZHOUG,LAIS,LIUK,etal.Topic-sensitiveprobabilisticmodelforexpertfindinginquestionanswercommunities[C].ACMInternationalConferenceonInformationandKnowledgeManagement.ACM,2012:1662-1666.

[3]RIAHIF,ZOLAKTAFZ,SHAFIEIM,etal.Findingexpertusersincommunityquestionanswering[C].Proceedingsofthe21stInternationalConferenceCompaniononWorldWideWeb.ACM,2012:791-798.

[4]SCHAFERMEIERR,PASCHKEA.UsingdomainontologiesforfindingexpertsincorporateWikis[C].Proceedingsofthe7thInternationalConferenceonSemanticSystems.ACM,2011:63-70.

[5]WUCJ,CHUNGJM,LUCY,etal.Usingweb-miningforacademicmeasurementandscholarrecommendationinexpertfindingsystem[C].Proceedingsofthe2011IEEE/WIC/ACMInternationalConferencesonWebIntelligenceandIntelligentAgentTechnology,2011:288-291.

[6]NAQVIM,USMANA,BATOOLS,etal.FindingscientificexpertsofACMcategoriesbasedontemporalassociationrulemining[C].ComputerNetworksandInformationTechnology(ICCNIT),2011InternationalConferenceon.IEEE,2011:273-277.

[7]SUH,TANGJ,HONGW.LearningtoDiversifyExpertFindingwithSubtopics[M].AdvancesinKnowledgeDiscoveryandDataMining.SpringerBerlinHeidelberg,2012:330-341.

[8]YINH,CUIB,HUANGY.FindingaWiseGroupofExpertsinSocialNetworks[C].InternationalConferenceonAdvancedDataMiningandApplications.Springer-Verlag,2011:381-394.

[9]SMIRNOVAE.Amodelforexpertfindinginsocialnetworks[C].Proceedingsofthe34thInternationalACMSIGIRConferenceonResearchanddevelopmentinInformationRetrieval.ACM,2011:1191-1192.

[10]JIAOJ,YANJ,ZHAOH,etal.Expertrank:anexpertuserrankingalgorithminonlinecommunities[C].NewTrendsinInformationandServiceScience,2009.NISS'09.InternationalConferenceon.IEEE,2009:674-679.

[11]YANGL,HUZ,LONGJ.Serviceofsearchingandrankinginasemantic-basedexpertinformationsystem[C].ServicesComputingConference(APSCC),2010IEEEAsia-Pacific.IEEE,2010:609-614.

[12]MACDONALDC,OUNISI.Theinfluenceofthedocumentrankinginexpertsearch[J].InformationProcessing&Management;,2011,47(3):376-390.

[13]DAVOODIE,KIANMEHRK,AFSHARCHIM.Asemanticsocialnetwork-basedexpertrecommendersystem[J].AppliedIntelligence,2013,39(1):1-13.

[14]PHAMXH,JUNGJJ,NGUYENNT.Integratingmultipleexpertsforcorrectionprocessininteractiverecommendationsystems[M].ComputationalCollectiveIntelligenceTechnologiesandApplications.Berlin:Springer,2012:31-40.

[15]BLEIDM,NGAY,JORDANMI.Latentdirichletallocation[J].JournalofMachineLearningResearch,2003,3:993-1022.

(責任编辑:黄健)

猜你喜欢
用户行为领域专家社交网络
良好睡眠,健康同行
电力高校图书馆转型智库服务的研究
社会化媒体用户使用动机与行为探析
基于科技文献库的领域专家群发现及其推荐方法
“电子信息创新技术”研讨会征文