用户行为分析分类模型的研究

2016-02-19 22:04赵丙秀
计算机时代 2016年2期
关键词:聚类算法关联性

赵丙秀

DOI:10.16644/j.cnki.cn33-1094/tp.2016.02.014

摘  要: 针对网络运营商所关心的用户行为分析问题,探讨如何对网络用户的行为进行分析, 提出了一种用户行为分析分类的模型。首先根据关键字的关联性进行聚类分析,通过关键字被用户检索或浏览的次数对用户进行分类,然后在此基础上提出了加速算法和半衰期的概念,全面地阐述和分析了用户行为分析的总体框架。

关键词: 用户行为分析; 聚类算法; 关联性; 加速算法

中图分类号:TP393.4          文献标志码:A     文章编号:1006-8228(2016)02-46-03

Research on user behavior analysis and classification model

Zhao Bingxiu1,2

(1. Wuhan Vocational College of Software and Engineering, Wuhan, Hubei 430205, China; 2. The Open University of Wuhan)

Abstract: In this paper, the problems of user behavior analysis of network operators and how to analyze the behavior of network users are discussed, and a model of user behavior analysis and classification is put forward. The cluster analysis is performed according to the correlation of the key words, users are classified by the number of the keyword searched or browsed by the user, and then the concepts of acceleration algorithm and half-life are put forward to comprehensively expound and analyze the general framework of user behavior analysis.

Key words: user behavior analysis; clustering algorithm; correlation; acceleration algorithm

0 引言

随着互联网络的迅猛发展,以信息获取、交流沟通类为主的基础网络服务正逐渐发展为以休闲娱乐、电子服务、电子商务三大类服务为主的网络服务。与此同时,商业网站等赢利性站点需要分析用户的行为及爱好来提供更满意的服务使得其利润最大化,这与提高网站服务的效率和个性化程度密切相关;政府、科研机构等非赢利性的网站也需要通过分析用户构成与其网络行为上的特点来构建科学的决策支持系统。在国内,由于网络的连通性和拓扑结构,用户的数据包信息是可以通过分光器获得,服务的提供商可以通过对此分析而得到用户行为分析的基本数据。

1 模型的假设

用户行为分析依据的选取:用户在搜索引擎上查找的关键字和其浏览的网页均可作为用户行为分析的依据。我们可以把用户查找的关键字和其浏览网页标题的分词作为用户感兴趣的信息,关键词的数目是庞大的,同时很多关键字之间存在相关性,可以定性的将所有的关键字按照其相关程度划分为几十个类别,从而方便对用户的行为进行分析。

建立这个模型时,我们作了如下假设:

⑴ 用户的兴趣是经过一段比较长的时间形成的,长期形成的兴趣是稳定的,对于用户行为的分析是以时间为维度的。

⑵ 用户经常关注的内容必然是其感兴趣的内容。

⑶ 用户长期关注的某方面内容在该方面内容上相对于一般人必然更专业。

⑷ 专业人士看的内容也是专业的(不区分热点问题和专业问题)。

⑸ 经常看某方面专业文章的人,必然比看普及文章的人更专业。

⑹ 用户某时间段内不关注某方面内容,其在该方面的了解程度会有一个衰减。

2 模型的建立与求解

2.1 模型算法设计

⑴ 关键词的聚类算法设计

所有用户在搜索引擎上检索的关键词和其浏览的网页标题对其提取分词然后对搜集到的分词进行处理。假设存在n个关键词,分别将其标识为P1,P2,P3,…,Pn,Pi与Pj之间的关联度的值设为xij ,xij初始值设为0,若关键词Pi与Pj同时出现一次,即将其xij值加1,显然有xij=xji。

对一段相对比较长的时间内出现所有关键词进行处理之后得到一个无方向的强关联图。图内的每点都与多个其他点相联系且其联系程度可通过关联度值的大小来确定。

根据关联度我们对关键词划分类别。划分方法:先遍历一下关键词关联图,看哪个关键词周围的加权边最大,以这个关键词为核心,作为一个类别;一共划分出m个类别,其中包括关联度小于某一临界值q的其他类;然后根据这个关键词最大加权边的关键词,划入这个分类之中,对全部的m个分类都做一次,如果遇到冲突关键字(即此关键字已经划为另一类),则立即断开图里面的2个分类关键字的边,继续计算,直到m个分类划分完毕;针对孤立点的操作在这次分类中遗弃,等待下次分类时候看是否其是否能发展成为一个分类。

⑵ 用户分类的算法设计

一共s个用户,每个用户浏览一次某个关键词,该用户在该关键词所属的类别的权值加1,一定时间的统计后,该用户对m个类别分别有一个权值,将其定为用户在该类别上的等级分,分别标记为s1,s2,s3,…,sm,显然si的大小反映出该用户对该类别的兴趣的大小,取前t个兴趣作为用户主要兴趣。

⑶ 用户等级分衰减的算法设计

当用户某天没有浏览某类别的文章或检索相关字段时,其等级分相应会产生一个衰减。这里采取最常见的半衰期算法,等级分衰减的速度与等级分的高低成反比。设等级分为y,时间为t(单位为天,以天为单位进行衰减),r为常量,根据长期数据分析可以获得:

⑷ 用户专家等级分的计算

用户等级分到达一定程度,根据长期关注一个领域,就是傻瓜也会逐步精通,直至成为专家。同时专家关注的大部分文章必然也是专业性文章的原则,对专家的分类显得非常重要,一个是对等级分计算的加速能起到非常关键的作用,另外一个他也能决定文章的等级,同时也是区分用户群的重要标志。

专家等级一般采取3级制或5级制,常用的是设置临界值a1,a2,这些临界值的选取采取正态分布抽取,按照等级分为横轴,根据预先设定的用户数比例来得到专家分界值,当然也可以采取平均分段来选取临界值。

为了简化计算,提高后台的负载能力或者鼓励用户,一般用户达到某个等级后,会保留等级一个时间t0,这个时间将不会再计算用户的等级,从而大大减小分析系统是开销,保持用户的热度。

2.2 方程式求解、算法的最优解

⑴ 关键词的聚类算法分析

依照关键词的聚类算法我们将关联度较高的关键词归为同一个类别,而类别划分出的数目显然和我们选取的关联度的临界值是有关的。选取的关联度的临界值越高,划分出的类别数目越多;选取关联度的临界值越低,划分出的类别数目越少。

选取的一个重要原则是能显著的划分类,这里将划分类时的临界值设为q,在划分第i个类时,该类中最小的关联度为Qi,该类与无向图中其他的结点最大的关联度为qi(显然有qi<q<=Qi),这里要求显著性程度很高即要求Qi与qi的差值尽可能大。若n个变量划分出(m-1)个类别与一个其他类别,其他类别不予考虑,我们可以设一个显著性水平变量p=(∑(Qi-qi))/(m-1),当p值越大时,类别的划分越显著。

同时我们需考虑划分出的类别数目,过多的类别不便管理,而过少的类别不能全面反应用户的行为。

综合考虑p和m,选取合适的临界值q,使得划分出的类数目和显著性都较为合适。

⑵ 用户分类的算法分析与方程式求解

在对用户根据其在m个类别上的积分取前t个最大积分从而获得用户最感兴趣的类别时,其中t的选取,如果参照前面的显著性的划分实在很庞大,数量计算量比较大,可能用户差不多感兴趣的话题有数个,其积分相差不大,积分相同的概率很小,忽略之。为了方便投放广告,t选取4-8即可。

根据半衰期模型等级分y相对于时间t的为:

y(t)=sme-rt

其中,sm是代表用户第m个兴趣点的初始等级分,t为多少天没有看过相关兴趣点的关键类别,r为衰减常数,一般通过长期数据分析获取。

衰减过程先快再变慢,符合人的记忆规律和兴趣的规律,并且接近人的记忆曲线。

3 模型的优化

以上算法虽然可以实现对用户的分类,但是有很多常数和用户等级都需要长时间的数据积累。根据实践经验,一般能够对用户开始精准分类需要半年甚至一年的时间,这对于互联网需要即时发现新用户兴趣,而非粘连用户,从而保护用户不流失来说,并不是很理想,因此我们必须引入加速算法。

加速算法描述:

一段时间后,用户的积分达到某一固定值,对m个类别而言,某类别上s个用户的积分分别为m1,m2,m3,…,ms,必然有用户的积分的差异,将积分占该类别积分前固定百分比的用户定位为专业级用户,在另一个百分比段的用户定位为一般级用户,剩下的是菜鸟级别用户(建议专业级,一般级,菜鸟级),在假设中已假定各种级别浏览的文章的专业程度不同,然后高级、中级、低级用户给文章的加分不同,反过来文章作用于用户给用户加分的等级不同。

4 结束语

在实际中,网络运营商和服务提供商通过对用户行为分析的分类,掌握用户访问网站的规律性特点,挖掘出的用户访问模式,发现用户的群体构成以及其兴趣和偏好,从而为用户提供更具个性化服务以及商品推荐,更好地制定网络规划和业务运营支撑决策, 将用户的数据转化为用户的价值。

参考文献(References):

[1] 董富强,马力,武波.一种基于Ineternet的用户行为分类方法

与模型的研究[J].现代电子技术,2004.22.

[2] 王攀,张顺颐,陈雪娇.基于动态行为轮廓库的Web用户行为

分析关键技术[J].计算机技术与发展,2009.2.

[3] 张轲智.基于Web的数据挖掘系统设计与实现 [D].电子科技

大学硕士学位论文,2013.

[4] 任文君.基于网络用户行为分析的问题研究[D]. 北京邮电大

学硕士学位论文,2013.

[5] 高志琨,康鑫,郭玉翠.互联网中基于用户行为的信任分类模

型[J].北京邮电大学理学报,2011.3.

猜你喜欢
聚类算法关联性
四物汤有效成分的关联性分析
数据挖掘算法性能优化的研究与应用
K—Means聚类算法在MapReduce框架下的实现
基于K?均值与AGNES聚类算法的校园网行为分析系统研究
如何准确认定排污行为和环境损害之间的关联性
基于改进的K_means算法在图像分割中的应用
大规模风电场集中接入对电力系统小干扰稳定的影响分析
CRP检测与新生儿感染的关联性
基于暂态特征聚类的家用负荷识别
设计鲜为人知的一面:匠艺的关联性