基于特征值推荐系统托攻击检测

2016-04-22 10:45卫星君
科技传播 2016年6期
关键词:聚类

卫星君

摘要 本文提出基于特征值的推荐系统托攻击检测。使用信息增益为不同攻击模型选择合适的特征值。确定攻击目标为K-means选择初始聚类中心,从而划分攻击用户和普通用户,识别出攻击用户.实验证明该算法有较好的检测准确率。

关键词 托攻击;特征指标;聚类

中图分类号 TP3 文献标识码 A 文章编号 1674-6708(2016)159-0079-02

1 概述

为了解决这种“信息过载”问题,个性化服务技术因此而诞生。它通过收集和分析用户的信息,在用户手动搜索之前将有用信息推荐给用户,来为不同用户提供不同的服务和内容。个性化推荐系统(personalizedrecommendersystems)(简称为推荐系统)已经成为解决信息过载问题不可缺少的一部分。在实际情况中,推荐系统的建议可以影响用户的选择行为,从而带来巨大经济利益。为了误导系统,“攻击者”会伪造用户记录,使得成为尽量多的正常用户的近邻,然后给要攻击的目标物品特好或者特差的评分值。为了确保伪造的记录能够奏效,攻击者需要找到更好的方法给系统做“托(shilling)”,最终实现影响系统的目的。

2 托攻击模型

2.1 相关定义

定义1(攻击概貌)托攻击是由注入推荐系统的攻击概貌构成。攻击者确定攻击项(itemt),给予部分项适当的评分构成一条攻击记录。

2.2 攻击模型

主流的攻击模型有随机攻击、均值攻击、流行攻击。

1)随机攻击

依据攻击概貌,随机攻击的选择项为空集(Is=φ),推攻击目标相为最大值评分(It=smax),核攻击目标项为最小值评分(It=min)。填充项(IF)随机选取除目标项之外的项集,填充项的评分则服从推荐系统中评分的正态分布。

2)均值攻击

依据攻击概貌,均值攻击的选择项为空集(Is=φ),推攻击目标相为最大值评分(It=max),核攻击目标项为最小值评分(It=min)。填充项(IF)随机选取除目标项之外的项集,填充项的评分则服从推荐系统中对项目(itemi)评分的正态分布。

3)流行攻击

依据攻击概貌,流行攻击同前两种攻击的不同在于添加了选择项。由于热门物品(流行项)很容易获得,比如畅销的书籍,受欢迎的电影等。攻击者会挑选几款流行的物品,赋予系统中最大值评分作为填充项(IF=smax)。

3 特征属性值的选择

攻击用户和普通用户本质上存在着差异性,可以计算每个用户对应特征值,来区分普通和攻击用户。

3.1 特征属性值

通过K-mean将标记用户归为不同簇集,得到稳定的k个聚类中心mean(k)。无论攻击用户或普通用户,将其分类到第K簇集,用户评分向量之间的相似度较高,因此其属性值也较近似。文献提出了不同的特征属性值,用来反映当前用户概貌的差异。对于用户概貌辨识度较高的通用特征属性如何下。

1)RDMA用来区分用户概貌每一个项的平均偏离程度。

2)WDMA用来区分用户概貌稀疏项的评分偏离程度,各变量含义同RDMA。

3)LengthVar用户概貌在系统中平均长度的变化。

4)FMV用来辨别用户概貌中填充项的变化。

3.2 攻击概貌属性值的选择

本文针对不同攻击模型选择合适的特征值。选择可以遵循信息增益大小来确定,依据分类系统中分类个数和样本情况评估。信息增益为分类系统的熵与条件熵差。表1所示,依据信息增益选择的特征值。

4 基于特征值半监督检测算法

4.1 算法步骤

具体步骤如下:

Step1采用上文描述的改进k-Means算法对标记用户进行聚类,划分为不同的K个簇集。

Step2利用式(2)、(3)求出簇集合均值中心mean(k)。

Step3计算Max(sim(user,k)),即计算与k个均值中心的相似度,把用户划分到相似度最大值对应的簇

猜你喜欢
聚类
基于K-means聚类的车-地无线通信场强研究
基于DBSACN聚类算法的XML文档聚类
基于高斯混合聚类的阵列干涉SAR三维成像
条纹颜色分离与聚类
基于Spark平台的K-means聚类算法改进及并行化实现
局部子空间聚类
基于最小圆覆盖的海上突发事件空间聚类研究
基于改进的遗传算法的模糊聚类算法
一种层次初始的聚类个数自适应的聚类方法研究
基于熵权和有序聚类的房地产周期分析