基于特征值推荐系统托攻击检测

2016-04-22 10:45卫星君

科技传播 2016年6期

关键词：聚类

卫星君

摘要本文提出基于特征值的推荐系统托攻击检测。使用信息增益为不同攻击模型选择合适的特征值。确定攻击目标为K-means选择初始聚类中心，从而划分攻击用户和普通用户，识别出攻击用户.实验证明该算法有较好的检测准确率。

关键词托攻击；特征指标；聚类

中图分类号 TP3 文献标识码 A 文章编号 1674-6708（2016）159-0079-02

1 概述

为了解决这种“信息过载”问题，个性化服务技术因此而诞生。它通过收集和分析用户的信息，在用户手动搜索之前将有用信息推荐给用户，来为不同用户提供不同的服务和内容。个性化推荐系统（personalizedrecommendersystems）（简称为推荐系统）已经成为解决信息过载问题不可缺少的一部分。在实际情况中，推荐系统的建议可以影响用户的选择行为，从而带来巨大经济利益。为了误导系统，“攻击者”会伪造用户记录，使得成为尽量多的正常用户的近邻，然后给要攻击的目标物品特好或者特差的评分值。为了确保伪造的记录能够奏效，攻击者需要找到更好的方法给系统做“托（shilling）”，最终实现影响系统的目的。

2 托攻击模型

2.1 相关定义

定义1（攻击概貌）托攻击是由注入推荐系统的攻击概貌构成。攻击者确定攻击项（itemt），给予部分项适当的评分构成一条攻击记录。

2.2 攻击模型

主流的攻击模型有随机攻击、均值攻击、流行攻击。

1）随机攻击

依据攻击概貌，随机攻击的选择项为空集（I_s=φ），推攻击目标相为最大值评分（I_t=s_max），核攻击目标项为最小值评分（I_t=_min）。填充项（IF）随机选取除目标项之外的项集，填充项的评分则服从推荐系统中评分的正态分布。

2）均值攻击

依据攻击概貌，均值攻击的选择项为空集（I_s=φ），推攻击目标相为最大值评分（I_t=_max），核攻击目标项为最小值评分（I_t=_min）。填充项（IF）随机选取除目标项之外的项集，填充项的评分则服从推荐系统中对项目（item_i）评分的正态分布。

3）流行攻击

依据攻击概貌，流行攻击同前两种攻击的不同在于添加了选择项。由于热门物品（流行项）很容易获得，比如畅销的书籍，受欢迎的电影等。攻击者会挑选几款流行的物品，赋予系统中最大值评分作为填充项（IF=s_max）。

3 特征属性值的选择

攻击用户和普通用户本质上存在着差异性，可以计算每个用户对应特征值，来区分普通和攻击用户。

3.1 特征属性值

通过K-mean将标记用户归为不同簇集，得到稳定的k个聚类中心mean（k）。无论攻击用户或普通用户，将其分类到第K簇集，用户评分向量之间的相似度较高，因此其属性值也较近似。文献提出了不同的特征属性值，用来反映当前用户概貌的差异。对于用户概貌辨识度较高的通用特征属性如何下。

1）RDMA用来区分用户概貌每一个项的平均偏离程度。

2）WDMA用来区分用户概貌稀疏项的评分偏离程度，各变量含义同RDMA。

3）LengthVar用户概貌在系统中平均长度的变化。

4）FMV用来辨别用户概貌中填充项的变化。

3.2 攻击概貌属性值的选择

本文针对不同攻击模型选择合适的特征值。选择可以遵循信息增益大小来确定，依据分类系统中分类个数和样本情况评估。信息增益为分类系统的熵与条件熵差。表1所示，依据信息增益选择的特征值。

4 基于特征值半监督检测算法

4.1 算法步骤

具体步骤如下：

Step1采用上文描述的改进k-Means算法对标记用户进行聚类，划分为不同的K个簇集。

Step2利用式（2）、（3）求出簇集合均值中心mean（k）。

Step3计算Max（sim（user，k）），即计算与k个均值中心的相似度，把用户划分到相似度最大值对应的簇