基于关联规则的茶叶电子商务推荐系统设计研究

2018-01-19 14:07王雪媛
福建茶叶 2018年9期
关键词:项集置信度关联

王雪媛

(内江师范学院,四川内江 641100)

基于关联规则是一种常见的电子商务推荐技术,是根据茶叶交易历史数据,挖掘出不同类型商品在销售过程中的关联性,形成关联规则,并据此预测用户对未购买过的产品的兴趣,进而产生推荐结果。

1 关联规则

关联规则挖掘也称购物篮分析,表达了数据项之间的依存性和关联性[1]。设m个不同的项目集合为I={il,i2,…,im),每一个事务T是项集的子集,即T⊆I。关联规则可以表示为一个蕴含式R:X→Y(X⊆I,Y⊆I,X∩Y=Ø)。关联规则的支持度support是交易(事物)集中同时包含X、Y的交易数与所有交易数之比,其本质是反映X、Y同时出现的概率,最小支持度是要求项集必须满足的最小支持阈值,是剪枝的重要依据。支持度大于或等于最小支持度的项集称为频繁项集,简称频繁集,反之称为非频繁集。置信度表示规则值得信任的程度,confidence(X→Y)=support(X∪Y)/support(X)。最小置信度表示关联规则的最低可靠性。

事务数据库中存在着海量的关联规则。但是,只有强关联规则才对商家具有决策指导价值。所谓强关联规则是指既满足最小支持度又满足最小置信度。

2 Apriori算法

Apriori算法是一种挖掘关联规则的频繁项集算法,是关联规则的经典算法之一。可分解为两个处理步骤:(1)根据最小支持度找出所有的频繁项目集;(2)根据第一步找到的频繁项集产生所期望的强关联规则。

3 基于关联规则的茶叶推荐实例

假定一个购买茶叶事务数据库 S={S1,S2,S3,S4},设 δ=50%,则最小支持度MinSup=4*50%=2,其中假定最小置信度Minconf=70%。S1,S2,S3,S4分别购买了熙春茶(BOHEA Tea)、功夫茶 (HYSON Tea)、屯溪茶(TWANKAY Tea)、祁门茶 (K0EEMUN Tea)、茉莉花茶(Jasmine Tea)五种茶叶的情况是{1、0、1、1、0},{0、1、1、0、1},{1、1、1、0、1},{0、1、0、0、1},其中 1代表曾有购买行为,0表示没有购买行为。

首先,产生茶叶购买候选集L1,得到各茶叶BOHEA Tea、HYSON Tea、TWANKAY Tea、K0EEMUN Tea、Jasmine Tea 的支持度分别为 2、3、3、1、3。所以,C1={(BOHEA Tea),(HYSON Tea),(TWANKAY Tea),(Jasmine Tea)},剪掉其中支持度小于 MinSup的项目集,从C1产生L2为{(BOHEA Tea、HYSON Tea:1);(BOHEA Tea 、TWANKAY Tea:2);(BOHEA Tea、Jasmine Tea:1);(HYSON Tea、TWANKAY Tea:2);(HYSON Tea、Jasmine Tea:3);(TWANKAY Tea、Jasmine Tea:2)},剪掉不符合要求的项目集,则 得 到 的 C2 为:{(BOHEA Tea、TWANKAY Tea:2);(HYSON Tea、TWANKAY Tea:2);(HYSON Tea、Jasmine Tea:3);(TWANKAY Tea、Jasmine Tea:2)}因为(BOHEA Tea、Jasmine Tea)为非频繁子集。根据Apriori定律,如果一个集合不是频繁项集,则它的所有超集都不是频繁项集。所以从C2 产生的 L3 为 {HYSON Tea、TWANKAY Tea、Jasmine Tea:2},因为直接删除了 BOHEA Tea、TWANKAY Tea、Jasmine Tea,则得到的 C3 为:{HYSON Tea、TWANKAY Tea、Jasmine Tea:2},而 L4= Φ,所以循环结束。

对于 HYSON Tea、TWANKAY Tea、Jasmine Tea,最小置信度 Minconf=70%,HYSON Tea、TWANKAY Tea、Jasmine Tea的支持度为 Confidence=2/2=100%;HYSON Tea、Jasmine Tea、TWANKAY Tea的置信度=2/3=66.7%;TWANKAY Tea、Jasmine Tea、HYSON Tea的置信度=2/2=100%;HYSON Tea、TWANKAY Tea、Jasmine Tea 的 置 信 度 =2/3=66.7% ;TWANKAY Tea、HYSON Tea、Jasmine Tea 的置信度=2/3=66.7%;Jasmine Tea、HYSON Tea、TWANKAY Tea的置信度=2/3==66.7%;最终,用户可以得到如下推荐:①若消费者购买了HYSON Tea和TWANKAY Tea,则向其推荐Jasmine Tea;②若消费者购买了TWANKAY Tea和Jasmine Tea,则向其推荐HYSON Tea。

4 基于关联规则的茶叶推荐系统设计

基于关联规则的个性化推荐设计关键在于通过分析数掘库中全部顾客的历史交易数据,使用挖掘关联规则算法,试图发现顾客群体购买习惯的内在共性,并据此,参照用户历史感兴趣的茶叶,进行关联规则匹配,进而向用户推荐其还没有购买但可能会有兴趣的茶叶。

4.1 体系结构设计

茶叶电子商务个性化推荐模型分为输入、输出、推荐和系统管理四个模块。其中,输入模块主要是指整理茶叶历史购物数据,形成标准数据集。推荐模块是指参照关联规则,根据用户需求,借助搜索引擎得到推荐列表。输出模块是向消费者展示最终的推荐结果。

4.2 推荐模块主要功能

4.2.1 数掘预处理。原始交易中数据包含大量的基本数据,但这些数据必须经过清洗、转换、集成等预处理,只有具备了完整性好、冗余性小等特征的数据才具备挖掘价值。

4.2.2 产生强关联规则。尽量在经过预处理的事务集中挖掘关联规则,并更新规则库。

4.2.3 系统推荐。针对消费者的历史购买行为,采用不同的推荐策略。对于发生过购买行为的消费者,找到其历史交易记录中的茶叶唯一标识号并从规则库中匹配符合条件的规则,进而向其推荐与之兴趣最相关的—种茶叶;对于未曾有购买行为的用户,默认为推荐TOP-N最受欢迎的茶叶。

4.2.4 动态更新关联规则库。用户的兴趣爱好随着时间的推移呈现出周期性变化的特征,因而,需要定期根据销售数据和用户兴趣更新规则库,最终实现动态地把客户兴趣变化反映到推荐结果中。

4.3 系统管理模块

茶叶电子商务推荐系统角色分为系统管理员和普通用户。其中,系统管理员负责更新用户数据库,负责对用户开放用户权限范围内的系统功能。普通用户可在登录后查询购买记录,并对系统推荐的茶叶进行喜好反馈,喜欢表示推荐有效,不喜欢则再下一次推荐中不出现此种茶叶。反馈越多越及时,系统向用户推荐的精准率就越高。

5 结论

茶叶推荐系统一直是解决茶叶信息过载的有效方法之一,是茶叶商家向消费者进行个性化推荐,增强消费者粘度,提升商家效益的重要途径。本文对实施电子商务推荐系统提升各商业系统核心竞争力具有一定的参考价值。

猜你喜欢
项集置信度关联
置信度辅助特征增强的视差估计网络
一种基于定位置信度预测的二阶段目标检测方法
基于共现结构的频繁高效用项集挖掘算法
硼铝复合材料硼含量置信度临界安全分析研究
不惧于新,不困于形——一道函数“关联”题的剖析与拓展
“一带一路”递进,关联民生更紧
基于矩阵相乘的Apriori改进算法
正负关联规则两级置信度阈值设置方法
奇趣搭配
不确定数据中的代表频繁项集近似挖掘