协同过滤算法在农产品智能推荐系统中的应用研究

2023-01-31 07:29罗远远
南方农机 2023年3期
关键词:冷启动物品协同

罗远远

(塔里木大学信息工程学院,新疆 阿拉尔 843300)

0 引言

近年来,随着经济持续快速发展,电子商务平台也越来越迎合了人们的消费需求,网上销售也成了目前最受欢迎的农产品销售方式。中国的电子商务市场在2015年已达3.9万亿元,其中农产品的销售额在整个电子商务市场中占据了5%的份额。截至2015年底,阿里电商平台拥有90万多个销售渠道,实现了695.50亿元的农产品销售[1]。2020年1—6月份,全国零售额达51 501亿元,比上年增长7.3%;网购零售额达43 481亿元,比上年同期增加14.3%,在社会消费品零售总额中占据25%。尤其是在疫情期间,食品类农产品的增幅更是显著,达38.8%[2]。如何在浩瀚的信息资源里快速找到自己想要的东西,利用推荐系统可以解决实际应用难题。农产品电子商务推荐系统可以从大量的信息中快速寻找到所需要的产品,并向消费者推荐,从而使消费者能够顺利地进行购买。当前,尽管在理论和实践上已经取得了长足的进步,但仍有许多缺陷。推荐系统主要有两类:一类是主动式信息过滤,将信息过滤的流程从“使用者主动搜寻”转为“系统主动推荐”;另一类是个性化的双边匹配,协助使用者找出自己喜欢的或所需的小众、非主流的商品,将使用者感兴趣的商品呈现在他们面前。

目前推荐系统分为三大类。1)基于内容的推荐:向使用者推荐与其所关注的项目内容类似的项目,发掘用户曾经喜欢过的项目的特征,并推荐类似的项目。2)基于协同过滤的推荐:通过计算用户的行为数据,来得到用户偏好特征,找到相似用户或物品,给用户推荐其最有可能喜欢的项目,目前这是最为广泛的算法。3)混合推荐算法:将多种推荐方法融合在一起。例如基于人口统计学,协同过滤,基于内容和知识的推荐,将这些单一的推荐算法根据各自的优缺点进行混合,来达到更好的推荐效果。

1 协同过滤算法

协同过滤(Collaborative Filtering)算法是推荐系统中影响最大、应用最广泛的算法。协同过滤就是协同大家的反馈、评价和意见一起对海量信息进行过滤,从中筛选出目标用户可能感兴趣的信息的推荐过程。基于邻域的协同过滤主要分为两类,分别是基于用户的协同过滤算法和基于项目的协同过滤算法。

1.1 基于用户的协同过滤算法(User CF)

基于用户的协同过滤算法是根据用户对项目的历史行为寻找相邻或相似的用户,并向用户推荐邻居或相似用户所喜爱的商品。通过用户的历史行为数据可以了解用户对产品的偏好,并对这些喜好进行度量和打分。通过分析不同用户对同一产品的态度及喜好程度,计算用户之间的关系,在有共同爱好的消费者之间进行产品推荐。总的来说,假设与某人兴趣相似的用户喜欢的商品,某人也会喜欢,关键是寻找相似用户、用户相似度度量。这里我们用一个简单的例子来说明一下,假设用户a喜欢物品A和物品C,用户c喜欢物品A、物品C及物品D,这个时候用户a与用户c相似,就会把物品D推荐给用户a,如图1所示。

图1 基于用户的协同过滤推荐

1.2 基于项目的协同过滤算法(Item CF)

基于项目的协同过滤算法是通过用户对项目的反馈或偏好寻找相似或相关的项目,并依据用户的历史反馈和项目相似程度为用户推荐项目。基于项目的协同过滤推荐的基本原理与基于用户的协同过滤算法类似,通过用户对产品的喜好,找到产品的相似性,并根据用户的历史偏好,向用户推荐类似的产品。这里同样简单举例说明一下,假设用户a喜欢物品A和物品C,用户c喜欢物品A,那么物品A与物品C相似,就会把物品C推荐给用户c,如图2所示。

图2 基于项目的协同过滤推荐

1.3 基于模型的协同过滤推荐

基于模型的协同过滤推荐就是基于样本的用户喜好信息,训练一个推荐模型,并根据其对用户喜好的实时信息进行预测,计算推荐。基于模型的推荐算法,依托于一些机器学习的模型,通过离线进行训练、在线进行推荐。该方法的不足之处在于离线模型的训练时间较长,但其预测精度较高。基于模型的推荐系统的优势是节省训练空间和预测速度快。基于模型的协同过滤是当前最流行的协同过滤类型,当前只在部分用户与部分项目之间存在评分数据,而在其他部分评分数据是空白的情况下,利用现有的少量数据对这些空白的用户与商品的评价进行预测,从中找出得分最高的商品。常用的训练模型有关联算法、聚类算法、分类算法、回归算法、矩阵算法、神经网络、图模型、隐式语义模型。

1.4 相似度计算

农产品电子商务领域中的协同过滤推荐算法的关键在于算法能够准确地确定目标用户的最近邻居,而确定最近邻居的前提是先计算出各用户之间的相似性,目前研究者们研究使用的相似度计算主要有:余弦相似度,杰卡德(Jaccard)相似度,皮尔森相关系数,欧氏距离,基于云模型的相似度,修正的余弦相似度和相关相似度。其中,杰卡德(Jaccard)相似度、余弦相似度和相关相似度被广泛地用于电子商务领域。

2 面向农产品的协同过滤推荐算法应用

目前,国内外关于农产品推荐应用最多的算法是协同过滤算法,并对其进行了改进。于金明[3]通过分析农产品电子商务交易的特征选定基于项目的协同过滤算法作为基础算法,提出IPSS项目相似性度量方法,有效地改进了冷启动问题;对于可扩展性问题,对算法进行改进,提出融合项目谱聚类的协同过滤算法,该方法可以有效地实现农产品的推荐,推荐效果优于传统算法。郑云飞等[4]针对农产品的特点实现了基于用户的农产品电子商务协同过滤推荐系统,并采用了激励评分机制来缓解稀疏性问题,使农产品的推荐效果更好。周朝进等[5]提出了一种基于K-Means算法的农产品改进协同过滤算法,该算法将特征相近的用户集中到同一簇中,然后,针对某一个簇中的用户群的农产品相似度进行计算,最终得出推荐的农产品。刘俊彤等[6]针对用户在搜索农产品时遇到的困难以及冷启动问题设计了一个协同过滤算法和标签融合的农产品电子商务平台,利用协同过滤算法将用户最喜欢的商品进行推荐,并在此基础上积极地挖掘出消费者的潜在需求。裘进等[7]提出了一种改进的基于物品的协同过滤算法,该方法在原有的余弦相似度公式中加入时间和用户评分,从而得到新的相似度计算公式,以推荐精准、快速为目标,从而得到更好的推荐结果。余明艳等[8]提出了一种显隐式结合的农产品推荐混合协同过滤方法,改进了传统的基于用户主观评价的协同过滤方法,在用户主观评分的基础上结合用户浏览网站页面的时间来查找用户的最近邻居,通过这种改进的推荐算法可以有效地提高推荐系统的准确度,进而改善农产品推荐质量。刘晓鹏等[9]通过对传统的协同过滤算法的改进,提出了一种针对农产品的个性化推荐算法,将基于内容的协同过滤算法和基于用户的协同过滤算法相结合,提出了一种针对农产品的混合协同过滤算法,结果表明,其提出的推荐算法能够有效地解决农产品的个性化推荐问题。在复杂的情况下,传统推荐技术的推荐效率并不高,而当前先进的混合推荐技术是通过一定的方法将多种推荐技术结合起来,从而有效地弥补传统推荐技术的缺陷[10]。面向农产品推荐的实际需求,通过将基于协同过滤的推荐算法与Apriori推荐技术进行混合,形成一个混合推荐模型,来优化对农产品的推荐效果。

面向农产品的协同过滤推荐中,大部分的研究都是基于协同过滤算法的相似性计算,并针对农产品自身特性,对其冷启动、稀疏性等问题进行优化。面向农产品的推荐系统还采用了基于Spark的研究、混合推荐技术、农产品推荐模型、基于时间效应的农产品推荐方法等。然而,由于当前电子商务规模较大,这些以农产品为导向的推荐体系仍有一定的缺陷,因此,推荐的效果并不尽如人意。

3 协同过滤推荐算法存在的问题及挑战

3.1 冷启动问题

冷启动问题包含两个层面,分别为新用户冷启动和新物品冷启动。在基于用户的协同过滤推荐中,对于一个新用户来讲,其没有在商品上留下浏览、收藏、添加购物车或购买等行为数据,因此无法知道新用户的偏好,从而无法向新用户进行推荐。在基于物品的协同过滤推荐中,因为新项目没有用户的行为数据,自然也就没有办法通过协同过滤的方式进行推荐。新项目冷启动问题如果可以得到良好解决,不仅能为用户提供新鲜的物品,还能提高网站的经济效益。冷启动问题面临的挑战更为严峻,因为系统无法对用户进行准确推荐可能会导致用户的大量流失。

3.2 数据稀疏性问题

稀疏性问题是影响推荐的很大一个因素,稀疏性问题是指一个推荐系统中与特定或特定相似组的用户输入发生过交互的数据集在整个数据集中占比过低。随着农产品电子商务规模的不断扩大,大量的农产品涌现,用户评价的项目只是大型网站的一小部分,用户的评价矩阵中的数据非常稀少。因此,当计算用户和项目的最近邻居时,它的精确度会下降,推荐系统的推荐质量也会大幅降低。稀疏性问题会导致新增的农产品、无交互的农产品、低交互的农产品越来越无法实现推荐集中。评分越多,评分矩阵越稠密,推荐的质量就越高。目前,人们对稀疏性问题的求解方法有多种,常用的方法有聚类、矩阵分解、矩阵填充、结合内容协同过滤等。

3.3 可扩展性问题

大数据时代来临,网站规模的扩大、用户量的增长以及数据量的快速增长,使得推荐系统的可扩展性问题已经成为一个需要重点关注的问题。在数量达到几百万的情况下,一般算法存在着大量的扩展性问题,若问题得不到很好的解决,则会对推荐系统的实时性和准确性产生很大的影响,从而影响到该系统是否愿意被广大用户接受。目前,很多系统需要根据用户需求立即推荐,这就需要一个具有很高的扩展性的协同过滤系统。

4 总结

随着互联网与信息技术迅猛发展,网络上的信息量正爆炸式增长。在此情况下,智能推荐技术为互联网使用者快速找到自己需要的东西提供了一种方便快捷的途径。目前,农产品智能推荐系统中普遍采用协作过滤技术,但随着互联网普及率日益提高,网络规模不断扩大,其应用也面临着一定的困难和挑战。

猜你喜欢
冷启动物品协同
轻型汽油车实际行驶排放试验中冷启动排放的评估
称物品
家校社协同育人 共赢美好未来
Evaluation of Arctic Sea Ice Drift and its Relationship with Near-surface Wind and Ocean Current in Nine CMIP6 Models from China
基于学习兴趣的冷启动推荐模型
“双十一”,你抢到了想要的物品吗?
蜀道难:车与路的协同进化
谁动了凡·高的物品
“四化”协同才有出路
三医联动 协同创新