协同过滤算法在问卷平台中的研究与应用

2020-07-10 22:51鲍庆森董艳雪
科学与财富 2020年12期

鲍庆森 董艳雪

摘 要:问卷发布者由问卷用户获取海量调研数据,通过分析用户的以往行为记录,使用Jaccard相似系数计算用户之间的相似度,应用基于用户的协同过滤算法,并辅以问卷的类别限制对推荐进行调整,从而实现问卷的定向推荐。将协同过滤算法应用于问卷用户的问卷定制,可以有效提高问卷平台的问卷回收率和有效率,明显提升问卷平台的使用效率。

关键词:问卷平台;协同过滤算法;Jaccard系数

近年来,随着我国网络信息化的发展,各种网络调查问卷平台应运而生。网络调查问卷平台是提供给调研人员,在网络上通过制定详细周密的问卷,要求被调查者据此进行回答以收集资料的工具。经调研发现,市面上的调查问卷平台存在以下几点不足:

1.问卷不能有指向性地推荐给目标人群,发布者也就不能高效获取到准确的调研数据;

2.问卷平台缺乏良好的运营模式,无法实现问卷发布者与被调研者间的“共赢”;

3.对于手机等移动端的适配不够便捷完善。

目前,许多平台如亚马逊网站、豆瓣网、今日头条等都采用了页面定制的功能,即采用过滤算法,向用户实现个性化页面呈现,其中应用较广泛的算法是基于领域的协同过滤算法。

本文主要探讨协同过滤算法在网络调查问卷平台中的研究与应用。

1、相关研究

1.1协同过滤算法

协同过滤算法分为基于用户的和基于物品的两种:

(1)基于用户的协同过滤(User CF,User Based Collaborative Filtering)

算法思想包含两步,首先,计算登录用户a与其他用户之间的相似度,依据相似度进行排序后得到与用户a相似度最高的用户集合;然后,找出这个集合中的用户做过的,且用户a没有做过的问卷进行推荐。任意两个用户a,b之间相似度的计算可以通过Jaccard相似度系数求得,公式如下:

考虑到系统中存在大量并无交集的用户,为了提高计算效率,首先排除与被推荐用户a没有交集的用户,得到U(a,k),其中k表示用户数量,a表示被推荐用户;其次,利用相似度公式(式1-1)计算用户相似度 Wab;最后,通过(式1-2)计算问卷的推荐指数,其中,i表示问卷编号,N(i)表示完成问卷i的用户集合,表示用户b对i问卷的兴趣度,在这里默认为1。

它同样需要两步,首先计算出问卷与问卷之间的相似度序列,从中得到用户做过问卷的相似度集合;然后,排序后找出问卷相似最高的问卷集合,排除掉用户已经做过的问卷之后给出推荐。与User CF不同的是,Item CF是以问卷为计算的主体,其相似度计算同User CF。

2、基于用户的协同过滤推荐问卷的实现

2.1 问卷平台推荐模型

2.2推荐算法应用

通过对协同过滤算法的研究,笔者认为用户对问卷的行为记录是实现推荐功能的关键信息,所以选择了基于用户的协同过滤算法和使用Jaccard相似度系数来计算用户之间的相似度。

前台设置推荐按钮,用户登陆后点击,进入推荐问卷页面。后台设置存储推荐问卷号的数组Recommend,存储相似度的数组Similar,存储交集问卷数的数组In与存储并集问卷数的数组Unt。首先使用SQL查询语句到数据库查询登录用户有过行为记录的问卷号,和与登录用户有交集的用户号,并存入User数组中。然后使用Jaccard相似度系数计算出用户相似度存储在数组Similar中,对Similar排序后取出前五位用户号。再次到后台数据库分别查询该五位用户和目标用户有过行为记录的问卷号,进行差运算后,将目标用户没有做过的问卷号放入数组Recommend中,最后使用公式1-2来进行问卷推荐值的计算。

平台在运用协同过滤算法的同时,加入了问卷的类别限制。创建问卷时,问卷发布者可以选择问卷的目标人群基本信息,比如性别,职业,年龄等,先对用户群体进行初步的过滤,因为每位用户在注册时都填写了用户信息存储在数据库中,所以系统辅以对这些条件的限制,对推荐的结果进行了进一步的修正。推荐界面使用bootstrap提供的星级评价插件:bootstrap-star-rating来显示问卷的推荐指数,从而形象地提示用户问卷的推荐值。

2.3 结果分析

验证推荐算法应用到问卷平台的效果,笔者从数据库中随机选取若干用户登录平台进行测试,登录后,进入问卷推荐页面,页面可展示推荐问卷以及问卷的推荐指数,点击问卷可进入问卷调研。说明问卷类别限制与推荐算法可以正确运行,从而实现了基本的个性化推荐功能。

3、结语

进入大数据时代,数据显得尤为重要,哪一个企业掌握了更加准确全面的市场信息,哪个企业就掌握了竞争的主动权,因此,能否准确及时方便地找到目标人群,获取到需要的数据信息成为了各个企业之间竞争的关键。本平台对用户问卷行为进行挖掘,通过基于用户的协同过滤算法,实现了问卷的推荐,并加入生成问卷二维码的功能,来方便移动用户。对于推荐算法,笔者只是刚刚打开这扇大门,有关推荐系统的冷启动问题与如何提高推荐算法的性能还有待笔者进行进一步的研究。

参考文献:

[1]项亮. 推荐系统实践[M]. 人民邮电出版社, 2012.

[2]潘丽芳, 张大龙, 李慧. 基于用户的协同过滤(UserCF)新闻推荐算法研究[J]. 山西师范大学学报(自然科学版), 2018, 32(04):31-35.

[3]邱均平, 张聪. 高校图书馆馆藏资源协同推荐系统研究[J]. 图书情报工作, 2013, 57(22):132-137.

作者简介:

鲍庆森(1996-),男,山东泰安人,本科在读,计算机科学与技术专业.董艳雪(1979-),女,山東淄博人,硕士研究生,讲师,研究方向为计算机应用技术