基于校园点餐数据的学生消费偏好敏感性分析

2020-03-13 08:13张武康等银王德方
甘肃科技纵横 2020年1期
关键词:词频决策树算法

张武 康等银 王德方

【摘要】本文基于移动端的校园点餐系统所收集的数据,采用Excel及PMT工具对数据进行了性状分析和算法研究,通过决策树模型给出了校园学生用餐的消费偏好及敏感因素,对校园经营者及政策决策者具有一定的参考价值。

关键字:移动消费、消费偏好,敏感性,决策树

中图分类号: C913.33     文献标志码:A

在当前移动消费日益昌盛的今天,校园移动消费也在不断发展,基于此环境,以双创学生为主体课题组开发了“美美校园生活服务平台”,通过运营,效果良好,并取得了一定的数据量。通过大数据思维的数据挖掘,对校园学生的消费偏好及因素敏感度进行了性状分析和算法研究,其目的在于不仅能为校园店铺经营者给出提高销售额的有效办法,也能为学校调整后勤保障政策提供决策信息。

数据、工具、方法说明

本课题所采用的数据来自于学生自主开发的移动点餐系统“美美校园生活服务平台”的实际数据,该移动点餐程序采用Android系统开发,微信小程序发布,数据与程序部署于“阿里云”服务器。数据时间范围为2018年10月至2019年4月,经整理后的实例数达3548条,主要数据属性为店铺名、订单id、时间、楼房、餐品名、价格等。

本课题主要采用Excel2013及PMT大数据挖掘分析工具。研究采用的主要方法为词频分类、决策树等数据分析算法及大数据的可视化分析方法。

与课题相关的技术与研究方法

数据的预处理

高质量的决策必须依赖于高质量的数据,但是初始数据中存在部分的脏数据,例如数据的不完整(感兴趣的属性没有),含噪声(数据中存在错误、或异常(偏离期望值)的数据),不一致(数据内含出现不一致的情况)。数据预处理包括数据清洗,缺省值填充,数据选择,数据变换,数据集成。处理过程中需要将时间格式分类定位至年、月、日、时等不同分类;商品品名是字符串格式,需要编程分割并列入不同属性以便词频分类。

词频分析

词频分析的目的是从商品品名中辨识出荤菜、素菜及米食、面食四种属性。目前,词频分析的方法主要分为两类:一种是基于词典的方法;一种是基于机器学习的方法,如基于大规模语料库的机器学习。前者需要用到标注好的类别词典,英文的词典有很多,中文主要有知网整理的情感词典Hownet和台湾大学整理发布的NTUSD 两个分类词典,还有哈工大信息检索研究室开源的《同义词词林》可以用于词典的扩充。基于机器学习的方法则需要大量的人工标注的语料作为训练集,通过提取文本特征,构建分类器来实现分类。

决策树

决策树是一种通过对历史数据进行测算实现对新数据进行分类和预测的算法。简单来说决策树算法就是通过对已有明确结果的历史数据进行分析,寻找数据中的特征。并以此为依据对新产生的数据结果进行预测。它代表的是对象属性与对象值之间的一种映射关系。数据挖掘中决策树是一种经常要用到的技术,可以用于分析数据,同样也可以用来作预测。

决策树既可以用于分类问题,也可以用于回归问题。决策树的优点是可读性强,分类速度快。通常采用损失函数最小化原则。我们采用的事scikit-learn 中的回归决策树(Decision TreeRegressor),主要用于回归问题。这个决策树采用的是优化的CART 决策树算法,而杂质度量方法常用Gini 指标,,其中表示属于类的概率。

数据基本性状

经处理后的数据共3545个实例,无缺失值。因为所包含的特征变量较多,故将店铺名设定为目标变量(target),在此基础上,将特征变量(feature)分为二个变量群,分别为:餐品价格属性、时间地理属性。通过这二个方面的性状呈现,可以大致刻画出整个校园学生餐食偏好的数字肖像。

餐品價格属性

餐品价格属性的特征变量定义为:金额、素量、荤量、米食、面食。通过PMT的可视化数据呈现,其中金额与素荤米面的性状关系如图3-1所示:

以上图可看出:米食相对面食品种多,且价格也繁多。素食相对荤食品种多,也价格繁多;米食和素食更偏向低价区,而面食和荤食对价格相对不敏感,只要口味好,学生不太计较高价格;玉枝园4楼5灶出售份额多,更受学生青睐。

米面荤素的占比情况如图3-2所示:

以上图可看出:素食占比略大于荤食,米食占比显大于面食,这与学生消费能力有限,米食出餐速度快且配送方便有关。

时间地理属性

时间地理属性的特征变量定义为:月、日、时、楼名、房号。通过PMT的可视化数据呈现,时间地理属性的性状关系如图3-3所示:

以上图可看出:士官公寓的点餐时间集中度略早,在上午10点就开始,两个女生公寓(槐香、榆繁)点餐时间集中在上午11点至13点,下午基本不再点餐,其他公寓(柳荫、柏盛、松鸣)点餐时间正常;男生偏爱4楼4灶,女生偏爱5楼7灶;点餐更集中于10-12月,楼层越高点餐份额越多。

学生消费偏好的敏感性分析

学生消费偏好的敏感度分析的主要目的是想通过算法的进一步深入应用,以数据分析来模拟学生的视角,了解学生通过哪些因素的判断来订购餐品的,从而为餐品提供者提高销售收入给出数据依据。

模型采用的是决策树分类算法,我们依然选择店铺名为目标变量,特征变量选定为单价、荤量、素量、米食、面食,即我们认为影响学生选择的主要因素有三个:价格、荤素、米面。

经过运算,共有239个节点,120个叶子节点,显然由于数据量较小,且未经过剪枝处理,树的性状不是优良状态,为简化计算,我们取5层树进行分析。决策树的可视化图如图4-1。

由图中可以判断:学生的第一判断因素是价格,如果餐品价格小于7元,有35.3%的学生会选择玉枝园4楼5灶,如果餐品价格大于7元,此时学生将开启第二判断因素,即米面偏好因素,学生更多地转向玉枝园4楼4灶的米食;然后再次判断价格,转向玉枝园5楼6灶;最后开启第三判断因素,即荤素偏好因素,再次转向玉枝园4楼5灶的素食食品。

结论

总体来看,学生的因素判断顺序为价格(低价)——米面(米食)——价格(低价)——荤素(素食),玉枝园4楼5灶的节点更多,表明该节点价格低、盖浇饭品种多且素菜品种多,更受学生偏爱。同时,建议商家在目前学生消费能力不高的情况下,要多提高素食品种并提升出餐速度,才是增长销售额的有效手段。

参考文献:

[1] 孙琳.基于电商企业运营数据的商品定价策略研究.2017大数据分析专业竞赛作品集上册.2017.

猜你喜欢
词频决策树算法
简述一种基于C4.5的随机决策树集成分类算法设计
Travellng thg World Full—time for Rree
学习算法的“三种境界”
算法框图的补全
算法初步知识盘点
决策树学习的剪枝方法
毛泽东话语的词语特征
词频,一部隐秘的历史
决策树在施工项目管理中的应用