基于机器学习技术的黄鹤楼品牌零售户价值分析研究

2023-06-22 19:14王琴马琳陈力
现代信息科技 2023年5期
关键词:机器学习

王琴 马琳 陈力

摘  要:卷烟零售戶是烟草企业赖以生存的重要保障。为科学有效把握卷烟市场行情,合理制订黄鹤楼品牌销售服务的市场策略和方针,以黄鹤楼品牌零售户样本作为基础,从其订单特征入手,运用K近邻分类算法,快速充分地对零售户价值进行分类,构建出黄鹤楼品牌的零售户价值分类模型。该模型可以有效推进智能营销工作,实现市场营销高质量发展,从而更好地服务于黄鹤楼品牌,服务于精准营销。

关键词:零售户价值分类;K近邻算法;机器学习

中图分类号:TP391;G203    文献标识码:A  文章编号:2096-4706(2023)05-0132-04

Retail Merchants Value Analysis of Yellow Crane Tower Brand Based on Machine Learning

WANG Qin, MA Lin, CHEN Li

(Wuhan Wendao Information Technology Co., Ltd.,  Wuhan  430040, China)

Abstract: The cigarette retail merchants are an important guarantee for the survival of tobacco companies. In order to scientifically and effectively grasp the cigarette market situation, reasonably formulate the Yellow Crane Tower brand sales and service market strategy and policy, with the Yellow Crane Tower brand retail merchants samples as a basis, this paper starts from the order characteristics, uses K-nearest neighbor classification algorithm to fast and fully classify the retail merchants value, build the Yellow Crane Tower brand retail merchants value classification model. This model can effectively promote the intelligent marketing work and realize the high-quality development of marketing, so as to better serve the Yellow Crane Tower brand and serve the precision marketing.

Keywords: retail merchants value classification; K-nearest neighbor algorithm; machine learning

0  引  言

卷烟零售户是烟草企业赖以生存的重要保障,是烟草企业和广大烟草消费者沟通的桥梁和纽带,在卷烟销售渠道中占据着重要地位[1]。卷烟零售户直接与消费者接触,拥有巨大的直接价值和潜在价值。直接价值决定了当前卷烟品牌的盈利水平。潜在价值则更关乎着未来是否可持续发展及长远的利润保持。卷烟品牌在全国各个地区的销售情况可从卷烟零售户下的订单中快速、直观地获取,是卷烟品牌在各地卷烟市场销售情况分析中关键的一个环节。据统计,掌控关键指标前20%的零售户信息可影响接近80%的目标消费者,这种强链接的供需关系充分体现了卷烟零售户直接与消费者对接的强关联性,这种销售关系模式在卷烟销售渠道中占据重要地位,是烟草行业发展的咽喉所在。因此,根据现有的销售数据、订单数据、市场价格数据,借助分析工具对卷烟零售户进行价值分类,进行量化分析,推动打造结构合理的零售体系,这对于更好地把握卷烟市场,为卷烟品牌的销售服务确定有效的市场策略和方针起到重要的参考及指导作用[2]。因此,快速有效地对零售户价值情况进行充分、全面、合理、科学的分类,促进卷烟货源分配政策更加科学化、规范化、智能化,使卷烟货源的组织与投放更加精准,为卷烟品牌的未来发展决策发挥举足轻重的作用[3]。

当前,湖北中烟成立的智能营销小组正从多个方面运用智能化手段,全力推进智能营销工作开展,全面实现市场营销高质量发展。如何科学、快速获取黄鹤楼品牌的有价值的目标零售广也是该工作中的重要一环,本项目将着力于通过机器学习智能化研究黄鹤楼品牌的零售户的价值分析,持续提升发展效益,使得整体质量发展向好,从而更好地服务于黄鹤楼品牌,服务于精准营销。

1  黄鹤楼品牌零售户样本研究

各卷烟品牌在全国各个地区的销售数据可从卷烟零售户下的订单中快速、直观地获取。它是对各卷烟品牌在全国卷烟市场销售情况分析中最关键的一个环节,同时卷烟销售数据中零售户质量也是烟草行业高质量发展工作中的重要指标之一。

随着人工智能的机器学习技术的日益发展,物流数据的智能化和信息化给烟草零售户的销售行为提供越来越多的便利。当前,湖北中烟成立的智能营销小组利用机器学习算法对2021年上半年黄鹤楼品牌的湖北省内订单中的零售户质量进行研究分析,从中提取了关于零售方向中刻画烟草零售户质量的更显著特征,以便更好地服务于黄鹤楼品牌,服务于精准营销。这个项目对黄鹤楼品牌的发展具有重要的意义。

本次项目实验数据为黄鹤楼烟草2021年上半年湖北省内订单的详情数据,数据总量约22.58万条,初始特征为销售业态以及黄鹤楼品牌的总订单量、需求量、最大订购量等总计31个特征值。

根据销售业态来看,其中食杂店17.24萬户,便利店2.72万户,其他0.91万户,烟酒店0.79万户,商场0.7万户,娱乐服务0.18万户,未知业态556户。其中食杂店占比较多,达到76%,这也侧面反映出食杂店销售的范围广,同时因为食杂店更多地拥有柜台式服务,顾客更有可能在购买其他产品的时候也同时咨询挑选并购买黄鹤楼产品。

根据零售户所在地区来看,总计涉及17个地市,其中,分布较多的地区分别为:武汉3.73万户,黄冈2.93万户,荆州1.93万户,襄阳1.75万户,宜昌1.72万户;分布较少的地区分别为:鄂州5 751户,仙桃4 754户,天门3 836户,潜江3 474户,林区550户。从各地区的销售户数据可看出,人口基数的大小很大程度影响零售户的数量。黄鹤楼品牌营销部可考虑在人口密集区域增加黄鹤楼产品的购进频次和覆盖程度。

其中,营销系统的核心价值客户数量为1.68万户,占总客户数的7.4%,其中,基础户1.34万户,重点客户0.25万户,核心客户0.09万户。通过数据驱动的分化,可以对三种类型的核心价值零售户分别积极采取相应的措施,增加零售户忠诚度,提高黄鹤楼品牌宽度,从而促进黄鹤楼品牌销量与市场状态协调发展。

本次项目利用机器学习的分类算法,学习出1.68万核心价值客户的分类特征,继而拟合剩余20万的客户特征,对其进行类型划分。

2  黄鹤楼品牌零售户价值分类模型研究

黄鹤楼品牌零售户价值分析模型将依据以上样本研究进行构建,构建的模型基于机器学习中的K近邻算法,该模型将为黄鹤楼品牌的零售户做出价值分类,模型流程如图1所示。

2.1  特征提取与处理

根据黄鹤楼品牌零售户样本分析,此次实验包含22.58万条数据,31个特征。其中数据特征如业态、黄鹤楼订单量、月购进量、月进货额、月订购次数等。

在构建零售户价值分类模型之前,需要对原始数据进行数据清洗及特征提取。数据清洗是将重复、多余的数据筛选清除,将缺失的数据补充完整,将错误的数据纠正或者删除,最后整理成为可以进一步加工、使用的数据。图2和图3中展示了黄鹤楼订单量和黄鹤楼竞品订单量这两种特征在进行数据清洗前后的分布情况,其中,左图中有2个噪点,代表竞品订单量在150以上,通过筛选查看这两名客户的信息,分别为武铁和襄铁局,为特殊客户,不在本次研究范围内,因此要将其剔除,右图展示了剔除后的分布情况。

特征选择类似于降维技术,其目的是减少特征的数量,区别在于特征选择会选择要从数据集中保留或删除的要素,而降维会创建数据的投影,从而产生全新的输入要素[4]。图4、图5、图6、图7展示了各个特征的分布情况。

本次实验使用相关性系数来对特征进行选择,相关系数是最常用的统计度量。用一个数来描述两个变量之间的相关联的程度。常用的三种相关系数为:皮尔逊相关系数,斯皮尔曼相关系数,Kendall相关系数[5]。本次模型采用皮尔逊相关系数,皮尔逊相关(Pearson correlation),通常用字母r表示,衡量两个随机变量之间的线性关系(或者说线性关联度)[6]。两个变量之间的总体(population)的皮尔逊相关系数定义为两个变量之间的协方差和标准差之积的商(或者说,归一化的协方差,其定义如式1所示[7]:

(1)

估算样本的协方差和标准差,可得到(样本的)皮尔逊相关系数,常用英文小写字母r代表,r的表达式如式2所示:

(2)

此次实验通过皮尔逊相关系数,计算每个特征与其他特征之间的相关性,最终选取其中7列特征,分别为:业态,高价位订货金额,纯高端订货金额,普一类订货金额,二类订货金额,黄鹤楼订货金额,竞品订货金额。

在特征选取完成以后,考虑到此处是每个价格档位烟的订购金额以及业态(此处的业态已经转化为1~6的数字),需要对数据进行标准化、归一化的处理,其作用是主要解决数据无量纲化处理,通过消除数据的单位限制并将其转换为无量纲的纯数字,可以防止某一维或某几维对数据影响过大,同时有抗异常值的能力,比较稳定,适合嘈杂的数据场景,这里将采用均值方差归一化的方式进行特征处理[8]。

2.2  K近邻模型构建

本文选用K邻近算法对黄鹤楼品牌零售户进行价值分类。K近邻算法是数据挖掘技术中最简单的机器学习算法之一,该算法能够用于分类、回归、降维、矩阵分解、聚类、异常值检测,等等,本文提到的K近邻算法将用于分类任务[9]。该算法的核心思想是“物以类聚,人以群分”,当需要判断绿色实例的类别时,查看它附近的所有类别,采取多数表决的决策规则(红色2个多于蓝色1个),因此把绿色实例归类到红色。

本次实验对黄鹤楼品牌零售户的数据进行特征选取之后,将数据划分为测试集及训练集,在建立训练集时,确定训练数据及其对应的类别标签;然后把待分类的测试数据与训练集数据依次进行特征比较;从训练集中挑选出最相近的k个数据,这k个数据中投票最多的分类,即为新样本的类别[10]。K近邻算法首先会计算测试数据各个训练数据之间的距离,对距离从小到大进行排序,选取距离最小的k个点,然后确定k个点类别的出现频率,最后出现频率最高的类别作为预测分类[11]。

2.3  模型验证

K近邻算法模型构建完成后需要对该模型进行调优验证,通过K近邻算法结合网格搜索、交叉验证等方式,对数据进行拟合,其中,网格搜索是设置若干组超参数,使每组超参数都用交叉验证来评估准确性,最后根据准确率来选出最优参数建立模型。交叉验证是模型调参的过程,第一步,把训练数据进一步分为训练集和验证集,通过K折交叉验证法,即步骤一:把训练数据平均分成K(这里的K是K折中的K,不是模型的K)份,拿其中一份来验证,其他用训练模型;步骤二:重复步骤一,但是验证集选择不一样的,这样可以进行K次。步骤三:把K次的结果求一个平均值,就得到这个参数值的准确率。步骤四:重复步骤一到三,选取准确率最高时的参数作为模型参数。

本次实验参数包含weights、n_neighbors、p,n_neighbors是邻居数量,当weights=uniform时,所有距离权重相同,不考虑距离。当weights=distance时,p值才有意义:当p=1时,使用曼哈顿距离计算;当p=2时,使用欧式距离计算;当p=3或其他时,使用闵可夫斯基距离计算。通过配置GridSearchCV(网格搜索),寻找最佳KNN最佳模型参数组合,其中共设置两组参数,第一组为:n_neighbors=[1-20),weights=uniform;第二组参数为:n_neighbors=[1-20),weights=distance,p=(1-10),共拟合950次。从拟合的结果来看,第一组参数忽略距离权重效果最佳。表1展示了第一组n_neighbors从1到19,weights=uniform时的模型分数值。

3  结  论

K近邻算法精度高、对异常值不敏感的优点可以很好地模拟零售户的价值分析,运用K近邻算法搭建黄鹤楼零售户的价值分析模型可以快速高效地寻找省内有价值的目标零售户,使烟草企业可以更好地按照零售户群体不同的价值来进行分配资源,将有限的资源得以合理地利用。下一步可继续将机器学习技术的方法应用到黄鹤楼品牌的月度、滚动销售预测、调拨预测、消费者洞察分析等多方面的预测分析场景中去,更好地服务于湖北中烟的精准营销。

参考文献:

[1] 徐维超.相关系数研究综述 [J].广东工业大学学报,2012,29(3):12-17.

[2] 苏毅娟,邓振云,程德波,等.大数据下的快速KNN分类算法 [J].计算机应用研究,2016,33(4):1003-1006+1023.

[3] 黄世反,沈勇,康洪炜,等.基于KNN的烟草企业档案文本自动分类算法研究 [J].计算机科学与应用,2014,4(9):13.

[4] 郑国柱. 基于SOA和ESB技术的烟草行业主数据管理平台的设计与实现 [D].北京:中国科学院大学(工程管理与信息技术学院),2016.

[5] 杨继志,郭敬.机器视觉在烟草行业的应用 [J].机电产品开发与创新,2011,24(6):124-126.

[6] 张萍.新一代信息技术在烟草行业中的多元化应用对策研究 [J].天津农业科学,2021,27(1):34-37+43.

[7] 张焕家,郭大权.烟草物联网大数据平台架构研究与应用探讨 [J].信息技术与信息化,2020(1):129-131.

[8] 蒲可. 数据驱动的烟草生丝水分控制系统设计与实现 [D].绵阳:西南科技大学,2022.

[9] 章惠民.福建烟草商业系统大数据技术研究与应用 [J].中国烟草学报,2019,25(6):98-104.

[10] 安梓郡.山东省烟草公司发展战略研究 [D].济南:山东大学,2019.

[11] 曾嘉.大数据在烟草销售中的应用分析 [J].中国集体經济,2021(36):62-63.

作者简介:王琴(1981—),女,汉族,湖北荆门人,工程师,本科,研究方向:信息化项目管理及实施、大数据管理与应用;马琳(1987—),女,汉族,山东泰安人,工程师,硕士,研究方向:信息化项目管理及实施;陈力(1987—),男,汉族,湖北黄石人,工程师,本科,研究方向:信息化项目管理及实施、云计算。

收稿日期:2022-10-15

基金项目:黄鹤楼科技园科技项目(2022JSZN4KJ-XX2-010)

猜你喜欢
机器学习
基于词典与机器学习的中文微博情感分析
基于网络搜索数据的平遥旅游客流量预测分析
前缀字母为特征在维吾尔语文本情感分类中的研究
下一代广播电视网中“人工智能”的应用
基于支持向量机的金融数据分析研究
基于Spark的大数据计算模型
基于朴素贝叶斯算法的垃圾短信智能识别系统
基于图的半监督学习方法综述
机器学习理论在高中自主学习中的应用
极限学习机在图像分割中的应用