浅析利用数据挖掘技术进行烟草专卖违规研判

2018-01-02 18:35朱金峰陈曦
中国经贸 2018年23期
关键词:违规数据挖掘预测

朱金峰 陈曦

【摘 要】现行烟草专卖管理对违规行为主要采取普查方式,带有很大的盲目性,浪費大量人力资源,同时也给零售户带来许多不便,影响客户的满意度,而现有的违规预警系统指标单一,预警准确率较低。如何利用相关数据挖掘理论研究以及对现状的分析,从大量的历史销售记录和与之相关的各种数据中提取信息,建立卷烟违规销售预测模型,对零售户进行违规预测为烟草专卖的检查工作提供科学依据,提高检查的准确性和及时性,从而提高专卖打假的效率,节约大量人力、物力。本文进行了简单的探讨。

【关键词】数据挖掘;卷烟零售户;违规;预测

烟草销售由于实行专卖,销售规律有一定的特殊性。烟草专卖局的一个重要的任务是对卷烟的销售进行市场监督管理,对违规销售的行为及时进行查处,以保证烟草市场秩序的稳定,然而专卖管理部门在确定检查对象时,基本上都是采取普查的方式,带有很大的盲目性,浪费大量人力、物力资源,同时也给零售户带来不必要的麻烦,影响客户的满意度,并且查处的准确率也较低,很多违规是从事后检查账目得到的,从而导致了工作的滞后性,降低了工作的及时性和有效性。

目前卷烟营销提出“精准营销”理念,然而如何对零售户违规行为进行预测,实现专卖打假工作的精准化是目前我们需要仔细研究的一个问题,正是我们所要研究的课题。

一、现状分析

目前专卖内管信息系统在这方面已经进行了有益的尝试,但是其采取的是当期销量与前三周期平均销量比值这一简单的计算手段,产生大量的预警信息,其产生的预警往往都被证实属于无效预警。

如何利用数据挖掘技术,参考多种影响因素,从而获取一个比较接近实际的模型,并将模型与现行的信息系统结合起来。通过对大量的历史销售记录和与之相关的各种数据的分析,找出各种相关因素对违规行为的影响规律,使用成熟的算法建立卷烟销售违规预测模型,对各个零售户的销售情况进行违规预测,为烟草专卖的检查工作提供重要的科学依据,提高检查的准确性和及时性,从而提高专卖打假的效率,节约大量人力、物力。

二、数据挖掘的意义

数据挖掘,又称数据库中的知识发现,是指从大量的、不完全的,有噪声的、模糊的实际数据中提取隐含在其中的、人们事先不知道的,但又是潜在有用的信息的过程。

数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又潜在于有用的信息和知识的获取过程。随着信息技术的高速发展,积累的数据量急剧增长,动辄以TB计,如何从海量的数据中提取有用的知识成为时代当务之急问题。数据挖掘就是顺应这种需要去应运而生发展起来的数据处理技术是知识发现的关键步骤。

1.数据的处理功能

通过从现行信息系统中获取的大量的历史数据,建立卷烟销售违规的预测模型,确立相对较优的参数。利用大数据能够挖掘客户的行为习惯和偏好,在纷繁复杂的数据背后找到更加契合用户消费心理的产品和服务,并有针对性地调整和优化,使看似枯燥的数据产生价值。目前大部分烟草企业对数据信息不敏感,只是开展基本的采集和统计,没有将其转化为战略资源的意识和工具,“数据丰富,信息匮乏”的现象比较普遍,制约了市场分析和经营决策能力的深化和提高。

因此,烟草行业亟需建立基于大数据分析与应用的信息支撑网络,通过对多维数据的整合、运算、分析、利用等信息化操作,从海量数据中挖掘出隐含的、常规手段难以察觉的、对决策能提供直观帮助的规律性认识,从而为市场定位、品牌培育、营销策划、案例分析等实践行为提供参考依据。

2.模型的预测功能

在预测模型的基础上,利用客户当前已有的销售信息,找到可能会违规的用户,并用标注预警等级。

通过对大量的历史销售记录和与之相关的各种数据的分析,找出各种相关因素对违规行为的影响规律,建立卷烟销售违规预测模型,对各零售户的销售情况进行违规预测,为烟草专卖的检查工作提供重要的科学依据,提高检查的准确性和及时性,从而提高专卖打假的效率,节约大量人力、物力。

3.数据挖掘在专卖领域的应用

真烟非法流动是商业企业面临的难题。通过孤立点分析法可用于确定极低或极高以及品牌高集中的客户进货行为。孤立点是数据集中与其它数据对象显著不同的数据,它可能是度量或执行错误所导致的,也可能是固有数据变异性的结果。孤立点分析法就是找出数据中的这些孤立点,这些客户的实际经营能力值得警惕,我们要采取相应对策做提前预防。采用孤立点分析技术对客户群进行分析,找出与其他客户明显不同的客户进行重点关注和防范。例如某卷烟零售客户在当地烟草专卖批发企业进货量比较少,但是经营规模比较大,则有可能从其它渠道购进卷烟或销售假烟。

三、构建模型

1.零售户的自身特征

(1)经营规模。卷烟零售户的经营规模有“大”、“中”、“小”三类,在模型构建过程中将规模“大”的标记为“1”,“中”标记为“2”,“小”标记为“3”。

(2)市场细分类型。由于卷烟零售户的市场细分类型有五种:“城乡结合部”、“农村”、“市区”、“县城城区”、“乡镇”。

(3)经营业态。分为有11种:百货店、餐饮(宾馆)、大型超市(大型商场)、流动摊点(小推车)、批零兼营杂货店、小卖部、一般杂货店、杂货店、中小超市(中小超市、百货店)、专营店、娱乐场所(酒店娱乐类)。

(4)商圈类型。商圈类型有8种,工业区、居民区(村)、旅客中转区、商业(集贸)区、学区、娱乐(旅游)区、政务(商务)区、其他。

2.零售户的销售行为

(1)月销售量差异:即用户每月销售数量与上个月销售量差异。

(2)旬销售量差异:零售户每旬销售总量与前三周期平均数的差异。

3.数据预处理

数据质量的好坏直接影响数据挖掘的质量,数据的预处理是数据挖掘过程中至关重要的一个步骤,也是耗费时间最多的一个步骤。数据预处理、尤其是在对包含有噪声、不完整,甚至是不一致数据进行数据挖掘时,更需要进行数据的预处理,以提高数据挖掘对象的质量,并最终达到提高数据挖掘所获模式知识质量的目的。数据预处理过程包含数据清理、数据选择、数据集成、数据变换四个部分。

(1)数据清理。清除与建模主题无关的数据,即清除所采集样本中与销售数据没有关系或者很明显会影响建模效果的数据,本文对缺失值较多的属性如性别,学历也予以删除。特别说明的是对噪声数据即异常值的处理:噪声是指标录入或测量时所引入的随机误差或偏差。异常值的存在会对分析结果(平均值与标准差)产生重要影响,对于出现异常值的记录,不能简单的予以删除,应根据挖掘主体进行具体分析,对于卷烟违规销售预测,异常记录正是所要研究的对象,因此予以保留。

(2)数据选择。删除建模无关指标,在源数据库包含的很多客户信息,某些指标没有被选取纳入初始指标,需要清除。预测模型是建立在属性相互独立的基础上的,如果不予清除将造成冗余,冗余属性会影响预测准确度。对定量指标而言,如果两个指标之间的相关性比较大,则会产生共线性,对建模结果会产生影响,各定量指标之间的相关系数较小,不存在较严重的共线性。

参考文献:

[1]赵卫东.商务智能, 20011年清华大学出版社27页、82页、145页、165页.

[2]张为民.云计算深刻改变未来, 2009年科学出版社46页、65页、192页.

[3]赵晓秋.现代企业统计理论体系创新研究, 2010年经济科学出版社12页、216页.

[4]朱明.数据挖掘导论[M].合肥:2012年中国科学技术大学出版社.

猜你喜欢
违规数据挖掘预测
违规借调的多重“算计”
选修2—2期中考试预测卷(B卷)
选修2—2期中考试预测卷(A卷)
聊聊违规担保
数据挖掘综述
软件工程领域中的异常数据挖掘算法
驾照
基于R的医学大数据挖掘系统研究
《福彩3D中奖公式》:提前一月预测号码的惊人技巧!
预测高考