基于K-均值聚类的卷烟市场研究

2010-08-06 07:18四川大学霍叶青何跃
中国商论 2010年4期
关键词:卷烟厂被访者价位

四川大学 霍叶青 何跃

在激烈的市场竞争中,只有掌握卷烟消费群体的特征,才能立于不败之地。信息是决策的基础,通过市场调查,可以获得大量的信息。通过对调查得到的卷烟市场中的消费群体的数据进行聚类分析,可归纳出有利于提高卷烟的生产和销售的信息。

聚类分析是数据挖掘领域中的核心技术之一,聚类分析处理的数据对象的类是未知的,把数据按照相似性归纳成若干类别。它是从给定的数据集中搜索数据对象之间所存在的有价值的数据分布模式,实现在同一聚类之间的样本差异最小化,而在不同聚类样本之间的差异最大化的一种挖掘技术[1]。

文章使用K-均值聚类方法进行分析,对四川省2007年卷烟市场数据进行研究,找出其中的群体规则。

1 K-均值聚类方法介绍

聚类分析是根据一定的分类规则,划分记录集合,确定每个记录所在类别。使得同一类别中,个体之间差距较小,不同类别中,个体之间的差距较大的一种挖掘技术。聚类技术能把不同格式的数据快速分簇,其中主要有K-均值聚类方法。

K-均值聚类方法是一种在无类标号数据中发现簇和簇中心的方法,通过迭代把对象划分到不同的簇中,以求目标函数最小化,使生成的簇尽可能地紧凑和独立[2]。

设需分析的样本为Xi,i = 1,2 …,N。给定一组初始中心Ck,k=l,2 …,K。初始中心可以是从训练数据中随机选择的个体。K-均值算法交替执行的步骤:

(1)对每个样本Xi,找出离它最近的中心点( 簇):

(2)计算每个簇中数据点的均值,并且该均值向量成为该簇新的中心:

其中nk为第 k簇包含的样本数。

2 K-均值算法在四川省卷烟市场中的应用

四川省2007年卷烟市场数据来源是四川省卷烟市场调查问卷数据。在四川省境内不同地州市共发出4000份调查问卷,收回2730份有效问卷。数据分析利用SPSS软件来进行,在分析中用到的被调查者的基本信息包括被访者的年龄、受教育程度、被访者的月收入和家庭收入;用到的调查问题有常吸的卷烟产品的价格、最常吸的品牌、选购自己吸的卷烟时决定购买影响最大的因素、用于送礼和应酬的卷烟时决定购买影响最大的因素。被访者回答问题时,答案是用1、2、3等来表示的,如受教育程度这个问题:(1)表示没受过正式教育,(2)表示小学,(3)表示初中,(4)表示高中,(5)表示中专/技校/职高,6表示大专,7表示大学或以上程度。其它问题类似。

应用1是通过对用户的基本信息数据和被访者常吸的卷烟产品的价格、最常吸的品牌的数据进行的聚类分析,该聚类定义为4个类中心[3],其最后聚类中心和每个聚类中的案例数如表1所示。

由表1可知:被访者的年龄的四个聚类中心都为36-40岁,说明这个年龄段的吸烟者较多,并且受教育程度大都为高中、中专/技校/职高。随着被访者月收入和家庭月收入的增加,用户购买的卷烟产品的价格也随之升高,说明随着人们生活水平的提高,对香烟的要求也随之提高,卷烟厂为了吸引更多高收入的客户群体,需要从提高香烟的品质、包装等多方面来提升香烟的价位。

表1 最终聚类中心和案例数

表2 最终聚类中心和案例数

表3 最终聚类中心和案例数

第二类的人数最多,达到1159个,说明购买4.01~5元价位的人最多,而4.01~5元价位中购买软红梅的人最多。从第一类看出,购买6.01~7.00元价位的人数次之,其中主要是购买阿诗玛。第四类也可以看出,购买15.01~20.00元价位的人数最少,其中盖红河88是比较受欢迎的。而第三类8.01~10.00元价位中较偏爱软红河88,由此可知,软红梅、阿诗玛、软红河88和盖红河88是用户喜欢的卷烟产品,卷烟厂需要大量生产这几种烟来增加销售量。

应用2是通过对用户的基本信息数据和选购自己吸的卷烟时购买影响最大的因素的数据进行的聚类分析,该聚类也定义为4个类中心[3],其最后聚类中心和每个聚类中的案例数如表2所示。

由表2可知:第一类消费者在选购自己吸的卷烟时决定购买影响最大的因素是自己习惯的因素,第二类是价格合适,第三类是烟味清淡、醇和、不燥,而第四类是追求新鲜,尝试新口味。第一类到第四类的综合收入水平是依次升高的,可见随着收入水平的增加,用户对香烟的要求也是依次变高的,这也再次说明卷烟厂为了吸引更多高收入的客户群体,需要从提高香烟的品质、包装等多方面来考虑。

并且从表中也可以看出,随着年龄的降低,对香烟的要求也在变高,年龄大的用户喜欢买自己已经习惯了的牌子,而年轻人更喜欢尝试新的品种,所以当卷烟厂有新的卷烟生产出来的时候,应通过一些宣传手段重点向年轻人宣传新的卷烟产品。

应用3通过对用户的基本信息数据和用于送礼和应酬的卷烟时决定购买影响最大的因素的数据进行的聚类分析,该聚类也定义为4个类中心,其最后聚类中心和每个聚类中的案例数如表3所示。

由表3可知:第一类和第三类用户在用于送礼和应酬的卷烟时决定购买影响最大的因素是品牌名气大的香烟,所以卷烟厂应该通过电视广告、报刊广告或者网络等等手段来增加卷烟的知名度,第二类用户认为体现身份最重要,所以卷烟厂应该通过考虑卷烟的包装等可以体现身份的做法,而第四类用户认为符合现代潮流最重要,所以卷烟厂可以在包装上规划可以展示潮流的图画等等,来提高卷烟的销售量。

3 结语

文章采用了数据挖掘方法研究四川省卷烟市场数据,在SPSS中运用K-均值聚类方法进行分析,旨在通过采用数理统计技术和相关统计学工具,对调查到的卷烟用户的数据进行深度分析和处理。从纷繁复杂的数据中找出客户消费行为的本质特征,从而有针对性地制定营销策略,对卷烟厂的生产和销售策略有较强的指导意义。

[1]何晓群.现代统计分析方法与应用[M].北京:中国人民大学出版社,1998.

[2]赵跃,余诗武.基于Web内容挖掘技术的应用研究[J].科技情报开发与经济,2008,18(36):122~123.

[3]郭秀娟,战冬梅.K—means聚类算法分析及在教师授课质量评价中的应用[J].吉林工程技术师范学院学报,2009,6(25):74~77.

猜你喜欢
卷烟厂被访者价位
被访者驱动抽样法在中国退役运动员群体调查中的应用
高中作文选粹
人物新闻采访报道应用情感引导的策略分析
桌面端,GTX 1650并不是千元价位的显卡好选择
千元最具性价比的显卡
买卖法则之卖出法则(十二):反弹至0.5或0.618价位卖出法
双冷源温湿度独立控制系统在卷烟厂的节能应用分析
精益之路
简析如何降低卷烟厂空调的电能消耗
浅谈服装批发市场设计