Wine数据集分析

2019-11-03 13:11姜改新

电脑知识与技术 2019年24期

姜改新

摘要：本文以UCI的Wine数据集为数据来源，该数据集为意大利同一地区生产的三个不同种类的葡萄酒的成分数据，对其178条数据进行分析处理，其中共有13个成分特征。为了解决人工评审葡萄酒分类时容易产生错误的问题，提高分类效率，采用机器学习中SVM的方法对其特征进行分析来确定葡萄酒的分类。

关键词：葡萄酒品种分类;支持向量机;分类评价;数据集

中图分类号：TP311 文献标识码：A

文章编号：1009-3044（2019）24-0004-02

开放科学（资源服务）标识码（OSID）：

1 概述

本文以UCI的Wine数据集为数据来源，采用机器学习的方法利用Python语言对葡萄酒的成分进行分析，从而给出了可靠性比较高的分类。本数据集共有178个例子，样品有十三种成分，分别为Alcohol，Malic acid， Ash，Alcalinity of ash，Magnesium，Total phenols， Flavanoids，Nonflavanoid phenols，Proanthocyanins，Color intensity， Hue，OD280/OD315 of diluted wines，Proline。数据集一共收集了三个葡萄酒品种的数据，第一种有59例，第二种有71例，第三种有48例。

2 数据预处理

本数据集包含了三种葡萄酒的178条数据，由于数据集的每条数据都是连续的，而且没有缺失值，所以并没有对数据进行清洗。为了通过建模分析数据，将原始数据集划分为训练集和测试集，训练集占据样本的70%，测试集占据30%，分别为124条和54条数据。为了消除不同特征之间量纲和取值范围的影响，提高分类的精确率，分别对训练集和测试集数据进行离差标准化，然后对两个数据集进行PCA降维，在不太损失模型质量的情况下，提升了模型训练速度。

3 用皮尔森相关系数和随机森林方法实现不同特征和分类、各特征之间的相关系数分析

1）首先求出品种分类部分，以及品种的数据部分，用pearsonr（）方法得出不同特征与分类的皮尔森系数，然后生成DataFrame类型的数据。由结果知，特征Flavanoid，OD280/OD315 of diluted wines，Total phenols与分类的相关性比较强，接近与1，而Ash特征与分类的相关性最弱，接近于0。

2）通过随机森林得到重要特征，并根据Numpy类库的筛选方法筛选出大于0的数据索引，根据这些索引得到特征与分类的作用的系数数组。柱状图结果如图所示：

从图中各个特征对于分类的作用所占百分比可以看出排列在前三位的三个特征对于分类的影响很大，而Ash特征对于分类的影响很小。

4 用聚类、SVM模型实现分析聚类的最佳聚类数和品种分类分析

1）利用sklearn类库的方法对降维的训练集数据构建K-Means聚类模型，并预测类别，提取分类标签。聚类模型将数据聚类为3类，而且除去个别数据外，3个类别之间具有明显的界限，那些不易分界的数据可能是因为有些特征的数据分布比较分散造成的。

2）评价聚类模型：将聚类的类数从2到15遍历。（1）用sklearn类库方法得到轮廓系数，用轮廓系数评价模型法评价，在某一点是若图像平均畸变程度最大，说明聚类数目为这一点所代表的数时，效果比较理想，還可以用Calinski—Harabasz指数来评价，某一聚类的指数最大时，聚类为此数目效果最理想。从结果可以看出，当聚类为3类时，指数最大，和轮廓系数评价模型结合可知，聚类数目为3时，聚类效果较好。

3）SVM（支持向量机）原理