葡萄酒质量的评价与分析①

2013-02-02 10:03朱存斌朱家明
关键词:酿酒葡萄酒分级

朱存斌, 朱家明, 陈 岩

(安徽财经大学统计与应用数学学院,安徽蚌埠233030)

随着我国经济的发展,葡萄酒的消费呈现出快速增长趋势.当前,我国葡萄酒产量超过万吨的企业已达7 家,销售超过亿元的企业有12 家.葡萄酒产业已成为食品饮料业的重要组成.对葡萄酒质量的研究是有必要且有价值的.既可为经营者提高产品质量增强竞争力提供建议,又可为消费者购买时鉴别真伪提供参考,还可以为质监部门提供检测依据.

1 数据的获取及假设

本文数据来源于2012 年全国大学生数学建模A 题[1].为便于解决问题,提出四条假设:(1)每位评酒员对葡萄酒的评分是相互独立的;(2)葡萄酒的得分能够真实反映葡萄酒的质量;(3)两组评价总体同方差;(4)个数记号:按外观的澄清度、色调,香气的纯正度、浓度、质量,口感的纯正度、浓度、持久性、质量,平衡/ 整体评价的十个评价指标个数l = 1,2,…,10;白葡萄酒样个数i = 1,2,…,28,红葡萄酒样个数k = 1,2,…,27;评酒员个数j= 1,2,…,10;组别个数z = 1,2.

2 葡萄酒评价结果的显著性检验及可信度判断

2.1 研究方法

针对两组评酒员评价结果进行显著性检验,并比较哪组结果更可信. 对于显著性分析,可由随机变量性质构造统计量,在原假设无显著性差异基础上,计算统计量值,与一定水平下的值比较,判断是否接受原假设.至于可信,可据两组方差比较来判断.F 检验用于检验两组数据的精密度,即标准偏差S 是否存在显著性差异.标准偏差是一种量度数据分布的分散程度之标准,用以衡量数值偏离算术平均值程度.标准偏差越小,偏离平均值就越少,反之亦然.

2.2 数据处理——F 检验

为方便查F 分布表,同方差下先分别求两组方差:大小分别记为,按求出统计量F.在显著性水平α = 0.01 或0.05 下,把计算的F 值与查F 分位数表中的值Fα(26,26),Fα(27,27)进行比较,若F <Fα,接受原假设即两组数据不存在显著性差异;反之,两组数据存在显著性差异.两组不同评酒员对每种不同品种葡萄酒的综合评价值见表1.

F 检验前先对原始数据处理:将每个品酒员对各个酒样品的指标评价值加总,并求平均值作为该组各种葡萄酒的最终评分.即2,…,28;j = 1,2,…,27;l = 1,2,…,10.

根据以上公式并结合表1 中数据,运用Matlab进行正态性检验和F 检验所得结果分别见表2.

表1 两组品酒员对红、白葡萄酒各样品的评价得分

表2 正态性检验结果

表3 F 检验结果

由表2 可知样本1,2,3,4 都有h =0,即接受原假设,样本1,2,3,4 均服从正态分布. 用Matlab 编程求解F,结果如表3:F(26,26)= 1.93,F(27,27) = 1.90. 查 表 知 有:F005(26,26) = 1.93,F001(26,26)= 2.55,F005(26,26)<F <F001(26,26),即两组评酒员评价红葡萄酒结果在99% 的置信区间上无显著性差异,而在95% 的置信区间上有显著性差异,且有s1>s2,说明s2比较平稳,故第二组评酒员对红葡萄酒的评价结果比第一组更好;F(27,27) = 1.90,F001(27,27) = 2.54,F >F0.01(27,27),即两组评酒员评价白葡萄酒的结果在99% 的置信区间上存在显著性差异,且有s1>s2,说明s2比较平稳,故第二组评酒员对白葡萄酒的评价结果也比第一组更好.

图1 数据处理后相关图

2.3 结果分析

综上可知:一二两组的评论结果中,关于红葡萄酒评论结果在95% 的置信区间上存在显著性差异,对白葡萄酒评论结果在99% 的置信区间上存在显著性差异;第二组的评论结果较第一组更可信.

图2 化为线性拟合图

3 酿酒葡萄的分级

3.1 研究方法

由酿酒葡萄理化指标和葡萄酒质量对酿酒葡萄进行分级,可直接将葡萄酒质量作为对酿酒葡萄分级的一项指标,结合酿酒葡萄的理化指标,构造初始矩阵,运用模糊C 均值聚类法,先找出最佳聚类数,再对这些酿酒葡萄进行分类,同时实现分级.此方法简洁直观,但没有考虑到酿酒葡萄的各理化指标及葡萄酒的质量单因子对葡萄酒分级的影响.可以运用主成分分析方法分析酿酒葡萄的各理化指标及葡萄酒的质量单因子对葡萄酒分级,不能够得到综合排名.在此基础上,采用谱系聚类对红白葡萄酒样品进行排名.

3.2 数据处理——模糊C 均值聚类

模糊C 均值聚类是硬C 均值聚类的推广,硬划分是指一个样品要么属于指定的类,要么不属于该类,二者必居其一. 而模糊聚类则放松此要求,即以一定的概率属于某个指定类[2]. 具体的求解步骤:(1)预先给定分类数c 和加权指数m,初始化隶属度矩阵U = (uij)使得= 1;(2)依据公式vi计算聚类中心vi,i = 1,2,…,c(1 ≤i ≤c);(3)根据如下公式计算新的隶属 度 矩 阵若Jm(u,v)小于预先给定的正数ε,则聚类过程结束,否则,转到步骤(2).

用Matlab 编程可得C 均值聚类聚类的分级结果.红葡萄:级别1(1,2,3,8,9,14,23),级别2(5,11,13,15,16,19,21,22),级别3(24),级别4(4,6,7,10,12,17,18,20,25,26,27). 白葡萄:级别1(1,4,5,6,7,10,12,13,14,18,20,21,23,24,26,28),级别2(2,3,8,9,11,15,16,17,19,22,25,27).

3.3 结果分析

因红白葡萄样本分别为27、28,样本数不大,此处分级可由优到劣分为5 类(如优、良、较好、好、一般,其中1 为优).但Matlab 程序运行结果显示白葡萄自动分级只有2 类,其余为空. 说明白葡萄样品之间可能质量相近,无明显差异. 红葡萄分级结果为4 类,其中样品24 自成一类,且不是最优或最劣,可能样品24 质量与其相近分级有明显差别,同时可以看出样品5,11,13,15,16,19,21,22与4,6,7,10,12,17,18,20,25,26,27 在质量上却是良与一般之差.

4 酿酒葡萄与葡萄酒的理化指标之间的联系

4.1 研究方法

对酿酒葡萄与葡萄酒理化指标之间的联系,属两组变量间相关关系.可通过分别构造两组变量的线性组合,找出组合后向量间的最大相关系数,尽可能的反应两组变量之间的相关联系.故可使用典型相关分析方法解决.

4.2 数据处理——典型相关分析

对两组随机变量X1,X2,…,XP和Y1,Y2,…,YP,类同主成分分析,考虑X1,X2,…,XP的线性组合U 及Y1,Y2,…,YP的线性组合V,来找U 和V 间最大可能的相关系数,以充分反映两组变量间的关系.这就把研究两组随机变量间相关关系转化为研究两个随机变量间的相关关系.若一对变量(U,V)还不能完全刻划两组变量间相关关系时,可以继续找第二对,希望这对变量(U,V)在与第一对变量不相关情况下也具有尽可能大的相关系数. 直到找不到相关变量对时为止.这便引出典型相关变量.

分别构造酿酒葡萄与葡萄酒理化指标的第一典型相关量:

U1的V1相关系数:

若有第二或更多典型相关量其构造与相关系数计算,方法同上[3].

利用Matlab 进行典型相关系数,分析结果见表4,5.

表4 红葡萄典型相关系数与p 值

表5 白葡萄典型相关系数与p 值

从表4 中p = 0.4250 >0.05,红葡萄酒与红葡 萄的理化指标之间有前四对典型相关变量显著相关;从表5 中p = 0.2849 >0.05,故白葡萄酒与白葡萄的理化指标之间有前三对典型相关变量显著相关.为此可求出对应的红葡萄系数和白葡萄系数(如表6,7).

表6 红葡萄U 系数

表7 白葡萄U 系数

类似可得对应的红葡萄V 系数和白葡萄V 系数(如表8),对应具体理化指标从略.

4.3 结果分析

由表6,7,8 可以得出红葡萄对应第一对典型相关变量U1与V1反映了Xm(m = 0,1,5,3)与Yn(n = 1,5,7,14,16,19,21)之间的相关关系;对应第二对典型相关变量U2与V2反映了Xm(m = 0,1,3,4,2,6,7,8)与Yn(n = 6,10,11,12,13,14,16)之间的相关关系;对应第三对典型相关变量U3与V3反映了Xm(m = 0,1,2,6,7)与Yn(n = 2,6,8,10,12,14,15)之间的相关关系;对应第四对典型相关变量U4与V4反映了Xm(m = 1,5,2,8)与Yn(n = 1,4,6,7,11,13,14,15,16,19,21)之间的相关关系.

由表可以的出白葡萄对应第一对典型相关变量U1与V1反映了Xm(m = 2,4,5)与Yn(n = 1,4,5,6,11,13,14,15,16,18,19,21,22)之 间 的 相 关关系;对应第二对典型相关变量U2与V2反映了Xm(m = 3,6,7,8)与Yn(n = 2,16)之间的相关关系;对应第三对典型相关变量U3与V3反映了Xm(m = 6,8)与Yn(n = 1,3,4,6,9,11,12,13,15,19,22)之间的相关关系.

表8 红、白葡萄酒V 的系数

?

5 分析酿酒葡萄对葡萄酒理化指标的影响程度

5.1 研究方法

酿酒葡萄及葡萄酒(简称两者)理化指标对葡萄酒质量的影响,鉴于两者理化指标较多,可分别找出能够替代两者理化指标的组合量,将两者理化指标对酒质量影响转化为两者理化指标的线性组合对葡萄酒质量的影响,即两个变量对第三个变量的影响,判断相关性是否显著.在此基础上,论证能否用两者理化指标来评价葡萄酒的质量.如何分别构造出能够替代两者理化指标的组合量有一定难度. 对此,可考虑多元线性回归. 根据统计回归结果,论证能否用两者理化指标来评价葡萄酒的质量.若不可行,可将数据进行适当处理,做相关图观察相关图走势,确定相应得非线性函数.

5.2 数据处理——数值拟合

综合两者理化指标数据作为自变量,将葡萄酒质量即得分作为因变量,进行多元线性回归.Matlab 运行结果95% 置信区间均包含0,多元统计回归此处不适用.可能是数据处理不当,更可能是两者的各项理化指标与葡萄酒质量之间并不是线性函数关系.可以考虑对酿酒葡萄与葡萄酒的各项理化指标数据及葡萄酒质量即得分数据进行处理,研究非线性函数关系.本文只考虑白葡萄.

运用Matlab 编程[4],可得各项指标与葡萄的质量之间处理后数据的函数关系大致走势均呈现出如图1 指数函数样式.下面取酿酒葡萄理化指标中的一个与葡萄酒质量进行拟合,此处选取倒数第二个指标.为方便计算,可考虑将指数函数转化为线性函数进行回归分析(如图2).

在Matlab 用上述数据处理方法所得数据,在Excel 中进行线性回归,回归结果见表9,10,11.

表9 回归统计

表10 方差分析

表11 回归结果

可得第29 项指标与葡萄酒质量转化后的线性函数与数据处理后的指数函数分别为

可见拟合效果非常好,说明酿酒葡萄的第29项指标与葡萄酒的质量存在具体的非线性函数关系.第29 项指标的最小值-6.07,极差14.49,还原原始数据函数关系为

上述(1)式,即为第29 项指标果皮颜色a* (+红;- 绿)对葡萄酒质量的影响的具体函数.

考虑到酿酒葡萄的第29 项指标果皮颜色a* (+红;-绿)可能对葡萄酒质量的反应不是很具有代表性,此处旨在反应酿酒葡萄理化标对葡萄酒质量的相关趋势. 第29 项指标果皮颜色a* (+红;- 绿)只是一个指标代表. 第一项指标氨基酸总量转化为线性函数的回归统计量R2= 0.861951,F = 72.2607,回归效果虽然没有第29 项指标果皮颜色a* (+ 红;- 绿)好,但与总体趋势相符,与之前分析亦一致. 即对于白葡萄与白葡萄酒,酿酒葡萄的理化指标能和葡萄酒的理化指标与葡萄酒的质量之间存在确定的非线性函数关系,故能够反映葡萄酒的质量. 对于红葡萄,红葡萄与红葡萄酒的理化指标与红葡萄酒的质量的相关图有与白葡萄相同的变化趋势,故有相同结论.

6 结束语

对于F 检验是在同方差假设条件下构造的F统计量,对于两组评论相互独立的评酒员对酒样的评分系统,同方差假设是完全合理的. 但在判断哪一组的评论结果更可信的判断上,仅根据两组品论结果的方差进行判断,较为单一. 在分析酿酒葡萄的理化指标和葡萄酒的质量的影响,对酿酒葡萄进行分级,直接运用模糊C 均值聚类方法简洁、直观,但没有考虑到酿酒葡萄的各理化指标及葡萄酒的质量单因子对葡萄酒分级的影响,存在缺陷. 对最后数据的处理方法上对于非线性拟合有一定的优点,使各项指标与葡萄酒的质量的相关关系清晰明了,对最后所建立函数形式对所有指标具有普遍适用性.

[1] 2012 年高教社杯全国大学生数学建模竞赛赛A 题,http://www.mcm.edu.cn/ .

[2] 吴礼斌,闫云侠.经济数学实验与建模[M].天津:天津大学出版社,2009:141 -143.

[3] 茆诗松,程依明,濮晓龙. 概率论与数理统计教程[M]北京:高等教育出版社,2011:288 -289.

[4] 李柏年,吴礼斌.MATLAB 数据分析方法[M]. 北京:机械工业出版,2012:122 -128.

猜你喜欢
酿酒葡萄酒分级
上半年酿酒产业产、销、利均增长
为什么酵母菌既能做面包也能酿酒?
更 正
葡萄酒的产区品牌
十款葡萄酒与十块石头
分级诊疗路难行?
法国葡萄酒何以誉满天下
分级诊疗的“分”与“整”
酿酒忘米
分级诊疗的强、引、合