Fisher判别和Mahalanobis距离判别比较研究

2017-04-09 19:10吴江
宁波职业技术学院学报 2017年5期
关键词:正态分布方差均值

吴江

摘 要: 将Fisher判别与Mahalanobis距离判别作比较,研究二者的关系,得出结论并给出解释与证明。基于二者的比较给出一种简单的Fisher判别程序(基于MATLAB),并做数值实验加以论证。

关键词: 数据;样本; Fisher判别; Mahalanobis距离

中图分类号: O 213.9 文献标志码: A 文章编号: 1671-2153(2017)05-0091-04

0 引 言

判别方法是根据所研究个体的观测值构建一个综合标准来推断个体属于已知种类中的哪一类的方法[1]。判别方法有很多,Mahalanobis距離判别是最典型的判别方法,Fisher判别是最常用的判别方法之一[2]。目前对于Mahalanobis距离判别和Fisher判别的比较研究比较缺乏。本文简要阐述了Mahalanobis距离判别和Fisher判别的内容,然后对其进行比较研究,得出一些结论并给出一种简单的Fisher判别程序。

由于Fisher判别不需要对样本进行检验,而且有一定的正确率,因此它在實际中得到了广泛的应用[3]。

Mahalanobis距离判别简称马氏距离判别,从统计学角度考虑,采用Mahalanobis距离来衡量总体之间的距离比采用欧式距离来衡量总体之间的距更为科学。

1 Fisher判别与Mahalanobis距离判别的关系

2 基于MATLAB的Fisher判别程序

在MATLAB中,Mahalanobis距离判别的程序可以调用函数

classify(sample,training,group,'mahalanobis')

来实现,其中“sample”表示待测样本,“training”表示训练样本,“group”表示分组,“mahalanobis”表示使用的距离是Mahalanobis距离。从定理1知道Fisher判别是一种将数据经过一个线性映射处理后的Mahalanobis距离判别,所以先编写一个映射程序再结合classify函数来实现Fisher判别程序,这样做的好处是不需要编写一个完整的Fisher判别程序,只需要编写一个映射程序,这样的Fisher判别程序可以视为比较研究的一个应用。程序流程如图1所示。

运行结果表示随机生成随机均值为0,方差为1和均值为3,方差为1的两组二维正态分布数据各25个作为训练样本,用Fisher判别对这两组数据进行回代估计,得出误判率为0.020。图2用圆形和菱形的点表示两组训练样本,用在直线y=x上的圆形和菱形点表示两组训练样本经过映射f后得到的点。图2表示将数据映射到一条直线上(因为是一维数据,映射到任何一条直线上都可以,这里是映射到直线y=x),使得这两组数据更加容易区分开来。这里要注意的是每运行一次程序都会得到不同的结果,因为两组训练样本是随机生成的。

3 MATLAB数值实验

实验1 随机生成随机均值为0,方差为1和均值为3,方差为1的两组一维正态分布数据各500个作为训练样本,然后分别用Fisher判别和Mahalanobis距离判别对这两组数据进行回代估计。误判率的回代估计容易计算,当训练样本容量较大时,可以作为真实误判率的一种估计[4] 。进行10次实验结果如表1所示。

由表1可以看出,10次实验中Mahalanobis距离判别误判率与Fisher判别误判率均为相等。因为在定理2中已经证明了对于一维数据,Fisher判别与Mahalanobis距离判别等价,所以无论多少次实验,一维数据的Fisher判别与Mahalanobis距离判别的误判率一定是相等的。

实验2 随机生成随机均值为0,方差为1和均值为3,方差为1的两组二维正态分布数据各500个作为训练样本,与实验一操作相同,进行10次实验得到两种判别方法的误判率,实验结果如表2所示。由表2可以看出,10次实验中,Fisher判别误判率和Mahalanobis距离判别误判率均不相等,Fisher判别误判率要稍低于Mahalanobis距离判别误判率,在样本为二维数据的情况下Fisher判别要略好于Mahalanobis距离判别。

实验3 随机生成随机均值为0,方差为1和均值为3,方差为1的两组五维正态分布数据各500个作为训练样本,与实验一和实验二操作相同,进行10次实验得到两种判别方法的误判率,实验结果如表3所示。

由表3可以看出,10次实验中Fisher判别误判率要低于Mahalanobis距离判别误判率,并且Mahalanobis距离判别误判率大约是Fisher判别误判率的两倍左右,在样本为五维数据的情况下Fisher判别要好于Mahalanobis距离判别。

从上述3次数值实验结果可以看出,同种判别方法随着样本数据维数的增加判别的准确性会有所提高。如果将样本数据维数继续增加, Fisher判别的效果会更加明显的好于Mahalanobis距离判别。

4 结束语

对于一维数据,Fisher判别与Mahalanobis距离判别等价,而随着数据维数的增加,Fisher判别准确性要好于Mahalanobis距离判别,这也证实了定理1所描述的Fisher判别是一种将数据经过一个线性映射处理后的Mahalanobis距离判别。所以在数据维数不等于1的情况下,Fisher判别是Mahalanobis距离判别的一种改进。

得到了Fisher判别与Mahalanobis距离判别的关系(定理1),就可以先编写一个映射程序再结合classify来实现Fisher判别程序,因为这里的Mahalanobis距离判别程序只要调用classify函数即可实现,无须自己编写程序,从而避免了编写一个完整的Fisher判别程序,降低了工作量. 这也可以看成是Fisher判别与Mahalanobis距离判别关系的一个简单应用.

参考文献:

[1] 易平,刘彪,周丹,等. 声光调制用于全光纤维激光器的光谱调谐[J]. 电压与声光,2014,36(4):552-554.

[2] 连红天,王石语,刘国荣,等.用声光调制器实现的1WNd:YAG单纵模环形激光器[J]. 应用光学,2014,35(2):332-335.

[3] 黄利文,梁飞豹. 改进的Fisher判别法[J]. 福州大学学报(自然科学版),2006,34(4):471-475.

[4] 范金城,梅长林. 数据分析[M]. 北京:中国科学出本社,2010:160.

猜你喜欢
正态分布方差均值
生活常态模式
均值—方差分析及CAPM模型的运用
均值—方差分析及CAPM模型的运用
方差生活秀
均值不等式的小应用
揭秘平均数和方差的变化规律
方差越小越好?
方差在“三数两差”问题中的妙用
二项分布及其应用、正态分布
应用均值定理“四”注意