基于相似度的三角模糊数Fisher线性判别分析

2018-08-17 00:26黄雅楠
计算机工程 2018年8期
关键词:类间胃病投影

黄雅楠,

(宁夏大学 数学统计学院,银川 750021)

0 概述

传统的统计分析方法多数针对实值数据,然而实际问题经常需要分析除实值数据外的其他类型数据,例如人们对某一事物的观点、看法、评级结果等并不总是用实数表示的。为此,统计学家们提出向量值数据、删失数据、集值数据和函数数据等多种数据类型,并发展了相应的分析方法[1]。此外,人们经常需要处理用自然语言表述的信息,例如当被调查者进行满意度评估时,通常以“非常满意”“满意”“一般”等回答来描述,这些语义信息不能用精确的数值来表达,而模糊数已被证明可以很好地刻画语义信息的不精确性[2]。

目前关于模糊数据的统计分析已成为数据分析中的一个热点问题[3]。数据去模糊化作为模糊数据分析中一种简单便捷的方法,使得模糊数据可应用多变量分析法则进行分析。文献[4]建立了基于模糊定积分“去模糊化”的Choquet积分和基于遗传算法(Genetic Algorithm,GA)的自适应分类器学习算法模型,其将模糊数据投影到虚拟变量的实轴上,并采用最优条件进行分类,使总错分率最小。文献[5]应用全部模糊信息,提出用特定的函数值随机变量来识别模糊数据,并在函数型数据分析的背景下,讨论了基于非参数核密度估计的判别分析方法。文献[6]研究一种将回归与模糊逻辑相结合的分类方法,用于测定野生鱼类的采样地点,该方法采用logistic回归模型,对所涉及的变量进行统计分析,构建模糊推断系统变量的规则基础和模糊聚类,从而得到对野生鱼类采样点的有效分类结果。

判别分析是特殊的分类问题,其理论目前已比较完善[7-8]。然而针对模糊数据,构建与之相适应的判别分析模型成为近年来模糊统计数据分析的一个重要内容。文献[9]针对区间数的分类问题,建立区间型数据的Fisher线性判别分析模型,其主要目标在于找到一个方向向量,使得类间离散程度与类内离散程度之比达到最大。文献[10]比较了3种区间数的线性判别分析方法,并以一个弧菌的真实数据集为例讨论其优劣性。为了克服传统判别分析只能处理清晰观测数据的缺点,文献[11-12]将数据包络分析(Data Envelopment Analysis,DEA)方法的优势与判别分析相结合,构建以L-R模糊数作为观测数据的DEA-DA模型,该模型可以对L-R型模糊数据进行处理,并在模糊控制中保持其判别能力。

本文针对三角模糊数分类中的判别分析问题,构建基于相似性度量的Fisher线性判别分析模型。首先依据三角模糊数的相似度刻画类内离散程度,利用三角模糊数的距离量化类与类之间的离散程度;然后寻找一个投影方向向量,使得投影之后数据的类间离散程度与类内离散程度之比达到最大;最后通过具体胃病实例说明该分类模型的适用性。

1 三角模糊数和模糊随机变量

目前多数模糊数研究都是以三角模糊数作为开端进行分析,因此,对三角模糊数的研究在模糊数据分析中拥有着不可替代的地位,本文首先介绍三角模糊数的相关基本内容。

1.1 三角模糊数及其运算

则称A为三角模糊数,简记为(al,am,au)且al≤am≤au。若am-al=au-am,则称A为对称三角模糊数[13]。

设有a=(al,am,au)、b=(bl,bm,bu)和实数k,根据模糊集的扩张原理,有如下运算规则:

a+b=(al+bl,am+bm,au+bu)

a·b=(albl,ambm,aubu)

(2)

设2个三角模糊数a=(al,am,au)和b=(bl,bm,bu),令:

(3)

为a、b之间的距离。该距离为模糊数之间的一个合适的指标,可以用来量化数据的平均变化,是一个Hausedorff距离[14],并为许多学者所运用。选择文献[13]所提出的具有普适性的2个三角模糊数相似度:

(4)

显然,0≤S(a,b)≤1,S(a,b)越大,表示a、b越相似。若S(a,b)=1,则a=b。

1.2 模糊随机变量及其性质

本文将取值为模糊数的随机变量定义为模糊随机变量,对模糊随机变量的研究角度不同,其具体的定义也不尽相同,本文主要参照1978年KAWKERNAAK H提出的定义[15],具体如下:

定义2设(Ω,A,P)为一概率测度空间,令u1,u2,…,un为模糊变量,对于Ω中的每个事件ωi,ξ(ω)是一个模糊随机变量,如果ω=ωi,i=1,2,…,n,则ξ(ω)=ui。

(6)

是实值随机变量,即Borel测度下的实值函数。α截集在ξ上的限制为:

ξα(ω)=[inf(ξ(ω))α,sup(ξ(ω))α]

(7)

(8)

其中,L1(Ω,A,P)是(Ω,A,P)上的可积函数类。

定理1设X为概率测度空间(Ω,A,P)上的有界可积模糊随机变量,则对∀α∈[0,1]有以下结论成立:

inf(E=E(infXα)

sup(E=E(supXα)

(9)

定义5设X为一模糊随机变量,在概率测度空间(Ω,A,P)上的平方积分有界,且EX存在,则令:

DXE(X-EX)2

(10)

为模糊随机变量X的方差。由于EX是一个有界模糊数,而方差DX描述了数据之间的离散程度,因此也为模糊数。

定义6设X、Y为模糊随机变量,在概率测度空间(Ω,A,P)上X2、Y2积分有界,则X、Y也是(Ω,A,P)上的模糊随机变量,且X、Y积分有界,令:

cov(X,Y)E(X-EX)(Y-EY)

(11)

为模糊随机变量X、Y的协方差,cov(X,Y)为一模糊数。

2 三角模糊数Fisher线性判别分析

如果有一个新的观测值U0,笔者想要决定这个新的观测值属于哪个类。为得到分类过程,把经典的Fisher线性判别方法扩展到模糊随机变量的框架下,先讨论2个类的情况,随后扩展到多个类。

类比于经典的Fisher线性判别分析模型,现有nk个三角模糊数投影Vi,此时Vi不再是标量。根据LDA的主要思想,笔者想要选取一个w*,它可以使各类之间的分离度达到最大且各类内之间的分离度最小,即使得:

达到最大。其中,SB为类间离散程度,SW为类内离散程度。由于每个类的投影其均值是一个模糊数,因此分离度依赖的是样本均值之间的距离。

(15)

为得到J(w)中的分母,需要计算模糊数的类内离散程度。在本例中,属于第k个类(k=1,2)的模糊数据的样本协方差矩阵为:

(16)

即三角模糊数之间的相似度代替总体方差与协方差,这样,Sk即为一矩阵,其中的每个元素均为实数。

定义模糊数的类内离散程度为:

通过模仿Fisher线性判别分析进程,可获得如下分离度:

同样,也可定义模糊数的类间离散程度SB=D·DT。引理1建立了一个与式(7)等价的J(w)表示方法:

引理1对任意p维向量w=(w(1),w(2),…,w(p))T及SB=D·DT,其中D由式(15)定义,有如下结论成立:

(wTD)2=wTSBw

(19)

证明:一方面,由式(15)可知表达式(wTD)2可以写为式(20)。

(20)

另一方面,有式(21)存在。

其中:

因此,通过式(21)和式(22),可检验wTSBw与式(20)等价,由此引理1得证。

通过引理1,J(w)可被等价表示为:

这说明,对于三角模糊数据之间的分离度是类间离散程度与类内离散程度之比,这一点与经典的Fisher判别类似。

为找到一个最优的方向w*使得J(w)达到最大,与经典情况类似,可直接得出在下述情况J(w)最大:

(24)

因此,综上可得2个类的情况下三角模糊数的分类法则,即给定一个新的模糊数U0和其在方向w*上的投影V0,如果:

另一方面,如果有多个类,即G>2,则本文目标是找到G-1个投影方向向量{w1,w2,…,wG-1}按列排列为投影矩阵W,使得类间离散程度与类内离散程度之比达到最大。因此,通过计算WTUj,每个观测值Uj都可转换成G-1个投影。

针对多个类的情况,类内离散程度和类间离散程度可由式(27)和式(28)计算。

对比于经典情况,考虑:

多个类的判别法则如下:给定一个新的模糊观测值U0,若式(31)成立,则将其分到第Ch个类中h,l={1,2,…,G},h≠l。

3 实例分析

医生通过一些化验指标来判断就诊人员是否患病的问题,本例是在已知确诊为胃癌和萎缩性胃炎及非胃病者的化验数据的前提下,给出鉴别胃病的方法,并用所给数据进行检验。人体是否患有胃病可从以下4种生化指标中判断:血清蛋白(X1),蓝色反应(X2),尿吲哚乙酸(X3),中性硫化物(X4)。表1是从病例中随机抽取的部分资料,其来源于2011年宝鸡文理学院数学建模竞赛。数据集由来自3种不同种类的胃病的50个观察值组成,其中75%的数据被划分到训练样本中,25%的数据被保存为测试样本。从训练数据集中的3种胃病类型中选取并展示15个病人的生化指标,其中1号~5号病例是已经确诊为胃癌病人的化验结果,6号~10号病例是已经确诊为萎缩性胃炎病人的结果,10号~15号是非胃病者的化验数据,每人化验4项生化指标,具体数值如表1所示。

表1 3种类型胃病病人的4项生化指标数值

采用经典的Fisher判别分析模型,以训练数据的所有生化指标为自变量进行分析,建立传统的Fisher判别函数,用测试数据对判别函数进行验证,得到的判对率为93.3%,其中误判只发生在原本是正常人的身上。

医生在判断一个人是否患胃病是根据例子中所提到的4种生化指标在人体内的含量来判定的。根据实际情况可知,当人机体内发生某些病变时会导致人机体的生理和生化功能发生很大的变化,进而会引起人体内某些物质含量发生变化。但是这些物质的含量的变化并没有一个相似的规律。进一步检查这些物质含量的高低是否会引起病变是非常耗时的。相反地,根据医学专家的以往经验和简单的诊断则可通过模糊的尺度来表达对语言标签(高、中、低)的感知,从而快速便捷地判断患者是否患有胃病。根据收集到的生化指标信息和专家的语义描述标准,将每个病人被抽样的指标含量划分为高、中、低。在本例中可简单地根据专家对上述数据中前三个指标用具体三角模糊数描述语义,如表2所示。例如:专家通过以往的经验,对病人1其血清蛋白含量的描述是“中”,对蓝色反应含量的描述是“低”,对尿吲哚乙酸含量的描述是“低”,可分别用三角模糊数(0.50,0.72,0.82)、(0.12,0.33,0.82)、(0.30,0.48,0.66)来表示。

表2 专家对生化指标的语义描述

通过数据计算,3种胃病的样本均值分别为:

由上文所选择的三角模糊数距离公式及求类间散布公式可求得类间距为:

通过计算,可得到具体的判别法则。作为试点研究,由于本例样本量较小(20个胃癌患者、10个萎缩性胃炎患者、20个非胃病患者),因此本文用1 000个随机-3折的交叉验证来估计正确分类的百分比,即每个类对应的样本被随机分成3个子折叠,大小大致相同。首先,将所有类的子折叠组合在一起,以构成第一个折叠,以此类推。整个数据集被分割成3个大小大致相同的折叠,使得每个类的观测值在每个折叠中所占的比例约等于整个样本中原始的比例。每一折叠都作为测试样本,而不包括在该折叠中的观测值作为训练样本。在此过程中,样本中的每个数据点都被分类。最后,为避免对3个特定的折叠项的依赖,整个过程重复1 000次,随机选择不同的折叠组合。这样,每一叠都至少包含3个观测值。估计本文方法的正确分类百分比,考虑1 000个随机-3折的交叉验证,其结果正确分类百分比的总结如下:最小值为95.11%,中位数为95.30%,均值为95.14%,最大值为96.11%,偏差仅为0.36%。

4 结束语

处理既包含随机性又包含模糊性的复杂数据,构建与之相适应的判别模型,是模糊统计数据分析中的重要内容。针对三角模糊数的分类问题,本文构建基于相似性度量的Fisher线性判别分析模型,该模型是经典Fisher线性判别分析模型的推广。同时通过具体实例说明所得分类法则在语义化描述胃病诊断结果中的适用性。由于现实中经常存在线性不可分的判别问题,因此下一步将针对三角模糊数非线性的核判别问题进行研究。

猜你喜欢
类间胃病投影
解变分不等式的一种二次投影算法
基于OTSU改进的布匹检测算法研究
基于贝叶斯估计的多类间方差目标提取*
基于最大相关熵的簇稀疏仿射投影算法
基于类间区分度的属性约简方法*
找投影
找投影
走路治好老胃病
老胃病:三分治,七分养
基于改进最大类间方差法的手势分割方法研究