Takagi-Sugeno模糊系统双正则联合稀疏建模新方法*

2019-06-19 12:34林得富张嘉旭应文豪王士同
计算机与生活 2019年6期
关键词:正则建模规则

林得富,王 骏+,张嘉旭,应文豪,王士同

1.江南大学 数字媒体学院,江苏 无锡 214122

2.常熟理工学院 计算机科学与工程学院,江苏 常熟 215500

1 引言

在各种模糊系统模型中,T-S(Takagi-Sugeno)模糊系统模型具有简单的可解释结构,能够将线性系统理论与模糊理论相结合来描述复杂的非线性系统模型,即将整个非线性系统模型看作多个局部线性系统模型的模糊逼近,在系统建模领域占据着重要的地位[1-5]。

T-S模糊系统是由多条以“If-Then”形式显示表示的模糊规则构成的,每条模糊规则又是由规则前件和规则后件组成的。T-S模糊系统建模过程主要包括两个步骤:一是提取规则前件;二是求解规则后件。规则前件的提取需要对原始输入空间进行划分,广泛使用的有固定划分和基于网格的划分方法[6];基于聚类的划分方法,如k-means聚类[7]、减法聚类[8]、向量量化聚类[9]、模糊C均值聚类(fuzzy C-means,FCM)[10]等。其中模糊C均值聚类算法是将输入空间划分为若干局部模糊域的一种理想方法,模糊聚类数目直接与规则相关,具有一一对应的关系。对于后件参数的求解有多种方法,一些传统方法如:最小二乘(least squares,LS)[11]及其扩展方法加权递归最小二乘(weighted recursive least squares,WRLS)[12]、正交最小二乘(orthogonal least squares,OLS)[13]等方法。然而采用这些传统方法建立起来的T-S模糊系统模型存在着指数复杂性的问题。

近年来,一些研究人员将稀疏学习引入到模糊系统后件学习中,以缓解因后件参数过多而导致的模型可解释性变差以及过拟合等一系列问题。例如,Lughofer等人提出的SparseFIS(sparse fuzzy inference systems)[3]方法,在后件学习中通过约束后件参数的稀疏程度来约减模糊规则数目;Luo等人提出的块结构化稀疏方法H-SparseFIS(hierarchical sparse fuzzy inference systems)[14],将前件的块结构化学习与后件的稀疏学习相结合,在一定程度上去除了冗余规则,约减了模糊规则的数目。但是这些方法对于后件参数的学习没有考虑到模糊规则间公共特征的重要程度,将输入样本的全部特征无区分地用来构建模糊规则,导致最终的模型中不可避免地包含冗余特征,一方面会导致过拟合问题而影响模型的泛化性能,另一方面会降低模型的可解释性。

以此为出发点,为了在提高模糊系统模型泛化性能的同时增强模型的可解释性,本文提出了一种基于双正则联合学习的T-S模糊系统建模新方法。该方法充分考虑存在于T-S模糊系统后件中的块结构信息,将规则间稀疏学习方法引入模糊建模过程中,通过利用不同模糊规则间的相关性来选取规则间重要的公共特征,在此基础上进行模糊规则的构建;与此同时,为避免过拟合对模型泛化性能的影响,引入过拟合处理机制来权衡模型的泛化性能和复杂程度。这样建立起来的模糊系统模型能够在兼顾模型泛化性能的同时提高模型的可解释性。

本文组织如下:第2章介绍T-S模糊系统的一些基本概念和符号定义;第3章重点讲解T-S模糊系统联合建模新方法;第4章主要给出实验结果并与一些经典的建模算法进行了对比和分析;第5章是结束语。

2 T-S模糊系统基本概念

本章对T-S模糊系统进行了基本的介绍。下面引入模糊系统中的一些基本概念和符号表示,最后讨论了模糊系统建模与线性回归问题的关系。对于一个D维输入向量x=(x1,x2,…,xD)T∈RD,第m条模糊规则Rm可以表示为:

由此,T-S模糊系统的输出可表示为如下形式:

式中,φm(x)表示输入向量x对于第m条模糊规则的触发强度,具体的表达式如下:

式中,Φ=(Φ1,Φ2,…,ΦM),由Φm∈RN×(D+1)构成,通过下式求解:

其中,Xe=(1,XT),X=(x1,x2,…,xN)。

同时,定义式(7)中的后件参数向量w=((w1)T,(w2)T,…,(wM)T)T∈RM(D+1)。本文将Φ∈RN×M(D+1)称作T-S模糊系统的字典,很明显,T-S模糊系统的字典是由M个块结构组成的,Φm∈RN×(D+1)是相应的子字典,与每一个wm相对应。模糊系统的输出ŷ可用模糊规则子字典的一个线性组合表示。因此,T-S模糊系统建模可以转化为线性回归问题来解决。

3 基于双正则的T-S模糊系统联合建模方法

本章主要介绍T-S模糊系统联合建模新方法,主要可分为两个步骤:确定规则前件和学习规则后件。下面将分为三部分进行具体介绍,分别是提取规则前件、规则后件的结构化联合稀疏学习和双正则联合优化问题的求解。

3.1 提取规则前件

3.2 规则后件的结构化联合稀疏学习

传统意义上,有两种学习规则后件参数向量wm的方法[16],一种是通过求解关于w的最小二乘(LS)问题的全局学习,另一种方法是通过求解关于wm(m=1,2,…,M)的M个独立的加权LS问题的局部学习。然而这两种方式都存在着一定的弊端:全局学习在后件学习的优化过程中单独处理后件参数,但是这种方法忽略了存在于模糊系统后件中的块结构化信息;而局部学习对每一条模糊规则分别估计其后件参数,其本质上是一种结构化学习,但是在未经选择的情况下就将所有后件参数考虑在内,这样就会导致有些无效的模糊规则和冗余的特征也会引入到最终的模型中。

Fig.1 Visualization of consequent parametersW图1 后件参数矩阵W的可视化

于是,目标函数表达式可以表示为:

其中,γ是一个正则化参数,用于权衡模型拟合程度和模型复杂度。

图1对模型的后件参数矩阵进行了可视化描述。其中区域颜色深浅代表后件参数值的大小,颜色越深表示后件参数值越大。||W||2,1为各条规则间后件参数的稀疏约束,用于剔除冗余的特征,选取规则间重要的公共特征。

最终,模型的求解可转化为对下面双正则优化问题进行求解:其中加入该正则化项||W||2,1是为了对多条模糊规则的后件参数进行共同学习,选择出规则间重要的公共特征,剔除冗余特征。根据L2,1正则的特点,对应组变量具有组稀疏的特性,对于变量值全部接近于0的组,可以剔除;反之,对应组将被选择,示意图见图1的可视化矩阵。剔除冗余变量可以减小噪声特征的影响和简化模型的复杂度,在一定程度上可以提高模型的可解释性。同时,引入L2正则避免模型的过拟合,可以提高模型在测试数据上的泛化性能。

3.3 双正则联合优化问题求解

本文中采用交替方向乘子法(alternating direction method of multipliers,ADMM)来解上述优化问题。ADMM算法可以看成是在增广拉格朗日算法基础上发展起来的一种新算法,相对于增广拉格朗日算法,ADMM算法最大的优越性在于充分利用了目标函数的可分离性和乘法器的优良收敛性,将原问题分解为若干个更容易获得全局解的最小化子问题来进行分析和求解,在统计学习和分布式凸优化领域都有重要的应用[17-18]。

为了采用ADMM来求解本文方法的最优解,通过重写式(10),式(10)所定义的优化问题可转化为以下形式:

进一步,优化问题可以表示为:

使用增广拉格朗日算子结合f(W)和g(V),可得:

其中,ρ>0,是一个惩罚参数,U是一个与约束W=V相关的缩放对偶变量。该优化问题的解可以通过交替最小化W和V上的增广拉格朗日函数来迭代求解,迭代过程如下:

第一步,固定Vk和Uk来最小化W上的增广拉格朗日函数;第二步,固定Wk和Uk来求解V;第三步,更新对偶变量Uk+1。这个算法交替迭代运行,直到初始残差和对偶残差小于终止条件||Wk+1-Vk+1||F<ε为止。

求解式(18)关于wm的导数,并令其等于0,可得:

令Qm=γΛ+(ρ/2)I,Sm=(Φm)T,rm=(Φm)Ty-(ρ/2)(umvm),式(19)可表示为:

对于所有的wm联合学习,可以得到以下公式:

其中,Q和S是分块矩阵,具体形式如下:

vec(W)为W的向量形式。

式(16)的解可以通过计算下式得到:

T-S模糊系统联合建模方法描述如下:

L2-CFS-FIS算法:

2.学习规则后件:求解式(10)定义的基于双正则的联合优化问题,得到相应的后件参数。

初始化W0=0,U0=0,V0=0;

Fork=0:max_iter

使用式(21)更新Wk+1;

使用式(23)更新Vk+1;

使用式(17)更新Uk+1;

5.学校教育过程存在问题。部分学校的酒店专业课程安排不合理,过于注重学生的专业技能培养,忽视了学生的职业道德和心理适应能力的培养,导致顶岗实习期间,实习生无法顺利处理工作中的问题,为酒店带来损失的同时又打击了学生的积极性,不利于学生的就业。

If||Wk+1-Wk||<ε,break;

End

ReturnWk+1;

3.生成模糊规则:基于上述步骤得到的前件和后件结果,生成M条“If-Then”形式的模糊规则。

输出:模糊推理系统L2-CFS-FIS。

L2-CFS-FIS算法主要包括前件的求解和引入双正则机制学习规则后件两部分,它们的时间复杂度分别是O(MKN)、O(TKNM2)和O(NK2),其中M为样本个数,N为特征维数,K为模糊规则条数,T为算法迭代次数。因此,L2-CFS-FIS算法总的时间复杂度为O(MKN+TKNM2+NK2)。可以看出,该方法的运算复杂度与数据维数N成线性关系,随着数据维数N的增加,模型本身的运算时间呈线性增长。但是运算复杂度与模糊规则条数K成平方关系,而且随着数据维数的增多,模型所需的模糊规则条数往往也会随之增加,因此当数据维数过高时,计算量会大大增加,模型的运算性能会降低。

4 实验

为了验证本文所提方法的有效性,本章中,将提出的算法L2-CFS-FIS与其他经典模糊系统建模方法在不同的数据集上进行了对比和分析。本文使用的对比算法有 H-Sparse FIS[14]、L2-norm penalty-based εinsensitive T-S fuzzy systems(L2-TSFS)[20]、基于SVR的TS-fuzzy-system-based support vector regression(TS-SVR)[21]、Genfis2[22-23]以及Genfis3[22-23]。算法中各参数的设置采用5折交叉验证[24]来进行寻优,参数的详细设置如表1所示。

本文所提模型L2-CFS-FIS主要涉及3个参数,h为模糊隶属度函数中调节方差的尺度参数,可参考经典的模糊系统建模论文如文献[5],这里本文设置h∈{10-3,10-2,…,103},从较大的范围内进行粗粒度寻优,兼顾了隶属度函数方差调节的合理性和算法的效率。关于正则化参数γ和θ,从机器学习模型加入正则化项的作用角度上来分析可知,正则化项系数越大,惩罚力度越大,模型正则项的作用越大,一般将上限设置为103或104;反之,惩罚力度越小,侧重于模型本身的拟合效果,下限通常设置为10-3,可参考文献[25],因此本文设置参数寻优范围为γ∈{10-3,10-2,…,104},θ∈{10-3,10-2,…,104}。

本文采用如下指标来评估算法的泛化性能:

Table1 Detailed settings of all algorithms'parameters表1 实验中各算法参数的详细设置

4.1 泛化性能实验

本节进行模型的泛化性能比较实验,选用Housing、Baseball、Mortgage、Wine、Concrete、Abalone、ENB等真实数据集进行实验。本文所提算法与经典模糊系统建模算法在各个数据集上的泛化性能统计如表2所示。

实验中用到的Housing数据集来源于Carnegie Mellon University的StatLib数据库,可从UCI Machine Learning Repository获取。该数据集共有CRIM、ZN、INDUS等13维特征,用于预测房价的中值。Baseball数据集、Mortgage数据集、Wine数据集和Concrete数据集可从KEEL Dataset Repository中获得。Abalone数据集用于预测鲍鱼的年龄,鲍鱼的年龄通常取决于使用锥切割壳并通过显微镜计数环的数量,但切壳后环数的获得较为繁琐,一般采用其他几个更容易获得的测量(性别、长度、高度、总重量、去壳重量等8个特征)来进行预测。该数据集从KEEL Dataset Repository库中获得。ENB数据集用来模拟12种不同的建筑形状进行能量分析,包含有8个特征,分别是表面积、墙面积、总高度等测量指标,预测目标是加热负载和冷却负载,可从UCI Machine Learning Repository中获取。

从表2中可以看出,本文所提算法L2-CFS-FIS虽然在Mortgage数据集上的泛化性能比H-SpaseFIS算法略差,但是在其他6个数据集上,模型的泛化性能均有所提升;相较于L2-TSFS、TS-SVR等传统建模方法,L2-CFS-FIS在这些数据集上的泛化性能具有显著优势。归结原因在于,本文所提算法在进行后件参数的学习时,能够充分利用后件中的块结构信息,并将模糊系统子字典中对应特征的重要性考虑在内,通过引入L2,1组稀疏正则化技术来挖掘规则间重要公共特征之间的联系;同时,引入过拟合处理机制来防止模型的过拟合。综合以上两点,保证了模型在大多数数据集上的泛化性能是最优的,在上述数据集上的实验结果说明了本文所提算法在提高模型泛化性能方面的优越性。

4.2 L2-CFS-FIS模糊系统模型

本节,基于Abalone数据集对模型产生的模糊规则前件进行了可视化。为了方便对模型产生的模糊规则进行语义化表示,定义每个前件隶属度函数对应一个模糊语义变量,这里根据聚类中心的值依次采 用 VLOW、LOW2、LOW1、MEDIUM、HIGH1、HIGH2、VHIGH来表示不同的语义变量。7条模糊规则对应每个变量的前件隶属度函数及语义表示见图2。由此,模糊规则If部分的语义表示及Then部分的线性函数就可以构成一条完整的模糊规则,受篇幅所限,本文只给出两条模糊规则的语义化表示,如表3所示。

对于T-S模糊系统来说,模型的可解释性不仅与模糊规则数目有关,还与模糊规则在输入空间划分清晰度有关。从图2中各规则的前件语义表示可以看出L2-CFS-FIS所构建模型的模糊规则在输入空间划分清晰,具有较高的可解释性。而且在建模过程中,本文所提算法通过规则间共享公共特征方法将特征的重要程度考虑在内,选择出不同模糊规则间的重要公共特征(重要的特征对应的后件参数值较大,反之较小)。

Table2 Comparison of generalization performance of all algorithms on datasets表2 各算法在不同数据集上的泛化性能比较

Fig.2 Membership functions and potential linguistic explanation in antecedent part of L2-CFS-FIS model图2 L2-CFS-FIS模型前件隶属度函数及其语义表示

Table3 Fuzzy rules example表3 模糊规则实例

为了说明本文算法具有挖掘规则间重要公共特征的作用,将模型在Abalone数据集上7条模糊规则产生的后件参数进行可视化。此外,为了对比更加明显,设置γ=0去除模型的规则间公共特征选择机制,同样对后件参数进行可视化。图3和图4分别展现了这两种模型的规则后件参数与特征之间的关系。从图3中可以看出,对于模型生成的7条模糊规则,第8维特征对应的后件参数值均较大,而第2维和第3维特征对应的后件参数值均较小,可以得出结论:壳的重量这一特征对于预测鲍鱼的年龄具有重要的鉴别意义,而长度和直径特征(对应第2维和第3维特征)对于年龄预测作用较弱,在建模时可以有选择地剔除,以降低模型的复杂度,提高模型的可解释性。相对而言,图4中所有后件参数的取值均处于一个较小的变化范围内,说明了γ=0时的模型无区分地对待所有特征,没有规则间公共特征选择的作用。

Fig.3 Relationship between consequent parameters and attributes of L2-CFS-FIS图3 L2-CFS-FIS模型规则后件参数与特征的关系

Fig.4 Relationship between consequent parameters and attributes of L2-CFS-FIS(γ=0)图4 L2-CFS-FIS模型(γ=0)规则后件参数与特征的关系

4.3 参数敏感性分析

本节进行模型参数的敏感性分析,实验所用数据集为ENB1。图5展示了初始模糊规则数目M对本文所提算法泛化性能的影响。

Fig.5 Sensitivity experiment of parameterM图5 参数M的敏感性实验

图5显示,在ENB1数据集上,在固定其他参数的前提下,随着模糊规则条数的增加,RRSE的值变化很平缓,初始模糊规则的数目M的改变对于本文所提方法的泛化性能影响不大。说明L2-CFS-FIS方法对于初始模糊规则数目M的取值不敏感,体现了本文方法还具有较好的鲁棒性这一优势。

5 结束语

本文所提出的模糊系统联合稀疏建模方法L2-CFS-FIS充分考虑存在于T-S模糊系统后件中的块结构化信息,将模糊规则间公共特征选择技术和过拟合处理机制同时引入规则后件参数的学习中,并采用ADMM算法来分步快速求解联合优化问题。在一系列真实数据集上的实验结果表明,L2-CFS-FIS模糊系统通过选取模糊规则间重要的公共特征进行建模以及过拟合的有效处理,在保证模型较好泛化性能的前提下,能够降低模型的复杂度,有效解决了传统模糊系统模型因使用样本的全部特征来构造模糊规则而造成的规则繁杂问题。但是,本文算法仍存在一些不足之处,对高维数据进行建模面临计算量增大的挑战,如何针对高维数据快速建模是下阶段研究的重点。

猜你喜欢
正则建模规则
撑竿跳规则的制定
物理建模在教与学实践中的应用
具有逆断面的正则半群上与格林关系有关的同余
在经历中发现在探究中建模
联想等效,拓展建模——以“带电小球在等效场中做圆周运动”为例
求距求值方程建模
奥斯卡的规则变了!
任意半环上正则元的广义逆
sl(n+1)的次正则幂零表示的同态空间
让规则不规则