基于去伪策略的间歇过程自适应迭代学习

2015-10-13 05:49王晶王玥王伟曹柳林靳其兵

中南大学学报（自然科学版） 2015年4期

王晶，王玥，王伟，曹柳林，靳其兵

基于去伪策略的间歇过程自适应迭代学习

王晶1，王玥2，王伟3，曹柳林1，靳其兵1

(1. 北京化工大学信息科学与技术学院，北京，100029；2. 中国市政工程华北设计研究总院有限公司第三设计研究院，天津，300074；3.河北能源职业技术学院现代技术教育中心，河北唐山，063004)

针对间歇聚合反应的质量控制问题，设计一种双层迭代学习的控制结构：外层面向批次间可测的终点质量指标采用基于在线式最小二乘支持向量机的终端质量学习控制，为内层控制提供最优的设定值；对于内层面向批次内可测的过程变量，提出基于去伪策略的自适应迭代学习控制方案，可以较好地解决批次间温度设定值发生改变的问题，提高内层控制鲁棒性。内层控制方法具体如下：首先给出基于共轭梯度法的改进去伪控制算法，然后将改进的去伪控制算法应用于迭代学习的控制框架中，利用去伪算法的实时自适应能力来调整内层迭代学习控制的控制器参数，并以闭环P型迭代学习控制算法为基础推导去伪迭代学习控制器参数自适应律的数学描述。最后，将本文的方法应用于典型的间歇聚合反应过程。仿真结果表明：该方法具有良好的控制效果，在一定程度上可以克服传统迭代学习算法要求参考曲线在迭代过程中保持一致的缺点，而且具有较快的收敛速度。

去伪策略；自适应迭代学习；间歇聚合过程；质量−温度双层学习控制

随着消费市场对化工产品多样化需求的逐渐增大，灵活多变的间歇过程在现代化工生产中也越来越受到人们的青睐[1]。与传统大型连续过程不同，间歇过程化学反应过程具有反应机理复杂和阶段性划分明显等特点。由于反应机理复杂多变，在一个操作周期内，系统模型参数变化明显，呈现强非线性，所以，无法用常规的数学模型来描述反应过程模型，这样就对传统的基于模型的控制方法带来了新的挑战。针对间歇过程的控制问题，大量的先进建模与控制算法被提出与应用，如基于神经网络模型的优化控制算法[2]、无模型自适应控制算法[3]等，但上述算法不能充分利用间歇过程的数据重复性，所以，很难达到出色的控制效果。由于间歇过程存在批次重复性，所以，针对重复过程所提出的迭代学习控制(iterative learning control，ILC)[4−5]为间歇过程提供了新的控制框架。围绕着间歇过程产品质量的迭代学习控制研究，得到了很多的研究成果。文献[6]针对间歇过程中的持续性干扰问题，提出了基于PLS模型的迭代优化控制算法，该算法利用PLS降低控制变量的维数，从而简化控制律计算；Liu等[7]提出了一种基于支持向量机回归模型的间歇过程质量优化控制算法，该算法通过对质量模型的支持向量机回归，很好的克服了迭代过程中的模型干扰。在间歇聚合反应过程中，产品质量作为经济指标是核心控制指标，但反应温度作为过程安全性指标，其控制也尤为重要，同时反应温度控制与产品质量存在明显的耦合关系，即反应温度的动态控制效果直接影响产品质量的控制效果，而产品质量控制为反应温度控制提供设定值。针对质量与温度的联合控制，文献[8]和[9]分别将模型预测控制和递归神经网络与迭代学习控制相结合，建立批次内的温度控制与批次间的质量控制的一致关系，完成了对质量−温度的联合控制，取得了良好的控制效果。但上述2种算法中，对于批次内的温度控制并没有充分利用间歇过程的数据重复性，同时模型预测控制与递归神经网络的计算复杂性也使得算法无法在工业现场中得到应用。为了充分利用间歇过程的重复性，本文作者提出一种模型与数据融合驱动的质量−温度双层迭代学习控制结构：首先针对外环的质量控制问题设计了基于在线式最小二乘支持向量机回归模型的自适应迭代学习控制算法；第二，提出一种基于共轭梯度法的改良去伪切换算法，使得去伪切换控制具有更快的切换速度。第三，为了适应质量控制对反应温度设定值的实时调整，提出了共轭去伪迭代学习控制算法(UC-ILC)，该算法以闭环P型ILC 为控制框架，引入去伪切换思想，利用共轭去伪策略实时调整学习增益以适应反应温度设定值沿迭代轴向的变化；最后将UC-ILC成功应用于典型的间歇聚合过程的温度控制回路中。

1 间歇聚合反应中的双层迭代学习控制结构

在间歇聚合反应过程的控制中，聚合物的质量指标是第一控制目标，同时为了保证反应安全与反应质量，反应条件的控制也尤为重要。本文设计了一种双层迭代学习的控制结构，聚合终点质量控制回路作为第一迭代学习控制层；而反应釜内的温度控制回路作为第二迭代学习控制层。由于反应釜内温度作为质量指标的控制变量，所以，质量控制层的控制器输出作为温度控制层的设定值。其控制结构如图1所示。图1中：y()为聚合过程终点质量指标；d()为质量指标的设定值；r为反应温度；j为夹套温度。虚线框图内为内环温度控制回路，为了保证反应条件的快速准确跟踪，采用实时闭环控制，即基于去伪策略的自适应迭代学习控制算法；控制结构外环为聚合物质量控制回路，由于质量指标无法实时测量，采用开环迭代控制，即基于在线式最小二乘支持向量机的自适应终端迭代学习控制算法[10]。

图1 间歇聚合过程双层迭代学习控制结构示意图

1.1 基于在线式最小二乘支持向量机的自适应终端迭代学习控制算法

聚合物质量指标不能实时测量，只在反应终点测量，所以采用终端迭代学习控制，同时为了提高终端迭代学习控制的自适应能力和对迭代轴向干扰的抵抗能力，本文作者提出了基于在线式最小二乘支持向量机的自适应终端迭代学习控制算法[10]。这里采用该方法实现外环控制。

首先建立聚合物终点质量和反应温度的在线最小二乘支持向量机回归模型：

其中：y()为聚合物终点质量；u为反应釜内温度；(u，u)为核函数；和为回归模型参数。

对回归模型进行线性化，即对式(1)进行Taylor展开得到线性化模型：

定义质量跟踪优化指标函数为

其中：和为权值矩阵。

求解式(3)的优化问题可以得到自适应迭代学习控制律：

由式(4)中求解的控制器输出为内环温度控制的设定值。

1.2 基于去伪策略的自适应迭代学习控制算法

由于间歇聚合过程的双层控制结构，所以，温度控制层的参考曲线在每个批次之间随着质量控制而变化。而传统迭代学习控制的一个基本假设是要求参考曲线在迭代过程中保持一致，所以，传统迭代学习控制算法无法有效的解决温度控制问题。本文提出一种基于去伪策略的自适应迭代学习控制算法。

1.2.1 基于共轭梯度法的去伪控制算法

去伪控制由Safonov等[11]提出，是一种基于在线过程数据驱动的自适应控制算法，是一种无模型的自适应控制算法。算法的本质是一种控制器的切换机制，利用在线的过程数据计算去伪代价函数，根据去伪条件对备选控制器集合中的控制器进行切换以达到去伪控制条件获得良好的控制效果。当控制结构已经确定时，备选控制器集合就转换为控制器的参数集合，去伪控制将转化为一种参数自整定的方法，即根据实时过程数据调整控制参数。该控制算法不对被控过程做任何假设，仅仅利用被控制过程的输入输出数据来评价当前控制器是否满足去伪条件，从而进行切换。

去伪控制示意图如图2所示。图2中，(1，2，…，k−1，k)为备选控制器集合，该集合包含所有投入闭环控制系统的控制器，去伪切换器利用实时的过程数据计算代价函数来评价备选控制器，从而选择最优的控制器。

图2 去伪控制结构示意图

用于计算去伪代价函数虚拟信号按下式计算：

定义去伪代价函数如下式描述：

为了保证控制系统的稳定性，去伪代价函数需要具有一定的属性，如单调非减性和代价可检测性[12]。当某个控制器在一个闭环系统中时，代价函数量测了系统输出与虚拟参考信号的匹配程度。

本文中按下式定义去伪切换条件：

其中：是1个可调参数，表征去伪条件的严格程度，一般根据控制系统的具体情况选择合适的数值。当式(7)成立时，控制器根据切换规则进行切换；反之，当前控制器保持不变。针对备选控制器集合为有限集时，文献[11]提出的方法要求遍历所有备选控制器以寻求最优；针对控制器集合为无限集时，文献[13]和[14]分别提出了椭圆搜索法和梯度下降法。由于椭圆搜索法计算复杂，难以在工业现场中实际应用；而梯度下降法简单易行、方便实施在工业现场中得到广泛应用。但是梯度下降法的收敛速度较慢，容易陷入局部最小点。针对梯度下降法的缺点，本文将共轭梯度法引入去伪切换规则的设计中，共轭梯度法与梯度下降法相比具有更好的收敛速度和全局收敛性。下面推导基于共轭梯度法的去伪控制算法。

当控制器结构确定时，备选控制器集合将转化为参数集合，考虑参数集合为无限集的情况，以1个参数为例，则代价函数式(6)可以转化为

其中：为控制器参数。

依据共轭梯度方法，可以得到参数的递推公式：

1.2.2 基于去伪策略的自适应迭代学习控制算法

为了提高迭代学习控制算法的收敛速度，本文将去伪策略引入迭代学习的基本结构中构成了自适应迭代学习控制算法，算法的结构示意图如图3所示。

图3 去伪迭代学习控制结构示意图

在迭代学习控制的控制架构中引入去伪调度器，利用当前批次的实时输入输出数据和上一批次的历史数据实时地调整控制的学习增益。

考虑间歇聚合反应过程的反应温度控制回路，设聚合反应的时间区间为[0，f](f为反应终止时间)，在反应时间区间内共有个采样点。其中反应温度r为被控变量为，夹套温度j为控制变量，参考温度为d，定义按下式所示：

选择闭环P型ILC作为控制算法的基本架构则：

根据式(12)可以推导虚拟参考信号如下式所示：

去伪代价函数按下式描述：

定义去伪切换条件如下式所示：

其中：为可调参数。当式(15)成立时，控制器参数进行切换。将式(13)代入式(14)得到

式(16)可以写成如下形式：

依据式(17)可以得到代价函数对控制器参数的梯度表达式：

结合式(9)和式(10)可以得到闭环P型迭代学习控制的参数去伪切换规则(即自适应律)：

其中：

双层迭代学习控制结构首先利用上一批次的质量指标跟踪误差结合式(4)计算当前批次反应温度的设定值，依据这个设定值利用式(19)和式(20)实时调整温度控制器的参数，使得反应温度和产品质量都达到控制要求。由于采用双迭代学习结构，所以，可以充分利用间歇过程中数据的二维性，获得良好的稳态和动态控制效果。

2 仿真研究

2.1 共轭梯度法去伪控制的数值仿真分析

本文利用数值模型在MATLAB中仿真实现基于共轭梯度法的去伪控制算法，并与文献[14]中所提到梯度法进行对比。仿真参数设定如下：

被控对象为

控制器选为比例控制器：

=(22)

去伪代价函数定义为

去伪切换条件设计为

其中，=0.005。

控制器参数的初值为0.1，优化步长为0.000 1。控制效果对比如图4所示。

1—共轭梯度去伪算法；2—梯度去伪算法

从图4可以看出：在相同的优化步长和初值的情况下，共轭梯度法去伪控制与普通梯度法相比具有更好动态过渡过程和稳态跟踪效果。

2.2 去伪迭代学习控制在间歇聚合反应控制中仿真分析

本文所研究的间歇聚合过程是由Cott等[16]提出的，该模型代表了一类典型的间歇聚合反应过程，其反应器的结构示意图如图5所示。该反应器由1个带有搅拌器的聚合反应器和夹套组成，釜内聚合反应包含放热的主反应和副反应，反应为搅拌充分，液相定容过程。由于该反应非常剧烈，放出大量热量，同时温度的增加又加剧了反应，若温度控制不及时，很容易产生聚爆。从控制结构上看，采用为串级控制，反应釜内的温度控制器作为主控制器；夹套温度控制器作为副控制器，是分程控制器，分别调节冷却水和过热蒸汽来控制夹套温度，从而控制反应釜温度达到指定温度。

图5 间歇聚合反应器结构图

反应釜内的主副反应的表达式为

式中：A和B为单体进料：1和2为反应速率常数(符合Arrhenius方程)；C为聚合主产物；D为聚合反产物。该聚合反应的主要目标为使得主产物C的产量最大化，同时控制副产物的D的产量。

该聚合反应过程的反应动力学方程(包含物料平衡方程和能量平衡方程)按下式描述：

式(26)中反应速率常数1和2按下式计算：

式中：C(=A，B，C，D)分别为单体进料和聚合产物的物质的量，其初始物质的量分别为12，12，0和0 kmol；r和j分别为反应釜内温度和夹套温度，它们的初始值为20 ℃，工作区间为20~120 ℃；其他常值参数见表1，表1中参数的说明见文献[2]和[16]。

表1 间歇聚合过程参数列表

2.2.1 去伪迭代学习控制在间歇聚合反应温度控制回路的应用

本文将去伪迭代学习控制首先应用于间歇聚合反应过程内环反应温度定值控制(不考虑外环质量控制的影响)，与传统迭代学习控制进行对比，仿真环境为Matlab，其仿真参数如表2所示。

表2 温度控制回路仿真参数

去伪迭代学习控制算法的控制效果与误差收敛曲线如图6和图7所示。

1—参考温度；2—第1批次温度；3—第3批次温度；4—第100批次温度

1—传统迭代学习控制；2—去伪迭代学习控制

从图6可以看出：在间歇聚合反应温度控制的过程中，UC-ILC通过实时调整迭代学习控制器的学习增益获得快速稳定的动态跟踪效果。从图7可以看出：由于UC-ILC的自适应性，依据不同的误差情况而调整学习增益，从而获得快速一致的收敛效果。

2.2.2 双层迭代学习控制结构在间歇聚合反应质量控制中的应用

在间歇聚合反应过程的控制算法中，上层质量控制和下层温度控制分别采用自适应终端迭代学习控制和去伪迭代学习控制构成双层迭代结构，2个控制层相互影响，相互配合，所以，底层温度的动态、稳态跟踪效果直接影响质量学习控制的收敛性与收敛速度。在本文的仿真讨论中，由于底层温控制受到质量控制的影响，所以，温度参考曲线不断发生变化，常规ILC无法实现控制。本文分别采用PID和UC-ILC实现对变化参考曲线的跟踪，同时由于温度控制的动态效果直接影响质量控制，所以，对于PID与UC-ILC分别计算得到不同的设定值变化曲线，如图8所示。为了保证聚合反应过程的安全性，所以设定值进行滤波计算，得到平稳飞升曲线作为参考温度曲线，其滤波器为

1—去伪迭代学习控制；2—PID

图8 温度设定值随批次变化曲线

Fig. 8 Variation of temperature set point along with iterative index

以第20个批次为例，分别采用PID和UC-ILC 作为底层温度控制算法，并对比2种算法的对反应温度的控制效果，见图9。由图9可以看出：反应温度的设定值不断变化，所以PID控制在第20批次的温度控制并没有获得良好的控制效果；而UC-ILC由于充分利用过程测量数据，从而实现了精确跟踪。

1—PID参考温度曲线；2—PID实际温度曲线；3—UC-ILC参考温度曲线；4—UC-ILC实际温度曲线

图10所示为UC-ILC与PID对温度跟踪均方误差对比。图10中纵坐标为反应温度跟踪的均方差(MSE)按下式计算：

1—UC-ILC；2—PID

图10 UC-ILC与PID对温度跟踪均方误差对比图

Fig. 10 Comparison chart of MSE of temperature between UC-ILC and PID

从图10可以看出：随着迭代过程的进行，由于上层质量控制的调节作用，每个批次的反应温度的设定值都在改变，PID控制算法很难得到很好的跟踪效果，而UC-ILC充分利用迭代数据实时调整控制器参数，很好地改善了温度控制效果。

图11所示为不同底层温度控制对上层质量控制的影响。从图11可以看出：由于采用底层温度控制采用不同的控制算法(UC-ILC和PID控制)造成底层温度控制效果不同，从而造成质量控制过程的误差收敛效果不同。因为UC-ILC具有更好的温度控制效果，所以，质量控制也获得了良好的误差收敛效果。

1—PID控制；2—UC-ILC控制

从上述仿真结果可以看出共轭梯度法去伪迭代学习控制算法能够充分利用间歇过程的重复性数据，使得反应温度能够获得良好的控制效果，从而使得聚合物质量控制获得快速稳定的收敛效果。

3 结论

1) 设计了一种批次内和批次间融合的双层迭代学习的控制结构，用于解决间歇聚合反应的质量控制问题：对于外层面向批次间可测的终点质量指标，采用基于在线式最小二乘支持向量机的终端质量学习控制，为内层控制提供最优的设定值；对于内层面向批次内可测的过程变量，采用基于去伪策略的自适应迭代学习控制方案，可以较好地解决批次间温度设定值发生改变的问题，提高内层控制鲁棒性。

2) 提出了基于去伪策略的自适应迭代学习控制算法，在闭环迭代学习控制的基本架构中设计了一种基于共轭梯度法的去伪参数调整器，依据实时过程数据和当前的控制效果调整学习增益，有效地改善了闭环迭代学习控制的收敛速度与一致收敛性，同时数据驱动的算法具有良好的自适应能力。

3) 运用所提出的算法解决间歇聚合过程的质量−温度联合控制问题，在反应温度设定值不随批次变化时，去伪参数调整器的存在大幅度地加快了闭环迭代学习控制的收敛速度，同时改善了算法的一致收敛性；当间歇聚合过程存在质量控制回路时，由于上层质量控制存在使得每个批次的温度设定值不断变化，传统迭代学习控制无法有效地解决温度跟踪问题，而去伪迭代学习控制可以不断调整系统参数以适应设定值在一定范围内的变化，从而获得良好温度控制效果，进而获得更好的质量控制结果。

[1] Siam A, Brandon C, Tracy C P, et al. Data-driven model predictive quality control of batch process[J]. AICHE Journal, 2013, 59(8): 2852−2861

[2] WANG Jing, CAO Liulin, WU Haiyan, et al. Dynamic modeling and optimal control of batch reactors based on structure approaching hybrid neural networks[J]. Industry Engineer Chemical Research, 2011, 50 (10): 6174−6186.

[3] 王晶, 纪超, 曹柳林, 等. 基于二阶泛模型的无模型自适应控制及参数整定[J]. 中南大学学报(自然科学版), 2012, 43(5): 1795−1802.WANG Jing, JI Chao, CAO Liulin, et al. Model free adaptive control and parameter tuning based on second order universal model[J]. Journal of Central South University (Science and Technology), 2012, 43(5): 1795−1802.

[4] Jay H L, Kwang S L. Iterative learning control applied to batch processes: An overview[J]. Control Engineering Practice, 2007, 15(10): 1306−1318.

[5] WANG Youqing., GAO Furong, Doyler F J.Survey on iterative learning control, repetitive control, and run-to-run control[J]. Journal of Process Control, 2009, 19(10): 1589−1600.

[6] Flores-Cerrillo J, MacGregor J F. Iterative learning control for final batch product quality using partial least squares models[J]. Industry Engineer Chemical Research, 2005, 44(24): 9146−9155.

[7] LIU Yi, YANG Xianhui, XIONG Zhihua, et al. Batch-to-batch optimal control based on support vector regression model[C]//The Second International Symposium on Neural Networks. Chongqing, 2005: 125−130.

[8] ZHUGE Jinjun, Marianthi G I. Integration of scheduling and control for batch processes using multiparametric model predictive control[J]. AICHE Journal, 2014, 60(9): 3169−3183.

[9] XIONG Zhihua, ZHANG Jie. A batch to batch iterative optimal control strategy based on recurrent neural network models[J]. Journal of Process Control, 2005: 15(1): 11−21

[10] 王晶, 王玥, 王伟, 等. 面向系统参数批次变化的自适应迭代学习控制[C]//第32届中国控制会议论文集. 西安, 2013: 2850−2855.WANG Jing, WANG Yue, WANG Wei, et al. Adaptive terminal iterative learning for batch process with batch-varying parameters[C]//Proceedings of the 32nd Chinese Control Conference. Xi’an, 2013: 2850−2855.

[11] Stefanovic M, Safonov M G, Tsao T C. The unfalsiﬁed control concept and learning[J]. IEEE Transactions on Automatic Control, 1997, 42(6): 843−847.

[12] Stefanovic M, Safonov M G. Safe adaptive switching control: Stability and convergence[J]. IEEE Transactions on Automatic Control, 2008, 53(9): 2012−2021.

[13] Helvoortvan J, Jagerde B, Steinbuch M. Direct data-driven recursive control unfalisification with analytic update[J]. Automatica, 2007, 43(12): 2034−2046.

[14] WANG Jing, WANG Yue, CAO Liulin, et al, Adaptive iterative learning control based on unfalasified strategy for Chylla-Haase Reactor[J]. IEEE/CAA Journal of Automatica Sinica, 2014, 1(4): 347−360.

[15] Fletcher R, Reeves C M. Function minimization by conjugate gradients[J]. Comput J, 1964, 7: 149–154

[16] Cott B, Macchietto S. Temperature control of exothermicbatch reactor using genericmodel control[J]. Industrial Engineering Chemistry Research, 1989, 28(8): 1177−1184.

(编辑杨幼平)

Adaptive iterative learning control based on unfalsified strategy applied in batch process

WANG Jing1, WANG Yue2, WANG Wei3, CAO Liulin1, JIN Qinbing1

(1. College of Information Science and Technology, Beijing University of Chemical Technology, Beijing 100029, China; 2. Third Design and Research Institute, North China Municipal Engineering Design & Research Institute Co. Ltd., Tianjin 300074, China; 3.Modern Technology Education Center, Hebei Energy College of Vocation and Technology, Tangshan 063004, China)

Bilayer iterative learning structure was proposed for quality control in batch polymerization process. Adaptive terminal iterative learning control based on the online least square support vector machine model was developed for the outer layer of quality control. Adaptive iterative learning control based on unfalsified strategy for the inner layer of process variables control was proposed to solve the problem of batch-varying reference temperature. Firstly, the advanced unfalsified control based on conjugate gradient was improved, and then the control algorithm was embed in closed-loop P-type iterative learning control frame, in which unfalisified strategy was used to adjust learning gain based on online input-output data. The mathematics description of unfalisified adjust law in close-loop P-type iterative learning control was derived. Finally, the control algorithm was applied to the typical batch polymerization process. The simulation results show that the proposed approach has better control performance and higher convergence rate.

unfalsified strategy; adaptive iterative learning; batch polymerization process; quality−temperature compound learning

10.11817/j.issn.1672-7207.2015.04.021

TP273

1672−7207(2015)04−1318−08

2014−04−09；

2014−07−12

国家自然科学基金资助项目(61174128，51375038)；北京市自然科学基金资助项目(4132044)；中央高校科研基本业务费专项资金资助项目(ZZ1223)(Projects (61174128, 51375038) supported by the National Natural Science Foundation of China; Project (4132044)supported by the Natural Science Foundation of Beijing Municipal, China; Project (YS1404) supported by Fundamental Research Funds for the Central Universities, China)

王晶，博士，教授，从事复杂工业过程的建模与控制研究；E-mail：jwang@mail.buct.edu.cn