双轮倒立摆机器人的模型预测控制策略

2018-09-17 09:27孔国利张璐璐

机械设计与制造 2018年9期

孔国利，张璐璐

（郑州工程技术学院信息工程学院，河南郑州 450000）

1 引言

双轮倒立摆机器人（Two Wheeled Inverted Pendulum Robot，TWIPR）具有结构简单、操作灵活、机动性高和油耗低等优点，使其受到了国内外学术界和各领域的广泛关注，如航空航天、高端装备制造、智能机器人和工业过程等[1-2]。典型的TWIPR系统主要包括一对相同的车轮、底盘、驱动器、倒立摆和运动控制单元等部分，其中运动控制单元的作用在于确保倒立摆机器人运动的准确性和稳定性。因此，研究对TWIPR进行精确控制的方法成为需要解决的难题。

现有研究结果表明，TWIPR被普遍认为是一种非线性且不稳定的欠驱动系统，因而设计相应的控制策略成为最具挑战性的研究方向之一。目前，各种先进的现代控制技术已经被广泛应用于复杂的TWIPR系统，如，PID控制器[3-4]、自适应极点配置（Adaptive Pole Placement）控制器[5]和线性二次调节（Linear Quadratic Regulator，LQR）控制器[6]等。除此之外，滑模（Sliding Mode）控制器也被用于TWIPR系统的控制[7-8]，该控制器所具有的强鲁棒性可以有效解决由被控系统的参数变化和不确定性扰动而造成的不利影响。为此，设计了一种高效的模型预测控制（Model predictive control，MPC）方法对不稳定的TWIPR系统进行准确控制，利用过程的显示模型对系统的性能进行优化。同时，采用一种确定性的自回归滑动平均（Deterministic Autoregressive Moving Average，DARMA）模型对TWIPR系统进行数学建模，而MPC控制器的设计则利用该TWIPR模型的一个线性状态空间。通过与LQR控制器进行比较，设计的MPC控制器能够有效降低控制系统的均方根误差，具有更强的优越性和可靠性。

2 动力学模型

倒立摆系统的动力学模型是通过直接对其物理学特性进行运动机理分析而获得的[9]。尽管可以简单有效地建立TWIPR的动力学模型，但是在建模过程中对非线性系统的简化和线性化处理可能会降低建模精度。为了避免上述建模过程的不足，釆用了DARMA模型对倒立摆机器人进行数学建模。采用牛顿-欧拉（Newton–Euler）方法建立TWIPR系统的数学模型，如图1所示。

其中，TWIPR系统的运动位置和方向可以通过提供驱动力矩的两个独立驱动器获得。设计的MPC控制器的目标在于调节控制TWIPR系统的位移x，方位角θ和倾斜角α分别达到理想值xd，θd和0。假设车轮和地面之间没有任何的相对滑动，作用于左右轮上的平衡力和力矩使其获得运动方程，如式（1）所示。

式中：Mw、Iw—TWIPR 左右两个车轮的质量和转动惯量；Fl、Fr—左右车轮与平台之间的相互作用力；Hl、Hr—作用在左右车轮上的摩擦力；dl、dr—左右车轮的外部作用力；θl、θr—在左右车轮的运动转角；xl、xr—左右车轮在TWIPR运动方向上的位移；α、θ—倒立摆的倾斜角和车辆的方位角；r、m—车轮半径和倒立摆质量。

作用在倒立摆上沿x方向上的平衡力和绕重力中心点O的转矩可以数学表示，如式（2）所示。

为了验证所建立的TWIPR模型的准确性和预测控制器的有效性，需要搭建相应的仿真系统，主要由预测控制器和倒立摆模型两部分组成。在通常情况下，MPC控制器需要预先设定参考轨迹，然后根据建立的TWIPR模型输出反馈进行反复校正，最终获得最优的预测控制量。这里的两个倒立摆的模型参数均设置如下：m=95kg，M=44.5kg，Mw=6.55kg，IM=5kg·m2，Ip=137kg·m2，d=0.55m，l=1.026m，r=0.223m和Iw=0.17kg·m2。控制流程图，如图2所示。

国内外常用的土壤重金属污染程度评价方法有单因子污染指数法、地积累指数法、内梅罗综合指数法、潜在生态危害指数法[5]，还有利用地质统计学来评价重金属污染空间特征及危险性评价的方法[6-7]。这些评价方法各有优缺点，也有不同的适用性，没有系统的分类及统一的标准[8]。本文欲考虑成岩过程的自然地质作用对土壤重金属背景值的变动影响下来评价农田土壤中重金属的潜在生态危害，故选取地积累指数法及潜在生态危害指数法来对铀矿尾矿库周边的农田土壤重金属污染状况进行综合评价。

1.观察组和对照组患者治疗依从性比较：观察组138例CP患者中治疗依从性良好137例，良好率99.3%；对照组CP患者治疗依从性良好116例，良好率84.1%。观察组CP患者治疗依从性显著优于对照组，差异有统计学意义(P<0.05)。

联立式（1）至式（3），可以得到TWIPR系统的运动方程。接下来，若定义状态的六维矢量为［α α˙x v θ θ˙］，则 TWIPR 系统的状态空间方程可表示为矩阵，如式（4）所示。

做好雨污分流，有利于减少污水产生量，降低运营成本，有利于降低垃圾堆体含水率，减少臭气产生量，提高堆体稳定性，是实现生活垃圾卫生填埋的关键所在。

显然，上式中的目标函数具有如下的离散二次结构：

3 TWIRP的预测控制器设计

考虑到预测控制策略优异的鲁棒性和模型适应性，对于TWIPR的稳摆控制可以通过预测控制的方法来实现。设计的MPC算法主要包括三个共同元素，即预测模型，目标函数和控制规则[10]。同时，采用DARMA模型具有离散性和线性时变性，因而其状态空间可表示，如式（6）所示。

致谢：感谢EvelyIle Barbin、Bjørn Smestad及Hans Niels Jahnke在此文撰写过程中给予的指导和帮助．

采用MATLAB软件的Simulink模块搭建设计的MPC控制器，其中MPC两个独立控制器的具体参数可分别通过求解式（6）和式（10）获得。搭建的控制系统利用采样时间为0.1s的零阶保持器作为输入信号，同时加权矩阵，如式（11）所示。

MPC控制器利用解耦单元将τα和τθ转换为车轮转矩τr和τl，使TWIPR绕z轴和y轴的转动能够被独立控制，而其对应的解耦单元设计为 tα=τl+τr和 tθ= τl-τr。因此，式（4）所描述的车辆状态空间模型主要包括两个解耦的子系统，即倒立摆系统和转动系统，可别表示为式（5）所示。

接下来，主要集中于利用模型预测控制策略设计两个相互独立的MPC控制器。

式中控制步长用m表示。同时，通过对加权对称矩阵Q（k）和R（k）的调节可使控制系统获得特定的性能。此外，出于简化公式的目的，下面将引入两个新变量，如式（8）所示。

在没有任何约束的条件下，仅且有唯一的U（k）使得J存在最小值。因此，若令上式的一阶偏导数为0，则可以得到最小值2HU（k）-2F。若 H 存在逆矩阵，则式（8）的唯一解为 U*（k）=H-1F。显然，若H正定，则H的逆H-1存在，这就确保了J的二阶导数同样正定，故U*（k）为最小值点。但是，若H可能为病态矩阵时，则H的数值求逆过程应当尽量避免。此时，可以采用将其等效为最小二乘问题进行数值求解，最终获得最小值U*（k）。考虑到当加权矩阵为对角矩阵时，其矩阵的平方根可简单等效为所有对角元素的平方根。因此，最小值U*（k）是标准方程式（9）的解。

式中：ml2—TWIPR系统绕y轴的转动惯量；g、l—重力加速度和O点和重力中心点之间的距离。作用在平台和倒立摆上的平衡力矩的数学表达式，如式（3）所示。

式中：“+”—矩阵的伪逆，从而有 U*（k）=Kε（k）为增益 K 和跟踪误差ε（k）的最优控制过程。

4 仿真结果与分析

我刚点燃那堆干柴，小屋的门突然被推开了，一个淋得透湿的姑娘闪了进来，怯怯地问我：“大哥，天太冷了，我可以在您这儿烤烤火吗？”我说：“当然可以，你过来吧。”姑娘说：“谢谢大哥！你这儿还有点可以吃的东西吗？我饿得慌。”我说：“有，在锅里盖着呢，但现在已经凉透了，我这就去给你热一下。”

图2 TWIPR控制系统的流程图Fig.2 Flow Chart of TWIPR Control System

式中：l—预测间隔的离散步长的数目。

正如前文所述，控制目标是在各种干扰和外力条件下调节倾斜角α趋近于0。外力0.1sin（t）和阶梯状干扰应用到TWIPR去验证设计控制器的正确性，并将设计的MPC控制器与文献[6]中LQR控制器进行比较，相关的仿真结果，如图3～图5所示。

MPC控制器和LQR控制器在相同加权矩阵的条件下的对比结果，如图3～图5所示。MPC控制器对于稳定倒立摆系统要优于LQR控制器。其中，MPC控制器对于梯状干扰的倾斜角的响应要比LQR控制器平稳得多，而旋转角的响应则与LQR基本相当。此外，由图5可以看出，设计的MPC控制器相对于LQR控制器来说需要更小的控制输入力矩。然后，分别计算MPC和LQR控制器的均方根误差（means square error，MSE）用以评估两种控制方法的性能，相关的仿真结果，如表1所示。

图3 MPC和LQR控制器对梯状干扰力的倾斜角响应Fig.3 Tilt Angle Response of the MPC and LQR Controller to the Stepped Disturbance Force

图4 MPC和LQR控制器对梯状干扰力的旋转角响应Fig.4 Totation Angle Response of MPC and LQR Controller to the Ladder Disturbing Force

图5 MPC和LQR控制器的左右轮驱动力矩Fig.5 Left and Right Driving Torque of the MPC and LQR Controller

从表1结果可知，MPC控制器对于梯状和正弦外力的倾斜角响应的MSE分别为1.0313×10-6和1.1753×10-6，而LQR控制器对应的响应则为0.0132和0.0134。同时，MPC控制器对于梯状和正弦外力的旋转角响应的MSE分别为0.0158和0.0162，而LQR控制器对应的响应均为0.0263。显然，在两种外力驱动的条件下，设计的MPC控制器的均方根误差要明显小于LQR控制器，尤其是对倾斜角的控制性能，其原因主要在于MPC控制器的前馈控制能够有效补偿可测干扰。

决策式句法分析模型的典型代表是移近—归约状态转移模型。移近—归约状态转移模型在分析过程中维护一个堆栈和一个队列，堆栈用以存储到目前为止所有的依存子树，队列存储尚未被分析到的词。堆栈顶端和队列的头部确定了当前分析器的状态，依据该状态决定进行移进、规约或者建立栈顶元素与队首元素的依存关系的操作，从而转入新的状态。

表1 两种控制器的均方根（MSE）误差的比较Tab.1 Comparison of the Root Mean Square（MSE）Error of the Two Controllers

5 结论

针对欠驱动的双轮倒立摆机器人（TWIPR）的非线性系统，使用模型预测控制（MPC）策略设计了两个相互独立控制器。为了简化TWIPR系统的非线性模型，在其不稳定平衡点附近进行线性化，然后利用解耦单元根据线性模型设计了两个独立MPC控制器，在存在梯状干扰和两个其他外部干扰的条件下，对设计的MPC控制器的有效性和可靠性进行验证。最后，将设计的MPC控制器与线性二次调节（LQR）控制器进行对比分析，通过引入控制器的均方根误差（MSE）评估其性能。仿真结果表明：设计的MPC控制器相对于LQR控制器具有更好的有效性和可靠性。此外，由于MPC的控制前馈能够在本质上补偿各种可测干扰，使MPC控制器的抗干扰性和鲁棒性同样强于LQR控制器。

校园足球研究的作者地域遍布在24个省、自治区和直辖市（见表6），地域分布广泛，但地区差异明显，分布不均衡．从表6可以看出，校园足球的研究主要集中在上海、北京、广东、湖北、山东、江苏和辽宁等地，共发文76篇，占发文总量的61.29%，与这些地区的经济文化发展水平高，足球运动开展活跃有关．