冯 宇
(长安大学 电子与控制工程学院,陕西 西安 710064)
预测模型广泛应用于科学研究和工业生产的各个领域,系统的预测模型是指用数学语言或公式来描述系统的输入与输出间的关系,其主要功能是建立连续或离散的函数模型,预测给定自变量对应的因变量的值[1],其数学本质是建立一个预测函数,使得对于每一个提前期,实际值与预测值之间的偏差的均方尽可能小[2]。建立预测模型有多种思路,例如趋势外推预测、回归预测、卡尔曼滤波预测、组合预测等[3-6],在这些思路的基础上已有多种预测模型被建立并广泛使用,但多数预测模型针对的是一维输出系统,即需要预测的参数是一维的。随着数据量和系统复杂程度的增加,需要寻求建立同时预测多维输出的预测模型。文中研究基于张量偏最小二乘法(tensor partial least squares,TPLS)的高维输入输出预测模型的建模方法,该方法可在不进行降维操作的情况下直接处理输入输出均为张量的高维数据,从而降低了因数据结构遭到破坏而导致信息丢失的风险。建模实验数据来源于心脏传导系统的电生理信息,通过正常和急性高血糖环境下电生理信息数据的特征,同时预测急性高血糖的浓度和作用时间。
(1)
按照元素可以表示为:
(2)
图1 张量偏最小二乘法分解示意
(3)
为了解决唯一性问题和潜变量的维数问题,可以增加约束条件:
(4)
‖tr‖F=1
(5)
式4表示负载矩阵序列是列正交的;
式5表示潜变量的维数为1。
定义核张量:
(6)
则式3可以写成:
(7)
为了在保证共同隐向量t的前提下使残差E和F最小,需要引入三个定理:
(8)
式8的最小二乘解可以写为:
(9)
s.t. 矩阵P(n)列正交,且‖t‖F=1
(10)
(11)
s.t. 矩阵P(n)列正交,且‖t‖F=1
(12)
三个定理的证明可参考文献[8-9,12]。
假设已知正交矩阵P(n)和Q(m)以及向量t,根据定理1,式3的核张量可以写成如下形式:
(13)
(14)
(15)
则优化问题可以表示为:
(16)
其中,P(n)(n=1,2,…,N-1),Q(m)(m=1,2,…,M-1)为待优化的参数。
上述的计算步骤循环进行,直到所有元素都被计算一次或者残差小于给定的范围为止。
//r=1,2,…,R;n=1,2,…,N-1;m=1,2,…,M-1
forr=1 toRdo
{
{
}
else
break;
}
本实验使用MED64微电极阵列测量系统(AlphaMedScience,日本)来进行数据采集和分析。系统包括传感器、信号放大电路、控制器、采集和处理数据所用的计算机以及生物实验相关设备(显微镜、灌流槽、蠕动泵等)。实验动物使用雄性C57/BL6J小鼠(年龄8~12周,体重20~25 g),实验操作过程符合长安大学生物实验操作规程和伦理学要求。实验中首先取出小鼠心脏,使用有钙台式液和Langendorff离体心脏灌流方法进行离体灌流,然后将右心房置于下方,直接与传感器测量平面接触,进行信号测量。整个测量过程中,给样本持续提供有钙台式液(溶液中加入5%二氧化碳和95%氧气),流速为5 ml/min,每次实验中给样本加入不同浓度的高糖溶液(浓度分别为20 mM、30 mM、40 mM和50 mM)。在每次实验中,首先记录对照样的测量信号,随后,从第0分钟开始加入高糖溶液,持续加入40分钟。每种浓度加入后,从第0分钟开始,每间隔5分钟测量一次,采样频率为20 kHz,每次测量持续30 s。
(19)
表1 三种二维输出预测模型的预测结果
图2 三种方法预测值和实际值的对比
文中使用基于张量偏最小二乘法的高维输入输出预测模型,实现了高糖溶液对生物样本的作用时间和高糖溶液浓度两个输出变量的同时预测。与传统的多向偏最小二乘法和多维偏最小二乘法相比较,基于张量偏最小二乘法的预测模型最适合用于对急性高血糖浓度和作用时间同时预测。
未来应研究不同维度的输出数据间存在关联时预测模型的优化问题,并且应关注该方法的临床可操作性,即如何在体表提取与急性高血糖密切相关的电生理信号,使该方法可以为急性高血糖的临床医学诊断提供指导与建议。