回归正交试验设计原理浅析

2020-04-15 07:18于慧春殷勇李欣
知识文库 2020年4期
关键词:球面回归方程预测值

于慧春 殷勇 李欣

回归正交试验设计把试验规划、数据处理以及实用、可靠回归方程建立统一起来,不仅使得在每个试验点上获得的数据含有最大的信息量,并且大大减少试验次数,使得数据的统计分析具有一些较好的性质。因而,在科学研究中应用非常广泛。为了更深入的理解回归正交试验设计方法,本文对回归正交试验设计的原理及特点进行了较为详细的分析,以期为广大师生的学习及应用提供一定的帮助。

深入了解事物本质,找出不确定性变量之间的相互依存关系,常用的分析方法就是回归分析。普通的回归分析方法,只是被动的处理已有的试验数据,而对试验的规划几乎不提任何要求,并且对所获得的回归方程的精度也不做研究。这样,不仅盲目的增加了试验次数,而且试验数据还存在不能提供充分信息的弊端,导致在许多多因子问题中达不到试验目的。

为获得高质量的回归方程而按相应的要求安排试验,称为回归试验设计。其目的是为了减少试验次数,简化回归计算,并使回归方程实用、可靠。回归正交设计,是指试验方案的结构矩阵具有正交性的回归设计。是在正交设计基础上发展起来的,可建立方程,选择最佳的方案。其突出优点是用很少的处理组合得出完全实施试验相同项数的回归模型,计算过

程极为简单并已消除了回归系数之间的相关性,统计性质得到了明显改善。因而,回归正交试验设计在寻求最佳工艺及配方,以及建立生产过程的回归数学模型,以用于控制和预测等研究中应用非常广泛,因此,本文结合自己对回归正交试验设计方法的理解,对回归正交试验设计的原理及特点作一简单的介绍。

1 回归正交试验设计的编码

进行回归正交试验设计,首先确定各因子的变化范围,然后对其各因子进行编码,编码即对各因素进行线性变换。编码的意义主要是:消除各因子单位及数值大小对结果的影响,使得各因子的研究区域由因素空间的多维长方体变为编码空间的多维正立方体,且在编码空间的取值范围都是,从而保证各因素的不同水平都是“平等”的。

例如:以一个两因子的研究为例,如图1所示,因子的研究区域在因子空间是一个矩形,因子取值单位不同,数量级不同,会对回归方程的可靠性产生不利影响,如因子本身与所研究指标间的相关性可能并不强,但是由于數量级不较大,导致结果倾向于该因子,而将实际与指标相关性较强,但数值较小的因子忽略掉。通过编码,研究区域变成一个正方形,在编码空间,两个因子的取值范围相同,“地位平等”, 从而避免了因素单位及数值大小对结果的影响。

2 回归正交试验设计的“正交性”

一次回归(一元或多元)在编码空间选试验点,每个因子都分别选其上下两个水平,这样就可以运用两水平正交表来安排试验,选用两水平正交表时,用-1代换表中的2,代换后正交表中的-1,+1既表示因子水平的不同状态(两种状态),也表示因子水平变化数量的大小(因素在编码空间的取值范围)。以比较常用的二水平正交表L8(27)为例,用-1代换表中的2后,正交表如表1所示。

很明显,以两水平正交表编制的这种试验计划,如以表示在第次试验中第个变量的编码值,于是在试验计划中有

任一列的和

任两列的内积

由此体现出这种设计具有正交性,所以这种设计称为正交设计。

编码空间中试验点的分布情况,以三因子试验为例,所选的试验点在编码空间的分布如图2所示。所选试验点正好是编码空间一个正立方体的顶点。因此,回归正交试验设计所选的试验点都分布在编码空间的多维正立方体的各个顶点上,也体现了均匀分布的特点。

3 回归正交试验设计的“旋转性”

在编码空间回归的数学模型为:

N:试验次数

:随机误差的方差

是p维编码空间的一个球面,球心在原点,半径为

的计算公式表明,当所选的试验点到原点的距离相等时,即所选的试验点位于同一球面时,其预测值的方差时相等的。N和是一定的,所选的各试验点的预测值的方差只与有关,不变,不变。预测值只与预测点的位置有关,与其方位无关,可提高预测的精度。回归正交试验的这一性质称为“旋转性”。

“旋转性”对在最优工艺寻找过程中排除误差干扰具有重要意义,因为同一球面上的点,其预测值的方差相等,所以可以通过直接比较预测值的好坏,来确定预测值相对较优的研究区域,而不必考虑误差干扰的影响,并且获得性能较佳的回归方程。

此外,通过对图2编码空间试验点的分布进行分析可知,在编码空间,每个因子都只取其上下两个水平,所构成的试验点分布为多维空间的正立方体的顶点,每个试验点到原点的距离相等,所以这些试验点分布在编码空间的一个球面上。增加任何一个水平,所构成的试验点其分布都与这些试验点不会落在同一个球面上,试验设计“旋转性”的特点就丢失了,所得到的回归方程性能也会相应变差。因此,要使得回归正交试验设计具有“旋转性”这一特点,即所选的试验点在编码空间分布在一个球面上,则每个因子只能选上下两个水平(每个因子的研究区域范围相同),不能增加任何一水平。

每个因子确定取上下两个水平后,则只能利用相应的二水平正交表来设计试验,设计方法具有“正交性”和“旋转性”,既能用较少的试验次数得到较优的回归方程,且计算简单。

4 总结

回归正交试验设计首先确定各因子取值范围,然后进行编码,将原因素空间的回归问题转换为编码空间中指标值对转换后因子的回归问题,从而消除了不同单位及量纲对结果的不利影响;选用二水平正交表,每个因子只选上下两个对称水平,保证试验设计的“正交性”和“旋转性”,从而保证了所获得的回归方程具有更高的精度及可靠性,同时也大大减少了试验次数。

基金项目:“食品试验设计”精品资源共享课程,研究生课程建设项目,校级,编号:2016YKJ-005。

(作者单位:河南科技大学食品与生物工程学院)

猜你喜欢
球面回归方程预测值
采用直线回归方程预测桑瘿蚊防治适期
浅谈回归方程在煤质检验中应用时应注意问题
AI讲座:ML的分类方法
自体荧光内镜对消化道肿瘤诊断临床应用分析
球面距离的几种证明方法
季节模型在某医院月门诊量预测中的研究与应用
5统计案例(回归分析及独立性检验)