自动化生产线中识别装置学习模型评估方法浅析

2016-04-18 05:34云南机电职业技术学院统计与国有资产管理处
电子制作 2016年24期
关键词:生产线误差样本

李 侠 云南机电职业技术学院统计与国有资产管理处

自动化生产线中识别装置学习模型评估方法浅析

李 侠 云南机电职业技术学院统计与国有资产管理处

在自动化生产线中,识别装置可以说是整条生产线的核心,其识别率的高低直接决定了该生产线的生产质量。本文列举了几种常用的依据样本空间划分训练集和测试集的方法,在使用时可依据实际情况合理选择和评估学习模型,获得满足要求的识别装置。

自动生产线;识别装置;样本空间

引言

随着科学技术的发展,自动化生产线已经在各个行业得到普及,它是将机械技术、微电子技术、电工电子技术、传感测试技术、信息变换技术、网络通信技术等多种技术有机地结合,并综合应用到生产设备中,同时将传感检测、传输与处理、控制、执行与驱动等机构在微处理单元的控制下协调有序地工作,有机的融合在一起。在整个工作环节中,多次涉及对产品的识别问题,识别率的高低就直接决定了整条生产线的质量。

例如在水果自动包装生产线中,假设我们需要将采收来的苹果按照大小、色泽来分别包装,采用安装了传感器的识别装置来对苹果的色泽和大小进行识别。若我们需要识别装置能够准确的识别产品,则必须采用大量样本对识别装置进行学习模型设计和测试。通常我们需要的是识别装置能够学习样本中的普遍规律,但若识别装置的学习能力过强,将某些样本自身的特点当成了普遍规律,那么就会导致泛化能力下降,即可能将多数苹果认为是不合格产品,这种情况我们称之为“过拟合”。与之相对应的是“欠拟合”,即识别装置并未学习到所有的普遍规律,这样就有可能导致部分不合格的产品却被当成合格产品进行包装。不管是过拟合还是欠拟合,都不是我们想要的结果,那如何才能获得一个满足要求的识别装置呢,这就需要对所设计的模型进行选择和评估。

图1 10折交叉验证示意图

1.评估方法

通常我们将识别装置的实际输出与真实结果之间的差异称为“误差”。假如,我们将识别装置在训练集上的误差称为“训练误差”,将识别装置在新样本上的误差称为“泛化误差”。在很多情况下我们能得到的是一个训练误差很小的识别装置,有些识别装置的训练误差甚至为零,但是这并不一定是我们想要的识别装置。我们希望得到的是泛化误差尽可能小的识别装置。但实际上,我们并不知道新样本是什么样的,因此也就没有办法直接选择识别装置。但是我们可以通过实验测试来对识别装置的泛化误差进行评估。那么问题来了,通常我们采集数据时能得到一个包含有限样本的样本空间D,这些样本空间D既要用于训练,又要用于测试,那么怎样才能合理的划分训练集和测试集呢?下面介绍几种常用的划分方法。

①留出法

留出法是将样本空间D直接划分成两个互斥的集合,其中一个集合用于训练,称为训练集S,另一个集合用于测试,称为测试集T。该方法是最简单的一种数据划分方法。使用留出法时需要注意的问题是,训练集S和测试集T的划分一定要保证数据分布的一致性。例如将包含200个样本的样本空间D进行划分为包含60%样本的训练集S,和包含40%样本的测试集T,若S包含60个正例和60个反例,则T也应该按照相同比例包含40个正例和40个反例。若训练集S和测试集T中样本类别的比例差别过大,则可能会由样本比例误差导致识别装置的偏差过大。

另一个需要注意的问题是,由于划分训练集和测试集是随机的,所以单次应用留出法得到的测试结果是不够可靠的,一般需要经过多次随机划分并进行测试,将多次测试结果取平均值作为最终的返回值。

此外,我们需要评估的是用样本空间D训练出来的模型的性能,但是采用留出法需要对样本空间进行划分,将其划分成训练集和测试集。这就带来一个问题,若训练集S包含的样本数量较多,则训练出来的模型就更接近于用D训练出来的模型,但是由于测试集T包含的样本数量较少,就使得测试结果的偏差较大。若S包含的样本数量少,则S和D的差别就比较大,用训练集训练出来的模型就和用样本空间D训练出来的模型有较大的区别,从而降低了测试结果的真实性。通常我们的做法是将样本空间D的2/3~4/5作为测试样本,其余样本用于训练。

②交叉验证法

交叉验证法是将样本空间D划分成k个大小一致的子集,每个子集之间没有交集(即),并且在划分子集的时候要保证数据分布的一致性。然后,每次从k个子集中抽取k-1个子集作为训练集S,另外一个子集作为测试集T,这样我们就可以得到k组测试结果,最后返回k个测试结果的平均值。需要注意的是,采用交叉验证法所设计的识别装置其精确度和k的取值有关,一般情况下k值越大,其结果越准确,但同时计算量也就越大。在工程实践中通常取k=10,也称为10折交叉验证,或者k取10的倍数,如k=20、30等等。

③留一法

在使用交叉验证法时,假如样本空间D内共有m个样本,当k=m时就是交叉验证法的一个特例,称为留一法。留一法由于每次只抽取1个样本作为测试集T,其余数据均作为训练集S,用于训练识别装置,这样就最大程度的保证了S和D的一致性,训练出来的模型也就更接近于用样本空间D训练出来的模型。但需要注意的是,当样本空间D中的样本数量非常庞大时,要训练出m个模型所需要的计算量就非常大,例如某样本空间D中有1万个样本,若采用留一法,即要训练出1万个模型,然后输出这1万个模型的测试平均值作为最终的测试结果,计算量是非常惊人的。因此,当样本空间D中的样本数量相对较少时,可采用留一法进行模型训练,通常认为训练结果是比较准确的。

2.小结

在对识别装置的模型进行选择和评估时,除了以上介绍的三种常用方法以外,还涉及到参数的设置,通常称为“参数调节”或“调参”。参数包括识别装置中学习算法的参数和数学模型的参数,参数设置不同,获得的识别装置性能就有很大差别。

需要注意的是,上面介绍的三种评估方法中,均是从样本空间D中选出一部分样本作为训练样本,另外一部分样本用于测试,这毕竟和直接用D训练出来的模型不一致。因此在模型选择完成后,学习算法和参数配置已经选定的情况下,采用样本空间D重新训练模型,此时的模型在训练过程中使用了全部样本,这才是我们最终用到识别装置里面的模型。

[1]周志华.机器学习[M].清华大学出版社,2016

[2]郑恩辉. 不平衡数据知识挖掘:类分布对支持向量机分类的影响[J].信息与控制,2005

[3]张金娥,宋岩.自动化生产线[J].中国科技博览,2014,(9)

云南机电职业技术学院青年骨干教师科研计划项目“机电设备装调实训项目的设计与开发”(编号:2015QN23),负责人:李侠

猜你喜欢
生产线误差样本
方便小米粥亿级生产线投入运行
用样本估计总体复习点拨
Beidou, le système de navigation par satellite compatible et interopérable
规划·样本
隧道横向贯通误差估算与应用
隧道横向贯通误差估算与应用
随机微分方程的样本Lyapunov二次型估计
精确与误差
九十亿分之一的“生死”误差
半桥壳冷冲压生产线的设备组成及其特点