基于Apriori算法的网线编织工艺缺陷数据挖掘方法

2022-05-26 13:00罗滨鸿张祺薇沈立武
制造业自动化 2022年5期
关键词:子项网线项集

罗滨鸿,周 虎,张祺薇,沈立武,王 奥

(东华大学 机械工程学院,上海 201620)

0 引言

近年来随着经济和科技飞速发展,来自海洋牧场、军工、体育等领域的需求不断增加,绳网具行业得到长足发展,绳网品种和产值每年高速增长[1,2]。但很多绳网制造企业仍使用传统生产方式,无法适应对研发、生产、智能化要求较高的离散化制造业运行模式[3],对市场快速反应以进行工艺研发与改进[4],只能根据既有有限工艺生产固定的某几种产品。

当前,数据挖掘已被应用到纺织领域的许多专业去解决一些重要问题。文献[5]利用机器学习和数据挖掘对手套纺织生产过程进行故障模拟与预测。文献[6]分析了纺织行业中常用的数据挖掘技术如聚类与分类,并对其在纺织工业中的优势和挑战进行了评述。文献[7]引入遗传算法,对Apriori算法进行全局搜索优化,并将其用于纺纱生产的质量预测中。然而目前对于绳网行业的工艺缺陷数据挖掘分析依然较少见,且缺乏理论性和系统性,主要体现在分析方法简单,只有简单的分类和统计[8],对于多维数据之间的关联关系等重要特性并未提及,分析结果对提升绳网研发生产效率的意义并不大。

本文提出一种基于改进Apriori算法的网线编织工艺缺陷数据挖掘方法,根据Apriori算法的基本流程,建立了基于关联规则的网线编织工艺挖掘概念模型,针对实际工艺特点,增加新性质并引入提升度对算法进行了改进。并以某绳网制造企业编织车间的缺陷数据为例,阐述了基于改进Apriori算法的网线编织工艺缺陷数据挖掘方法。

1 关联规则与Apriori算法

1.1 关联规则

关联规则挖掘指从大量数据记录的项集之中发现频繁出现的模式、关联,通过分析数据间的联系,形成数据的聚类或分类[9]。

关联规则挖掘数据库中,最小的元素单元称为一个项,其集合I={i1,i2,i3,…,im}称为项集,有k个不同元素的项集称为k-项集,I的子集Ti(i=1,2,…,n)称为事务,事务数据库D={T1,T2,T3,…,Tn}。

Sup(I1→I2)为规则R的支持度,I1∪I2为集合I1和I2在一条记录中同时出现的次数,n为事务总数。Conf(I1→I2)为R的置信度,为I1出现的同时I2出现的概率。

1.2 Apriori算法

Apriori算法的核心思想是通过生成候选集和向下封闭检测来寻找频繁项集,即利用逐层搜索的迭代方法,通过“k-1项集”来搜索“k项集”[8]。并基于先验原理使用支持度度量来减少生成频繁项集时所需检查的候选项集数目。主要有连接和剪枝两步:

1)连接:根据频繁(k-1)-项集Lk-1与自身连接生成候选k-项集Ck。记Li[j]为Lk-1任意子集第j项,连接时若两子集前k-2项相同,即(L1[1]=L2[1]ΛL2[2]=L1[k-2]=Λ…ΛL1[1]=L2[k-2]),则产生结果项集L1[1]L2[2]…L1[k-1]L2[k-1]。

2)剪枝:根据Apriori算法“非频繁项集的超集必不频繁”性质,对候选k-项集Ck所有(k-1)-项子集进行判断,去除非频繁的(k-1)-项子集,对剩余子集再根据支持度计数确定Lk。

2 缺陷数据关联规则挖掘方法

2.1 工艺缺陷模式关联规则挖掘模型

生产系统记录着每一批不合格品的相关数据。每一条缺陷数据都包含多方面子项参数,大体分为3类:材料种类、工艺配比等信息,如材料规格、股数等;机器相关参数,如主机速度、转速比等;缺陷结果信息,如线密度、断裂强度等。

本文结合三类信息,并考虑部分子项之间存在冗余关系,提取出一组子项作为数据挖掘的对象,对工艺参数与缺陷结果进行缺陷模式关联规则挖掘,图1为数据挖掘概念模型。该模型以编织工艺缺陷数据为基础,通过合并冗余项、归一化与离散化等操作进行预处理,得到事务数据集。通过改进的Apriori算法对数据集进行频繁项集搜索和关联规则生成,挖掘出工艺参数和缺陷结果之间的强关联规则,为网线编织工艺的研发和改进提供指导。下面对数据预处理和缺陷模式频繁项集搜索进行重点阐述。

图1 数据挖掘概念模型

2.2 缺陷数据预处理

结合数据的格式、规模和算法的特定需求,对原始缺陷数据集进行一系列预处理操作,直到将其转换为适合算法操作、便于分析的形式,主要步骤如下:

步骤1:筛选与清除冗余项。一条缺陷记录包含众多子项,首先筛选出对工艺生产结果有直接、稳定影响的子项。其次,剩余子项间有些存在冗余关系,如“节距”等,因此需要去除以避免影响分析结果。最终选择主机速度、收线速度、转速比、股数、线芯、材料、捻系数、线密度、断裂强度和卷筒成型度等共十项参数作为项目集合I。

步骤2:数据归一化。缺陷数据库中包含着不同规格工艺及其检测结果,十六股单丝编织工艺的不合格的断裂强度值很可能对于八股单丝编织工艺而言是优良品质,如果不加处理地统一分析,只能得到无意义的结果。

如线密度的经验公式为[10]:

ρ为单丝线密度,n1为并丝股数,n2为编织股数,tn为加捻捻缩引起的线密度增加。若认为低于期望值20%则不合格,可进行归一化,使其在同一尺度能相互比较:

线密度过大的情况由捻系数来表征不同规格网线的加捻程度,α为捻系数,t为捻度:

步骤3:离散化。连续数值类型或取值范围大的子项需要进行离散化,将其分成n个适当宽度的区间,并映射到n个离散值,此外将所有项指定一个特定字母代替,作为标识。原则是各项分割出的离散区间数大致相同,主要划分范围为参数正常值范围,使得不同参数项的区间横向比较有同等级的置信度,不会扰乱算法。离散编码如表1所示。

表1 部分参数项的数据区间编码

2.3 缺陷参数频繁项集搜索与关联规则生成

传统Apriori算法根据先验原理生成两条核心性质来减少候选项集个数,被称为基于支持度的剪枝策略。本文所研究的缺陷工艺关联规则与传统的购物篮模式有所区别,项集I的子项包含了工艺参数与工艺结果,并非平行关系,比如频繁-2项集{线密度,断裂强度}并没有意义。根据此特点,增加两条性质:

性质3:如果一个项集没有工艺结果参数项,则该项集无意义;

性质4:如果一个项集全为工艺结果参数项,则该项集无意义。

工艺结果参数项为该工艺的质检项目,有捻系数、线密度、断裂强度、卷筒成型度等。通过以上新性质可以减少大量无意义候选集数量。

此外,由于Apriori算法无法判断负相关规则。若某关联规则满足最小置信度,但其负相关规则置信度同样较高,则其项集之间是相互独立甚至抑制关系,这是由某些项的支持度本身很高所引起的,因此引入提升度 (lift)[11]:

L(A→B)反映规则A→B中A与B的相关性,L>1且越高表明正相关性越高,L≤1表示A、B独立或负相关。引入提升度能有效去除错误的强关联规则。算法流程如图2所示。

图2 改进Apriori算法流程

3 应用实例

3.1 基于制造物联系统的数据采集

数据挖掘的基础是良好的数据采集系统,从图3所示生产系统中提取某绳网制造企业的编织车间生产工艺缺陷数据,简单清理后共获得1523条数据,部分数据如表2所示,基于Apriori算法对网线编织工艺的缺陷数据挖掘方法进行验证。

表2 网线编织工艺缺陷数据

图3 数据采集

3.2 算法分析

由于数据量较多,而各类型缺陷模式所占比例则相对较低,因此,假设Apriori算法min_sup为2%,min_conf为60%。通过Apriori算法对数据进行挖掘后所得的频繁1-项集数量为41项,2-项集为247项,3-项集为81项,4-项集为2项。之后通过改进的关联规则生成算法对结果进行筛选,获得对分析网线编织工艺缺陷较有参考意义的关联规则11项,如表3所示。

表3 缺陷模式强关联规则

由表3可知转速和转速比是引起线密度缺陷的重要原因,而转速比与材料、股数和线芯的某些组合使得断裂强度无法达到预期,另外,以很低的收线速度对较多股线编织易使生成的卷筒不合格。

4 结语

本文基于Apriori算法对网线编织工艺缺陷数据挖掘方法进行了研究,并改进Apriori算法,构建了工艺缺陷数据关联规则挖掘概念模型。将该方法应用到某绳网企业编织工艺缺陷数据的挖掘中,验证了其有效性,对网线编织工艺的研发和改进具有指导意义。

未来可根据已有结果对离散区间、min_sup、min_conf、子项权重进行调整,进一步完善该挖掘方法,以满足企业生产要求。

猜你喜欢
子项网线项集
基于共现结构的频繁高效用项集挖掘算法
基于矩阵相乘的Apriori改进算法
右击桌面就能控制系统
不确定数据中的代表频繁项集近似挖掘
社会版(二)
浅析划分子项不得相容与词语意义的模糊性
调整网线 轻松解决彩印起杠
购机超级对决
为了将来的泰格·伍兹