不同来源的材料工艺数据的外源可靠性评价

2023-11-24 06:19邓建新单路宝叶志兴吴秀松
装备制造技术 2023年9期
关键词:外源可靠性矩阵

邓建新,单路宝,叶志兴,吴秀松

(1.广西制造系统与先进制造技术重点实验室,广西 南宁 530003;2.广西大学机械工程学院,广西 南宁 530003)

0 引言

传统的材料研发主要通过“炒菜式”实验方式进行,其成本高、周期长。随着大数据技术诞生和成熟,基于数据推动材料设计发展“材料基因计划、材料信息学”成为材料研发、成形制造和智能制造的主要方向之一[1-3]。在材料研究中,材料成形工艺是影响材料结构组织和性能的主要因素,如挤压铸造相比金属型铸造可以细化材料微结构,提高对应材料的抗拉强度[4]。因此,过去已有材料工艺数据无疑是材料大数据的主要来源,加强对过去已有材料工艺数据的收集、共享和利用自然成为材料信息学的重要基础工作内容。依据过去材料方面研究的特点(主要通过实验进行,鲜有按标准规划收集工艺数据,大家通过文献等报道进展),材料的工艺数据广泛存在于被不同组织公开报道的文献、网站等数据源,但因研究机构水平、研究手段、实验设备等差异等导致这些来源的工艺数据的准确性、可信度自然存在差异,比如有些文献的工艺数据已经通过制造物理零件验证较优,而有些则只是通过软件模拟确定的,有些工艺参数完全是经验确定的。如基于它们来进行深度的数据分析,获取材料成分与工艺间的关系并应用,会造成分析结果的可靠性存在差异(不可靠数据甚至带来错误的知识[5]),进而影响构建的模型、对材料成分-工艺参数-性能等关系的描述、认识,和知识获取,及其控制利用。这决定了需要针对不同来源的工艺数据可靠性进行评价,以为数据过滤(舍去那些可靠性低的数据),实现有区别地利用数据和保证获取对应规律的正确、准确性和可靠性提供支撑。

随着数据成为新的生产资源,对数据质量的研究越来越得到重视,但现有定义和数据质量评价框架的评价维度集中在准确性、数据缺失、相似重复对象检测、一致性等评价和处理方面[6],而关于数据可靠性评价的相关研究比较少,虽然已有人涉及,但相比其他对象如产品和系统的可靠性,对数据可靠性还没有普遍接受的统一定义[7](出现了“数据的综合质量[8-9]、数据之间的距离[10]和数据的统计特征[11]”等定义)。开展实际数据可靠性评价的研究报道的主要有:王甜甜等[12]在Benford 定律基础上构建了财务数据可靠性评价B 指标,最终研究结果表明B 指标在评价财务数据可靠性方面有一定效果;鲍静等[13]分析了影响环境监测数据的4 个影响因素,分别是实验室检测技术、在线检测技术、统计分析方法和实验记录,进而可从这几个方面来提高环境监测数据的可靠性,在提高环境检测数据的质量方面具有一定价值;胡丹露等[14]利用模糊综合评判原理,建立了专题地理信息数据的可靠性多层次评价模型,保证了可靠性评价的可信度;胡媛等[15]从信源可信度与信息质量2 个方面建立了微博信息质量评价指标体系;林向义等[16]从信息接收者、信息发布者、信息传播途径和信息本身4 个方面构建了社交媒体中信息可靠性评价的指标体系;Alhaqbani 等[17]利用Beta 声誉评价系统与主观逻辑分析相结合,提出了一个医疗数据可靠性的评估系统,通过对医疗数据来源机构的可信赖度对医疗数据的可靠性进行评估;Sebastien 等[18]基于证据理论提出了一种基于数据来源标准对Web 表格进行可靠性评价的方法,只要确定适当的标准,该方法也可以适用于其他领域;Valarmathi 等[19]提出了一种基于聚类的通用方法,利用信念函数理论,从一组标准中评估数据的可靠性;Metzger 等[20]从信息质量的客观性和信息来源的主观性两个方面来评价网络信息的可靠性;Moores 等[21]从准确性、内容、格式和及时性4 个方面来评价网络信息的质量。显然,目前针对数据可靠性评价主要从主观角度即制定相关评价指标方式来评价,但没有通用指标,各评价框架(指标体系)都跟所评估的数据对象密切相关;还未有人涉及材料(和制造)工艺数据可靠性问题。由于材料工艺数据可能来源于相关文献和网站中,再加上数据的特点、应用目的与上述情况有所不同,上述数据的可靠性评价指标并不完全适用于材料制造工艺参数数据。为了甄别不同来源的材料工艺数据可靠性,我们将其可靠性划分为两个层次:外源可靠性和内容可靠性。外源可靠性主要从“外观”,即数据产生者、传输特性等质量、可信度来评估数据的可靠性,而内容可靠性则结合应用需求,基于数据内容本身的正确性、合理性等来评价其可靠性。前期我们基于数据本身建立了一种挤压铸造数据(内容)相对可靠性评价方法[22],本文主要建立外源可靠性评价体系。

以下重点以金属材料为研究蓝本,基于材料工艺数据来源特点,构建了材料工艺数据的可靠性评价指标,并建立了外源可靠性评价模型。为材料数据收集、选择和利用提供理论和技术支持。

1 材料工艺数据的外源可靠性评价指标

1.1 材料工艺数据的特点

(1)材料工艺数据的研究的方式不同。

材料工艺数据来源于大量的研究和生产中,以金属材料为例,对其材料工艺的研究有显性和隐性两类。显性研究指明确进行材料成形工艺的研究,如进行某种合金的挤压铸造,然后观察材料的性能,在于突出工艺的不同,或者同时突出工艺和材料成分的差异,其间一般涉及大量不同的工艺参数组合;隐性的材料工艺研究指主要以材料研究为主,工艺隐藏其中,为支撑其研究的一种实验方法,重点在于突出材料成分等的不同,会有少量工艺参数,如温度。这些研究如果选择通过文献报道研究结果,一般都会包括对应的工艺参数(但可能完全报道,也可能部分包括),会造成收集的数据存在缺失,影响其质量和可靠性。

(2)材料工艺数据的储存和传递方式不同。

已有材料工艺数据的存储和传递有专门和非专门两种方式。专门方式为研究者(机构)已提出使用要求,构建了收集标准,直接从材料研究过程来收集材料工艺数据,如随着材料基因计划的推行,不少国家和机构已在设法构建对应的材料数据库(如美国的MatWeb,中国的北京科技大学建立的国家材料科学数据共享网),并提出了共享使用的标准和方法,若涉及工艺(但不多,如日本的MatNavi 鲜涉及工艺;中国的国家材料科学数据共享网只涉及静态氧化、粉末冶金等工艺),但一般限于内部使用和付费使用,由于是内部研究的数据,因此,材料工艺数据受其研究范围的限制。如某机构专门进行粉末冶金研究,构建的材料工艺数据库只有不同材料粉末冶金的参数,但应当看到,多个机构合作共建则会大幅度扩展这样的数据库,而且这是趋势。同时从已有文献中获取工艺数据也必然是重要渠道,如国家材料科学数据共享网涉及的材料(工艺)数据很多都摘自文献;另一类非专门的方式则指主要通过文献、网站报道其研究内容和结果,其中包含的工艺参数被外界所利用。目前这是主要方式。由于文献发表前一般需要审查(同行评审),其在文中报道的工艺数据自然也接受了审查,因此,相比直接通过网站而没有通过同行审查的,可信度和正确性更能保证。

(3)材料工艺数据的发布者不同。

通过对涉及材料工艺的相关研究分析可知,我们从相关文献和网站中收集到的材料工艺数据的发布者主要是相关企业和高校(包括科研院所),因研究机构水平、研究手段、实验设备等,以及对学术声誉等注重程度带来的学术诚信差异等会一定程度这些来源的工艺数据的准确性自然存在差异。所提供的工艺数据(主要是工艺参数)大部分经历了专门的物理实验研究过程,有部分研究通过虚拟仿真实验进行的工艺分析,如通过ProCAST 研究工艺参数对某材料性能的影响,但它们的可靠性存在差异。一般地,虚拟仿真在仿真时需要做适当简化,不能完全模拟真实特征,得到的数据其可靠性低于通过物理实验方式的数据。

1.2 可靠性评价指标

基于1.1 中材料工艺数据的特点可知,目前能公开获得的材料工艺数据主要是相关文献和网站。制造工艺数据的发布者主要是相关企业和高校(包括科研院所),且大部分通过物理实验或虚拟仿真实验对其进行验证。因此,评价材料工艺数据的可靠性需要区别这些特征。为此,参考国内外对数据、信息质量及可靠性的研究分析,初步确定材料工艺数据的外源可靠性取决于数据来源质量和数据验证手段质量两个方面。结合相关专家咨询意见,得出最终的外源可靠性评价指标,见表1。数据来源质量从生产者和传播渠道角度来反映,即假定生产者水平越高,声誉越好越注重提供数据的可靠性,传播渠道审查越严格,其数据自然也越准确。数据验证手段则从数据的检验手段来侧面区分数据的可靠性。

表1 材料工艺数据外源可靠性评价指标体系

2 材料工艺数据的外源可靠性评价模型

在确定可靠性评价指标后,通过对每个指标的权重和指标的定量化数值累计求和得到可靠性评价模型。计算式如下:

式中K表示可靠性值,xi为第i个指标的定量化数值,wi为第i个指标的权重。

2.1 可靠性评价指标权重的确定

根据表1 得出材料制造工艺数据可靠性评价指标,利用层次分析法,求解各可靠性评价指标的权重。层次分析法的步骤是:①建立可靠性评价指标层次结构;②建立每一层的判断矩阵;③判断矩阵的求解;④判断矩阵的一致性检验;⑤各因素权重的确定。

根据层次分析法思想,建立的材料工艺数据外源可靠性评价的层次结构如图1 所示。

图1 材料工艺数据外源可靠性评价的层次结构

判断矩阵主要是通过咨询相关专家,共同探讨各指标之间的相对重要性构建而成的,参考Saaty 等研究者提出的判断矩阵的构建标度法则来构建(见表2)。

表2 指标重要度赋值标准

(1)G 层判断矩阵:从可靠性角度,数据验证手段质量B比数据来源质量A明显重要,因为无论何者生产的数据,经过验证是保证数据可靠性的最有效方式,本处标度计为4,G层评价指标判断矩阵(见矩阵1)。

矩阵1 G 层评价指标判断矩阵

(2)A层判断矩阵:数据质量主要受生产质量和传输质量影响,传输只要防止其被篡改等,因此数据发布者A1比数据传播途径A2稍微重要,标度计为2,A层评价指标判断矩阵(见矩阵2)。

矩阵2 A 层评价指标判断矩阵

(3)B层判断矩阵:如上所分析,做过物理实验B1比做过虚拟实验B2稍跟具有说服力,更能保证数据更可靠,则其验证手段质量更高,则得到的重要程度标度计为2,B层评价指标判断矩阵(矩阵3)。

矩阵3 B 层评价指标判断矩阵

(4)A1层判断矩阵:从可靠性角度,企业为了满足大规模生产,对其工艺数据会反复测试和优化,以保证产品质量和降低成本等(或者已经经过了大量生产后发布的),而高校等纯研究机构的重复性实验测试次数会因成本等原因相比企业少,故确定企业A11比高校A12明显重要,标度计为4,A1层评价指标判断矩阵(矩阵4)。

矩阵4 A1 层评价指标判断矩阵

(5)A2层判断矩阵:如前所述,期刊(本文主要指包含有材料工艺数据的期刊)有明确的审核机制,在对论文评审过程中,也加强了对其数据和结论可靠性的审查,以及编辑出版前错误的审查,一定程度保证了其中的材料工艺数据的可靠性,而部分网站(比如目前存在的科研数据共享网站)的数据也有审核机制(如与期刊论文一并提供的数据),而部分网站的数据则不审核数据内容的可靠性,只审核其缺失等情况,甚至不审查,造成可靠性会降低或无法保证,综合确定期刊A21比网站A22稍微重要,标度计为2,A2层评价指标判断矩阵(矩阵5)。

矩阵5 A2 层评价指标判断矩阵

最终根据层次分析法的计算公式和一致性检验后计算得到材料工艺参数的外源可靠性评价指标权重值,见表3。

表3 材料工艺数据外源可靠性评价指标权重值

2.2 指标的量化数值确定

为了实现量化评价,需要确定最底层指标的量化方法。

(1)数据发布者指标的定量化。

对高校指标,高校与高校之间的比较,主要对比高校的影响力,选择从最新的高校综合排名来确定,高校的排名越靠前,它的影响力越大,一般研究条件等更好,也越注重学术声誉,因而认为数据质量更高。

对企业指标的定量化,仍然关注其对工艺数据可靠性的影响,选择运用多属性决策就企业对工艺数据可靠性的可能的重视程度进行定量分析,侧面反映工艺程度可靠性的影响。经查阅相关文献,确定从企业规模f1、市场占有率f2和知名度f3三个角度进行定量比较[理论上,指标值越好(或高)的企业其更重视产品(及其工艺)的质量,会带来更可靠的工艺数据]。主要步骤如下,为便于表述,以3 个企业为例,分别设为企业E1、企业E2、企业E3。

第一步,收集评价属性的信息,得到评价属性收集信息的定量化初值,并转化为决策矩阵。以上三属性中,市场规模和知名度本文确定为定性评价,市场占有率为定量评价,直接收集相关数据。将定性评价属性的等级量化分值按表4 的规则转换,得到定量决策矩阵。如企业E1、企业E2、企业E3所对应的企业规模指标分值为:5,7,3,所对应的知名度指标分值为:9,5,3,查阅相关文献资料得出市场占有率,可得到决策矩阵A3×3。

表4 定性指标等级量化分值表

第二步,将决策矩阵进行标准化处理,属性分类与方法:

效益型属性:

成本型属性:

式中,aij表示第i个企业的j个属性值,rij为标准化后的值。因f1、f2和f3均为正向效益型属性,按(3)式转换。按决策矩阵A3×3根据公式(3)转化得到标准化决策矩阵R:

矩阵5 企业层指标判断矩阵

第三步,确定定量化数值。根据加权平均法可以得到的定量化数值,为此,同样利用层次分析法,求解各属性的权重。通过咨询相关专家得到企业3 个属性判断矩阵如表10 所示,根据层次分析法的计算公式计算出指标权重值。按此计算决策矩阵A3×3中的3 个企业的数值分别为:0.748,0.549,0.332。

(2)数据传播途径期刊和网站的定量化。

期刊与期刊之间的比较,主要对比期刊的影响力,一般地,期刊影响力越大,越注重其论文中内容和编审质量(自然包括其中工艺数据的质量),评审和出版审核机制更严格,而如果一篇论文被反复引用,其也会一定程度受到研究者对其内容(数据)质量的审查,引用数最终反映到论文期刊影响因子上,为此,可从期刊的最新的复合影响因子来确定,期刊的影响因子越大,它的影响力越大,越注重对论文质量的审查,因此出版的论文中的数据质量理论上被认为更高。对于网站,如前所述,虽然也涉及审核机制对数据质量的影响,但本处主要从传播质量保证角度出发来定量化,确定从网站安全性g1、检索复杂性g2和更新及时性g3三个角度来,同样采用多属性决策方式进行定量化,方法跟企业类似,这里不再赘述。类似地利用层次分析法求解各属性的权重,通过咨询相关专家得到网站多属性指标判断矩阵(见矩阵6),计算出权重值。

矩阵6 网站层指标判断矩阵

(3)数据验证手段质量的定量化。

对于“是否做过物理实验”和“是否做过虚拟实验”两个指标,很容易从获取渠道发现,如期刊文献上会明确说明实验方法,可利用二元值{0,1}来表示{是,否}。

3 实例分析

挤压铸造是集锻造和铸造优势于一体,具有提高铸件性能、消除缺陷等诸多优势,能实现零件的近净成形的材料制备工艺[23]。目前已经用于铝合金、铜合金、镁合金、锌合金、钢铁及金属复合材料的制备[24]。为此以下以挤压铸造为例,来根据以上方法评估不同机构提供的材料工艺数据可靠性。

通过收集不同机构提供的AZ91D 镁合金的挤压铸造工艺参数数据,得到表5 和表6 的数据(为了表述简单,只以四组不同来源的数据样本为例,同时为了避免误解,数据发布者等涉及的企业等名称已用它名代替)。主要的4 个工艺参数是浇注温度、比压、保压时间和模具预热温度;3 个性能指标是材料抗拉强度、延伸率和硬度。

表5 AZ91D 镁合金挤压铸造工艺参数数据

表6 AZ91D 镁合金挤压铸造工艺参数数据的来源情况

首先,按照前述的多属性决策方法,计算出企业1 和企业2、网站b1和网站b2的定量化数值。

企业的决策矩阵(见矩阵7),根据公式(3)转化得到归一化决策矩阵R1

矩阵7 企业的决策矩阵

其次,根据前面计算出的指标权重值w1=(0.252,0.589,0.159),最终得到企业1 和企业2 的定量化数值分别为:0.748,0.252。

网站的决策矩阵(见矩阵8),根据公式(3)转化得到归一化决策矩阵R2

矩阵8 网站的决策矩阵

最后,由上式得到网站b1和网站b2的定量化数值分别为:0.198,0.802。

因为高校排名为成本属性,所以高校1 和高校2根据公式(4)转化得到归一化的高校排名数值为(1,0);期刊1 和期刊2 根据公式(3)转化得到的归一化期刊复合影响因子数值为(0,1)。

根据公式(1)得出4 组数据的外源可靠性值分别为:0.613,0.298,0.311,0.044。因此最终可靠性从高到低为:数据1,数据3,数据2,数据4。根据该工艺可靠性可以设定可靠性阈值和确定筛选和使用原则,为数据管理和使用提供基础。如可优先使用数据1,舍弃数据4。

4 结语

材料设计制造开始转化为基于数据驱动的设计趋势,采集和利用材料数据是材料信息学的重要内容。本文针对材料工艺数据收集和利用过程存在的可靠性问题,重点建立了区分文献和网站等不同来源工艺数据的可靠性评价体系,根据其产生特征,确定材料工艺数据的外源可靠性受来源质量和验证手段质量两个方面影响,来源质量区分机构的性质以及机构的影响力,验证手段质量则需要区分是否经过验证。在此基础上,构建了定量化的评估模型,实现了数字化的可靠性评价。为材料工艺数据的采集和后期利用提供了选择标准。为构建数据驱动的智能制造提供了支撑技术。

虽然本研究的数据可靠性评价针对的是材料工艺数据,但可用于所有根据文献和网站来获取数据的可靠性评价。同时,因为目前缺乏数据可靠性要求的使用原则,采用的是主观的层次分析法来确定各指标的权重,但这不失一种引导标准。可作为数据筛选的第一层次方法。后期可根据使用要求,反向去优化,采取客观权重的评价方法来确定权重。应当看到,本文目前只从数据来源(或外观)角度评价了数据的可靠性,更多为侧面的粗粒度评价,还没有更全面地考虑材料数据内容(数值)本身的特点和质量,下一步将结合材料数据(材料特征、工艺特性)本身的特征来构建更细致的可靠性评价方法,即进行内容可靠性评价,如某材料的浇注温度不可能的范围。

猜你喜欢
外源可靠性矩阵
具有外源输入的船舶横摇运动NARX神经网络预测
可靠性管理体系创建与实践
外源铅胁迫对青稞生长及铅积累的影响
外源钙对干旱胁迫下火棘种子萌发的影响
5G通信中数据传输的可靠性分析
外源添加皂苷对斑玉蕈生长发育的影响
初等行变换与初等列变换并用求逆矩阵
矩阵
矩阵
矩阵