聚类分析与稳健统计方法对CNAS T0402数据处理的比较和分析

2009-05-12 10:30李海峰史乃捷唐一川马联弟
现代农业科技 2009年6期
关键词:聚类分析对比计量

李海峰 史乃捷 王 军 唐一川 马联弟

摘要建立了一种基于对能力验证数据进行聚类分析的方法,克服了以往采用稳健统计方法处理的层次性和深度不足的缺陷,可将参加实验室按测试结果及相似性进行分组,便于对检测过程存在问题的查找和分析,也有利于检测实验室对自身测试水平的认识和评价。

关键词聚类分析;稳健统计方法;计量;对比

中图分类号 O212.1 文献标识码A文章编号 1007-5739(2009)06-0258-06

聚类分析(Cluster Analysis)是进行数据统计分析的一类重要工具[1-5],广泛应用于商业、经济、医药等领域,通过数据分类获得有用的统计信息,是多元统计分析的一个重要分支,根据分类对象的数量指标,定量地确定分类对象之间的相似关系并进行分类。聚类分析中应用广泛的是层次聚类法和K-Means算法。能力验证,作为我国实现量值溯源并确保分析实验室数据可靠、准确一致的重要工具,发挥着日益广泛和深入的作用[6]。在数据处理上一般采用稳健统计方法进行评价[7-11]。

稳健统计方法是世界各国计量机构在组织能力验证或国际比对中常用的统计方法,该方法在数据非正态分布或存在离群值时优势明显,Z比分数为其评价的重要指标[12]。其缺点是提供信息较少,缺乏深入和细致的描述,无法描述实验室数据相关性之间的联系。当测试对象为多元素或多组分时,只能单个项目分析,缺乏整体判断和描述,无法适应比对内容与对象不断增加的趋势[13]。

本文尝试将聚类分析应用在能力验证数据处理中,结合稳健统计方法,以获得更加细致全面的数据信息。通过把不同实验室测量数据划分为不同的集合和小组,方便对能力验证数据的分析和比对原因的查找,可对不同实验室的共性问题,如测量方法的比较等进行深入的探讨,为化学计量领域理论和实践中深入处理实验数据提供方法基础和探讨依据。通过文献检索,目前国内外尚无类似报道。

本文将聚类分析与稳健统计方法结合起来,对CNAS T0402粮食中重金属铅、镉含量测定的数据进行处理。中国合格评定国家认可委员会于2008年组织的全国范围的一次能力验证,由中国计量科学研究院组织实施,其目的是了解我国目前粮食检测机构实际的测量水平和潜在问题。研究表明,该方法可以分层次、多角度对数据进行分析,具有广泛的应用价值。

1材料与方法

1.1能力验证样品的制备

此次能力验证样品选用河南省重金属污染区生长的小麦,经清理除杂,去除糠、麸皮以及子实、胚芽,用鄂式破碎机初碎,将候选物在70℃烘干24h,去除水分。用高铝球磨机研磨36~48h,使样品99%以上通过80目。制备好的样品装入清洁塑料桶中,封口保存。经均匀性检验合格后混匀分装。用Co60辅照灭活,置于干燥阴凉处保存。

1.2样品的均匀性和稳定性

样品采用等离子体发射光谱法(ICPOES)和等离子体质谱法(ICPMS)进行均匀性和稳定性检验。在均匀性检验中,随机抽取15瓶样品,每瓶在上部和底部取2个样品。每个样品准确称取0.2g,加入5mL浓硝酸,用微波消解炉进行消解。完毕待冷却后,转移到洁净塑料瓶中,加入In或Y内标,上机测试。经F分析,样品中Pb、Cd均匀性良好。经t检验,样品稳定性检验良好。

1.3推荐方法

此次能力验证推荐方法为GB/T5009.12-2003食品中铅的测定方法和GB/T5009.15-2003食品中镉的测定方法。

1.4数据统计分析方法和软件

该研究选用SPSS软件进行数据处理。分层聚类分析子模块,聚类法采用组间连接法(Between Groups Linkage),测度方法选择欧氏距离平方(Squared Euclidean Distance),即2项之间的距离是每个变量值之差的平方和[14]。

2结果与讨论

2.1采用分析方法的统计情况

在此次能力验证中,共采用4种测量方法,分别是原子吸收分析方法(AAS)、等离子体发射光谱法(ICPOES)、等离子体质谱法(ICPMS)、原子荧光光谱法(AFS)(见表1)。综合分析,AAS、ICP、ICPMS之间的比例接近7:1:1。这说明原子吸收作为国家标准GB/T5009.12-2003和GB/T5009.15-2003的推荐方法,在实验室分析领域仍占据相当的比重。

2.2正态分布检验

稳健统计方法适合多种分布情况的数据分析,尤其分析非正态分布数据具有很大的优势。采用SPSS软件进行分析,铅元素和镉元素检验结果分别为Asymy.sig=0.10和Asymy.sig=0.02。进一步采用峰态系数和偏态系数法数据进行检验[15]。将数据汇总后,按从小到大排列,计算偏态系数和峰态系数,分别用于检验数据的不对称性和峰态(见表 2)。数据表明,铅的偏态系数远大于临界值(n=67,P=0.95),镉元素的偏态系数接近仍大于临界系数(n=68,P=0.95)。原始数据的分布类型均为非正态分布。

2.3能力验证统计结果

能力验证结果见表3,采用稳健变异系数和Z比分数法进行评价,其评价标准为|Z|≤2为满意结果;2<|Z|<3为有问题的结果;|Z|≥3为不满意(离群)结果。从表3可知,对铅和镉元素,分别有6家实验室和7家实验室Z比分数离群,约占参加实验室总数的1/10。有人认为当参加实验室较多时,计算出的标准差可能偏小,易导致部分实验室的Z比分数大于2,而被误判为有问题或不满意[16]。

2.4铅数据分布特征

根据能力验证项目各实验室对小麦粉中铅的测试结果之间的相似程度,用聚类分析进行分组(见图1)。由图1可知,参加实验室可以划分为2个组,其中22、39、25、3、49、50号为1组,标记为1~2,铅测定结果为0.60~1.04mg/kg,与表3所列中位值相比偏低;其余实验室为1组1-1。该组又可划分为1-1-1、1-1-2,分别可进一步细分为1-1-1-1、1-1-1-2和1-1-2-1、1-1-2-2共4组,在此基础上仍可细分。分析数据可知,1-1-1-1的数据范围为1.24~1.33mg/kg,1-1-1-2组主要集中在1.41~1.55mg/kg。1-1-2的数据范围为1.61~1.81mg/kg。结合表3数据,对于22、39、25、3、49、50号实验室,其Z比分数分别为-2.5,-2.5,-2.2,-3.1,-4.0,-5.7。对于20、57、31、65、44号实验室其Z比分数分别为2.6,2.4,3.8,3.8,3.3。Z比分数绝对值大于2的实验室总数11家与图中离群实验室一致,说明采用该2种分析方法有相似之处,均可实现对离群值的识别。

2.5镉数据分布特征

根据参加实验室镉的测试结果数据的相似性,通过聚类分析可以划分为2个组,2-1和2-2。该组又可划分为2-1-1、2-1-2,2-1-1可进一步细分为2-1-1-1、2-1-1-2,在此基础上仍可细分,如图2所示。分析数据可知,2-1-1-1的数据范围为0.065~0.078mg/kg,2-1-1-2组主要集中在0.081~0.086mg/kg,2-1-2只包括22号实验室,为0.050 mg/kg。其余实验室划分为2-2号,包括29、39、30、23、53、36号实验室,测定结果大于0.098mg/kg,其Z比分数分别为4.61、4.55、4.43、5.11、4.95。表4中稳健统计方法Z比分数绝对值大于2的实验室总数10家,不仅包括了图2中2-2组,也包括了2-1-2组以及2-1-1-2组的9号、31号、25号实验室。从该图中聚类分析结果可以看出,稳健统计方法结合聚类分析可以对实验室的测试结果更好地进行判断,尤其是当实验室测定结果处在临界点附近时。

2.6综合聚类分析

通过对参加铅和镉元素测定的实验室进行统计分组(见图3)。可以看出,大多数实验室集中在4个大组,分别是G1、G2、G3、G4。G1包括19、45、35、40、41、10、42、15、54、61、4、33、51号实验室。G2包括24、59、63、28、69、16、13、62、12、1、8、46、68、18、7、23、53、14、56、67、5、26、55、6号实验室。G3又可划分为2组,即G3-1、G3-2,前者包括27、32、58、30、60、48、52、17、11、47、70、64、9、36号实验室;后者包括21、38、2、29、43号实验室。G4包括20、57、31、44、25、39、22、49、50号实验室。从图3中可以很清楚的看到,不同实验室之间的联系及在整个比对中的位置和状况,尤其是对于相对离群的实验室而言,可能存在共性的问题。例如20、57号实验室划分为1组,31、44号为1组,25、39、22号为1组,49、50号为1组。在表3中该组实验室大多数据离群,分析过程可能有类似的问题。如49、50号实验室,均采用原子吸收的分析方法,结果类似,铅的测试结果均明显偏低。通过分组的方法可以比较直观地把实验室的情况表示出来,方便能力验证组织者和参加实验室对分析结果问题原因的查找和改正,为问题的解决提供更详细的信息和指导。

通过表4数据可知,浙江、上海、江苏、广西、福建等地区参加的实验室主要集中在G1~G3,离群数目相对较少,整体水平较好。广东与山东省参加实验室较多,分布相对均匀。广东省实验室数据主要集中在G2和G3组,山东省数据主要集中在G2和G4组。四川省参加实验室主要集中在G3和G4组,说明离群实验室比例高于平均水平。

采用原子吸收方法的实验室占分组后纳入统计的75%和69%,而且在G3和G4组所占比例稍高,说明参加实验室该测试技术仍有待提高;纳入统计使用ICP、ICPMS、AFS各方法的实验室均在10%左右,落入G4组的比值均接近总体平均水平。使用ICPMS方法的实验室在G1组的比例较高,使用ICPOES方法的实验室在G2组的比例较高。对于镉元素的分析,采用AFS方法的实验室主要集中在G1和G2组,整体较好。总体上,由于采用ICP、ICPMS、AFS方法的实验室总数偏低,分组后各组数目更少,偶然性因素影响较大,尚不能下结论。

3小结

(1)稳健统计方法和聚类分析均可对能力验证结果,尤其是非正态分布数据,进行统计分析,发现离群值。

(2)聚类分析可以对处于稳健统计方法临界值附近的实验室的判断和归属提供依据,2种方法可相互补充。

(3)作为多元统计分析工具,聚类分析可以对同时参加多项内容测试的实验室进行综合分析,克服了稳健统计分析只能单项逐一分析的缺点。如何对实验室整体水平进行判断,需要理论和实践的进一步发展,该研究提供了有益的尝试。

(4)聚类分析可以根据研究目的,有针对性地深入开展研究。比如了解不同测试方法的比较,不同行业的测试结果以及不同地区的测试水平等。

4参考文献

[1] 陈军辉,谢明勇,傅博强,等.西洋参中无机元素的主成分分析和聚类分析[J].光谱学与光谱分析,2006,26(7):1326-1329.

[2] 张志祥,刘鹏,康华靖,等.基于主成分分析和聚类分析的FTIR不同地理居群香果树多样性分化研究[J].光谱学与光谱分析,2008,28(9):2081-2086.

[3] 杜晓军,姜凤歧,焦志华.辽宁西部低山丘陵区植被恢复研究:基于演替理论和生态系统退化程度[J].应用生态学报,2004,15(9):1507-1511.

[4] PRAVEENA S M,AHMED A,RADOJEVIC M,et al. Factor-Cluster Analysis and enrichment Study of Mangrove sediments-An example From Mengkabong,Sabah [J]. The Malaysian journal of Analytical Sciences, 2007,11(20):421-430.

[5] SANCHEZ LOPEZ F J, GIL GARCIA M D,MARTINEZ VIDAL JOSE L,et al. A.garrido frenich.assessment of metal contamination in donana national rark(spain)using crayfish(rpocamburus clarkii)[J].Environmental Monitoring and Assessment,2004(93):17-29.

[6] 纪洁.以CNAS T0250检测能力验证为例谈化学计量的重要性[J].中国计量,2008(8):67.

[7] 董亮星.能力验证中指定值的确定方法[J].中国计量,2006(10):70-71.

[8] 马冲先.能力验证及其评价[J].理化检验——化学分册,2005(41):861-870.

[9] 宋国强,施敏芳,李可芳,等. 用有证标准样品进行能力验证的方法探讨[J].环境科学与技术,2004,27(6):42-43.

[10] 王丽玲.能力验证、实验室比对常用统计技术及评定方法[J].中国卫生检验杂志,2006,16(8):985-986.

[11] 黄亨建,李萍,宋昊岚,等.应用质量控制多规则分析能力验证结果[J].中华检验医学杂志,2006,29(9):839-840.

[12] 刘智敏.稳健统计与实验室不确定度和能力验证[J].中国计量学院学报,2006,17(1):8-16.

[13] 王军,赵墨田.同位素稀释质谱法测定IMEP-6水样中的痕量镉和铅[J].环境化学,2000,19(4):369-372.

[14] RICHARD AJOHNSON,DEAN W WICHEM.实用多元统计分析(第四版)[M]. 陆璇,译.北京:清华大学出版社,2001.

[15] 全浩,韩永志.标准物质及其应用技术(第二版)[M].北京:中国标准出版社,2003.

[16] 徐建平,刁凤鸣.Z比分数在实验室能力验证检测中的运用[J].环境检测管理与技术,2003,15(1):42-43.

猜你喜欢
聚类分析对比计量
高速公路合同计量变更管理策略
基于信息系统的计量标准管理
对公司计量管理工作的一些思考
农村居民家庭人均生活消费支出分析
中日两国胶囊旅馆业的发展对比及前景展望
克里斯托弗·马洛与陶渊明田园诗的对比
英国电影中“愤青”与“暴青”对比研究
基于省会城市经济发展程度的实证分析
基于聚类分析的互联网广告投放研究
“县级供电企业生产经营统计一套”表辅助决策模式研究