多MRL标准下的全国农残数据对比可视化方法

2018-03-10 07:37杨倩玉陈红倩马慧鋆
软件导刊 2018年2期
关键词:R语言

杨倩玉+陈红倩+马慧鋆

摘 要:针对全国农残检测数据不同地区间、多种MRL标准下判定结论间的数据对比分析需求,提出一种地理位置相关的多重放射环可视化方法。该方法首先基于GIS方法指代各部分检测数据所在地区,借鉴气泡图形式通过图元大小映射各地区检测样品采样量,以及借鉴饼图形式通过扇区比例映射样品中检出不同毒性农药的比例关系,并提出并行环方法,映射各地区的检测数据在不同MRL标准下的超标结论对比情况。实验结果与领域专家的评价表明,该方法能有效提高全国农残检测数据的分析效率,可实现不同地理位置、不同检出结果判定类别间的对比分析。

关键词:MRL标准;农残检测数据;多重放射环;R语言

DOIDOI:10.11907/rjdk.173112

中图分类号:TP391

文献标识码:A 文章编号:1672-7800(2018)002-0172-03

0 引言

食品安全问题关系到国计民生,国家多部门都会对食品中的农药残留进行检测及防范。为规范食品安全检测,中国、美国、日本、欧盟、中国香港、国际食品法典委员会(CAC,Codex Alimentarius Commission)均存在相应的MRL标准。

农残检测数据具有层次、空间属性特征,具有采样点、农产品、农药、检测数据4大属性。采样点基于地图上的行政区域划分,农产品种类、农药种类均具有层次结构。在进行全国农残检测数据分析过程中,首先需要分析在数据集中的哪些地区,农产品是需要重点关注或亟需采取措施的。同时,在数据分析过程中,农药残留量超标的判断结论是相对的,需同时参照多种MRL标准,在不同标准下的同步对比分析是提高分析效率的有效手段。因此,针对数据中不同地区间、多种MRL标准下判定结论间的对比分析是需要解决的首要问题。

在层次型数据可视化技术方面,主要技术为节点-链接(Node-Link)法和空间填充(Space-Filling)法两大类。Xiaotong Liu等[1]在2016年设计了BrandWheel,对社会媒体品牌的公众认知进行可视化分析;PhenoStacks[2]利用径向层次结构的sunburst总结表型全局层次结构,辅助进行医学领域的表型比较可视化;ViDX[3] 使用同心圆结合条形图,可快速显示智能工厂产品装配过程所需的时间;Lohmann S[4]在2015年提出一种分层词云布局的可视化方法,利用各层扇区的交集进行文本交集的词云展示;Keim[5]提出一种PixelMap算法,通过小范围移动点改善重叠现象。

在农残检测数据中,地理位置、区域分布等空间属性是非常重要的方面。在地理信息与其他属性同步展现的方法中,Ward[6]提出CityScape方法将地图区域划分为块,并采用3D柱状图表示区域块的统计数据;Li J和Xiao Z[7]结合地图与外射圆环表征烟雾分布和随时间变化情况;Isaac Cho[8]结合地图与节点链接式的放射环分析不同时间、地点下的罗马历史事件;Lu Y和Steptoe M[9]利用采样地图叠加饼图的方式展现层次、时序属性;Nivan Ferreira[10]使用地图叠加矩阵像素块,以颜色深浅反映各地区航空公司延迟航班的速度情况。

本文针对农药残留检测数据多地区、多MRL标准下的对比分析需求,提出一种能同时表征基于多种MRL标准的判定结果且结合地理位置的可视化方法。该方法首先将每一城市或地区的数据聚合为一个多重放射环,以一种直观的方式表达多种MRL标准下的农残检测数据统计结果,并结合地图隐喻直观地呈现地区间的采样量、含量超标的对比情况。

1 基于多重放射环的多标准对比可视化

1.1 多重放射环设计

由于各国家/地区的MRL标准有所差异,不同的判定标准会造成某种农产品中某种农药的检出值是否超标的结果不同,从而造成同一批检测数据,在不同MRL标准下超标和未超标样品数不同。

本文针对指定城市或区域的农残检测结果数据,设计了一种名为“多重放射环”的可视化方法,其设计思想源自于Sunburst,方法的示意图如图1所示,具体设计思想为:

(1) 根节点设计为饼图,分别表示无农药检出、中低毒农药检出、高剧毒农药检出3种情况的比例。

(2) 外射的同心外环分为两部分:在中低度农药检出部分采用堆叠图的形式表示未超标/超标数据的占比,在高剧毒农药检出部分采用径向映射表示高剧毒农药的检出情况。

1.2 内层放射环计算

多重放射环的内层放射环具体计算方法为:

(1)内径映射与计算。第一重环(A、B、C区)中饼图半径称为多重放射环的内径,映射为所指定城市或区域的“农产品样品采样量”。内径映射公式如公式(1)所示:

其中,[min,max]为内径的自定义区间,区间大小根据实际效果而定。Num为各地区样品数,Num.max为样品数最大值,Num.min为样品数最小值。根据公式(1)将各农产品样品数映射为多重放射环内径radius.in。

(2)角度占比与着色。根据农产品中的检出农药情况,将数据集分为中低毒农药检出、高剧毒农药检出、无农药检出3类,根据3类检出情况的农产品占比映射为图2中A、B、C区扇区所占的圆心角角度比。针对中低毒农药检出、高剧毒农药检出、無检出3类情况,依次着色为蓝色、红色、绿色。

1.3 外层放射环计算

多重放射环的外层放射环的环宽计算方法为: ①无农药检出扇区,对应环宽为0;②中低毒农药检出扇区(图2中B1区),环宽映射为农产品样例中农药检出量的最高值或均值,本文实例选择农药检出量的均值。

多重放射环B1区的外径计算方法如公式(2)所示:

1.4 多标准并行环计算endprint

為对比多种MRL检测标准下超标/未超标判定结果的对比情况,将中低毒农药检出扇区(即图2中B1区)的外径由内到外划分为6层,分别表示中国、欧盟、日本、香港、美国、CAC的MRL标准下的判定结果。在同一并行环中,超标部分使用深色着色,未超标部分使用浅色着色。

判定结果中未超标/超标占比将对应圆环逆时针分割,每个分割区间圆心角为各类检出量与总检出量的比值乘以中低毒检出扇区圆心角。

2 实验结果与分析

2.1 案例数据集可视分析

基于R语言实现了本文提出的多重放射环可视化方法。图2为多重放射环应用到农药残留检测数据的可视化效果图的一个样例,从该图中得出的分析结论有:

(1)从中心的饼图可以看出,绿色扇形区代表的未检出量及红色扇形区代表的高剧毒检出量占比较小,而蓝色扇形区代表的中低毒检出量占比较大,可见中低毒检出量相对较多。

(2)从高剧毒农药总检出频次映射区间看,其检出频次在所有城市或地区的农产品采样中基本处于中等。

(3)从同心圆环对比多国/地区MRL标准下的检出超标情况看,中国、香港、美国、CAC标准下超标量较少,但欧盟、日本标准下的超标量相对较多,因此该批次农产品仍需引起注意。

针对多地区的农残检测情况的对比,本文基于leaflet地图库实现了多重放射环与地图结合的全国农残检测数据概览效果图,如图3所示为其中一个数据集的可视化效果。

该图共展示了26个省会城市以及4个直辖市的主要检测信息,通过对比图3中表征各城市的多重放射环,可得到以下结论:

(1)根据不同城市/地区中的多重放射环大小,可对比其农产品样品采样数量。如本例中北京、石家庄、广州的采样量相对较多,有些地区的采样量相对较少,可以考虑加大其采样量。

(2)根据多重放射环的内层环各扇区占比,可对比各城市不同农药检出情况的农产品样品占比情况。如本例中乌鲁木齐、南宁、长沙等城市无农药化学物检出的样品比例较高,说明其农残检测的结果总体较好。

(3)根据高剧毒农药检出扇区的外层环环宽值,可对比各城市的农产品样品中的高剧毒农药检出情况。如本例中武汉、南宁等城市的高剧毒农药平均检出量较少。

(4)根据中低毒农药检出扇区的外层环环宽,可对比各城市的中低毒农药平均检出量。如在本例中石家庄、北京、广州等城市的农产品采样量较多,但中低毒农药的平均检出量较小。

(5)根据中低毒农药对应区域的外层环各标准下超标/未超标情况占比,可对比各城市农产品样品中的超标/未超标情况。如本例中大部分城市含中低毒农产品化学物的样品超标比例都较低,但在日本MRL标准下各城市样品的超标比例明显高于其他标准。这是由于日本MRL标准的限量值较低,标准要求更为严格。

2.2 本文方法性能分析

本文设计的对比可视化方法,从多重放射环的可视编码和布局设计上,同现有的类Sunburst层次可视化布局方法相比,本文方法采用创新的可视化元素编码,并可以较好地实现数据集的多属性和多标准对比,展现的信息量增多,且空间利用率高。

3 结语

本文针对农残检测数据多地区间、多MRL标准下的对比分析,提出了一种多重放射环的可视化方法,并与地图相结合,实现了农残检测数据的对比分析可视化以及多MRL标准下的判定结果比较。该方法有利于专家快速浏览数据集,分析区域间数据的差异性,并根据各项数据指标针对指定区域进行深入分析。实验结果表明,本方法能帮助食品安全领域专家对指定城市/地区的农残检测结果数据作一个快速了解,根据可视结果重点关注超标严重或高剧毒农药占比较大的地区,以便对农产品中农药残留检测情况作进一步分析。下一步工作将设计农产品及农药的分类统计可视化方法,利用交互手段进行协同展示,通过多视图实现多角度的综合评价。

参考文献:

[1] LIU X, XU A, GOU L, et al. SocialBrands: visual analysis of public perceptions of brands on social media[C].IEEE Conference on Visual Analytics Science and Technology. IEEE Computer Society, 2016:71-80.

[2] GLUECK M, GVOZDIK A, CHEVALIER F, et al. PhenoStacks: cross-sectional cohort phenotype comparison visualizations[J]. IEEE Transactions on Visualization & Computer Graphics, 2016,23(1):191.

[3] XU P, MEI H, LIU R, et al. ViDX: visual diagnostics of assembly line performance in smart factories[J].IEEE Transactions on Visualization & Computer Graphics, 2016,23(1):291-300.

[4] LOHMANN S, HEIMERL F, BOPP F, et al. Concentri cloud: word cloud visualization for multiple text documents[C].International Conference on Information Visualisation. IEEE, 2015:114-120.

[5] KEIM D, PANSE C, SIPS M, et al. Visual data mining in large geospatial point sets[J]. Computer Graphics and Applica-tions, IEEE, 2004,24(5):36-44.

[6] WARD M O, GRINSTEIN G, KEIM D. Interactive data visuali-zation: foundations, techniques, and applications[M]. CRC Press, 2010.

[7] LI J, XIAO Z, ZHAO H Q, et al. Visual analytics of smogs in China[J]. Journal of Visualization, 2016(3):1-14.

[8] CHO I, DOU W, WANG D X, et al. VAiRoma: a Visual Analytics system for making sense of places, times, and events in roman history[J]. IEEE Transactions on Visualization & Computer Graphics, 2016,22(1):210-219.

[9] LU Y, STEPTOE M, BURKE S, et al. Exploring evolving media discourse through event cueing[J].IEEE Transactions on Visualization & Computer Graphics, 2015,22(1):220-229.

[10] WANG Z, FERREIRA N, WEI Y, et al. Gaussian cubes: real-time modeling for visual exploration of large multidimensional datasets[J]. IEEE Transactions on Visualization & Computer Graphics, 2016,23(1):681-690.endprint

猜你喜欢
R语言
基于R语言的学生成绩分析
基于GPS轨迹数据进行分析改善城市交通拥挤
基于R语言的Moodle平台数据挖掘技术的研究
注重统计思维培养与应用为主导的生物统计学课程建设