双套自动气象站数据融合方法探索

2016-01-04 03:45刘静,朱华亮,谭常春
关键词:数据融合

谭常春(1977-),男,安徽合肥人,博士,合肥工业大学副教授,硕士生导师.

双套自动气象站数据融合方法探索

刘静1,朱华亮1,谭常春1,温华洋2

(1.合肥工业大学 数学学院,安徽 合肥230009; 2.安徽省气象信息中心,安徽 合肥230031)

摘要:国家级双套自动气象站运行后,多套数据融合为一套数据的数据融合问题是双套站投入使用前必须解决的问题。文章提出了基于空间一致性滑动方差的数据处理算法,并利用安徽休宁站2010-10—2011-02 5个月每日01时点气温数据对算法进行验证。结果表明:基于空间一致性的有效性判别对数据的筛选是有效的,很好地保证了数据的完整性和一致性;同时基于滑动方差得出的合成数据与“真值”较接近,可以反映大气真实情况。

关键词:双套自动气象站;数据融合;空间一致性;滑动方差;气象数据

收稿日期:2013-12-11;修回日期:2014-04-15

基金项目:国家自然科学基金资助项目(11201108);国家公益性行业(气象)科研专项资助项目(GYHY201006055)

作者简介:刘静(1989-),女,安徽萧县人,合肥工业大学硕士生;

doi:10.3969/j.issn.1003-5060.2015.01.028

中图分类号:TB114.37文献标识码:A

Explorationofdatafusionmethodfordoubleautomaticweatherstations

LIUJing1,ZHU Hua-liang1,TAN Chang-chun1,WEN Hua-yang2

(1.SchoolofMathematics,HefeiUniversityofTechnology,Hefei230009,China; 2.AnhuiMeteorologicalInformationCenter,Hefei230031,China)

Abstract:After the double automatic weather stations operate at national level, the data fusion problem that fuses multi-set of data into a set of data must be solved before the official operation of the double automatic weather stations. In this paper, a data processing algorithm based on space consistency and sliding variance is proposed, and the temperature data by hours of Xiuning Station, Anhui Province from Oct. 2010 to Feb. 2011 are used to validate the algorithm. The results show that the validity discrimination of the data based on space consistency is effective, thus ensuring the integrity and validity of the data; and that the result of data fusion based on sliding variance is close to the “truth value”, thus reflecting the basic situation of the atmosphere.

Keywords:doubleautomaticweatherstation;datafusion;spaceconsistency;slidingvariance;meteorologicaldata

自2000年1月1日我国第1批国家级自动气象站正式投入运行起,全国已有30 000多个自动气象站,大大地提高了资料的精度与质量,并增加了地面气象观测资料的时间密度。2010年在安徽省休宁、新疆莫索湾和河北南宫等10个台站建设国家级双套自动气象站,并于2010年10月陆续投入试运行。文献[1-2]对双套站各要素数据进行了评估,涉及的要素较多,如气温、气压、相对湿度、风速、地温(以5cm地温为代表)和草面温度等,这些研究从不同角度论证了双套自动气象站存在的优势。双套自动站运行后,降水产生了4套数据(A、B站各有2套仪器,分别为0.1mm和0.5mm翻斗雨量计),其他要素也各产出2套数据。而常规资料服务只需一套完整准确的观测数据,因此多套数据处理成一套数据成为双套站投入业务运行前迫切需要解决的问题。

国内外关于数据融合处理方法的相关研究大多集中在多传感器数据融合领域,涉及的处理算法有参数估计信息融合方法[3]、卡尔曼滤波方法[3]、基于权重系数的融合方法[3-4]、小波变换融合法[5]、Bayes推理法[6-9]、基于D-S证据理论的融合方法[7-10]、模糊神经网络方法[9-10]、基于粗糙集理论方法[10]、聚类分析法[10]。本文主要采用基于权重系数的融合方法,即给予2套数据不同的权重,合成为1套数据,对双套站的气象数据进行融合。

本文使用的数据为休宁双套站2010年10月至2011年02月的观测值,以及对应时段休宁本站,周边屯溪、歙县、黟县、祁门(第1代自动站)逐小时观测值,涉及的要素有气温、气压、相对湿度、风速、地表温度和草面温度等。本站以及周边台站资料均经过严格的质量控制,而双套站数据则通过初步的质量控制,没有通过检验的数据设定为缺测。算法主要考虑的观测要素为气温。

1算法简介

设ai为a仪器的第i个观测值,i=1,2,…。A仪器观测数据为{Ai};B仪器观测数据为{Bi};记算法合成数据为{Hi};本站观测值为{Zi};周边4台站观测值分别为祁门{Qi}、黟县{Yi}、歙县{Si}、屯溪{Ti};4站合成数据为{Ei}。

当A、B站差值超过一定阈值时需要利用空间一致性判断哪个站的数据异常。其阈值根据第2代新型自动站功能规格书[11]中仪器最大允许误差确定(气温为±0.2 ℃)。其基本思想认为:标准差越小,数据越稳定,在数据合成时给定的权重越大。同时提出了利用周边台站数据判断数据异常问题,并给出了对应的算法,具体方法如下。

1.1 数据预处理

(1) 若A、B仪器有一个仪器缺测,则选用未缺测数据作为缺测数据的修补值,即Ai=Bi。

(2) 若A、B仪器都缺测,该时点数据弃用。

1.2 数据修正

A、B仪器最大允许温度误差为±0.2 ℃,若|Ai-Bi|≤0.4,则认为A、B数据都正常;若|Ai-Bi|>0.4,则认为A、B数据有一个是非正常的,需要对数据进行判定来确定是哪个数据出现问题。具体步骤如下:

(1) 计算周边台站对应时测数据的加权平均。设周边4个站点距离本站(休宁站)的距离分别为d1、d2、d3、d4。每个站点所赋的权重为:

则4站点合成数据为:

Ei=w1Qi+w2Yi+w3Si+w4Ti。

(2) 判断A、B仪器记录数据的正常性。据空间加权4站合成数据{Ei}与{Ai}{Bi}的绝对差异|Ei-Ai|、|Ei-Bi|,若|Ei-Ai|>|Ei-Bi|,则B仪器数据正常,反之A仪器数据正常。

(3) 进行数据替代。用正常记录数据替代非正常数据,即Ai=Bi。

1.3 数据合成

1.3.1 权重的选取

(2) 权重选择。对应时点的时测数据波动越大,其权重越小。

(3) 给出2种权重(A的权重)。

1.3.2 融合数据公式

融合数据公式为:

2算法结果与评估

以2010年10月至2011年2月5个月每日01时次A、B两仪器的气温数据为例进行气温数据合成。同时以休宁本站数据为“真值”,考察算法数据与“真值”的差异性。

(1) 原始数据分析。休宁站2010年10月双套站资料出现大量的异常数据情况(仪器传输问题,为考察算法对异常值的处理效果,未将该段数据处理为缺测),如B站在10月13、16、17、18日数据偏离本站较多,10月28—31日出现缺测等异常现象(仅以气温为例,如图1所示),而2010年11月至2011年2月数据则相对正常(A、B差值在±0.3 ℃之间).

为避免直接选用A或者B仪器记录数据作为本站数据的替代而造成的较大偏差,采用A、B仪器记录数据的融合数据,即选用A、B相应气象要素相同时点的记录数据的加权平均,作为本站数据的替代。

图1 2010-10—2011-02 休宁双套站与本站每01时次气温数据比较

(2) 权重的选择。2010-10—2011-02休宁双套站滑动方差、标准差如图2所示。从图2可以看出B站数据的波动大于A站数据,且波动较大处都是在2010年10月,主要是由于10月异常数据造成的。由于B站数据的波动较大,因而在数据融合时就应该降低B站数据的权重,较多提高A站数据的权重。将权重w1i和w2i进行比较分析看出,在11月之后,两者权重基本接近,都可以作为融合所选用的权重。

图2 2010-10—2011-02休宁双套站滑动方差与标准差

2种权重的比较如图3所示,从图3可看出,基于滑动标准差的权重比基于滑动方差的权重波动小,且更接近于0.5。因此采用基于滑动标准差的权重作为数据融合的权重。

图3 2种权重的比较

(3) 数据合成。滑动标准差权重为:

相应的融合数据公式为:

由此得出相应的融合数据。并与本站“真实值”做比较,如图4所示。休宁本站值与融合值如图5所示。从图4可看出,融合值与本站值基本吻合。从图5可以得出融合值与本站值差值超出允许误差(±0.4 ℃)的次数为1次。误差率为0.66%,可认为算法数据是可以接受的,且较好地反映了气温的真实情况。

图4 2010-10—2011-02休宁本站值和合成值比较

图5 休宁本站值与融合值差值

超过允许误差的时次为2010年10月16日,此时次A站数据为12.7 ℃,B站数据为13.7 ℃(差值超过0.4),本站数据为12.9 ℃,周边合成数据为13.8 ℃。利用空间一致性来判断B站数据正常,A站数据异常。若利用本站数据判断则A站正常,B站异常。为确认该时次A、B站点数据准确性,查阅了采集存储卡里的原始数据发现A站为12.7 ℃,B站为12.8 ℃,与本站基本一致。但此处利用空间一致性判断则B站作为正常数据,而A站为异常数据。因此空间一致性算法还需要进一步改进。这要从台站选取、数据确定以及算法加强方面着手。

3结论

(1) 采用最近的7个数据作为权重的计算,比用全部的每日同时点数据要优,因为时间长度较长时,可能有周期性项和趋势项。选取方法主要依据方差波动越大,稳定性越弱,其权重越小,此选取方法在此数据融合中起到了关键作用。

(2) 基于空间一致性的有效性判断对数据的筛选是有效的,很好地保持了数据的一致性。基于滑动方差的数据融合所得出的合成数据作为业务数据是可以使用的,且可以较好地反映该时点的情况。

(3) 算法评估的思路和方法对双套站资料质量评估有一定的借鉴意义。但是,由于不是原始的观测值,使用该类数据存在一定的风险。因此,在考虑输出数据的算法时还需要更加全面和细致。本文算法具有一般性,对于相对湿度适合,但对于风速不适合。

[参考文献]

[1]温华洋,徐光清,张虎,等.双套自动气象站数据评估及其优势探讨[J].应用气象学报,2012,23(6):748-754.

[2]温华洋,徐光清,华连生,等.“双套站”数据处理方法探索[C]//第28届中国气象学会年会——S1第四届气象综合探测技术研讨会,福建厦门,2011:28-32.

[3]朱泽君,黄涛,刘曦霞,等.多传感器数据融合技术研究现状及发展方向[J].船舶电子工程,2009,29(2):13-16.

[4]YagerRR.Aframeworkformulti-sourcedatafusion[J].InformationSciences,2004,163(1/2/3):175-200.

[5]TuTM,SuSC,ShyuHC,etal.AnewlookatIHS-likeimagefusionmethods[J].InformationFusion, 2001,2(3): 177-186.

[6]曲晓慧,安钢.数据融合方法综述及展望[J].船舶电子工程,2003(2):2-4.

[7]何友,彭应宁,陆大.多传感器数据融合模型综述[J].清华大学学报:自然科学版,1996,36(2):16-20.

[8]曾黎,蒋沅.多传感器数据融合的数学方法研究[J].云南民族大学学报:自然科学版,2010,19(5):321-324.

[9]KleinLA.多传感器数据融合理论及应用[M]. 戴亚军,刘征,郁光辉,译.北京:北京理工大学出社,2004:7-11.

[10]郝润泽,杨瑞明.多传感器数据融合技术研究现状及军事应用[J].兵工自动化,2007,26(4):16-17.

(责任编辑马国锋)

猜你喜欢
数据融合
多传感器数据融合技术在机房监控系统中的应用
《可靠性工程》课程教学的几点思考
基于数据融合的家庭远程监护系统研究
船舶动力定位中的数据融合技术文献综述
基于信源编码的数据融合隐私保护技术
两轮自平衡车实验平台的设计
自由搜索的BPNN在WSNs数据融合中的应用
一种基于数据融合的新的入侵检测框架
多传感器数据融合技术研究与展望
基于物联网技术的智能温室关键技术研究