再析气象大数据及其应用

2016-12-04 02:49沈文海
中国信息化 2016年1期
关键词:数据源气象部门气象

文|沈文海

再析气象大数据及其应用

文|沈文海

一、如何看待大数据

2015年9月5日,《国务院关于印发促进大数据发展行动纲要的通知》正式发布,在全社会引起广泛影响。在此前后,社会上的大数据浪潮汹涌澎湃,推动和裹挟着每一个行业、部门和企业。一些单位和部门急于“抢占大数据制高点”,纷纷出台了一系列政策、措施、机构和项目;气象部门也未能例外,以气象大数据为名上项目、搞工程的苗头已经出现。如何认识大数据,大数据是否适用于气象部门,以及适用于哪些领域,是气象部门决策机构需要思考、分析和综合归纳的问题,因为这些问题的厘清有助于尽可能避免工作中的盲目性并减少失误。

(一) 大数据时代的背景

所谓“大数据时代”的到来,是水到渠成的必然结果,归纳起来有以下几个方面:

1. 数据源泛在化

移动智能设备、可穿戴设备、互联网应用等设备和系统应用的普及,使得数据的采集不再停留在专业部门的业务系统范畴:手机、身份证、交通卡、银行卡、门禁卡、网上查询、网上聊天、网购、网游、GPS定位、视频监控、ETC等一切智能设备都是数据设备,只要人迹所至,就有数据产生。较之上世纪,数据源已极大地泛在化了。

2. 网络广泛连接

在数据源极大泛在化的同时,互联网、移动互联网及物联网将所有数据源连接在一起,人类历史上首次实现了人与人、人与物、物与物之间广泛的连接和自由交换数据。从而将单台设备的数据能力升级到全球网的层次上,极大地提升了系统的智能潜力。梅特卡夫定律指出:“网络的价值与参与者的平方成正比”,网络的广泛连接极大增加了互联网的应用价值,其中包括全社会数据利用能力的增加,以及提高生产力机会的增加。

3. 软件的普及和智能化

软件是人类知识和智慧的外在形态和应用载体,软件将硬件设备、网络资源、传感器、控制器与数据组织成为能够实现目标的智能系统,软件是智能系统的灵魂,也是大数据应用的核心。数据只有在被处理和应用之时,方才成其为资源,否则只能是垃圾;所拥有数据是废是宝,最终由软件的能力决定。

4. 生态环境的形成

“四个无处不在”以及数据源的泛在化,体现了包括传感器、智能终端、高速网络、移动互联网、云平台、大数据处理技术、地理系统技术等多种信息技术共生的新生态环境,所有这一切构成了大数据生长的肥沃土壤。这些基础技术的出现和普及应用为新技术、新应用的集成创新提供了良好的机会。大数据时代是数据大爆发的时代,也是智能系统大爆发的时代。

5. 互联网巨头的推动

互联网将所有数据源连接在一起,网上业务量的激增导致互联网企业的业务数据呈指数倍激增,使得那些成功的互联网企业在迅速成为互联网巨头(如:谷歌、亚马逊、百度、阿里、腾讯等)的同时,其原有的数据存储系统也被一一撑爆,以至于这些互联网巨头们始终在马不停蹄地疯狂扩充自身的存储和处理能力。面对这些每天都在剜心割肉地消耗着不菲的维护资金的庞大业务数据,如何将其进一步变现,以变废为宝、变闲为宝,发掘这些业务数据在业务应用之外的新的价值,便成为这些互联网巨头们迫切需要解决的新课题——此即为何大数据概念的出现以及大数据技术的发展均来自互联网巨头及业务的推动的主要原因。抛开商业目的,互联网巨头们对大数据技术及应用的推动,客观上改变了人们从数据中获取信息的理念,促成了大数据应用理念的革命。

(二) 观察大数据的视角

大数据时代是信息技术发展的必然结果,它的到来不可抗拒。现象的出现和应用的需要,必然导致理论的产生。而大数据理论的主要基础,是考察该事物的视角。

1. 提取和应用信息的视角(关注于数据处理理念和方法的改变)

从数据本身的角度出发考察大数据,是大数据浪潮发端时最初的公认视角。其最具代表性的理念更新当属《大数据时代》一书的作者迈尔.舍恩伯格,该作者将大数据理念的精髓概括为三点:不是随机样本,而是全体数据;不是精确性,而是混杂性;不是因果关系,而是相关关系。作者在书中雄辩滔滔地论述此三味真火的背后,有其内心深处对世界本质的认识做支撑。但无论如何,作者对大数据应用归纳的新理念,对于利用大数据资源获取信息的应用提供了一种新思路,其新颖的大数据思维也为科技探索提供了一种新的模式。

《大数据时代》作者在书中关注的是如何从大数据中挖掘出更加准确和丰富的信息,以便指导和改进人们的工作、提高决策水平等等,其视角是大数据的信息提取和应用。气象部门的大数据应用既属此范围,即:从数据中提取信息供决策使用。

2. 信息和内容价值的视角(关注连接范围的是否全面)

大数据产生信息的价值并不取决于其所产自的数据集的规模大小,而在于该数据集内容的丰富与否。用一架高分辨率摄像机对准一面空白墙面连续拍摄数周,也能产生PB级的数据,但其应用价值却极低,原因很简单:虽然其体量甚大,但其中所含信息内容却极度贫乏。无人驾驶汽车的研制之所以难度甚高,除需要处理的周边环境的信息量巨大外,还在于无法全部获取周围其它行驶车辆驾驶人员当前及将要采取措施的信息。

此外,大数据的应用价值除了其内容的是否丰富以外,还取决于对本应用是否适用。阿里电商大数据可以用来分析宏观经济形势,却无法用来分析火星地表是否存在液态水,因为这些大数据内容虽然丰富,但却不包含任何有关火星方面的信息内容。

因此,一个应用广泛的大数据,一定是一个内容十分丰富——换句话说,就是连接面十分广泛、全面——的数据集,与体量没有必然关系。就价值而言,连接比规模更重要。

3. 行政决策和国家治理的视角(关注社会治理能力的提升)

国家宏观经济形势、百姓的消费热点、民众对某一重大事件的反应、流行疾病的爆发预警乃至反恐维稳的目标锁定等等,这些涉及政府行政决策的信息,以及这些信息的全面、准确和及时,都是政府在国家治理层面迫切需要的。虽然这些信息大多也有一定的正规获取渠道(甚至设有专业部门负责),但种种原因导致了这些渠道所采集和汇集的信息往往或不精细、或不准确、或不完整、或不及时,使得国家行政决策因之而难以达到预期效果。改造完善这些渠道需要耗费大量成本和时间,于是在现有的、沉睡在各部门和企业系统中的业务数据中提取相关信息,以弥补现有信息渠道的各种不足,便成为信息获取的新途径和新思路。从目前业界所热传的所有大数据应用成功案例看,绝大部分属于人文社会领域,从一个侧面印证了大数据对于改善国家宏观治理的重要意义。有效开发互联网大数据应用,可以显著提升政府的国家治理能力和决策的科学性,这是许多国家政府和智库的共识。因此,不少发达国家纷纷制订本国的国家大数据战略,我国也不例外。

4. 简单的事实:所有大数据应用成果都是业务数据的副产品

分析目前已有的大数据应用成功案例,可以发现一个事实:所有大数据应用的数据源,都来自于非专属于本应用目标的业务数据。换言之,所有大数据应用的数据来源,都不是专为本应用而特设的:啤酒和婴儿尿布的关联关系产自于对沃尔玛超市结算柜台的货品销售日志分析;阿里巴巴对2008年全球宏观经济形势的准确预测来源于对淘宝网采购单数量、规模和内容的变化、以及变化的地理分布特征分析;美国国家安全部门对恐怖分子的锁定,相当部分来自于对互联网巨头所掌握的电邮的内容分析,等等。原因很简单,由于成本或难度太高,人们不可能为了某项大数据应用而专门去采集原始数据。大数据应用大多只能使用那些已经存在的、非为本应用所特设的业务系统所积累的数据资源,且收集和维护这些数据的成本是由这些业务系统所属单位承担的。因此,大数据应用是业务数据的副产品。

盖缘于此,大数据应用的数据源(即:合适的业务数据)的寻找,本身就是一个难题。

(三) 大数据的辨识

1. 从应用的视角观察大数据

数据是服务于应用的,大数据也不例外。

当一个新的应用出现,现有业务数据无法满足其数据需求时,必须寻找新的数据源。在寻找过程中,如果自行采集数据能够满足需求,且成本能够接受,则采取该方式是最好的选择,因为采集的过程和方法受需求者控制,所采集的数据最接近需求(如:十一五、十二五气象部门建设的全国天气雷达站网及遍布全国所有乡镇的地面自动气象站等)。而当自行采集的成本过于昂贵、以致无法承受时,选用替代数据便是将工作继续进行下去的唯一选择了。以往信息相对贫乏的年代,可供选择的合适的替代数据不多,许多工作因之而无法开展。互联网时代信息量暴增,替代数据的选择范围有了很大改善,使得许多过去无法开展的工作,现在有可能开展起来了。然而,由于这些替代数据自身不是因本需求而产生的,故不可避免地存在诸如:体量虽大但针对本需求所需的信息稀薄,信息质量不高、故难以得到确切结论,许多现象和结论难以解释等痼疾。于是,“是全体数据而不是样本数据、是模糊结论而不是精确结论、是相关关系而不是因果关系”的大数据的理念和方法由此产生。

从应用的角度评价大数据,可以得出以下结论:

虽然就数据血统而言,大数据在实际应用中往往不属于专为本应用采集的血统纯正的数据,但它的存在和被使用却是使得众多创新应用得以实现。因此大数据是资源。

当今新的时代已经进入信息经济和知识经济的新时代,这是一个以信息和知识为基础的经济,是一个在更大程度上依赖于在生产、分配和使用等各个环节中知识和信息所作贡献的新的经济。因此大数据是新的生产力要素。

2. 大数据的可能与不能

大数据可能提供有价值的参考信息,包括:

· 大数据可能为政府的科学决策提供有价值的参考信息。

· 大数据可能对企业的业务改进提供数据支持和信息支持。

· 大数据可能为一些社会科学领域的学科研究提供有价值的信息。

· 大数据甚至有可能对自然科学研究中的一些新的科学机理的发现提供参考信息。

与此同时,不能指望单靠大数据就能全面提高政府决策水平。因为决策依赖于多方面信息的综合,大数据只是提供信息的途径之一,仅靠它是无法解决政府决策的诸多问题的。高层决策主要面对的是诸多不确定性环境,需要广阔的视野与丰富的经验。深厚的历史背景、细微的地缘差异、复杂的宗教派系之争以及民族间的矛盾等等,这些因素交织在一起,关系复杂而头绪繁多,远非数据统计分析那样简单。大数据能够为行政决策提供一项或多项较为准确的参考信息,改善影响决策的信息的质量,但信息的综合和最终的决策必须依靠人。

其次,大数据不可能直接解决科学机理问题。从大数据“模糊而非精确”、“只求相关而非探究因果”的理念可以看出,大数据只关注于现象之间的关联性,但不探究这些关联背后的因果关系,但求知其然,而不愿(甚至不屑)探究其所以然。之所以如此,是与大数据的理论构建者所固有的对世界的认知:“混乱构成了世界的本质,也构成了人脑的本质”的哲学观所决定的。本文无意探讨哲学问题,但由此可以推断:就认识论而言,大数据属于经验主义范畴,它无法直接解决科学问题,尤其是以科学机理(即所谓因果关系)为核心的气象预报科学问题。在气象理论研究领域,大数据可能的贡献在于提供参考信息(如:具有一定关联度的气象要素组合等),以供气象科学家们分析研究。

二、气象大数据辨析

(一) 气象大数据的内涵

就数据本身而言,气象大数据是指所有与气象工作相关的数据总和;从来源渠道划分,气象大数据可分为“行业大数据”和“互联网大数据”两类。其中:

“气象行业大数据”由与气象部门各项工作相关、且产生自气象部门内部的所有数据组成,包括:由气象部门建设的、具有国内最高专业水准的气象探测体系所产生的气象专业探测数据,其它部门自行采集、通过数据共享/交换等方式汇聚到气象部门、且经过气象部门严格质量控制的气象要素探测数据,由气象业务部门和业务系统产生的各类气象服务产品数据、派生数据及中间产品数据,职能部门各管理系统(如:财务系统、人力资源系统、项目管理系统等)所产生和管理的数据,各业务和管理系统的状态数据和日志数据,等等。

“气象互联网大数据”由互联网上与气象相关的所有数据所组成,包括:移动终端搭载的气象要素传感设备的探测数据,网友随手拍并上传的天气状态照片,搜索引擎对气象相关敏感词的统计分析数据,其它所有可供气象部门业务和服务应用的互联网数据等等。

“气象行业大数据”与“气象互联网大数据”间存在很大差异,限于篇幅,难以在此做详细分析。简言之,“气象行业大数据”属于气象业务数据,其生成的直接目标是服务于气象业务和工作的,故其气象信息浓度高、各种技术指标亦最为符合气象业务和工作的各项要求。“气象互联网大数据”则不然,它不是专为气象工作而生成的,它产自于其它非气象部门的行业、企业,是为满足这些行业和企业自身业务目标而生成的。这些数据之所以被纳入“气象互联网大数据”的范围,是因为这些数据包含有与特定气象应用相关的信息内容,而这些内容是气象行业大数据所缺乏的;亦即,这些数据是为弥补气象行业大数据在内容和时空密度等方面的不足而从互联网上收集来的;故其气象信息的浓度、数据质量等参差不齐,各项技术指标也往往差强人意。即便就气象要素而言,两者之间存在的差异也是很明显的,见表1:

表1、气象行业/互联网大数据中气象要素之间的差异

从内容上划分,气象行业大数据大致有:气象观测原始数据、气象观测产品数据、气象业务产品数据、气象服务产品数据、业务日志数据、设备及系统状态数据、气象管理数据等等。需要说明的是,目前对气象数据范畴的界定,只包含前四项,即:气象观测原始数据、气象观测产品数据、气象业务产品数据、气象服务产品数据。其后的业务日志数据、设备及系统状态数据、气象管理数据等尚未正式纳入气象数据的定义范围。

从性质上考察,气象行业大数据属于“气象业务数据”范畴,即:每类数据都有其特定的使用目的、使用对象及数据形态,且所有数据的初始目的都是围绕满足气象部门自身运转所特有的数据需求的。

从体量上衡量,“气象行业大数据”虽可勉强跻身大数据行列(PB级),但较之互联网公司而言,仍有至少2~4个数量级之间的差距。以目前业界现有处理技术,完全可以满足“气象行业大数据”在分析处理方面的时效要求(数值预报除外)。因此对于“气象行业大数据”而言,单纯的管理和处理技术不是问题所在。

(二) 气象大数据与预报准确率

将大数据理念和方法全面应用到气象部门,在部门内开展气象大数据工作,能否有效提高预报准确率,这是本文首先必须正面回答的问题。

1. 大数据理念和方法探究

《大数据时代》一书的作者将大数据理念的精髓概括为三点:“不是随机样本,而是全体数据;不是精确性,而是混杂性;不是因果关系,而是相关关系”。深究下去,不免使人产生质疑:首先,如果通过分析少量的样本数据就可以得到事物的准确本质(如:适用于数学归纳法的数据集),是否还有必要花费巨大成本去收集和处理全体数据?其次,如果能够得到准确数据或结论(如:台风路径和登陆地点、暴雨的落区),是否还有必要刻意去追求混杂不准确的数据或结论;第三,如果能够了解并掌握因果关系(如:人类活动与气候变暖之间的关系),是否还要放弃对因果关系的探寻,而只去分析相关关系?

答案显然都是否定的。

所以,不能生搬硬套大数据的理念和方法,否则可能会出现有违基本常识的举措和结果。对于大数据理念和方法,其合理的解释应该是:如果通过分析少量的样本数据无法得到事物的本质,则人们将不得不花费更多成本去搜集和处理全体数据,以求得到事物的真实本质。如果得不到准确的数据或结论,则人们将不得不接受那些差强人意的不十分准确的数据或结论。如果无法了解到事物之间的因果关系,则人们将退而求其次,通过分析相关关系来了解事物。

因此,由《大数据时代》作者所定义的大数据方法,不应该是刻意为之的,而应该是不得已而为之的:当现有的观测数据无法满足业务需求、且布设新的探测设备代价太高或无法布设时,只能寻找其它代用数据,以弥补现有观测数据的某些不足。当无法做出准确预报时,概率预报是退而求其次的预报方法。当气候变化规律目前无法完全掌握时,气候统计预测方法便是填补气候预测方法空白的可接受的选择之一了,如此等等。

2. 观测数据和科学研究是气象学科的主要支撑

上世纪二、三十年代,无线电通信技术引入到气象地面和高空观测信息通信,人们能够获得大范围的大气立体观测资料,在此背景下,科学家们通过对观测资料的深入分析,并根据流体力学、动力学/热力学定律等物理学原理,构建起了气象学科的基本框架,并在日后的岁月里不断丰富完善。因此,气象学科是建立在观测资料基础之上,并由气象学家们通过深入的科学分析研究,发现其中的内在机理,进而形成相应的理论体系而最终构建的。随着资料的不断丰富,科学家们不断发现着新的天气/气候变化内在科学机理,气象学科因此得以成长发展。如果没有气象科学家天才卓越的分析研究成果,气象观测资料便仅仅是一堆天气现象的记录数据。因此对于气象学科而言,观测数据/产品和科学分析研究,二者缺一不可。而在人工智能达到能够具有科学家们深厚的知识背景、敏锐的捕捉现象的本能、严谨的推演技巧和天才的综合分析判断能力之前,这些科学分析研究工作就只能由科学家们承担并完成。

气象业务的现代化水平最终体现在气象预报的准确率,所追求的恰恰就是精确和及时。如果不掌握天气变化的内在规律(即所谓因果关系),单凭现象要素之间相关性的强弱,是很难达到及时精确预报的要求的。地震前许多动物的行为举止往往异常,但动物举止异常却不见得预示着地震的即将发生。止步于天气现象与气象要素之间相关性的统计分析,不对其做进一步的机理分析研究,对气象学科而言,不是科学的态度。

3. 统计分析是气象部门常用的方法

探究科学机理是十分艰难的。在尚未掌握科学机理的情况下,统计分析是常用的预报方法,如气候领域里的气候统计预测。这种通过对长时间序列气象观测资料进行统计分析,以历史上相似天气现象所发生的天气(或气候)变化的概率为依据,进行气候预测的方法,自气候学科发端之日起,便一直在采用,已达数十年之久。因此“大数据”所推崇的统计分析方法,气象部门早在数十年前便已悉数使用,并不陌生。

但这并不意味着气象部门在该领域的科学研究止步于此。事实上,目前基于动力框架的气候数值预报模式(尤其是集合预报模式等)等方法一直在积极地试验和尝试使用之中,目的就在于探索能够有效发现气候变化规律(即所谓因果关系)的路径和方法——虽然气候统计预测方法仍在使用之中。目前数值天气预报和数值气候预测中所大量采用的集合预报方法,就是“因果”与“相关”、机理与统计之间有机结合的一种尝试。

4. 气象观测数据是所有数据中最重要的贡献者

从上文“气象大数据的内涵”中的分析可得知,与一般大数据所使用的数据源不同,气象行业大数据中的气象观测数据及产品是专门为气象预报业务工作而采集的,其时空分布、数据质量及其它各种技术指标最符合气象业务的各项要求,气象业务所需信息的浓度也最高。比较而言,气象互联网大数据的气象信息密度不高,数据质量也难以保证,其它技术指标更是难以保证满足气象应用的需求。因此,从气象行业大数据中的气象观测数据和产品产生出来的统计分析结论以及学科科学机理的发现是具有权威性的。就预报准确率而言,气象观测数据/产品是所有数据中最重要的贡献者,气象互联网大数据是它的补充而绝非替代者。

5. 大数据并非提高预报准确率的终南捷径

综上所述,气象预报对准确率永远的追求决定了,气象学科必须以探究并最终掌握大气运动的内在机理为工作目标。而大数据方法是在特定的、理想状态无法满足情况下的退而求其次的方法,即:在尚未完全掌握大气运动规律、无法通过理论推演和方程计算准确预报天气或气候的情况下,统计分析方法也许是一种补充完善的途径。在无法断定抽样分析所得结论的正确性时,分析全体数据也许是一种最终解决方案。在无法提供准确预报时,概率预报也是一种不错的选择。但是,如果通过努力有可能达到理想状态,人们便不应该盲目的生搬硬套大数据方法;因为对气象预报而言,因果关系的掌握远比相关关系的发现更为重要,后者是为前者提供线索而非取代前者的。同样,精确的分析和预报结论永远比模糊的分析和预报结论更加满足预报需求,收集和处理样本数据永远比收集和处理全体数据更为高效和节省资源。

所以,大数据理念和方法并非提高预报准确率的终南捷径。

当然,笔者并不否认大数据方法在客观预报产品解释应用方面对预报效果的改善有所帮助等正面作用,但这终究是辅助性、修饰性的,不是提高预报准确率的根本途径,且效果难以具体量化。

尤其需要强调的是,以在预报准确率方面赶上世界先进水平为目标的气象工作者,绝不能因拥有了大数据这种退而求其次的方法而放弃对掌握气象规律这一理想事业的追求。而且,这一追求的最终实现,只能靠观测数据和产品在时空密度和质量上的不断提高,以及科学家们辛勤的分析研究。由于就数据而言,对提高预报准确率贡献价值最高的仍然是气象观测数据及产品,因此研制出高质量、高时空密度的气象观测产品数据,便仍将是提高预报准确率以及气象科学研究最重要的基础性工作。至于科学研究工作,没有捷径可走,在这里“工匠精神”永远不会过时。

(三) 气象大数据的价值分析

上文“气象大数据与预报准确率”的分析并非意味着大数据在气象部门无所作为,而只是想说明,大数据并非包治百病的灵丹妙药,而是一个宏观上可在全社会产生巨大正面效益、但也存在一些效益不甚显著区域的、实实在在的思维理念和工作方法。说到底,气象部门之所以引进大数据理念和方法,并非为了大数据而大数据,而是为了解决实际工作中存在的问题。因此,气象大数据必须以业务和工作需求为引领。当业务或工作中出现的问题没有合适的数据信息,或者虽有数据但常规处理方法无助于问题的解决时,气象大数据也许是一种可以尝试的解决途径。通过“气象行业大数据”中的各类数据,在履行其各自的直接业务目标之外,使各类数据间彼此有机融合并协同分析,是能够发掘出新的数据价值、信息价值和知识价值,从而推动业务的发展和管理的进步,不断提高气象部门的工作品质的。气象部门内层级堆叠、工作效率不高的问题长期以来有目共睹,“智慧气象”中“精细的科学管理”,即可从打通部门藩篱、消除管理信息孤岛开始。通过管理信息的整合,优化管理流程,增强职能部门间的工作协同,提高管理效率。通过充分挖掘和发挥出管理信息应用的价值来提高管理工作效率,进而提高气象部门整体的工作效率,通过大幅提高工作效率来创造价值,等等。

“气象行业大数据”产生自气象部门,是气象部门赖以运转的最主要资源,同时也是气象部门各项工作的记录载体,在所有数据资源中,它所含有的气象信息最浓;故其应用领域首先应在于气象部门业务工作的有效运转,其次才是社会服务。“气象行业大数据”潜在价值的挖掘和发挥,也应当以提高气象部门工作能力为首要目标。用好“气象行业大数据”,是开展气象大数据工作的重要内容和检验指标。

与此同时,“气象行业大数据”与“气象互联网大数据”之间的有效融合,有可能大幅提高气象观探测的时空密度。物联网技术的有效应用,可以使“气象行业大数据”中专业气象探测的时空分辨率变得富有弹性,以更加有效地应对各种业务需求和社会服务需求。此外,高时空分辨率的探测数据也可为气象科学家发现新的大气运动机理和客观规律提供前所未有的数据资源。

就应用对象及范围而言,“气象互联网大数据”中气象要素数据的产生是与搭载传感仪器的拥有者——人——密切相关的,其所沉积下来的信息中包含有珍贵的人类活动痕迹。凡人迹所至且移动通信可覆盖之地,均有可能成为“气象互联网大数据”的数据源。虽然其传感器搭载体的形式各异,探测环境也很不规范,但也正因为其搭载体拥有者是人,可放置或出入于各种人类活动场所,从餐厅到旷野、从巷道到影院、从居所到河畔,皆可随时对各种场所进行气象基本要素探测,这为气象服务的精细化、专业化和个性化提供了“气象行业大数据”所难以甚至无法提供的现场气象要素数据。此外,利用已广泛布设的非气象监测设备所采集的信息,通过分析得出所需要的气象要素,以弥补专业气象探测设备无法获得的探测信息,是一条值得深入探索的途径,GPS/MET的发掘和广泛应用就是一个典型的成功事例。可以预期,“气象互联网大数据”与“气象行业大数据”以及其它行业大数据之间的有效融合,可在气象社会服务领域开辟出空前繁荣的气象服务新局面。

总之,数据是为应用服务的,气象大数据必须将业务和工作做为最主要的引领。气象大数据战略的首要内容,不是数据的收集、数据源的拓展以及海量数据的管理技术,而是气象工作的持续创新。在技术创新、原理创新、概念创新和思想创新的氛围中,不断涌现出新的应用,根据新应用在信息和数据需求方面的特点,充分发掘现有数据资源的价值,同时有针对性地寻找并拓展新的数据资源,合理运用大数据有关技术,处理并提炼出新的有价值的信息,以推进创新的不断实现。与此同时,由于创新本身是不同概念之间的有机连接和融合,多角度的观察会增加概念连接的机会,大数据所固有的关联分析以及由此产生的相关事物的现象信息,对开拓概念连接的范围会有所帮助,对气象部门在新形势下的创新当有所裨益。于是,初始创新启动大数据应用,大数据应用促进新的创新——这应该是气象大数据战略的基本轮廓。

三、开展气象大数据工作的前提条件

(一) 现有气象数据的梳理

长期以来,人们普遍将气象观测数据及产品、以及少量的气象服务产品做为气象数据的全部,以现代信息化理论和实践来考量,这无疑是片面的。气象部门是一个整体,其有效运转除需要观测数据外,财务、人事、绩效、资产甚至设备状态信息等数据,都是不可或缺的重要信息资源,应当无一遗漏地纳入气象数据的范畴。事实上,由于长期以来对气象数据内涵理解的局限性,使得部门内对气象数据的关注点长期聚焦在气象观测数据,相应的规范标准亦多以观测数据为对象,其它类别的数据则所涉甚少,甚至没有涉及。这种不平衡导致了这些其它类别数据在管理上的各自为政、规格上的无章可循、信息间的彼此隔离、质量上的参差不齐、以及使用上的困难无序和低效。即便是长期受到关注的气象观测数据,存在问题亦不可忽视,以数据质量为例,众所周知,在周边环境未发生非气象因素改变的情况下,探测数据的质量直接取决于传感设备自身状态的正常与否。然而到目前为止,除气象卫星和天气雷达等高端探测仪器外,其它如地面自动气象站等,没有探测设备自身状态信息的获取途径,探测设备状态的判定需要依靠其所采集的气象要素是否合理、是否超出理论极限范畴等被动式手段来完成,于是出现两个问题:其一,对于真实的极端天气事件(如局地特大暴雨)数据,有可能因其数值超出气候极值而导致数据正确性的误判;其二,故障设备从开始发生故障到被检测出来的这段时间难以确定,从而导致这段时间内观测数据的质量无法保证。由此亦可推论,探测设备状态信息是相当重要的业务数据,但遗憾的是,该类数据至今既无相关标准,也未正式纳入气象数据的管理范畴。

需要指出的是,不少技术人士将所有气象数据纳入统一管理平台(如:Cimiss)视为气象数据治理的完成,这无疑也是片面的。事实上,如果上述诸如数据定义、数据分类/分级、数据分布、数据操作等诸多问题没有解决,气象数据没有经过科学的梳理和配置,所有气象数据在形式上的汇聚便起不到高效管理、有效应用和长期支持业务发展(包括业务变更)的作用。

(二) 气象数据的规划和治理

要搞好气象大数据,首先要管理好做为气象部门核心资源的“气象行业大数据”(亦即所谓“气象数据”)。在此,一个极为重要的基础性工作——对气象数据的全面规划和治理——是无法跨越的。

气象部门的所有各项工作中,无时无刻不充满着信息的产生、流动和使用。要使每个单位内部、单位之间、单位与外部门单位的频繁、复杂的信息流畅通,充分发挥信息资源的作用,不进行统一的、全面的规划是不可能的。气象数据规划,实质上就是气象部门的信息资源规划,是对气象部门日常运转所需要的各种信息,从采集、处理、传输到使用等生命周期各个环节的全面规划。其目的,是通过有效管理气象数据,实现气象部门内外数据流的畅通以及数据资源的有效利用,进而达到工作的流畅、业务的融合和整体的协同,从而提高气象部门的工作效率和效益。通过气象数据规划,可以梳理业务流程和管理流程,厘清信息需求、建立部门行业的信息标准和信息系统模型,并据此来继承、整合、优化、改进乃至再造业务流程及业务系统,从而积极稳步地推进气象大数据战略。该项工作的长时期缺位,已经给气象部门各项工作造成了十分被动的局面。

在这里,气象数据规划是整体梳理、谋划和设计,气象数据治理则是具体实施执行。

所谓数据治理,就是使气象数据自产生的那一刻开始,经历的采集、传输、处理、存储、操作以及质量和安全保障等生命周期诸多环节中的每一个环节,都处在一个统一、自洽、协同的规则之中,以使得气象数据这一部门和全社会宝贵资产始终处于正确有效的管理之下。换句话说,气象数据的治理就是治理气象数据的政策、方法、措施和具体落实。

贯彻气象数据治理,除先进的理念外,还需要有配套的组织架构、原则、过程和规则,以确保数据管理的各项职能得到正确的履行。

气象大数据的工作形态就是数据资源的开发利用,做为良好的数据资源开发利用的基础,数据规划是纲领,而数据治理则是贯彻数据规划的具体进程。

(三) 数据意识的逐步培育

提高全部门的数据意识,是开展气象大数据的基础。

数据是精准文化的核心,精准靠数据来表述。对创新而言,所有的成功都是小概率事件,唯有每一步都追求精确方才可能达到。同时,科学和精准使得思维逻辑得以严谨,以严谨逻辑表述的思维成果,确保了推理的可靠性,使后人可在前人思想成果的基础上进一步思考和拓展;严谨的思维成果成为可组织、可利用的资源,科学成果因之而得以积累,并最终发展成长。技术的精准和步骤的严谨使得成熟技术的品质更高,也使得这些技术得以方便地利用和重组,而成熟技术的再重组是科技创新的重要形态之一。此外,思维的严谨性还决定了人们科学研究的深度。在信息时代,鲜见有采用粗放、笼统、马虎和粗枝大叶方式能够持久成功的事例。没有数据意识就没有现代科技,在全气象部门培养数据与精准意识已是当务之急,科学与精确应当成为气象部门的工作信条和文化素养,是实现气象现代化最根本的基础条件。

(四) 必要的人才基础条件

所有的工作,都是以人的思维成果而指导的。大数据技术只是众多工具中的一类,工具没有自行主动解决问题的能力,工具不可能解决连人都没有想清楚的问题,解决问题的办法必须靠人的思维;人想清楚了,则相应的处理流程可由信息系统重复运作,以提高工作效率。如果一项工作,连人自己都还没有想清楚,则此时的大数据非但不能帮忙,反而可能会把事情搞得一团糟。因此,气象大数据应用的开展,人才条件是决定其成败的要素之一。

具体地说,实施气象大数据应用,除上述几项基础工作外,在人才队伍方面还需具备以下2个基础条件:

1. 建立起对应于大数据管理运营的数据管理中心的组织架构。没有一个相对完整和专业的数据管理团队,是难以发挥出大数据分析的功效的。

2. 建立起一支精干的数据分析团队,并拥有一个灵活适用的数据分析技术平台。

此外,开展气象大数据工作,可能会遇到许多意想不到的困难,如:算法和数据来源问题。如前所述,所有大数据应用的数据来源都是来自于互联网的替代数据,而由于数据源非针对该应用所采集,该应用所需要的内容可能同时存在于不同的数据源之中,且存在的形态和格式各异:同样是分析舆情,腾讯微信大数据和百度大数据的分析方法可能完全不同。面对不同的数据源,需要不同的信息提取算法。因此,合适的数据源和合适的分析算法,是开展气象大数据应用首先需要解决的问题。而气象部门在这方面,目前尚缺乏相应的专业人才和团队。因此,对于气象部门而言,利用他人的数据开展大数据应用,对可能面临的困难,需要做好一定的心理准备。

四、气象大数据中心建设问题

(一) 应当是气象行业大数据中心

开展气象大数据工作,基础设施环境(即:气象大数据中心)的建设问题,是本文必须正面回答的另一个问题,因为海量数据的处理需要相当规模的存储和计算资源予以支持。

上文已述,气象大数据由“行业”和“互联网”两部分来源构成。笔者认为,气象大数据中心应当是以存储管理行业大数据为主要目标,即:气象大数据中心应当是气象行业大数据中心。理由如下:

气象行业大数据中的各类数据,都是由气象部门业务或管理系统产生,以服务于气象业务或工作为首要目标的。根据属地化管理原则,规范管理这些数据,并负责这些数据的社会化共享服务,是气象部门的职责。因此气象大数据中心所管辖的数据中,必须包含气象行业大数据。同理,由于气象互联网大数据中的所有数据皆非产自气象部门,同样根据属地化管理原则,气象部门没有职责和义务存储管理这些非气象部门产生的数据。

在目前数据量急剧爆发的背景下,轻率地将体量硕大的互联网大数据整体搬移到自己的属地后再进行处理,不是明智的举动。按照业界“算法找数据”的原则,应尽可能采用诸如与数据源拥有方建立协作联盟、租用对方一定规模基础资源等方法,达到在数据源近旁完成处理工作的目的,以减少海量数据整体搬迁所造成的高昂代价,并提高工作时效。即:对于互联网大数据的应用而言,应尽可能采取“就近处理”的方法;在无法就近完成所有处理的情况下,也应尽量设法采用“提取”的方法,将有用的信息从数据源中提取回自己的属地分析处理,切不可轻易采用“数据找算法”的陈规陋习,将数据源整体复制到自己的属地,除非万不得已。这方面的工作需要慎重筹划,以免被昂贵的数据搬迁和数据更新成本所压垮。

总之,由于气象互联网大数据与气象行业大数据相比,无论在规模上,还是在管理时段上都难以较为准确地预估,将其纳入气象大数据中心的管理内容之一,会对大数据中心的设计和管理带来一系列极其复杂的不确定因素。因此,气象大数据中心在建设和使用初期,应以气象行业大数据为主要管理对象,并在气象互联网大数据的应用中尽可能避免海量数据的搬迁。与此同时,大数据中心在设计和实际操作过程中可以预留一定规模的基础资源,为在极端情况下互联网大数据的载入和处理预留一定的管理空间和能力。

综上所述,第一,管理气象行业大数据是气象大数据中心的职责。第二,对于互联网大数据而言,大数据中心既没有义务、也应尽可能避免对其进行长时间管理。所以,气象大数据中心应当是气象行业大数据中心。

(二) 气象大数据中心的形态和分布

1. 气象行业大数据中心同时应当是气象云中心

就应用效果而言,在资源充沛且数据处于规范管理的前提下,数据的集约化程度越高,应用的效果越理想。因此,气象大数据中心应当是气象数据汇聚、规范化管理且资源十分充沛的数据中心。云计算中心是大数据中心最好的物理形态,大数据中心应以云计算中心为基础平台,这在业界已形成共识,气象大数据中心也不例外。所以,气象大数据中心应当是一个组织机构概念,逻辑上相对独立,而其实际的物理基础设施应当是气象云中心,是气象云中心上的一个具体业务应用。

需要进一步说明的是,对气象大数据中心的规模而言,其中的行业数据的增长规模处在气象部门掌控之中,基本上可以预估。但如果将互联网大数据的应用场景也考虑在内,预留可充分应对极端情况下互联网数据源大举载入时的支撑资源,由于数据源对象的未知性,其相应的规模是难以预先测算的,偏大则可能导致资源的长时间闲置,偏小则可能届时无法发挥支撑作用。较为可行的解决方案之一是采用专有云形式,即:选择资源规模大、公共安全措施完备、专业水平高、服务信誉好且价格相对合理的云计算中心,在其上长期租赁相应规模的基础设施资源作为气象云的基础设施,其中气象大数据中心的资源需求规模可基本参照气象行业大数据的存储管理规模来进行预估。与此同时,与该云计算中心签订相应的服务合同,承诺在气象大数据中心遇到特殊情况(如极端情况下海量互联网数据的大批载入)时,该云中心可及时扩充气象大数据中心的基础资源租赁规模,并在应用结束后收回这些临时租赁的基础资源。

2. 大数据中心的分布

笔者于前文已讨论过,未来的气象云中心最终将以1+2或1+3等数量有限、地理分布相对合理的形式长期存在。且专有云较之私有云而言,是更为合理的气象云形态。限于篇幅,其理由不再重复阐述。

(三) 尽早开展应用研究工作

应及早开展针对互联网大数据在气象部门各领域创新应用的研究工作。目前这项工作在气象部门除个别先行单位(如公共气象服务中心)外,基本处于空白状态,是一片未开垦的处女地。尽早进行大数据基础知识和技能的储备,对工作的顺利开展有益无损。同时,应积极筹备组建相关的专业化团队,以期尽早具备如下能力:

数据资源发现能力:熟悉互联网上各种数据资源以及数据交易市场的业务动态,熟悉数据资产的价值评估,可在部门用户提出数据资源需求时,及时提供互联网数据资源的咨询服务,推荐合适的数据资源,以及资源的基本情况。

数据获取能力:具备在正常情况下,通过正规途径,以技术手段及时获取指定数据源中所有数据的能力。

数据分析能力:具备在收集互联网数据的基础上,针对应用目标以及数据源的特点,提出相应的分析模型,指导并最终完成对互联网数据的整理和分析,以完成应用目标中各项研究、评估和预测的能力。

数据算法实现:根据分析模型及数据源特点,形成数据分析处理软件,并完成数据处理。

分析平台:拥有分析模型建立、处理软件生成以及分析结果可视化展现的技术平台。

应适时成立相应机构(如:气象互联网大数据应用研究中心等),专门从事这方面的研究和应用工作。

五、稳步推进气象大数据战略

(一) 全面认识气象大数据

在积极探索创新应用的同时,应冷静分析气象大数据的特点和可能的适用范围,基本明了其能力边界,做到心中有数。既不被外界过度宣传所裹挟,也不被内部守旧力量所羁绊。积极而稳妥,慎重而不裹足不前。应当明白,目前国家所倡导的大数据战略,与其说是为了推行充分挖掘数据资源价值的工作方法,不如说是一种工作思维和工作方式的改进和补充,是一场全社会文化素养的改良和变革。通过对大数据不断深入的应用,持续改进全社会的生产质量、产品质量、服务质量和生活质量。

因此,不必过度介意气象大数据在某些特定领域内(如提高预报准确率等)作用的有限。大数据不是万能的,正如信息化不是万能的一样,不可能指望单凭推行大数据就能解决所有问题。充分利用一切可以利用的数据资源,不断创新、不断改进气象部门各项工作,倡导和发扬工匠精神,使各项工作更加科学化和精细化,就已达到了气象大数据战略的基本目标。

此外,气象大数据应当以应用为主导,以业务为主导,以改善各项工作为主导,更应该以技术、业务、服务和管理创新为主导。应当使全部门明了:开展气象大数据工作不等于在各地开展数据中心基础建设,更不等于在各地开展数据库建设。此外,开展气象大数据工作,应力求基础工作先行、专业团队建设先行和应用研究先行。

(二) 保持清醒、力戒浮躁

我国政府多年前便已开始倡导科学发展的理念,但目前全社会急于求成的心理依然非常普遍,似是而非且激动人心的宣传口号此起彼伏,反映出一些人的浮躁心态。气象大数据工作的开展,不宜采用运动的方式,而应该在充分营造创新氛围的前提下,由创新引导气象大数据的具体应用,循序渐进,待深入到一定程度后,再由大数据应用逐步推动创新,从而形成创新引导大数据应用,大数据应用进一步推动创新的彼此互动的良性循环局面。从过程上看,气象大数据的开展应当水到渠成,过度的宣传、强力的行政推动和盲目鲁莽的基础建设无异于揠苗助长,对大数据的应用发展有损无益。切勿被“抢占制高点”等宣传口号所蛊惑,在被某些善良单纯的记者以及别有用心的企业家鼓动得显然有些过热的大数据风潮中,保持头脑的冷静,力戒内心的浮躁,显得尤为可贵。

六、结语

“互联网+”时代的气象大数据建设,其基本的要求是:在顶层设计上,以应用理念来引领技术应用;在业务架构上,以数据运营来促进各应用系统融合;在建设方式上,充分激活部门内外以及社会力量的参与。大数据之所以能够激发万众创新的大好局面,并非其自身具有多少神奇的魔力,而是因为互联网时代数据资源极大地丰富、信息极大地丰富,许多以往不可能获得的信息现在有可能得到了,过去由于信息的匮乏、不准确、不全面和不及时所不可能开展的许多工作,现在有可能开展并最终完成了。所以政府在推行大数据国家战略的同时,始终强调数据的开放和共享,强调全社会的共同参与。大数据的关键在于应用,气象大数据建设应不断吸收“互联网+”时代充分的精神价值,遵循开放的心态,将互联网时代精髓纳入到数据管理和应用的全部过程,实施“互联网+”时代的服务特征。同时应充分认识到:气象大数据应用的关键不是技术问题,更不是基础建设问题,而是理念问题、创新问题、管理问题和组织问题。因此,气象大数据工作的开展应当着力避免以“铺摊子、上项目、单打独斗、互不联通”为主要特征的“粗放发展方式”。

总之,在万众瞩目、万众竞议、万众跃跃欲试的大数据浪潮中,以应用为导向,冷静地辨析大数据,对日后的工作,是有百益而无一害的。

作者单位:国家气象信息中心

猜你喜欢
数据源气象部门气象
气象树
专栏:红色气象 别有洞天
基于价值链模型的气象部门增值型内部审计新模式初探
2018年全国气象部门政府网站测评研究
一种面向传感云的数据源质量评估框架
图表中的交互 数据钻取还能这么用
大国气象
基于Excel的照片查询系统开发与应用
数据有增加 图表自适应
胸中藏气象 笔底挹风云