大数据下政府统计调查升级

2020-08-10 09:23张雯婷徐映梅
合作经济与科技 2020年16期
关键词:大数据

张雯婷 徐映梅

[提要] 统计调查是统计活动中非常重要的一项基础性工作。大数据时代的来临使传统统计调查的内容、方式、技術已经或将要发生根本性改变。在梳理传统统计调查概念基础上,就大数据对统计调查产生的影响和面临的问题进行归纳,给出大数据统计调查的定义和特点,比较传统统计调查与大数据统计调查的差异,概述统计调查中的大数据技术。

关键词:大数据;政府统计;统计调查

中图分类号:F222.1 文献标识码:A

收录日期:2020年5月18日

大数据涌现对统计工作产生了较大影响,这使传统统计调查工作面临新的挑战。统计调查是统计工作中非常重要的一项基础性工作。对此,统计工作者非常关心:大数据对统计调查有什么影响?统计调查将遇到什么新问题?统计调查如何应对?大数据时代的统计调查与传统统计调查有什么不同?其特点是什么?未来统计调查工作将面临什么挑战?诸如此类的问题研究不仅具有较强的理论意义,也有重要的实用价值。

一、引言

传统调查一直是我国统计工作的基础,它建立在国家逐渐完善的统计调查制度基础之上。然而其统计调查体系在实践中却时常遭遇质疑,比如“统计调查方法相对单一,对全面统计调查方法过于依赖;统计报表由下而上逐级汇报使统计数据失真;统计调查不够系统和规范”。大数据时代到来,对统计调查工作既是挑战也是机遇。为此,有学者提出了大数据时代统计学研究的若干理论问题。针对大数据时代下的政府统计工作,有学者提出了若干建议,比如政府统计工作的改革,其工作评价、应用路径、应用瓶颈与融合问题。近年的大数据统计调查工作主要涉及宏观政府统计调查体系改革和统计调查工作的完善。胡海靖从多个角度就中国政府统计调查体系提出一系列改革设想。另外,还涉及价格调查和我国CPI调查方面的应用。而米子川的研究则是大数据指数是否可以替代统计调查指数的讨论。更进一步的研究涉及统计数据资源整合、数据融合与质量评价、大数据分析方法和算法。

以上研究为深入展开大数据时代统计调查方面的研究奠定了良好的基础,但未见大数据时代统计调查可能遇到问题的系统阐述,也未见科学大数据时代统计调查准确定义、特点、与传统统计调查比较方面的文献。本文将在梳理传统统计调查概念的基础上,分析大数据对统计调查的影响及其可能面临的问题,给出大数据时代统计调查的定义,并比较它与传统统计调查的差异,概述统计调查中需要应用的大数据技术。

二、大数据时代统计调查新变化

(一)传统统计调查概念的梳理。在定义大数据统计调查概念之前,先就传统统计调查概念进行梳理。尽管学者对统计调查概念没有统一的定义,各自表述不同,但其总体核心内容基本一致。

对传统统计调查概念在论文中定义的梳理。国家统计局制度方法司方法研究处(1991),给出了统计调查的定义。有学者认为,统计调查实际上就是从目标总体中获得数据。类似的定义如学者李瑞军(2012)、马天芳(2015)的定义强调搜集统计资料时应采用对比方法,强调定量分析和统计汇总的重要性。

以上统计调查的定义基本概况了其本质,但只从目的、方法和结果几个方面进行了阐述,这些定义均不够全面。比较2017年8月1日实施的《中华人民共和国统计法实施条例》第二章统计调查项目的规定,笔者认为,统计调查比较完善的定义应该为:它是根据统计调查的目的和任务,经统计调查项目审批、备案和公布,采用科学方法和调查组织方式,依据预先设计的调查表式和规范标准,在财政预算范围内,有计划、系统地搜集、整理和分析统计资料,并通过计算机网络报送的工作过程。

(二)大数据时代统计调查应注意的问题。大数据与传统数据的区别在于其各自的特点,大数据有很多异于传统数据的特点。IBM在总结其他学者观点的基础上,提出了大数据的5V特征,即Volume(大体量)、Variety(多样性,数据各种格式和形态)、Velocity(时效性)、Veracity(真实性,数据质量)和Value(大价值)。有学者从统计视角强调其异构、高维、稀疏的特点,实际上这些特点均包含在以上五个特点中。在进行了大数据影响分析后,笔者认为,在进行统计调查时,应该注意以下问题:

1、数据采集的问题。传统统计调查,以人工方式获取数据为主,以计算机为辅;而大数据时代统计调查则应该是以计算机方式获取数据为主,以人工为辅。这是因为通过传感器、设备仪表、手机、互联网等采集数据的方式已开始逐渐普及,这给政府统计调查工作提出了新的问题和挑战。

2、数据质量的问题。对于大数据时代的海量数据,笔者认为,有三个方面值得注意:一是数据中有噪声。如果获取的统计调查数据有噪声,显然其数据质量不高。对大数据来说有噪声是很正常的现象,因为它是“全息”记录。解决问题的方法就是去燥,使统计调查数据的质量到达规定标准。二是部分数据详细,部分数据稀疏的问题。对于过于详细的大数据,统计调查应注意边际效应的问题;对于数据稀疏的问题,可以适度增加抽样调查、重点调查和科学估算方法等手段补齐。三是大数据不能覆盖全部对象。也就是“互联网外有大鱼”,“数据再大也是相对的”,这是统计学者邱东提出的观点。这也意味着大数据不能完全满足统计调查的要求,这时,统计调查就必须采用其他非大数据技术的方法(比如统计方法和数学方法)解决问题。

3、数据整理与整合的问题。数据整理是统计调查中的一个过程。传统统计调查的数据整理是预先设计好的方法梳理和分类数据,并使其结构化。但大数据多为半结构化或非结构的。如果用传统方法进行数据整理,显然行不通。由于大数据来源不同,结构不同,因此统计调查的数据“整理”通常采用数据整合的方法。除统计学外,其他学科也有数据整合方法已被提出,但这类方法总体上来看却十分有限。

三、大数据时代统计调查的新内涵

(一)大数据时代统计调查的新概念。根据以上分析,笔者认为,大数据时代的统计调查,仍然采用传统统计调查的定义。为了区别两者的差异,现给出大数据时代统计调查更详细的定义:它是根据统计调查的目的和任务,经相应等级的统计调查项目审批、备案及公示,采用统计、数学、数据科学和计算机等学科的技术手段和科学方法,以及某种调查组织方式(统计报表还是专门调查;普查、抽样调查、全面调查、重点调查、典型调查或行政记录,还是综合其应用),依据规定的调查表式和统计标准要求,在财政预算范围内,有计划、系统地搜集、整理和分析统计资料,并通过计算机网络报送的活动。

根据以上定义,有几个方面值得注意:第一,对于计划展开的统计调查,在法治社会逐步完善的今天,先要确定调查的级别,是国家统计调查项目、部门统计调查项目还是地方统计调查项目,并根据相应的等级进行统计调查项目审批、备案和网上公示。这是政府信息公开的要求。第二,与传统统计调查不同,大数据时代的统计调查,除了采用统计、数学、计算机科学等方法外,还应注意数据科学方法,计算机技术、大数据技术、数据挖掘技术等手段和方法的使用。第三,关于调查组织方式,先要确定是统计报表方式还是专门调查。另外,调查过程是否采用普查、抽样调查、全面调查、重点调查、典型调查或行政记录,还是综合其应用。在统计调查初期就应该设计和确定。这里要特别注意统计调查资料的搜集方式,比如,针对某些调查对象的大数据详细记录,某些记录稀缺的问题,调查中应采用什么策略和方法都应事先设计和确认。第四,调查表式必须在统计调查初期就要进行设计和确定,以及统计调查标准和规范的制定,特别是数据质量的规定。第五,在统计调查设计的基础上,有计划、系统地搜集、整理和分析统计资料,将获得的调查结果通过计算机网络报送相关部门。

(二)大数据时代统计调查的新内容。根据大数据时代的统计调查定义,从四个方面进行比较,以阐述大数据时代统计调查的新内容。

1、统计调查方法比较与创新。传统统计调查采用的多为统计方法,而大数据统计调查将采用信息技术、大数据技术、统计方法、数学方法和数据挖掘方法等多种手段。前者侧重《统计法》要求的普查、抽样、统计报表、重点调查、典型调查、综合分析等方法搜集统计资料。后者部分统计调查资料通过从大数据源中提取,其手段可以是软件工具,然后通过分析和挖掘从大数据源中搜集统计调查资料。当然,当大数据源中某些数据稀疏不足时,可借助传统统计调查方法补充。

2、数据采样方式比较与创新。传统统计调查是一种“直接”获取统计调查资料的方法,大数据统计调查是一种“间接”获取统计调查资料的方法。前者是调查人员针对被调查对象,通过询问、问卷、观察、交流等方式获取统计调查资料;后者是操作人员借助计算机从大数据源中获取统计调查资料。因为大数据源是连续记录被调查的某些对象全工作状态的数据集合。因此,大数据统计调查也可以看成为一种“经常性的普查”。由于这种“普查”没有针对性,至少不是针对某个统计调查主题的,它只是针对某一对象工作状态的记录,因此这样的记录数据针对性(对统计调查)不强。对此,应特别注意其数据边际的把控,避免过量统计调查资料搜集而增加不必要的工作负担。与此同时,也应注意大数据源的不足而必须进行的补充统计抽样等方法的配合应用。传统统计调查的地点是搜索统计调查资料的地点,统计调查的时间涉及调查的标准时间和期限。而大数据统计调查地点多半不够明确,甚至被分离,因为搜集统计资料的地点即操作计算机位置,与实际被调查对象工作状态的地点不同。这样的地点有两个:一是被调查对象的地点;二是调查员操作计算机的位置。相比之下,大数据统计调查的时间通常非常精确,可以到分秒,而且可以由操作者自己在计算机上设定时间区间值。而传统统计调查的时间多半以年月为单位,采集的数据有时还存在滞后性。这一特点预示,未来可以开发一种计算机统计软件,根据用户的要求,随时提供针对某一固定主题的统计调查服務。比如,全国各行各业完全联网后,特别是人口宏观数据建成后,因为卫生(医院)计生、公安系统中人口出生和死亡数据实时更新,教育部学历信息、民政部婚姻状态、房地产信息、人社部社保(就业状态)信息、税务局个人收入信息等等,均为实时更新数据,这时,统计部门很容易随时获得全国人口实时统计调查数据。届时,全国性的人口普查次数可以适度减少,人口变动抽样调查也可不断完善。

3、高质量数据获取比较与创新。与传统统计调查相比,大数据时代的统计调查直接获取的数据质量不高是一个不争的事实。所以,应注意统计调查数据质量的把控。大数据中的噪声和虚假信息使统计调查获取的数据可信度不高。这就要求统计调查员在进行资料搜集的过程中,应特别注意虚假信息的甄别,通过科学的方法将大数据中的噪声去除。调查员可以事先对不同的大数据源进行评价,以确定其可信度级别,为后续统计调查工作奠定基础。

4、统计调查设计比较与创新。与传统统计调查相同,大数据时代的统计调查需要根据调查的目的与要求展开工作,也需要有计划和有组织地进行统计调查数据、信息和资料的搜集、整理和分析。但在进行统计调查时,必须预先设计统计调查的技术手段和科学方法、调查组织方式、调查表式和统计标准,以及财政预算。其重点是根据大数据的特点进行统计调查的设计。

大数据时代的统计调查与传统统计调查的不同特点决定了未来的统计调查可能是两种方法的结合,即取长补短、优势互补,借助各自的特点使统计调查工作能更快更顺利地完成。两种统计调查方法都有自己的优缺点,在进行统计调查时,可采用两种方法的综合,具体以哪种方案为主,需要根据情况有针对性的设计。在近未来,应以传统统计调查方法为主,以大数据统计调查方法为辅。在远未来,可以以大数据统计调查方法为主,以传统统计调查方法为辅。

四、大数据时代统计调查新技术

大数据技术的快速发展,将对统计调查工作产生巨大影响,具体表现在以下几个方面:

(一)统计调查资料搜集新技术。大数据源一般可分为以下几类:一是对外开放的大数据平台,比如百度,这类平台不仅提供大数据源,也提供数据处理软件。二是专业大数据平台,比如国家经济信息中心、中国知网、新华社等,这类半开放的数据平台需要付费才能使用,它提供大数据源,也提供数据处理软件。三是部门专业大数据平台,比如各大部委的专业数据库,这类数据库是不对外开放的。统计部门可以通过《统计法》的规定,要求其提供所需的电子形式的数据。四是互联网上杂乱无序的数据,其数据质量很低,比如某些网页上web形式的超文本数据,它需要采用网络爬虫软件抓取;传感器上的数据,比如某些公司完全对外开放的实时监控摄像头;微博和网络日志之类的数据。对于第四类数据,建议政府统计调查时尽量不用,因为其数据质量低,数据处理非常困难,技术要求比较高。由于统计部门的经费有限,在进行统计调查时,应尽量选择数据质量高,数据易于获取的大数据源,避免陷入数据边际过宽的陷阱。

在统计调查设计阶段,可根据统计调查的目标和任务,设定其规范和标准,在互联网中确定大数据源。在条件允许的情况下,大数据的采集工作部分可以交由被调查对象单位的专业人员配合,根据统计调查表要求他们提供从大数据源中抽取数据,一来可以避免数据泄密,二来可以减少调查员的负担。如果必须由统计调查员在计算机上操作的,可以在系统中设置所需搜索统计资料的条件要求,比如时间段、区域、对象等参数,然后应尽量交给计算机软件去完成。

(二)数据清洗与ETL技术。统计调查资料搜索工作完成后,可通过计算机辅助完成统计调查资料的清洗和ETL处理。数据清洗(Data Cleaning)指发现并纠正不完整数据、错误数据、重复记录和不一致性数据的过程。具体方法包括数据插值、异常检查与偏差分析、用数据库范式规则剔除重复数据、语义和完整性检查。ETL(Extract-Transform-Load)技术是将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。数据清洗工具与ETL工具通常是二合一的平台,常见工具包括:Datastage、Informatica、ODI(Oracle Data Integrator)、OWB(Oracle Warehouse Builder)、Cognos和Beeload等。这部分工作建议交给统计部门中的计算机专业人员或统计专用软件处理。

(三)数据整合技术。数据整合即把从不同数据源收集的数据,通过整理、清洗,转换后加载到一个新的数据源内,并为用户提供统一数据视图的数据集成方式。具体技术包括构建联邦式数据库系统、利用数据仓库整合和加载多源数据、开发中间件整合并连接异构数据库、应用Web技术整合来自于不同数据源的应用等。但在具体操作层面,最好方法是采购统计应用整合平台,它可以将不同来源、不同结构的统计资料进行整合并对外开放,以便统计用户获取,这方面的研究微软、Google、IBM等公司正在进行。一个简单的方法是购买统计公有云服务,将统计调查运行环境、大数据超级计算等交给计算机专业公司处理。但其统计调查数据的安全很难得到保证,一个折中的方法是混合云的实施,即需要保密的数据放置在统计局信息中心的私有云内,其他部分交给公有云处理。

(四)大数据统一平台。大数据不同于传统统计调查,其采集、处理、存储和应用自然不能用传统方式解决。最终的解决方案是在统计局信息中心构建一个大数据统一平台。目前,很多企事业单位都相继在原有信息中心硬件设施的基础上增加了大数据统一平台环境。这是一项不可缺少的工作,建议各统计局信息中心加紧部署实施。其总体框架应该是以Hadoop为核心,包括Hadoop内核,分布式数据库HDFS,分布式计算MapReduce和群集资源管理器YARN。Hadoop是一个生态系统,包括很多组件,除HDFS、MapReduce和YARN外,还有NoSQL數据库Hbase、数据仓库工具Hive、工作流引擎语言Pig、机器学习算法库Mahout、数据库连接器Sqoop、日志数据采集系统Flume、流处理平台Kafka、流数据计算框架Storm、分布式协调服务ZooKeeper、HBase SQL搜索引擎Phoenix、全文搜索引擎Elasticsearch、安装部署配置管理器Ambari、新分布式执行框架Tez等。(图1)

主要参考文献:

[1]季晓晶.大数据时代统计调查工作的挑战与思考[J].统计与咨询,2013(5).

[2]段学有.透过大数据看统计调查数据[J].中国统计,2014(7).

[3]宋立京.大数据时代如何开展统计调查工作[J].时代金融,2016(5).

[4]李金昌.基于大数据思维的统计学若干理论问题[J].统计研究,2016.33(11).

[5]姜澍.大数据时代下的政府统计[J].调研世界,2014(4).

[6]李婧婧,王磊.政府统计部门应对大数据挑战的几点思考[J].调研世界,2017(1).

[7]许小乐.“大数据”与政府统计改革[J].调研世界,2013(5).

[8]何志红,阳志锋.大数据背景下政府统计工作执行力的评价模型[J].统计与管理,2017(11).

[9]“大数据在政府统计中的应用研究”课题组,鲜祖德,董倩,姜澍.互联网大数据在政府统计中的应用路径研究[J].调研世界,2015(9).

[10]余芳东.大数据在政府统计中的应用、瓶颈及融合路径[J].调研世界,2018(11).

[11]陈光慧.大数据时代中国政府统计调查体系改革研究[J].商业经济与管理,2016(6).

[12]胡海靖.对大数据背景下完善政府统计调查工作的研究[J].统计与管理,2015(10).

[13]国家统计局重庆调查总队课题组,朋琳.大数据在价格调查中的应用研究[J].调研世界,2017(4).

[14]乔晗.大数据在我国CPI调查中的应用研究[J].调研世界,2015(9).

[15]米子川,姜天英.大数据指数是否可以替代统计调查指数[J].统计研究,2016(11).

[16]苏州市统计局课题组.“大数据”背景下统计数据资源整合探索[J].统计科学与实践,2018(10).

[17]李红,牛成英,孙秋碧,林嘉燕.大数据时代数据融合质量的评价模型[J].统计与决策,2018.34(21).

[18]Chun Wang,Ming-Hui Chen,Elizabeth Schifano,Jing Wu and Jun Yan.Statistical Methods and Computing for Big Data[J].Statistics,2015.

[19]Konstantinos Slavakis,Georgios B.Giannakis,and Gonzalo Mateos,Modeling and Optimization for Big Data Analytics:(Statistical) learning tools for our era of data deluge,IEEE Signal Processing Magazine,2014.31(5).

[20]李揚,张长,朱建平.融合统计思想的大数据算法[J].统计研究,2018.35(7).

[21]国家统计局制度方法司方法研究处.我国统计调查体系的现状及改革意见[J].统计研究,1991(4).

[22]黄恒君,傅德印.对统计调查质量特性的探讨[J].统计研究,2009.26(11).

[23]李瑞军.企业管理中统计调查及统计调查误差的分析[J].统计与管理,2012(2).

[24]马天芳.如何区别统计调查与实地研究[J].中国统计,2015(4).

[25]大数据中的统计方法课题组,马双鸽.大数据时代统计学发展的若干问题[J].统计研究,2017(1).

[26]马双鸽,王小燕,方匡南.大数据的整合分析方法[J].统计研究,2015(11).

[27]邱东.大数据时代对统计学的挑战[J].统计研究,2014(1).

[28]朱建平,张悦涵.大数据时代对传统统计学变革的思考[J].统计研究,2016(2).

[29]宋晓红,张立朝,禄丰年,等.地理国情普查中多源异构数据整合研究[J].测绘通报,2014(9).

[30]白如江,冷伏海.“大数据”时代科学数据整合研究[J].情报理论与实践,2014 (1).

[31]杨鹍.基于语义的金融行业大数据整合及处理技术[D].浙江大学,2013.

[32]耿直.大数据时代统计学面临的机遇与挑战[J].统计研究,2014(1).

猜你喜欢
大数据
浅谈大数据在出版业的应用
“互联网+”对传统图书出版的影响和推动作用
大数据环境下基于移动客户端的传统媒体转型思路