前瞻大数据在杭州统计服务中的应用

2015-12-10 07:50陈小国
统计科学与实践 2015年5期
关键词:杭州政府

陈小国

(杭州市统计局,浙江杭州 310016)

研究探索

前瞻大数据在杭州统计服务中的应用

陈小国

(杭州市统计局,浙江杭州 310016)

大数据浪潮正在全球掀起,政府统计作为数据最重要的生产、管理和使用部门,充分开发和利用大数据,与时俱进提升统计服务能力至关重要。对杭州而言,大数据战略有望成为推动信息经济发展和智慧城市建设的重要力量。本文通过传统统计和大数据的差异分析,基于杭州目前初具应用基础的大数据状态,提出创新统计理念;转变统计工作重点;充分开发大数据资源;改进统计数据发布模式等提升杭州统计服务的建议思考。

统计服务;大数据;杭州

大数据开启了一个新的时代,它正在并将彻底改变我们的生活、工作与思维。新兴信息技术与应用模式的涌现,使得全球数据量呈现前所未有的爆发式增长态势。借助大规模数据的生产、分享和应用,人们发现新知识,创造新价值,带来“大知识”、“大科技”、“大利润”和“大发展”。未来,大数据既是企业加速创新的利器,也是政府进行宏观调控、社会管理的基础。美国、新加坡、英国、澳大利亚等发达国家纷纷将大数据上升为国家战略。然而当前中国大数据时代的资源开发、利用、共享方面还仅仅拉开帷幕。

杭州是全国信息化建设最发达的地区之一,信息基础和设施条件较好,电子商务发达,很多企事业单位在多年业务发展中已积累了海量的数据以及实际的开发经验,所以客观存在着大数据应用的现实需求。随着杭州智慧城市建设中各类交易、交互、传感等电子化设备的广泛应用,可以预言,大数据时代的来临已经不远。作为数据重要生产者和使用者的政府统计,顺应大数据时代发展需要,不断创新统计服务理念,提升统计服务水平,是未来统计工作的必然要求。因此,本文将对这个问题试作一些探索性和前瞻性的思考。

一、大数据的定义及形成

本质上,大数据不仅意味这数据的大容量,还体现了一些区别于“海量数据”和“非常大的数据”的特点。国际数据中心IDC对于大数据给出了这样的属性定义:大数据技术描述了一个技术和体系的新时代,被设计于从大规模多样化的数据中通过高速捕获、发现和分析技术提取数据的价值。这个定义刻画了大数据的四个显著特点,即容量(volume)、多样化(variety)、速度(velocity)和价值(value)。

大数据的形成过程是对海量数据进行技术性收集、存储和处理三步流程:首先利用大型存储平台收集数据并进行粗加工;然后利用分布式数据库对数据进行简单分析和分类汇总;最后对数据进行高级别的挖掘分析,以得出有价值的趋势信息或个体偏好。

二、传统统计和大数据的差异

大数据已经逐步渗透到当今每一个行业业务职能领域,成为重要的生产因素。作为政府统计部门,我们的统计工作理念、操作流程和效率也都

会因为对大数据的挖掘和运用而逐步发生质的改变。

我们都知道,由于种种客观条件的局限,传统统计和大数据分析在实践操作中存在较大差异。

先看传统统计。思维理念是:按照特定研究目的并通过统计调查、产业活动单位报表或抽样调查获得样本数据(通常是格式化数据)。统计推断分析的逻辑关系是:分布理论—概率保证—总体推断。统计分析过程是:定性—定量—再定性。这种统计方法由于信息量有限、抽样误差大以及调查方案制订的主观偏差等,常常不能达到大数据内涵丰富、多层次统计、多角度观察的高效率。

再看大数据。大数据本身就是一个数据总体,因此其分析的逻辑关系变成了:实际分布—总体特征—概率判断。统计分析过程则变成了:发现—总结。

比较二者,不难看出:与传统统计不同,大数据不但蕴含的信息量巨大,而且不重因果关系而更加关注相关性分析。这是一种多维、多角度的分析理念。二者的差异见下表。

传统统计与大数据对比表

三、大数据对传统统计的提升作用

海量的、非结构化和电子化的大数据,对人们的生活和企业生产经营的影响日益深远,而站在数据收集和统计分析第一线的统计系统,则在统计应用和统计服务上明显滞后。这就意味着,在大数据时代到来之际,传统统计将由此面临一场深刻的大转型。

(一)大数据对于统计信息共享的促进。信息共享是指不同层次、不同部门信息系统间,信息和信息产品的交流与共用,以便合理地达到资源配置、节约社会成本、创造更多的财富。但长期以来,受到传统信息管理模式的影响以及行政体制、技术手段的限制,不能完全建立政府部门之间的数据共享机制,散落在各部门的宝贵信息资源无法充分共享,形成了一个个“信息孤岛”。利用大数据的处理方法,部门之间的数据分割有望打破实现跨部门业务信息共享也指日可待。这种“大统计”格局不仅能大幅减低政府统计的数据采集成本和管理成本,还有助于形成完整、全面、及时更新的名录库,减少企业漏报,强化关联数据比对,提高数据质量。

(二)大数据对于统计效率的提高。在大数据时代,政府统计部门有可能通过现代信息技术搜索、整理信息、分析挖掘数据;有可能通过各种渠道,智能快速地获得行政记录、企业业务数据、各类网络平台数据等海量数据资料,用于国民经济核算和统计分析研究,减少抽样调查和重复调查大大缩短数据生产周期,提高政府统计的工作效率。

(三)大数据对于统计服务的优化。比较大数据,传统统计的滞后性非常明显,主要表现在统计指标及体系、统计流程和个性化服务三方面:由于地方统计部门对于工业生产、商贸、投资、物价等宏观指标的采集是依据国家统计部门的表式布置,致使统计指标及体系明显滞后,所以难以体现当地经济特色和经济发展态势;由于统计流程是数据先基层上报,至统计部门汇总,最后进行分析,供领导决策。这种流程生产的统计产品不但具有较强的滞后性,还具有低频性和主观性,数据质量难以控制;由于传统统计体系对于微观行业的忽视和或缺,统计产品的微观数据较少,所以统计产品的个性化也显滞后。在大数据时代,可以利用发达的信息技术,实时获取数据,实时分析不仅能更准确、及时地获得经济运行现状,还能在此基础上实现更加准确的预测。此外,由于微观行业的数据得到了极大扩充,政府统计便能够开发更加专业和细分行业的产品,个性化定制的统计产品生产也成为可能。政府统计针对政府部门、个人和企业能够更具针对性的提供及时、便捷的统计信息服务。

四、大数据对传统统计的挑战

大数据带给了政府统计改革创新的战略机遇

但是如果因循守旧、固步自封,则会丧失先机,给工作带来不应有的损失。

(一)政府统计需尽快树立大数据理念。目前电子商务、网络社交和在线搜索等互联网经济快速发展,很多企业和部门都拥有大量的数据,并且在对数据进行挖掘分析,甚至与政府统计的某些指标重合。例如“淘宝CPI”就是一个成功应用大数据的案例。在大数据时代,政府统计部门不再是海量数据的唯一拥有者。这种情况会越来越多,也会有更多的数据拥有者进行统计分析和发布指标,大数据生产和使用将趋社会化。到时,政府统计将和民间统计并存。

(二)政府统计需提升专业工作能力。在大数据时代,一是数据处理难度加大。传统的数据采集来源单一,且存储、管理和分析数据量也相对较小,大多采用关系型数据库和并行数据仓库即可处理。但大数据环境下数据来源非常丰富且数据类型多样,存储和分析挖掘的数据量庞大,数据的采集和处理技术的要求都大大提高。二是对数据分析要求提高。目前的统计分析,或根据需要有针对性地收集信息;或对数据进行简单的汇总分析,难度和门槛相对不是很高。然而大数据属于总体数据,具有噪声大、来源杂、价值密度低的特征。它不是按照我们的需求设计和产出的。数据中夹杂着大量无价值的数据,需要从海量数据中得到常规信息外,还要以专业的思维、专业的技术手段,客观、认真地研究数据源,理解数据,从中深度挖掘以期得到更有价值的数据和指标,整理成为统计分析,这一过程需要更加专业化、细分化和精确化的数据分析技能,比传统统计分析难度更大。

(三)政府统计需加强信息安全意识。大数据时代,保障信息安全极具挑战,因为数据整合的关键是数据开放,而数据开放的基础是信息安全。在数据开放的背景下,企业运行中涉及企业商业秘密和客户隐私;政府行政数据涉及国家安全,以及社交网络数据中涉及个人隐私等等。如何保护这些敏感信息成为大数据开发和使用的关键问题。对于政府统计机构而言,要实现对大数据的大规模应用和对大数量级数据的安全保护,亟待加强信息安全意识,并需考虑适量引进专业技术设备和人员。

五、杭州目前的大数据状态:初具应用基础

为迎接大数据时代的到来,2012年,国家统计局首次对“大数据时代”做出解读。2013年,为打造大数据平台,与阿里巴巴、百度等11家公司签订了大数据战略合作框架协议,推进了大数据在政府统计中的应用。杭州统计局为此在创新统计服务方面,做了大量工作。

(一)统计信息化水平走在全国前列。通过建设综合数据系统、社会经济统计地理信息系统、经济社会发展统计数据库、基本单位名录库数据管理系统、统计基础台账管理系统等数据电子处理平台,有效地提高了统计信息化技术支撑和应用支撑能力,实现了统计工作从调查任务布置到数据采集、传输、加工、汇总、存储和发布的全流程电子化、网络化和智能化。

(二)创新了统计数据发布平台。首次开发了“杭州统计”手机移动APP,开通了“杭州统计”的微博、微信,发布统计信息,使统计信息的查询更加便利,使政府统计数据更加公开透明,数据影响力进一步增强。此外,还开发了宏观数据库图表,实现了对全市主要经济社会指标的实时查询,使用户能获得更加具体、直观并带有趋势性的统计数据。

(三)强化了统计分析服务。对杭州具有优势和特色的文化创意、电子商务、物联网等产业,创新性地制定了统计方法制度,以实现对重点产业发展成效的追踪;开展了新常态下杭州经济发展质量的变化及与同级别城市的横向比较等政府重点关注课题的统计分析,为政府科学决策提供了有效的参考。

但是,当前统计数据质量还有待提高。如,数据横向匹配性不够、部分报表制度比较落后、数据发布时效难以满足政府决策需要、前瞻性的数据预测缺失、没有形成部门统计数据的管理和集中发布、微观行业数据较少等。总的说,在提高统计服务水平工作上,我们还有很长的路要走。

六、大数据时代提升杭州统计服务的思考

大数据作为数据分析的前沿技术,已经风云世界。我们看:美国政府2012年宣布推出“大数据的

研究和发展计划”,把大数据提到了国家战略的高度。新加坡政府推进了大数据基础设施、产业链、人才、技术、立法等全方位建设,并利用数据作为资源,打造了全球数据管理中心。

杭州和世界先进国家、地区比较,大数据研发工作起步不算早,但也已有不俗表现。杭州不仅拥有阿里巴巴这样的互联网巨头、拥有产业链较为完整的信息产业,而且物联网、云计算等技术也较为成熟。随着智慧城市建设中电子传感等基础设施条件的完善,杭州完全有条件把大数据资源转化为信息生产力,政府统计更应在第一时间拥抱大数据。

(一)从“干”统计到“管”统计——创新统计理念。大数据时代是一个政府统计和民间统计并存的时代。政府统计不能缺位,也不能失位,但要更加注重发挥政府统计的管理职能。调查主体要从以政府统计机构单兵作战向社会上各机构单位联合作战转变,并加强对源头统计、部门统计和民间统计的指导和规范化管理,建立“统筹设计、规范运行、监督有效、信息共享、合作开放、互惠双赢”的政府统计管理新格局。

(二)从数据“采集”到数据“挖掘”——转变统计工作重点。大数据背景下,数据的采集变得更加智能,统计工作的重点要从依靠调查采集向大数据的分析挖掘转变。具体说:

一是建立数据分析研究平台。政府统计不仅要加强自身的统计分析,还要敞开统计的大门,让更多企业、部门和个人,包括大专院校、科研机构和专家学者及科研人员,共同参与统计数据的分析研究,让统计科研成果迅速转化为统计生产力。

二是探索数据“挖掘”信息的社会管理应用。国外利用大数据获得商业成功的企业案例不在少数,国内正处起步阶段;发达国家政府统计中的大数据应有也有先例。国外的,如新加坡陆路交通管理利用大数据改善了巴士服务,成效显著,首次获得“世界地理空间卓越奖”。国内的,如阿里信用贷款和淘宝数据魔方对于大数据的利用和开发。贷款的大数据自动分析,大大降低了坏账率;而消费和市场的大数据自动分析,则为阿里的生产和库存决策提供了科学依据。

结合“民生”、“旅游”和“养老”等社会重点课题,建议在“智慧社区”“智慧旅游”“智慧养老”等方面利用大数据作出探索。

(三)从“小”统计到“大”统计——充分开发大数据资源。大数据时代要求数据融合,自主融合的前提是数据的开发。因为数据库层面的开发,能使数据成片的共享。而当前的数据资源共享仅限于公开数据,远远不符合“数据融合”的要求。结合中国和杭州地区特点,本着先易后难原则,建议:

一是借鉴丹麦、芬兰、挪威等国家的先行经验,把行政记录引入人口普查等领域,探索部门信息归集运用新模式。

二是加强部门统计的统一管理,利用好财政国税、地税、人力社保等部门的业务优势,分步建设全市统一的综合数据管理平台。

还可以探索与合作企业建立数据共享平台,通过相关数据,预测、评估、修正传统统计数据。

(四)从“单一”到“多元”——改进统计数据发布模式。建议一:通过微博、微信等新媒体增强与数据使用者的互动,增强舆论引导力和数据传播力。

建议二:政府统计要通过大数据的整合和融合,逐步拓展统计数据的发布内容,增加数据的发布频率,更加有效地对数据的关联性、匹配性进行解读,提高数据发布的客观性、及时性和权威性提升官方统计数据的公信力。

建议三:增加数据发布形式,积极应用可视化技术发布居民收入、物价、房价等百姓关心指标提升数据发布效果。

[1]涂子沛.大数据.广西师范大学出版社,2012.

[2]李金昌.大数据与统计新思维.统计研究.2014年第1期.

[3]杨家亮.大数据时代的政府统计.中国统计.2013年第11期.

[4]李学龙,龚海刚.大数据系统综述.中国科学.2015年第1期.

[5]汪为,张雅雅.大数据革新官方统计.浙江经济.2013年第10期.

[6]刘兴远.利用大数据改进和完善政府统计数据发布模式.中国统计.2014年3期.

(责任编辑:施越霞)

猜你喜欢
杭州政府
杭州
杭州明达玻璃纤维有限公司
知法犯法的政府副秘书长
G20 映像杭州的“取胜之钥”
杭州
杭州旧影
依靠政府,我们才能有所作为
用“打包法”衡量政府投入不科学
政府手里有三种工具
政府必须真正落实责任