大数据时代的统计学教育

2017-11-17 09:01李慧敏江绍萍
科教导刊 2017年25期
关键词:数据分析统计学大数据

李慧敏 江绍萍

摘 要 随着大数据时代的来临,统计学在理论和方法等各个环节均受到了较大挑战,但同时又迎来一次重大的发展契机.统计学教育必须正确认识到大数据带来的影响,积极适应大数据时代的需求,以培养数据分析人才为目标,整合教育资源推动学科交叉,以实际应用为抓手推动行业融合,才能继续发挥统计学的数据分析主力军作用。

关键词 统计学 大数据 数据分析 教育

中图分类号:G642 文献标识码:A DOI:10.16400/j.cnki.kjdks.2017.09.023

Abstract With the coming of the big data era, theory and method of statistics face utmost challenge, meanwhile, they are confronted with tremendous opportunities of blooming. It is necessary for statistical education to recognize the effects of big data correctly and adapt to the demand of the era of big data actively. Specifically, if statistics want to play the main role further in data analysis, it is better to cultivate data analyst as its target, promote the discipline overlapping by integrating education resources and promote industry convergence by combining practical application.

Keywords statistics; big data; data analysis; education

0 引言

科技进步使得信息流通速度加快、数据量飞速增长,传统的数据处理模式瓶颈凸显,大数据时代随之来临,在政治、经济、军事等领域引导诸多变革,以数据为核心的原理得以重视,以可预测为目标的观念深入人心。而同样以数据为研究对象的统计学如何在大数据浪潮中顺流而上并一展身手是值得思考的问题,而原有统计学的理论体系与大数据思维是否兼容也必须考量。在统计学专业教学中,必须考虑把统计学与大数据背景相结合,既要从统计学的基本原理出发引导学生掌握数据统计分析的基本方法,又要从大数据的角度出发正确认识到数据形态、数据存储和数据处理等环节发生的变化,深入理解数据价值的重要性。

1 大数据时代的统计学

1.1 大数据和统计学的本质都是数据分析

统计学的研究对象是数据,研究数据的收集、整理及分析,目标为找出数据的隐含规律。从数据中寻找有价值的信息关键在于对数据进行正确的统计分析,研究结果一般建立在精确抽样和合理模型的基础上。大数据的核心是数据,狭义的大数据一般指数据的结构形式和规模具备多样性、规模性、价值性、实时性等特征,可简单理解为数据大到在获取、存储、管理、分析等方面大大超出了传统的能力范围。[1]广义的大数据除此之外还包括对应的数据处理技术,如大规模并行处理(MPP)数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统等。从本质上看,统计分析和大数据在数据分析的很多根本性问题上变化不大,但由于数据本身发生了变化,使得数据分析的广度、深度和难度增大。因此可以形象地说,统计学是传统“小数据”时代的大数据,而现代大数据中的数据分析依然与统计学密切相关。

1.2 统计仍然是数据分析的灵魂

大数据时代并不意味着所有的问题都是大数据,也不意味着所有问题大数据都能解决,传统的统计理论和方法不是没有用武之地,而是要与现有的大数据思维融合,借助大数据的相关技术解决以前不能解决的问题。[2]因此大数据对传统统计学意味着巨大的挑战,但同时也是一次难得的发展契机,应该有正确的认识,保持宽容的态度,学科的发展和融合本就是大势所趋,大数据不能替代传统统计学,而传统统计学也不能固步自封,必须不断发展完善,有所取舍。另一方面也必须意识到,大数据的有些思维模式与传统统计学认识不尽相同,有一定的前瞻性和先进性,一定要互相融合。很多传统的统计方法在面临海量数据时需要革新,很多统計模型也不能应用于复杂形态的数据。比如大数据强调全样本和效率,从统计抽样中得到的结论也许是含偏差的,而全部样本中得到的结论更接近事实,数据越大,对数据的精确性要求也就越低,真实性也就越高。传统的统计学主要以推断统计为主,以少量的数据对总体进行精确度的分析,这点是与大数据统计分析思想所不同的。但无论是全样本还是抽样,都需要对数据进行分析,而不是简单的叠加,统计仍然是数据分析的灵魂。其次全数据的概念本身也是相对的,在某些特定场合对于某些特定问题确实可能实现,比如两个学校的高考成绩对比,可采用全部样本且指标统一。但数据的复杂性使得全样本覆盖的范围也只能是尽可能全和逼近事实,并且大数据的重点方向也不是解决固有问题,而是通过数据研究挖掘数据更大的价值。

2 大数据浪潮下的统计学革新与发展

2.1 统计学必须革新以适应大数据时代的需求

信息社会数据量的指数级增长导致了大数据的出现,在多个传统统计领域,大数据的应用越来越多,而传统统计学的阵地逐渐被压缩。中国很多的统计调查项目都面临诸多挑战,普遍存在周期过长的问题。典型如城镇化、智慧城市建设、政府简政放权、推进监管、国家统计局四大工程等项目,面临纵向数据利用、数据来源的整合、快速结果呈现、高精度和可靠性需求等挑战。[3]简单而言,使用二十世纪的统计学观点和方法,很难解决二十一世纪出现的数据分析问题。《大数据时代》一书中提出,大数据时代数据分析必须面临三种思想转变:抽样的思想、数据测量的思想和因果关系思想。[4]具体而言,由抽样向全样本转变,分析与事物相关的所有数据;由精确数据的需求转为承认和接受复杂但真实性较低的数据;由探求因果关系转换为关注事物本身的相关关系。endprint

2.2 大数据浪潮同时也是统计学发展的巨大契机

大部分新兴学科或科技的出现,除了其思想或技术的前瞻性和先进性外,往往伴随着实际问题的出现。大数据的出现正是因为数据本身的变化导致了现有数据方式和处理能力无法满足现实需求,人类必须革新数据共享、存储、处理和分析模式才能更为深入的认识世界。但大数据的出现同时也反映了数据分析工作的重要性和广阔前景,新兴行业不断涌现,新型数据不断生产,计算存储处理能力不断提升,越来越多的数据分析需求被提出,这些都为统计学的再次发展繁荣提供了基础土壤,在部分领域统计学和大数据已经初步融合发展。[5]

3 大数据背景下的统计学教学建议

3.1 适应大数据时代的需求,以培养数据分析人才为目标

统计学专业作为培养数据分析人才的专业,正经历大数据浪潮的洗礼与冲击,必须在挑战中抓住契机,抛弃一些陈旧的专业观点和教育理念,深刻认识到现代数据分析的复杂性和系统性,不能简单以工匠精神看待统计学专业教育这一环节,而是以更开放的视角、更前瞻的眼光培养适应大数据时代需求的数据分析人才。从数据分析的应用角度而言,现有的统计学专业更注重对传统统计学范畴内知识的学习,对统计学的历史发展变化缺乏了解,对具体行业与统计的结合缺乏实践,对大数据思维缺乏认识,对与大数据相关的技术缺乏介绍。在教学内容、教学方法、学科融合、行业融合等方面都存在一些不足和短板。从人才培养的角度而言,未来在数据分析领域,需要数据科学家类型的人才,一般认为具备四项素质:数学、统计学、计算机、相关行业知识。[6]要求高等教育直接培养出数据科学家不大现实,但如果不以培养数据分析人才为目标,毕业生就很难满足大时代社会发展的需求,统计学教育只能是闭门造车,坐井观天。发展于小数据时代的统计学,在大数据时代难以继续发挥重要作用。

3.2 整合教育资源推动学科交叉

当前统计数据的生产、来源、形态、存储等方面都在发生变化,单纯依靠传统统计学的方法手段越来越不现实。数据分析实际涉及到数学、统计学、计算机、高性能计算、数据存储、行业知识等多个方面的融合。对于统计学专业的教学而言,单纯依靠一门学科、一个学院、一个学校的资源越来越难以支撑数据分析的全部教学过程,必须考虑整合现有教育资源,学校之间、学院之间、专业之间互通有无,取长补短,推动统计学与其他学科的交叉融合,全方位培养统计学专业人才的数据分析能力。如北京大学、中国人民大学、中国科学大学、中央财经大学和首都经贸大学组建了协助创新平台,融合各自的优势资源,实现以应用统计专业为核心的多学科交叉教育。

3.3 以实际应用为抓手推动行业融合

数据分析工作本身就是一项面向具体应用的学科,一种统计方法是否切实有效,一种统计模型是否科学合理,都需要放到实践中去检验。目前的统计学专业教学更多停留在基础的理论体系教学、基本统计方法的演示和简单统计软件学习上,而脱离了具体行业和真实场景的数据分析,就是无源之水无本之木。墨守成规的高校教育只能使统计学的教学之路越走越窄,也不利于统计学理论和方法创新发展。统计学教育不同于其他学科,必须建立多渠道多层次的实践平台,积极投入到实际的行业应用中,以实践为特点,以应用为目标,紧贴大数据时代的数据特点和统计需求,切实提高教师的科研能力和学生的应用水平。

4 结束语

大数据时代背景下,对数据的理解更深入,应用更丰富,价值更高级。而作为传统数据分析的主要手段统计学,在面临诸多挑战的同时,必须扬长避短,紧盯实践特色,积极适应大数据特点和行业发展需求,不断完善理论体系和革新统计方法,抓住大数据的契机顺流而上,在国家政治、军事、经济、文化建设中发挥更大作用。

参考文献

[1] Graham-rowe D, Goldston D, Doctorow C, et al. Big data:science?in the petabyte era[J].Nature,2008.455(7209):8-9.

[2] 邱东.大数据时代对统计学的挑战[J].统计研究,2014.31(1):16-22.

[3] 中国人民大学“大数据与应用统计”研究组.大数据时代统计学的重构与创新——首届“大数据与应用统计国际会议”述评[J].统计研究,2015.32(2):3-9.

[4] 维克托.迈尔-舍恩伯格,肯尼思.库克耶.大数据时代:生活,工作与思维的大变革[M].盛杨燕,周涛,译.杭州:浙江人民出版社,2013.

[5] 陳建宝,鞠芳煜,禚铸瑶.大数据时代下的统计学——第五届中国统计学年会综述[J].统计研究,2015.32(5):106-112.

[6] Briddock D.What's a Data Scientist?[J].Micro Mart,2014.endprint

猜你喜欢
数据分析统计学大数据
大数据的统计学基础分析
统计学教学与实验实践的一体化整合初探
新常态下集团公司内部审计工作研究
浅析大数据时代对企业营销模式的影响
省属地方高校应用统计学专业人才培养模式研究
基于大数据背景下的智慧城市建设研究
难以一致的统计结果