基于大数据思维的统计学若干理论问题

2018-11-26 09:12孙溪
商情 2018年47期
关键词:大数据思维统计学

孙溪

【摘要】大数据的时代早已到来,它正在悄悄影响着人们的思维与习惯,它是一场新的革命。以数据为研究对象的统计学也逐渐出现了新动向,但是统计学以数据为研究对象这一点未变、它的性质和任务也未变,改变的是数据自身的内涵、特征和分析思路等,本文从几个方面来对大数据思维背景下统计学的若干理论问题进行了简要分析。

【关键词】大数据思维;统计学;理论问题

大数据指的是不限量的数据,它包含了一切可以记录的全体数据,因此这里的“大”指的是“全体”的意思。大数据相对于传统样本数据来说具有更大的数据选择空间,可以进行多角度、多层次的数据分析。一直以数据为研究对象的统计学历经了几百年的发展,为人类的文明进步做出了巨大的贡献,统计学的发展与人类的发展息息相关。

一、大数据思维下的统计学的三个本质

统计学已有近400年的发展历史,从起初的简单算术一直发展到现代最先进的数据科学,在这一漫长的发展历程中,统计学在期间的每一个发展阶段都有其不同的特征,但是统计学的三大本质在这一发展历程中却始终未曾发生过变化。

(一)研究对象未变

统计学起源于17世纪的欧洲,在这几百年的发展历程中,其所面对的外界大环境一直在发生变化,但是统计学一直基于以现象数据作为研究对象这一本质却未曾发生过变化。现象数据是统计学必不可少的一部分,它主要囊括了五大方面,分别是:数量关系、数量大小、数量分布特征、数量变化规律以及数量界限。统训学就是以这五种数量形式作为基础,运用具体的分析方法来进一步整合研究,从而清晰明了的反映出某种现象的主要特征规律,这种漫长的现象数据研究过程在无形中促进了统计学的不断发展。

现今,大数据时代已经来临,在这一时代来临之前,统计学经历了从最开始的“只能收集少量数据”到现在“科学收集大数据”这一艰难过程。统计学不仅在收集数据方面取得了巨大进展,其统计方法也变得更加丰富、更加科学。比如在起初进行统计方面的研究时只能使用一些简单数字进行运算,到如今大数据思维进入人们的世界,统计学领域随即产生了归纳分析法、大量观察法等更加新颖科学的分析方法。显然,数据很好的推动了统计学的进步发展,数据与统计学是相互依存,互利互助的关系,从某种层面上来说,可以把数据比作统训学的营养供给物,统训学离不开数据的支撑,以各种现象数据作为研究对象是统计学的必然选择。

(二)性质未变

统计学是一门通用又独立的方法论科学,它是通过研究某一种现象的数据关系与特征来反映出这种现象的本质。统计学作为方法论科学的性质从未发生改变,但其实长久以来,学术界对于统计学是方法论科学还是实质性科学一直存在着争议。但是事实是统计学的确是通过其特定的收集和分析数据的方法来发挥作用的,十七世纪末期威廉·配第的《政治算术》一书也印证了统计学是方法论科学这一观点。书中大量运用了统计学与推理方法相结合的定量分析方法,作者在书中主要使用了三种数字形式,第一种是将社会经济现象进行统计调查与观察得到的数字,第二种是运用特定的数据推算方法推算出的数字,第三种是为了理论推理而使用的示例性数字。此书将统计学与理论分析方法很好的结合在一起,这种方法直到现在仍被广泛的使用。

其实,单纯使用现象数据来表现某一种现象特征十分困难,因此需要一种能够专门将数据与分析方法相结合的科学,那就是所谓的统计学。在当今这个大数据时代,统计学的方法论科.学的性质更不会轻易改变,大数據时代,统计学所面临的环境只会更复杂,数据也充满了不确定性,通过数据看现象本质的历程会越来越艰难,但是统计学的存在为人类提供了平台,事实证明,如何解读数据,最需要的还是方法。

(三)根本任务未变

统计学一直以探求真理、追求真相为根本任务,在近400年漫长的发展历程中,统计学的这一根本任务从未改变,改变的只是外界环境和分析方法。统计学是通过具体的数据来探求某个现象的本质,长久以来,人们探求真理的过程复杂又艰辛,常常因为没有合适的渠道去获取有用的信息,即使得到了足够的信息,也没有能力去解读信息所传达的真相。统计学是以现象数据为基础,运用其特有的分析方式来获取事物的真相,从而帮助人们更好的认知事物真相。

统计学的一些作用更是印证了其以探求事物真相为根本任务这一说法。如统计学可以根据其所依存的大数据信息去推断未知的数据规律与特征,它包括用样本数据推算大数据(整体数据),或用现存的数据去推算未来的数据及发展趋势。推断未知数据是人类探索事物真相的必要条件,谁能更精准的推算,谁就更占优势。统计学始终将推断未知与追求真理作为根本任务,但是由于外界环境的不确定因素的影响,其推断未知的准确度概率会稍微降低,尤其是在当今的大数据思维背景下,数据每天的更新换代,意味着统计学面临着更大的挑战。统计学的分析方法随着时代一直在改变,但是其追求真理、探求真相的任务初衷却从未发生变化。

二、大数据思维下统计学的新动向

(一)统计学的数据特征发生改变

大数据与传统数据最明显的差距就是数据量更多,除此以外,这两者之间的数据来源和特征也有较大的差异。以往统计学所收集到的数据量较少,比较结构化,而且数据的类型比较单一,数据处理起来速度较慢,但是传统统计学统计出的数据往往准确度比较高。而大数据包含了一切可以记录下来的数据,它所涉及的范围较广,数据的来源多样化,内部结构更加复杂,这些特点导致数据在传输或计算的过程中极易丢失,导致发生结果误差,并且一旦出现数据故障很难通过人工去修复。

(二)统计学的数据分析思路发生改变

统计学在最早进行数据分析时,分析过程一般都是先假设再进行验证,即以概率们为保证,再根据所统计到的样本数据推断出事物的总体特征。而如今在大数据思维背景下,统计学的数据分析思路变为先以收集到的全部数据作为基础,然后再总结出数据的特征或规律,最后再进行概率判断。总而言之,大数据思维下的数据分析方法是摒弃假设直接去寻找数据规律,而传统数据分析方法是先假设再找规律。

传统统计数据的分析方式较为标准、严密,严格依附于事物的因果关系,虽然其分析效率较低,但是准确度很高。而大数据思维下统计学的数据分析摒弃了传统意义上的因果逻辑关系,走的是从数据直接到结果的捷径,这种分析方法虽然准确度稍低,但是非常适用于现今的大数据统训学,因为当今这个大数据时代下,三大处理数据的新理念分别是:要效率不要绝对精确、要整体不要样本、要关联不要因果逻辑,统计学的数据分析方法要与所处的时代相适应,才能最大程度的发挥出效能。

(三)统计学的数据分析技术改变

在起初,统计学进行数据分析时,所使用的仅是简单算术法,在当时,接触过少量数学知识的人即可胜任。再到统计学发展中期,统计学的数据分析开始需要一定的数据库进行处理分析,相关技术人员通过特定的训练才可胜任。而如今的大数据时代,数据更新的速度更快,结构更加复杂,统计学的数据分析人员既需要充分了解数据分析的工具,又需要具有较为专业的知识,所面临的工作挑战难度更大。

对大数据进行处理分析时要充分考虑到其数据的复杂和价值密度低的特点,因为大数据所涉及的数据范围很广,相对来说垃圾信息很多,如何过滤掉垃圾信息保留有用信息十分重要,并巨在筛选的过程中还要保证不能对正常数据造成影响。针对这种情况,Apache基金会发明了一种特殊的编程模型(MapReduce),它具有強大的过滤功能,处理数据的过程很精密,不会对有用数据产生影响,这个模型在如今大数据的处理中得到了广泛的应用。

(四)数据的质量内涵发生变化

高质量的数据是统计学进行数据分析的必要条件,传统的统计学数据具有因果关系明确、逻辑性强的质量特征,而当今的大数据是以数据的不确定性作为主要的质量特征。从数据采集过程中来说,传统统计学数据的量比较小,一般情况下通过人工查找即可实现,而大数据思维下的统计学数据量多且复杂,收集过程中极易发生混乱,在获取数据时必须采用特定的技术来保证做采集的大数据质量。

数据质量内涵还包含一个方面就是数据存储,数据的存储也是实现高水平数据质量的必要保障,只有将所有收集到的数据完整、清晰的存储起来,才能够保证数据的质量。传统统计学所采集的数据具有结构化的特征,因此采用结构化存储方式即可进行简单的数据储存,而当今的大数据结构复杂、数量庞大,必须要用到专门的大型数据库来进行分类存储,以保证大数据的有效性。大数据时代下的数据质量内涵有别于传统数据,为了更好的保证大数据的质量安全,不管是在大数据收集还是存储的过程中都需要更加的专业、谨慎。

三、小结

大数据思维下,传统的统计学方法已经不能有效地处理大数据问题,这就需要我们突破传统的统计学去探寻更适合大数据的统训方法。大数据思维下的统计学地位不容忽视它是处理分析大数据的唯一途径,大数据与统计学相互依存、不可分离。

参考文献:

[1]李金昌.从政治算术到大数据分析[J].统计研究,2014(11):13-14.

[2]赵民德.统计是数据科学(下)[J].中国统计,2004(9):56-57.

[3]宗威,吴锋.大数据时代下数据质量的挑战[J].西安交通大学学报:社会科学版,2013(5):38-43.

猜你喜欢
大数据思维统计学
大数据的统计学基础分析
大数据时代下的统计学
统计学教学与实验实践的一体化整合初探
统计学发展趋势
基于互联网思维的图书馆阅读推广思路探讨
大数据思维下教学过程数据分析及应用研究
在线学习过程管理大数据的建设与应用
会计师事务所审计工作挑战及应对策略
大数据思维下的图书馆服务创新
省属地方高校应用统计学专业人才培养模式研究