大数据与统计学分析方法比较

2017-12-19 21:42杜泇仪
科学与财富 2017年33期
关键词:分析方法数据挖掘可视化

杜泇仪

在这个大数据占主导的时代,数据逐渐进入了人们的视野并且逐步发挥着越来越重要的作用。如何合理利用大数据解决实际问题,并做出科学有效的决策成为了当今社会各行各业广泛关注的问题。科学技术的发展与普及使得信息数据在社会发展过程中的各个方面都大展拳脚。而在数据处理和分析方法方面,统计学的相关知识一直是理论的主力和中心,这些方法协助人们从杂乱无章的数据中挖掘有价值的信息,并为其相关决策提供理论支撑和方法支持。但是,随着处理数据的数量逐渐庞大,传统的理论方法在面对大量数据时遇到了瓶颈,向我们暴露了了较多的不足。传统统计方法和分析软件无法处理大规模的数据。如果人们要紧随大数据的潮流,利用相关的科技更好的收集和处理信息,首先要对原有的统计学方法进行改进,使其与大数据所需要的处理方法更加的贴合。

首先需要明确的是大数据的定义,根据维基百科上对于大数据的定义:大数据指的是那些因为数据过于复杂和庞大从而传统软件分析方法不足以应对的数据群,主要技术模块包括数据的获取,数据的储存和数据的分析,搜寻,转移,可视化,排列等。总的来说,大数据的特征可以概括为是数据量大,数据流动性大: 例如现在热门的各种软件如snapchat,微博和知乎。再者就是数据种类多,有丰富的多样性,包括结构化数据,也有其他类型的非结构数据。最后是数据价值大,这些大规模数据可以为企业或组织创造出巨大的商业或社会价值。大数据的方法最主要的包括:Analytic Visualizations(可视化分析):数据可视化是数据分析工具最基本的要求。可视化可以直观的展示数据,让数据自己说话,让观众听到结果。Data Mining Algorithms(数据挖掘算法):可视化是给人看的,而数据挖掘是给机器展示。集群、分割等算法讓我们深入数据内部,挖掘价值。Predictive Analytic Capabilities(预测性分析能力):数据挖掘可以让分析员更好的理解数据,而预测性分析则可以让分析员根据可视化分析和数据挖掘的结果做出一些预测性的判断。Semantic Engines(语义引擎):由于非结构化数据的多样性带来了数据分析的新的挑战,需要一系列的工具去解析,提取,分析数据。Data Quality and Master Data Management(数据质量和数据管理):数据质量和数据管理是一些管理方面的最佳实践。通过标准化的流程和工具对数据进行处理可以保证一个预先定义好的高质量的分析结果。Victor在其最新著作《大数据时代――生活、工作与思维的大变革》中指出,大数据时代,人们的思维方式要发生3个变革:第一,要分析与事物相关的所有数据,而不是依靠分析少量数据样本;要总体,不要样本。第二,要乐于接受数据的纷繁复杂,而不再追求精确性。第三,不再探求难以捉摸的因果关系,应该更加注重相关关系。上述与计算机结合的新进方法和变革反映出了大数据处理方式与传统统计学分析方法的很多关联以及主要不同。

接下来讨论大数据与统计学分析方法的联系,其二者均采用量化分析。大数据分析的基础是数据化,也就是一种把各种各样现象转变为可制表分析的量化形式的过程。不论是传统统计学中所应用的数据还是大数据时代即将被转化和采用其他多种形式的数据最终都是通过量化分析方法来对数据进行有效的分析并且揭示数据中所蕴含的事物特征。

现在将讨论的重点还是放在统计学分析与现今大数据的分析过程中的差异。统计学的定义是通过搜索、整理、分析数据等手段,以达到推断所测对象的本质,甚至预测对象未来的一门综合性科学。其中用到了大量的基础数学知识及其它学科的专业知识,使用范围非常的广泛。虽然统计学也在跟着不断的发展更新,理论知识的更新速度很难一下子跟上社会抛出的一系列新问题。而现在大数据价值就像是一座宝藏,绝大部分都隐藏在表面下等待挖掘。相关领域的专家表明大数据的来临使人类第一次有机会和条件,在非常多的领域和非常深入的层次获得和使用全面数据、完整数据和系统数据,深入探索现实世界的规律,获取过去不可能获取的知识。大数据倾向于尽可能利用所有能获取的数据。

在传统的数理统计学中,由于记录,存储,分析数据的工具并没有那么的先进,倾向于从总体中抽取样本来分析,用样本简单有效的估计整体,最主要的就是利用样本参数估计对应的总体参数。采样分析的准确性的确会随着采样随机性的增大而提高,但是与样本数量的增大关系并不是很大。当样本数量达到了某个值的时候,从新个体身上得到的信息会越来越少。在大数据时代,随机分析的方法将不再被采用,人们会选择去利用所有的数据。即“样本=总体”。统计抽样产生的契机是为了解决存在的一些特定问题而产生的。在技术逐渐成熟之后,样本分析就会被逐渐抛弃。?

大数据的其中一个很重要的特质就是让人们学会接受不精确,对小容量的数据来说,统计学或许已经可以把数据处理的较为合理。但是在大数据时代,原始统计方法并不能有效的解决问题,因为数据量的大幅增加会导致量化分析的结果包含误差。执迷于绝对的精确性是信息缺乏时代和模拟时代的产物,只有接受不精确性才能带领我们进入新的领域。

另外,大数据时代数据的来源没有原先那么简单。一般情况下,统计学中要想得到一些数据是需要通过各种不同实验方法测量和记录,数据的收集是较为耗时,同时也需要大量的精力。但是随着科技的发展,数据有时候可以从你意想不到的地方得到。也许在精心地设计实验或是研究测试之后,真正操作才会发现事情并不像想象的简单。大数据时代所提出的“数据化”方式,将使得对所需数据的收集变得更加容易和高效。除了传统的数字化数据,就连图像、方位、文本的字、段落等等,世间万物都可以成为大数据分析的原料。

至于数据的利用方式,在统计学中,对数据的利用主要包括对数据进行分析,求统计的各种数值中的联系,如身高的遗传问题,不仅要分析其父母的身高,还要分析孩子的身高,先估计合适的模型,再实际代入检验模型判断是否合适,进行合理分析从而得出自己的结论。在大数据时代,数据没有这样较为定性的检验和分析手段,对数据的利用方法也随着情况的不同而不同,要学会具体情况具体分析。另外,大数据的发展使得机器学习,云计算等原来计算机领域的方法逐渐进入人们的视野,与原来的统计分析方法和途径有效结合和互补从而实现数据的收集,存储和分析。

总的来说,只有更好的了解统计知识并结合大数据的特点进行分析,这样才能研究出最好的分析方法,提高分析效率。

参考文献

[1]孟小峰,慈祥.大数据管理:概念,技术与挑战[J].计算机研究与发展,2013,50(1):146169.

[2]俞立平.大数据与大数据经济学[J].中国软科学,2013,(7):177183.

[3]维克托·迈尔·舍恩伯格,肯尼斯·库克耶.大数据时代―生活、工作与思维的大变革[M].盛杨燕,周涛译.杭州:浙江人民出版社,2012.

猜你喜欢
分析方法数据挖掘可视化
基于CiteSpace的足三里穴研究可视化分析
基于Power BI的油田注水运行动态分析与可视化展示
基于EMD的MEMS陀螺仪随机漂移分析方法
探讨人工智能与数据挖掘发展趋势
一种角接触球轴承静特性分析方法
基于CGAL和OpenGL的海底地形三维可视化
中国设立PSSA的可行性及其分析方法
“融评”:党媒评论的可视化创新
基于并行计算的大数据挖掘在电网中的应用
一种基于Hadoop的大数据挖掘云服务及应用