数据可视化分析综述

2019-09-05 13:40左圆圆王媛媛蒋珊珊徐榕荟
科技与创新 2019年11期
关键词:数据可视化数据分析

左圆圆 王媛媛 蒋珊珊 徐榕荟

摘要:目前,人类社会正处于大数据爆发的时代,多元化数据涌现和信息激流使人、企业和社会对大数据的依赖在不断深化,与此同时,数据可视化研究已成为一个新的时代命题。就数据可视化展开综述,介绍了数据可视化的概念、发展历史,然后对数据可视化中的数据进行了详细阐述,列举了可视化的常用工具及数据可视化图表。

关键词:数据可视化;数据分析;可视化工具;可视化图表

中图分类号:P208

文献标识码:A

DOI: 10.15913/j.cnki.kjycx.2019.11.030

如今,数据可视化不是一个新主题,但它的价值日益增加,其不仅能将凌乱的数字转变为美丽的景色,也能实现凌乱、难以“看穿”数据信息到直观且易于理解的企业决策信息的变化。在提升企业形象的同时,它提高了公司的收入,被称为企业问题的“美丽杀手”,它是技术与艺术的完美结合。

1 数据可视化简介

1.1 数据可视化

数据可视化是关于数据视觉表现形式的科学和技术研究。数据可视化技术充分使用图形、图像处理、计算机视觉和用户界面来表达、建模和显示立体、表面、属性和动画,对数据加以可视化解释。

1.2 数据可视化历史

1.2.1 18世纪——数据可视化的起源

数据可视化起源于18世纪,William Playfair在出版的书籍《The Commercial and Political Atlas》中第一次使用了柱形图和折线图。世界上第一个饼图显示了1789年土耳其帝国在亚洲、欧洲和非洲的疆土比例。

1.2.2 19世纪——数据可视化的第一个黄金时期

在19世纪上半叶,数据开始受到关注,统计数据和概念图爆炸式增长,包括直方图、饼图、直方图、折线图、时间轴、轮廓等;在19世纪中期,数据可视化主要用于军事目的;19世纪下半叶,进入了数据可视化的黄金时代。

1.2.3 20世纪前期——现代启蒙

20世纪上半叶,人们第一次意识到图形的显示方式为航空航天、物理学、天文学和生物学领域的科学和工程提供了新的见解和发现机会。

1.2.4 20世纪中后期——新的生命力

从20世纪60年代到70年代,数据可视化依赖于计算机科学和技术,具有新的活力;从20世纪70年代到80年代,人们主要尝试使用多维定量数据的静态图来表示静态数据;在20世纪80年代中期,动态统计图表开始出现,最后两种方式在20世纪末开始合并,试图实现动态的交互式数据可视化。因此,动态交互式数据可视化已成为一个新的发展主题。

1.2.5 21世纪——大数据时代

当世界在2003年创建5个EB数据时,人们开始关注大数据的处理;2011年,世界上每天新增数据量开始呈指数级增长,用户使用数据的效率也在不断提高;2012年,我们进入数据驱动的时代。掌握数据意味着掌握发展方向,因此人们对数据可视化技术的依赖也在不断深化。大数据可视化研究已成为一个新的时代命题。

2 数据与可视化

2.1 数据释义

关于数据的定义,大多数人含糊不清地回答说数据类似电子表格或很多数字,而具有一些技术背景的人会提到数据库或数据仓库。但这些答案仅描述了数据的格式和数据的存储方式。要想可视化数据,则必须知道它所表达的内容。

2.2 可视化工具

2.2.1

Microsoft Excel

Excel是常用的入门级数据可视化工具。输入某些数据后,单击菜单栏中的“图表”选项以生成所需的图表。Excel提供了多种标准图表类型供用户选择,包括柱形图、折线图、饼图和散点图。

Excel虽然不适合用来做深度分析,生成的图表也不会用于出版,但它方便快捷,随手点击几下鼠标就可以用它生成一个图形。正是Excel的方便易用让它获得了大众的青睐,但如果想要高质量的数据图就不要止步于此,其他工具会更适合。

2.2.2 Tableau

Tableau是一种用于数据可视化敏捷开发和实现的商业智能演示工具,可用于实现交互式、可视化分析和仪表板应用程序。数据可视化允许将枯燥的数据呈现在简单、友好的图表中,这是最直观、最有效的分析方法,没有过多的技术基础,任何人可以轻松学习Tableau,并使用其可视化功能来处理和显示数据,以便更好地分析表面数据。

作为轻量级可视化BI工具的良好代表,Gartner的商业智能和分析平台魔力象限于2015-02发布,已连续第三次蝉联领先者。德国电子商务网络的数据科学家也认为,拥有像Tableau这样的工具就足够了,无论是报告还是挖掘数据并进行分析。

2.2.3 Python

Python是一种解释型、面向对象、动态数据类型的高级程序设计语言,在重视开发功率和科技不断开展的背景下,Python得到越来越多人的青睐。根据IEEE Spectrum发布的一项研究,2016年排名第三的Python已成为2017年全球最受欢迎的语言,C语言和Java分别位居第二和第三。

Python具有以下特性:①易于学习。Python的关键字相对较少,结构简单,语法定义明确,而且学习起来相对简单。②易于阅读。Python代码的定义比较清晰,易于阅读。③易于维护。Python的成功在于它的源代码是相當容易维护的。④具有一个广泛的标准库。Python的最大优势之一是具有丰富的库,它是跨平台的,具有良好的兼容性。⑤可移植。基于其开放源代码的特性,Python已被移植到许多平台。2.2.4 R

R是一款免费的开源统计计算软件,具有强大的图形功能。它也是统计学最流行的分析软件之一。R专为数据分析而设计,还有很多支持R的工具包。只需要将数据加载到R中并编写一行或两行代码来创建数据图。

用R能做很多事情:它能够生成较高打印质量的图像,并且非常灵活;也可以编写人格的功能或包,以人希望的方式创建图形,或可以借用R库中其他人开发的成品。R提供了基本的绘图功能,可以根据需要绘制所需的图形,比如线条、形状和坐标轴。实际上,任何类型的图表都可以使用R或R工具包实现。

2.3 数据可视化的图表

实现可视化是为了证实我们对数据的认识,创建可视化的一个挑战是学习正确的绘图方法。数据可视化有很多类型的图表,比如条形图、饼图、折线图、散点图、气泡图、甘特图、核密度估计图、箱线图和打包图等,这里列举一些常用的图表。

2.3.1 条形图

条形图(也称为条形图、条形图和柱形图)是最常用的图表类型之一,通过垂直或水平条显示维度字段的分布。水平条形图是一般意义上的条形图,垂直条形图通常称为柱形图。条形图最适合比较不同类别的大小。

2.3.2 饼图

饼图在数据分析中无处不在。饼状图可以用于比较数值的大小,但是有一个缺点:如果数值之间差距不大,肉眼很难分。因此,最好用于表示某一个值占全体值的百分比。饼图的每个部分都标有标签,或者可以用一条线连接到外部表示。另外,饼状图还有一些变种,比如各扇形的半径不同,该半径可表示另一个数据量。

2.3.3 折线图

折线图是一种经常使用的图表。与条形图相比,折线图不仅可以指示数量,还可以直观地反映随时间序列变化的相同事物的趋势。折线图比较适合连续、大量的数据,而且折线图用于表示多个数据集之间的比较时,效果较好。

2.3.4 散点图

散点图使用三维数据集,将二维数据分别映射到x轴和y轴,然后第三维用点表示。散点图的数据通常是点的集合,通常用于绘制各种依赖关系。比如正相关表示随着一组数据递增,其他数据也递增。一些著名的案例为男性和女性人群中不同年龄患皮肤病可能性、智商测试分数与GPA之间的关联。

参考文献:

[1]科斯·拉曼.Python数据可视化[M].程豪,译.北京:机械出版社,2017.

[2] YAUN.鲜活的数据:数据可视化指南[M].向怡宁,译.北京:人民邮电出版社,2012.

[3]吕之华.精通D3js:交互式数据可视化高级编程[M].北京:电子工业出版社,2015.

[4]陈为,沈则潜,陶煜波.数据可视化[M].北京:电子工业出版社.2013.

[5]周苏,张丽娜,王文.大数据可视化技术[M].北京:清华大学出版社,2016.

[6] KRUMR,唐沁,周優游.可视化沟通[M].张璐露,译.北京:电子工业出版社,2014.

[7] EDWARD R T.Visual Explanations: Images andQuantities, Evidence and Narrative[M].Nuneaton:Graphics Press,1997

[8] MAARTEN H E, BEKKER H, ISENBERH T, et al.Depth-dependent halos: illustrative rendering of denseLine data[J].IEEE Transactions on Visualization andComputer Graphics, 15(6),2009: 1299-1306.

猜你喜欢
数据可视化数据分析
移动可视化架构与关键技术综述
大数据时代背景下本科教学质量动态监控系统的构建
可视化:新媒体语境下的数据、叙事与设计研究
我国数据新闻的发展困境与策略研究
基于R语言的大数据审计方法研究
新常态下集团公司内部审计工作研究
浅析大数据时代对企业营销模式的影响
基于读者到馆行为数据分析的高校图书馆服务优化建议