大数据时代下“数据分析”课程的探索

2015-12-07 20:24张蕾魏立斐
教育教学论坛 2015年25期
关键词:数据分析大数据

张蕾+魏立斐

摘要:大数据时代下,迫切需要从海量的数据中揭示内在规律、发掘有用信息、帮助人们科学决策。这正是“数据分析”课程研究的基本内容。本文分析了信息与计算科学等本科专业开设“数据分析”课程中存在的一些问题,从教学目标、教学内容、教学方式与学时分配等方面,提出了“数据分析”课程的一些建议及初步探索方案。

关键词:数据分析;大数据;课程探索

中图分类号:G642.0     文献标志码:A     文章编号:1674-9324(2015)25-0154-02

一、引言

作为最早提出“大数据时代到来”的企业,麦肯锡公司曾指出:“大数据已渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来[1]。”继云计算、物联网、移动互联网之后,“大数据”作为信息技术领域又一次颠覆性的技术革命,已经在金融、医药、交通、海洋等各个行业以及物理学、生物学、环境学、药学等科学领域广泛应用[2]。

然而,如何从海量并貌似杂乱无序的数据中揭示内在规律,挖掘有用信息,进而通过辅助决策系统、专家系统等进行科学的决策,是大数据时代面临的重要科学问题。尤其是对这些纷繁复杂的数据进行科学的分析,实现“数据—信息—知识”[3]三个层次的提炼,正是“数据分析”课程主要研究的内容。

“数据分析”课程是国内绝大多数高校在信息与计算科学等信息类专业的本科生开设的必修课/选修课[4],是“概率论与数理统计”课程的后续延伸及应用,也是“数据挖掘”课程的先修课程。“数据分析”课程主要介绍了数据分析的基本理论与方法,详细叙述数据分析中线性回归分析、方差分析、主成分分析、典型相关分析、判别分析、聚类分析和Bayes分析等重要的分析方法。虽然“数据分析”课程可看作数理统计学理论与方法的综合应用,但其更注重实际的应用问题解决的全过程,从中得到有价值的信息与知识。

在大数据时代下,大量数据分析处理需求大大助长了各行业及企业对统计、计算机背景相结合的人才的需求[5],如数据分析师、数据工程师、数据科学家等等,迫切需要同时掌握数据分析的基本理论与数据分析具体技术,并且能够通过计算机软件(SAS、SPSS、Eviews等)对数据进行分析与处理的复合型人才[6]。通过“数据分析”课程,学生将初步掌握数据分析的基本理论与方法,培养和锻炼利用实际数据来分析、解决实际问题的能力,这些技能将对学生升学深造和就业工作,具有非常重要的意义。

本文在对“数据分析”课程多年的观察与教学的基础上,对本科阶段“数据分析”课程存在问题进行深入剖析,并给出一些初步的建议。

二、存在问题

然而,笔者在最近几年的授课过程中,发现“数据分析”课程在学生的学习过程和能力培养方面容易存在以下问题:

1.理论课程难度较大,造成学生学习困难。“数据分析”课程作为“概率论与数理统计”、“高等代数”等课程的后续课程,需要学生对数学类专业课有比较扎实的基础与深入的理解。如“数据分析”课程中的回归方程的显著性检验方法,需要学生已经掌握“概率论与数理统计”的多元正态分布的定义和数字特征、假设检验等内容,同时具有“高等代数”的矩阵运算(包括矩阵的加、乘法,求逆阵,计算特征值和特征向量等)的基础。同时,“数据分析”与“概率论与数理统计”课程在内容上也是有所差异的:前者强调从实际数据中挖掘尽可能多的有用信息,属于后者的理论与方法的综合应用。因此,“数据分析”课程的理论难度较大,对于学生学习提出了很高的要求。

2.动手能力要求高,考验学生的编程能力。“数据分析”课程的知识点不仅仅停留在理论推导上,对于已经建立的数学模型,需要借助与计算机对大批量的数据进行处理,尤其是常用的统计软件在汉化过程中,不能很好地解决专业术语的翻译。因此在运用计算机软件解决实际问题时,对学生计算机编程能力和专业外语知识要求也很高。如在SAS中,有一整套的编程命令,以命令的方式来建立数据集,并对数据集进行操作,甚至在实现某些分析算法(如Box-Cox变换)的时候,还会调用到选择语句和循环语句。学生往往处于被动学习的地位,只能按照教师的指导,运行一些简单的程序,如仅仅敲打书上例题程序,缺少实验过程中的动手分析、设计和测试环节,无法发挥学生的积极性与创造性。这样的实验很难让学生体会到实际的数据处理及编程环境,学会解决编程中碰到的意外问题,因此难以激发学生的实验兴趣,从而降低了教学的效果。

3.对于计算机运行结果,需要较高的分析问题能力,考察学生分析能力。很多同学能够通过计算机调用统计软件中各程序模块的运行,但仅仅能达到验证结果的目的,往往对计算结果中所包含的统计学等深层次的含义知之甚少,更不必说从中提炼出有用的知识。如很多同学知道某统计量的假设检验概率值p<0.0001,仅表示出现的概率极小,但不知道其假设条件,故无法做出统计推断与检验。如此将计算机工具与数据分析强行割裂,使得学生分析问题的能力很难得到提高。因此,对于计算机运行结果,需要较高的分析能力,找出其问题的本质。

三、课程建议

鉴于上述存在问题,笔者对大数据时代下“数据分析”课程进行了探索,提出了如下建议:

1.建议“数据分析”课程紧密衔接“概率论与数理统计”、“高等代数”等数学类基础课程。在授课过程中,根据学生情况,逐步深入难度。课堂讲授理论学时建议在48个学时以上,可确保知识的系统性和正确性,可对教材中内容完整讲解。对于定理的证明,建议通过黑板等传统手段仔细推导与讲解,对于部分超出课程要求的繁难的理论证明可以略去或改为学生自学。如在典型相关分析的过程中,对于典型相关变量和典型相关系数的求法,可以先给学生讲解有关结果;尤其是计算矩阵平方根的逆矩阵,着重讲解算法过程。例题和习题的选取,一般建议选取具有实际背景的观测数据。通过这些例子的分析,使学生了解数据分析方法的具体应用,体会数据分析的全过程。有条件的学校可以通过微课视频等形式,将“数据分析”各个知识点制作成微课,供学生反复观看使用。endprint

2.建议增加实验学时,培养编程动手能力。建议“数据分析”课程安排上机实验学时不少于16个学时,选择对常用统计软件(SAS、SPSS或Eviews)的一种进行仔细讲解,使用SPSS或Eviews,其图形界面可以帮助学生理解复杂的过程,使用SAS可以让学生了解SAS的编程语言和语法结构。有条件的高校,建议采用英文版的软件,可使学生熟悉统计学的专有名词,为今后的进一步阅读外文文献提供帮助。笔者在实际教学过程中,结合SAS 9.4展开介绍,上机实验学时为16课时,可以使学生有足够的时间进行例题和习题的操作练习。在安排上机的过程中,根据学生的具体情况,开展如Box-Cox变换等SAS程序的阅读与编写,加深对该变换算法的理解和该变换本质——满足线性回归模型的假设条件的理解。

3.建议增加课程大作业,实现数据综合分析。课程大作业可以让学生接触到一个完整的分析问题、解决问题的过程。对于本科生来说,建议指导教师给出一些具体的题目,如大城市雾霾天气的影响因素、景点游客满意度等。这些热点问题更容易激发学生的学习兴趣。在大作业中,鼓励学生通过调查问卷或查阅相关统计年鉴,以获得相应的原始数据,并从实际数据中不断挖掘尽可能多的有用信息以及希望从数据中得到的知识。根据计算机运行结果,进一步分析数据特征,学会从原始数据到有用信息再到科学知识的一个提炼过程。最后,通过同学讨论与发言以及教师的点评,来帮助学生培养分析问题和解决问题的能力。如针对大城市的雾霾天气,请查找相关数据,对可能的形成原因进行分析,提出合理的假设,并对治理雾霾天气提出合理化建议。可让学生查阅雾霾出现的时间、温度、湿度以及相关的工农业生产指标进行分析,进行主成分分析等,尝试寻找导致雾霾的主要原因。

四、结束语

随着移动设备和各类传感器的普及,数据量已经从TB级跃升到PB、EB级乃至ZB(1ZB=10~21Byte)级别,大数据时代已经来临。面对如此惊人的数据,对于数据的分析和挖掘需求已变得十分的迫切;同时,充分利用大数据所带来的信息,如何充分利用这些数据,使其为国家、企业决策乃至个人服务,是今后很长一段时间内科学研究和工程技术领域的重要内容。

在这种时代背景下,“数据分析”课程作为信息与计算科学等相关专业的一门重要课程,将在很大程度上培养学生的数学思维与计算思维,提升学生的分析与解决实际的问题能力,增强学生在升学深造和就业工作时的核心竞争力,更好地融入到大数据时代中去。

参考文献:

[1]页川.大数据时代背景下挖掘教育数据的价值[J].中国远程教育,2013,(4):94-95.

[2]董志清,廖正琦.《多元统计分析》课程的教学体会及探讨[J].重庆文理学院学报(自然科学版),2010,(2):82-84.

[3]董梅生.提高应用统计学课程教学效果的几点体会[J].安徽工业大学学报(社会科学版),2011,(3):119-120.

[4]梅长林,范金城.数据分析方法[M].北京:高等教育出版社,2006.

[5]向程冠,熊世桓,王东.浅谈高校大数据分析人才培养模式[J].中国科技信息,2014,(9):138-139.

[6]姚志勇.SAS编程与数据挖掘商业案例[M].北京:机械工业出版社,2013.endprint

猜你喜欢
数据分析大数据
浅析大数据时代对企业营销模式的影响
大数据环境下基于移动客户端的传统媒体转型思路