R语言在数理统计教学中的应用及延伸

2019-03-18 11:50宋述芳迟乃荣吕震宙
教育教学论坛 2019年9期
关键词:假设检验数理统计参数估计

宋述芳 迟乃荣 吕震宙

摘要:本文介绍了R软件在数理统计教学中的应用优势及大数据处理分析的延伸功能。结合数理统计的课程特点及教学内容,举例说明了R软件在数理统计教学中的多方面应用以及海量数据下R的延伸及适用性,并探讨了R软件对数理统计教学带来的积极作用。

关键词:数理统计;R软件;参数估计;假设检验;大数据

中图分类号:G642.0 文献标志码:A 文章编号:1674-9324(2019)09-0231-03

一、引言

数理统计是理工科院校的必修公共基础课,是一门应用性很强又颇具特色的数学学科。数理统计研究的是随机现象的统计规律,是概率论知识的实际应用。数理统计所包含的主要内容包括收集和整理随机样本,利用一定的统计模型进行统计推断,如参数估计、假设检验、统计回归等。其教学要求及难点体现在掌握统计推断的原理及方法,根据样本归纳样本所反映的统计规律。然而传统的人工处理手段远远跟不上数据处理的广度、精度、速度的要求。

随着计算机分析技术和实验测量技术的发展,信息化数据急剧增加,海量数据的处理及分析是数理统计面临的难题和挑战,需要借助数据处理的软件,如Matlab、Excel、Python、C语言、R语言等。Matlab工具箱多种多样,然而安装包及占用CPU的空间巨大;Excel可采用丰富的函数进行部分分析,但还需自编不容易掌握的宏程序;Python和C语言的分析问题快速,然而语言格式非常严谨,不易上手;R语言作为一款开源软件,完全免费,有庞大的社区进行维护,简单易学。

在国外高校的统计系,R语言几乎是一门必修的语言,可实现统计分析、数据可视化和预测建模的数据分析。R语言支持几乎所有数据分析所需要的数据处理、统计模型和图表,支持大量第三方功能包,涵盖机器学习、统计学,甚至自然语言处理等方面。本文着重介绍R语言在数理统计中的应用以及大数据时代R语言的拓展及实用性。

二、R语言

R语言是一种适用于统计分析和图像处理的语言,是进行统计分析的重要工具,是受S语言和Scheme语言影响发展而来的。

1.R语言安装及基本操作。在主页http://www.r-project.org下载R语言程序(通常只有几十兆)并进行安装。为了方便使用,可以从http://www.rstudio.com.products/ rstudio /download/中下载图形界面编辑器RStudio,由于RStudio集成了丰富的开发界面,提供了方便的函数名识别及搜索功能,极大地方便了R编程计算。R包的安装更新在RStudio的Packages选项下的install和Update,数据导入选择环境选项下的Import Dataset,可以选择合适的导入格式。

2.R语言在数理统计教学内容中的应用。数理统计的主要教学内容包括随机事件发生概率的计算、样本的统计量计算、参数估计、假设检验、方差分析、统计回归等。R语言几乎可以实现数理统计教学内容的全部应用。

预测2017年该地区农业生产总值为49.9,95%的预测区间是[42.5,57.2];预测2018年该地区农业生产总值为54.8,95%的预测区间是[46.8,62.9]。

R语言同样可以实现数据的多元非线性回归,通过设置不同的非线性函数求解待定系数,获得回归方程并进行检验,从而用于模型预测、指导决策等。

三、大數据处理

数据挖掘是当今时代的一门核心技术,提供了对大数据的描述、探索、模式的识别和预测。数据挖掘者从统计分析、机器学习和计算科学中寻找各种适用的方法和工具。

作为优秀的统计软件包,R语言也提供了强大的数据挖掘工具。R软件的延伸——大数据包很好地解决了这个问题。

1.Rattle包。Rattle包是一个用于数据挖掘的R图形交互界面,可用于快速处理常见的大数据中的数据挖掘问题,从数据整理到模型评价,Rattle给出了完整的解决方案。Rattle和R平台具有良好的交互性,简单易用,不需要有很强的R语言编程基础,被广泛应用于数据挖掘与教学中。

在R控制台输入install.packages("RGtk2"),install.packages("rattle"),或者直接在RStudio里面用install命令输入这两个功能包的名字就可以安装。

Rattle界面从上到下依次是菜单栏、工具栏和标签栏,标签栏从左到右依次排列各自完成数据挖掘工作中的相关步骤,包括导入数据的Data标签、执行数据探索的Explore标签、数据检验的Test标签、数据聚类的Cluster标签、关联规则方法的Associate标签、算法模块的Model标签、模型评估的Evaluate标签等。

2.R语言的其他大数据包。此外,R语言还有一些其他的手段或数据包可用于处理大数据问题。data.table可用于读取处理GB级或TB级的大数据集,latticist包用于数据图形交互,rggobi包结合GGobi软件也可以进行图形交互,ggplot2包用于处理高级绘图命令,qcc是用于统计质量控制的库,sqldf能在R数据框上执行SQL查询。

R语言社区有数以百计的功能包,并且还在不断发展扩充着,需要我们继续探索更多的相关功能包。

四、总结

利用R语言可以很方便地进行数理统计分析,还可以结合R语言丰富的包资源环境进行数据开发。数理统计在R语言的加持下能够让学生摆脱烦躁的计算,极大地激发学生对于数理统计的兴趣,更方便的用R语言工具应用数理统计理论解决实际问题,成为大数据时代的弄潮儿。

参考文献:

[1]盛骤,谢式千,潘承毅.概率论与数理统计[M].第四版.北京:高等教育出版社,2008.

[2]薛毅,陈立萍.R语言在统计中的应用[M].北京:人民邮电出版社,2017.

[3]杨卫.R软件在高等数学教学中的应用[J].新教育时代,2016,(4):205-206.

[4]闰朝晖.R软件在多元统计分析教学中的应用研究[J].科技创新导报,2011,(1):157-158.

[5]吕书龙,刘文丽,梁飞豹,叶福玲.数理统计直观教学的实验设计与R程序实现[J].实验技术与管理,2016,33(10):142-146.

[6]崔玉杰,刘喜波.R和Python软件在《概率论与数理统计》教学中应用初探[J].教育教学论坛,2017,(12):192-193.

[7]丁新涛,周在莹,王翠莲,肖婧.R软件教学的一些心得[J].课程教育研究,2013,(12):125.

猜你喜欢
假设检验数理统计参数估计
基于新型DFrFT的LFM信号参数估计算法
浅谈《概率论与数理统计》课程的教学改革
双幂变换下正态线性回归模型参数的假设检验
Logistic回归模型的几乎无偏两参数估计
Primary Question and Hypothesis Testing in Randomized Controlled Clinical Trials
统计学教学中关于假设检验问题探讨
基于向前方程的平稳分布参数估计
基于竞争失效数据的Lindley分布参数估计
论《概率论与数理统计》教学改革与学生应用能力的培养
财经类院校概率论与数理统计教学改革的探索