基于R语言的概率论可视化教学方法

2020-08-20 08:02李丽洁潘伟权尹誉铭
中阿科技论坛(中英阿文) 2020年7期
关键词:R语言概率论可视化

李丽洁 潘伟权 尹誉铭

摘要:概率论理解的关键在于理解各个概念之中的随机性,本文借助于统计学中最常用的R软件,把概率论中的最基本的几个概念进行可视化,揭示这些概念中随机性的本质,使学生能更容易理解并掌握,减少概率论学习的困难程度,激发学习者学习概率论的兴趣,提高学习效率。

关键词:R语言;可视化;概率论

1引言

概率论是一门研究随机现象的数学学科[1],无论是自然科学、社会经济学、工程技术学还是与之密切相关的统计学等相关专业的学生都需要进行概率论这门课程的学习。因此探讨如何在教学过程中将概率论的理论知识以一简明易懂的方式进行教学具有十分重要的现实意义[2]。R 语言是一款免费、开源的程序软件。它由新西兰奥克兰大学的Robert Gentleman和Ross Ihaka及其他志愿人员共同开发。它主要用于统计分析、数据挖掘以及数据可视化[3]。相对其他同类软件,它的特色在于: 有效的数据处理和保存机制,完整的数组和矩阵计算操作符,连贯而又完整的数据分析工具,图形工具可以对数据直接进行分析和展示,同时可用于多种图形设备。它不仅拥有在数据分析方面的多种算法,复杂数据分析方面的速度相较于其他同类软件也毫不逊色,而且其语言也十分简明易懂,十分利于学生学习[4]。因此利用R语言把概率论中重要的概念可视化,具有重要的现实意义。

因为概率论的知识点较多,本文只介绍最具代表性的大数定律和中心极限定理来介绍R语言用于可视化这些概念的作用。

2 大数定律R语言可视化

大数定律可以简单理解为通过大量的重复试验,事物出现的频率就能无限逼近其出现的概率的法则[5]。根据大数定律我们可以知道,实验只有重复的次数足够多才能反映真实的概率,样本数量越多,事物出现的频率就越有机会接近其期望值。大数定律可分为强大数定律与弱大数定律。所谓强大数定律,就是说在极限情况下可以完全肯定的知道样本的概率平均值可以收敛到预期值。而弱大数定律是说明在极限条件下,我们所得到的样本概率平均值无限逼近于总体期望值,但不会等于总体的期望值,而在总体期望值的极小范围内波动。

以抛硬币为例,记正面在上为事件A,在n次同条件的试验中,事件A发生的总次数为,那么事件A发生的频率就是。当试验重复的次数n足够多时,如下图:

可以看出,在试验次数小于的时候,事件A发生的频率波动大,当重复试验次数达到后,事件A发生的频率趋于稳定,达到0。5的稳定值,而0。5就是基于伯努利试验的事件A发生的概率,因此可以知道,当实验次数很大时,可以用事件发生的频率来代替事件的概率,辛钦大数定律[6] 假设为独立同分布的随机变量序列,若的数学期望存在,则服从大数定律,即对任意的,成立。容易得知服从柯西分布的随机数列的期望不存在。以柯西分布为例:

可以看出,随着试验次数的增加,服从柯西分布的随机数列并没有明显的收敛趋势。且其波动性也比较大。相对的以期望存在的泊松分布、正态分布作为对比:

可以看出,服从泊松分布的随机数列随着样本数量的增加,样本均值逐渐向其总体均值靠近的趋势。接下来看正态分布的均值情况:

可以看出,正态分布的均值也是服从辛钦大数定律的。在三种分布中,柯西分布由于期望不存在而不服从辛钦大数定律。由此我们可以知道,大数定律不意味着样本数据量足够大就一定服从,在随机数列分布不存在的情况下,是否服从大数定律还需要进一步讨论。

3 中心极限定律可视化

所谓中心极限定理,就是指随机变量的序列部分与分布逐渐趋近于正态分布的定理。根据中心极限定理,我们可以知道随机变量趋近于正态分布的条件。中心极限定理分为独立同分布的中心极限定理以及独立不同分布的中心极限定理[6]。

所谓独立同分布是指各随机变量(,……)独立同分布,具有有限的数学期望与方差:E()=,D()=(k=1,2。。。。),则对任意函数,其分布函数:

该定理说明,当n很大时,随机变量近似地服从标准正态分布N(0,1)。因此,近似地服从正态分布N(,n).该定理是中心极限定理最简单又最常用的一种形式,在实际工作中,只要n足够大,便可以把独立同分布的随机变量之和当作正态变量。这种方法在数理统计中用得很普遍,当处理大样本时,它是重要工具。 为证明这一理论,可以先用一个简单的例子来对中心极限定理进行一个轮廓上的理解。首先产生一个总体,如图所示:

从图中我们可以知道,这是一个均值为1.14,方差为0.61,呈右偏分布的总体。其次,为使对比能更加明显,先从中抽取数据量较少的样本数据:2个样本数量,每个样本中有25个数据。

此时的样本分布形态不明显,杂乱无章,均值为1.23,方差为0.4。再加大样本量:选择110个样本数量,每个样本中有241个数据:

可以看出,此時的样本分布形态已经初步有了正态分布的形态,均值为1。13。

为了更好的理解,再选择一个总体:

可以看出,总体是一个呈左偏的分布形态,其均值为0.71,方差为0.16。从该总体中抽出30个样本,其中每个样本有100个数据,查看此时的分布形态:

可以看出,此时该样本逐渐有了正态分布的形态。均值为0,72,方差为0.05再加大样本量:

可以发现,样本的分布形态和正态分布越来越接近,而在样本数据量逐渐增多的过程中,样本均值与总体均值的误差也始终在总体均值附近浮动,而样本方差也在逐渐减小。通过以上两个来自不同总体的抽样分布,可以看出,无论总体服从什么分布,样本的均值总在总体均值的附件浮动。

4 结语

随着大数据时代的快速发展,社会对统计分析人员的数据处理能力提出了越来越高的要求。在目前的大数据行业,盛行的模型以及框架等越来越多,对于结果的预测精度要求也越来越高,这使得相关专业的学生学习好概率论成为势在必行的事情。而基于概率论的的数据分析模型、框架等越来越细密、繁复。书本里的理论知识可以为学生提供的大量信息的基础,却缺乏可以提供的图形表达和模拟来增强理解与动手实践能力。简单的技术和传统的黑板教学无法再满足学生未来发展的需求。因此,使用R语言的可视化模块来帮助概率论的教学或许能为学习概率论的学生开辟一条更富有效率的捷径。利用R语言的可视化模块将抽象概念转化为简洁的形象,可提高课堂效率,拓宽师生之间的沟通平台。在概率论教学中,展示实验过程和近似过程的动态过程可以加深对学生知识的理解,激发他们的想象力。从而促进反思,最终掌握知识,也为未来的进一步学习提供灵感的来源与动力。

参考文献:

[1]茆诗松,程依明,濮晓龙.概率论与数理统计教程[M].北京:高等教育出版社,2011:93-117,229-246.

[2]樊亚莉.应用数学专业概率论实验课程的教学设计与思考[J].上海理工大学学报:社会科学版,2018(04):89-92.

[3]安丽霞,卢丑丽,燕扬.初探R软件在独立院校概率论与数理统计教学中的应用[J].大学教育,2018(09):102-104.

[4]曹丽,张莉.基于R的概率统计直观教学展示[J].大学数学,2017(04):33-47.

[5]拉穷.论独立随机序列的大数定律与中心极限定理及其应用[D].西南交通大学,2007.

[6]何江妮.浅谈中心极限定理及其应用[J].数学学习与研究,2014(17):93.

猜你喜欢
R语言概率论可视化
数据可视化设计在美妆类APP中的应用
线上线下混合教学模式在概率论与数理统计课程中的应用
思维可视化
复变函数级数展开的可视化实验教学
复变函数级数展开的可视化实验教学
复变函数共形映射的可视化实验教学
复变函数共形映射的可视化实验教学
对一道教材习题的思考
概率论方法在高等数学解题中的应用
基于GPS轨迹数据进行分析改善城市交通拥挤