基于随机数模拟的概率统计教学探索与实践

2021-07-12 08:35张亮亮雷英杰解博丽

科技视界 2021年18期

薛震王鹏张亮亮雷英杰解博丽

（中北大学<理学院>，山西太原 030051）

0 引言

党的十九届四中全会将数据作为一种新型生产要素写入中央文件中，体现了互联网大数据时代的新特征。概率统计是理工科院校一门重要的基础理论课程，也是进行大数据处理的入门课程。生成特定分布的随机数并对其进行可视化分析，可使学生直观理解概率统计的基本概念与原理，掌握数据处理和统计分析的过程。R语言因其具有免费、易安装、资源丰富、代码简单、擅长数据分析与可视化等优点，非常适合在概率统计课程中进行案例教学和直观演示[1]。本文结合长期的教学和实践经验，探索使用R语言生成随机数并进行参数估计和假设检验的教学研究。

1 随机数的生成与参数估计

随机数是一种重要的数据来源，著名的蒙特卡罗方法在模拟任何一个实际过程时都需要用到大量的随机数。使用计算机产生的随机数称为伪随机数，它们看起来是随机的数，实际上是通过固定的、可重复计算的方法产生的，具有类似于随机数的统计特征[2]。使用R语言生成时其代码简单，利用函数可快速生成服从二项分布、泊松分布、正态分布等各种常见分布的随机数[3]。

伯努利大数定律为研究频率是否稳定于概率的问题，是概率统计中比较重要且难以理解的内容之一。教材在介绍该部分内容时都是直接通过证明给出结论。“稳定”一词究竟是什么含义？作为理工科学生对“依概率收敛”没有深刻的认识，往往会与高等数学中数列的收敛方式混为一谈。因此，在讲授该部分内容时，若能够结合图形进行展示，则更能体现伯努利大数定律的本质含义。

在教学中首先使用R语言生成不同数量服从标准正态分布的随机数，然后绘制这些随机数对应的频率直方图，以及正态分布密度曲线，结果如图1所示。由图1可以看出，随着随机数个数的增加，直方图的边界与标准正态分布密度曲线越来越接近，即随机数落在每个小区间上的频率逐渐收敛到它的概率，直观验证了伯努利大数定律的科学内涵。

图1 正态分布随机数的直方图与密度曲线

为进一步研究随机数的数量对收敛过程的影响，可以使用MASS中的fitdistr（）函数对前面生成随机数的两个参数进行最大似然估计，结果见表1。由表1可以看出，随着随机数数量的增加，其期望与方差的最大似然估计会逐渐收敛到理想取值0和1。

表1 正态分布随机数参数的最大似然估计

通过上述图表展示和相应R程序的逐步讲解，可以让学生对大数定律和参数的点估计有更加深刻的认知，展示出概率统计的特殊魅力。

需要说明的是，随机数的随机生成会导致图1和表1在每次运行程序后的结果都不相同，实际中有时需要使用相同随机数来比较不同方法的计算结果，可通过R语言中的set.seed（）函数生成可再生的随机数来解决这一问题。例如，生成8个服从均匀分布的可再生随机数，程序如下：

运行程序后的结果为：

只要将随机数种子设置成某个数（上例为123），就可以使得每次运行程序后的结果相同，这样便于程序的移植和算法的对比分析。

2 基于随机数模拟的假设检验

2.1 参数的假设检验

正态分布参数的假设检验是教学的重点内容，教材中一般都先给出一组服从正态分布的数据，然后按照假设检验的步骤进行示例介绍[4]，学生对接受还是拒绝原假设并没有一个直观的认识。若通过生成服从正态分布的随机数再对其进行假设检验，不但可以使学生知道自己检验的结果是否正确，而且可以克服使用了不服从正态分布的数据而导致错误判断的弊端。

在教学过程中，不妨生成两组服从正态分布的随机数，第一组的数量为200、均值为2、方差为25，第二组的数量为300、均值为6、方差为25。由于是在总体参数均未知的条件下检验与的均值是否相同，故使用t检验；检验方差齐性时使用F检验，结果见表2。由表2可知，t检验的P值＜0.05，故拒绝均值之差为0的原假设，据95%的置信区间可得的均值小于的均值；F检验的P值＞0.05，不能拒绝方差相等的原假设，即认为与的方差相等。

表2 两个正态总体期望和方差的假设检验

通过绘制箱线图也可以发现与的平均取值差异较大，但它们的离散程度很相似，与使用t检验和F检验得到的结果一致[5]。

2.2 分布的假设检验

分布的假设检验是重要的非参数假设检验，其中最常见的是正态性检验。正态性检验的方法有很多，包括使用正态概率图（Q-Q图）、Pearson拟合优度卡方检验、Kolmogorov-Smirnov（K-S）拟合优度检验、Shapiro-Wilk检验（W检验）等[6]。在概率统计教材中，这方面的内容介绍相对较少，加之每种方法的原理和统计量的计算又非常复杂，学生仅仅通过一两个例子是很难理解的。但若花大量时间去介绍理论，可能会适得其反。因此，若能通过软件操作演示，不但可以加强学生对理论的理解，而且可以使学生快速掌握具体的操作方法，实现了“先会做、再理解”的学习过程。

为展示假设检验的操作过程，在教学中不妨生成700个均值为75、标准差为16的正态分布随机数。使用Q-Q图判别正态性比较直观，但存在主观性，为了更精确地判别，可以对该数据分别使用卡方检验、K-S检验和W检验进行判断，结果见表3。由表3可知，三种方法的P值基本相同，远＞0.05，故应接受原假设，即认为该随机数服从正态分布，这与生成随机数时的分布一致，验证了三种方法的有效性。

表3 随机数的正态性检验

通过R语言生成随机数再对其进行假设检验的教学演示，不但可以使学生有的放矢地学习，而且在课程的课时较少、教学任务繁重、学生思考时间有限的情况下，极大地提高了教学效率。

3 结论与探讨

作为数据科学的重要入门课程，概率统计越来越受到人们的重视。传统的教学方式存在重理论、轻应用，偏概率、轻统计，阻碍了大数据时代发展的客观需求。为了使学生更好地认识和理解概率统计课程中的抽象概念、理论和方法，笔者在总结实践教学经验的基础上，利用当前热门的数据分析软件——R语言，结合随机数模拟与示例分析，在已知待分析数据分布的条件下，对难以理解的理论和统计方法进行直观演示，不但可以激发学生的学习兴趣，提高他们处理本专业相关数据的能力，而且可以为他们未来学习专业课程奠定基础，达到了概率统计课程的教学目标和应用型人才的培养目标。