整体分析高中概率与统计

2023-03-20 08:20张饴慈
教学管理与教育研究 2023年3期
关键词:频数总体概率

张饴慈

一、 高中概率与统计的定位与变化

《普通高中数学课程标准(2017 版2020 年修订)》提出:“概率的研究对象是随机现象,为人们从不确定性的角度认识客观世界提供了重要的思维模式和解决问题的方法。统计的研究对象是数据,核心是数据分析。”

统计是研究如何合理收集、整理、分析数据的学科,它为人们制订决策提供依据;概率是研究随机现象规律的学科,它为认识客观世界提供了重要的思维模式和解决问题的方法。高中概率与统计是采用演绎与归纳有机结合的思维模式,概率以演绎为主,统计以归纳为主,概率为统计的发展提供理论基础。

二、 从整体上认识概率

从以下四个方面来认识概率。

1.概率的定义

教材上我们如此定义概率:对于一个随机事件A,我们通常用一个数P(A)(0≤P(A)≤1)来表示该事件发生的可能性的大小,这个数称为随机事件A的概率。概率度量了随机事件发生的可能性的大小,是对随机事件统计规律性的数量刻画。

高中概率的定义是描述性定义,概率是与应用紧密相连的,教师在教学中不应过分追究概率的定义,最重要的是让学生认识到随机事件的概率是用0到1之间的一个数衡量一个随机事件发生可能性的大小。

在概率中,概率相等并不等于公平。例如,有一张电影票,A,B两个人通过抛掷硬币决定谁获得这张电影票,此时是公平的,获得电影票的机会是相等的。再例如,A、B 两个人通过抛掷硬币决定谁去商店领奖,若A 去领奖,会获得一支钢笔,若B去领奖,会获得一台彩电,此时,领奖的概率是相等的,但不是公平的。所以,公平不是数学概念,在教学中讨论概率时,建议不讨论公平性。

2.用数学描述随机现象

在概率中,我们会用一个0到1之间的数来描述概率,用集合来描述事件,用数列或函数来描述分布,等等。

对有些概率问题认识不清楚,许多时候实质是因为对数学知识没弄清楚。

例如,抛掷一枚“均匀”的硬币,当正面出现次数大于反面出现的次数时,有人会觉得下一次出现反面的可能性比较大。

设抛掷了n次硬币,正面出现的频数为k1=,反面出现的频数为,当n趋于无穷时,二者的频率之差为0,频数之差“趋于”无穷,若由频率之差“趋于”0,错误地“推导出”频数之差“趋于”0,则属于数学理解上的错误。

再举一个例子,向某个区间随机投掷一点,落在每一点的概率都是0,但落在该区间的概率是1,有人问:为什么落在每一点的概率是0,加起来却是1?

这也是一个和随机现象无关的问题,它问的是:长为1的一个线段,它上面的每一点的长度都等于0,为什么加起来等于1?

之所以会产生这样的问题,是因为对数学上的“加法”理解得不清楚。

3.随机现象的规律

对随机现象,我们只能了解如下结果:(1)所有可能出现的结果;(2)每一个结果出现的概率。

通过引进随机变量(它是一个映射),把上述问题转化为:了解随机变量的所有可能取值、取每一个值的概率。随机变量的分布给出这个问题的回答。这表明:分布描述了随机现象,研究分布是概率论的核心问题。

4.模型与现实

数学模型是人头脑中的产物,现实中是不存在的。例如,现实中不存在“均匀”的硬币。在概率学习中,要注意以下四点。

一是让学生认识到模型选取的重要性,培养学生的模型意识。判断模型的对错通常是判断其在数学上的对错,但是在实际应用中,模型没有对错之分,只有好坏之分,判断的标准是根据具体问题的需要而提出的。例如,给出的分布列中,所有的概率之和是否等于1,是数学上的对错;把什么看成一个试验结果、选哪一个分布等是我们人为规定的,只有好坏之分,没有对错的问题。在实际应用中,选取一个好的模型是非常重要的。在北师大版《普通高中教科书 数学 必修 第一册》第七章第二节“古典概型”的例3中,给出了四个解法,也就是四个模型,从解决问题的意义来看四个不同的模型,第一个模型可以解决很多类的问题,最后一个模型可以解决较简单的问题,让学生认识不同模型的好处。

二是对于学习概率,要让学生不满足于给出正确答案,要能解释其结果。例如,对于中奖率为千分之一的彩票,要能解释为什么买1000 张也不一定能中奖。

三是概率的学习不只有重视计算的学习,还要加强概率的背景和概率意义的学习,如条件概率、全概率公式和贝叶斯公式等。

四是在概率学习时要与其他数学知识建立联系,如在样本空间中,强调让学生使用列举法写出样本空间,列举法中又涉及计数原理中的加法原理。

三、 从整体上认识统计

关于统计,首先我们要清楚统计这门学科是干什么的。统计是收集数据,提取数据,并从数据中得到信息。统计最核心的一个问题是希望从数据中得到什么信息,如何得到信息,如何评价这些信息,也就是统计的重点是提取信息。若对这一点理解不到位,则会将统计看成计算。下面,从课程标准的要求,谈一谈以下几个问题。

1.总体和样本

(1)总体

一般来说,当问题明确后,调查对象的范围也就随之确定,调查对象的全体称为总体。通常总体中的每个个体可以对应成数值,当知道了这些数值在总体中所占的比例(百分比),就知道了总体的分布。

一个总体可能是实际存在的,也有可能是虚构的。

例如,如果我们想了解北京市所有18岁男生的身高,因为我们研究的对象是身高,那么总体是北京市所有18岁男生的身高。这是实实在在存在的,虽然我们并不完全知道北京市所有18岁男生的身高,但是身高是客观存在的,身高的平均数、方差和其他的数字特征都是客观存在的。这就是说总体的均值、总体的方差、总体的百分位数、中位数等都是客观存在的,只是我们没有做普查,对它没有一个全面了解。

再如,考查某工厂每月生产的灯泡的寿命(使用时间)。如果每月随机选一天去该工厂抽查部分灯泡。把这些抽查到的灯泡的寿命作为样本。那么,此时的总体是:该厂这个月生产的全体灯泡的寿命。它包括了该厂这个月已经生产出来的灯泡的寿命,也包括这个月还未生产出来的灯泡的寿命。换句话说,这里的总体包括了还不存在的量,与上一个例子相比,这个总体可能就不是实实在在的,是一个虚构的。

我们关心总体各个数值所占的百分比,即研究对象的各个数值的百分比,也就是总体的分布。对于统计来说,核心问题就是要去估计总体的分布,进而得到总体的数字特征、均值方差等。

(2)样本

在进行抽样调查时,从总体中抽取的部分称为样本。

样本是从总体中随机抽取的,所以样本是随机的。总体不是随机的,总体是客观存在的。想要通过随机的样本,得到不随机的总体分布、总体方差、总体均值,实际上是一个不可能完成的任务。因为样本是随机的,可以变化,不同的人抽取的样本可能是不一样的,所以我们只能把它叫作估计。在统计中,“估计”没有精确不精确的问题,只要把样本数取得充分大,我们往往可以达到我们需要的任何一个精度。

因此,在统计中有一个最中心的观念,即关于统计问题中的总体和样本,我们要清楚有一个总体,总体可能是实的,也可能是虚的,有一批随机的样本,用这一批随机的样本,得到总体的信息,这个就是估计。

2.用样本估计总体

关于总体分布的估计,需要注意以下三个问题。

一是频数与频率哪一个更能反映信息。

不同的应用范围,频数与频率有不同的优缺点。在初中阶段,学生接触到的数据较少,大部分都是使用频数,对频率的认识较少;到高中阶段,对两者的区别还是模糊的,认为频数很方便,不理解为什么一定要用频率,这是在高中阶段需要让学生弄清楚的。

举一个例子,一个班里有50个学生,某次数学考试有5个学生考了满分,若用频率表示,则表示为班里有10%的学生考了满分,此时从反映信息、理解信息来说,频数比频率更能反映问题,更直观、清楚。这个例子中数据仅有50个,较少。

再举一个例子,有一个地区患某病的人数是3421,若只知道这个地区患某病的人数是3421,我们几乎就得不到任何信息,因为我们不知道这地区有多少人,若再告诉我们这个地区有670215人,共有3421人患病,还是难以清楚理解其中包含的信息,我们计算频率,约为0.005,那我们就清楚地得到这个地区有0.5%的人患病,此时频率要比频数更能够提供清楚的信息。

在很多情况下,特别是学生在今后接触到大数据,频率是比频数更常见、更常用的一个工具,所以在高中阶段,教师要让学生对频数和频率有一个清晰的认识。

二是频率分布直方图中,为什么用面积表示频率。

很多教师和学生会有疑问,在频率分布直方图中为什么要用面积表示频率,在初中阶段,频数是使用高度来表示的,那为什么频率不用高度表示,而用面积呢? 我们举例分析一下。

假设有两种疾病,第一种疾病,它的死亡率也就是频率是0.005,第二种疾病的死亡率(频率)是0.006,若用面积画直方图,很难看出大小,我们会倾向于采用高度来表示频率,而不是面积,若两个频率相差特别大时,也可以用面积,但没有高度方便。那么为什么我们在估计总体的频率分布直方图中要用面积来表示频率呢? 主要是因为我们的目的不是比较两个不同频率的大小,而是用频率表示各个数值相对总数而言的相对强度,反映各个数值所占的百分比,所占的分布。

再看北师大版高中数学教材中的例子:为了解本市居民的生活成本,学生甲利用假期对所在社区进行“家庭数”和“家庭每月日常消费额”的调查,他把调查得到的消费额按大小进行分组,并计算出每组数据在整个数据中占的百分比——频率,结果如下表。

消费额/元 频率[1000,1500) 0.1[1500,2000) 0.2[2000,2500) 0.4[2500,3000) 0.2[3000,3500) 0.1

从图1、图2中都可以观察到消费额在1000~1500元的频率为0.1,在1500~2000元的频率为0.2,但若想要得到消费额在1000~2000 元的频率,从图2中可以得到是消费额在1000~1500元的两个面积之和,但在图1中无法表示出两个的高度之和,所以图1提供的信息只有所分段的几个数值,无法提供其他数值,而图2可以表示任何区域中所占百分比,也就是图2提供的信息更多,所以我们用面积来表示频率。

图1 用高度表示频率

图2 用面积表示频率

在高中阶段,教师要让学生从提取信息的角度认识到频率的意义,频率相较于频数更能反映信息,相较于高度法用面积法表示频率更能反映信息。

三是如何用样本估计总体的数字特征。

用样本的数字特征来估计总体的数字特征,我们应当注意以下三点。

(1)由于样本是随机的,我们得不到总体的数字特征。估计量的选取,没有对错的问题,只考虑估计量的好坏,而好坏的标准是根据需要实际情况来判断。

例如,两个估计量的样本均值相等,是不是应该选择样本方差小的那一个? 假设有两个运动员,甲运动员的成绩并不是非常好,但是非常稳定,总是8环左右,方差非常小,乙运动员的成绩非常不稳定,发挥不好的时候,可能是0环,发挥好的时候,可以达到10环,平均分也是8环。那么在比赛中教练派谁上场呢? 那不同的情境就有不同的选择。若比赛击中8环可以得到一块铜牌,现在我们一块奖牌都没得到,无论如何也想得到一块奖牌,此时显然教练应选甲运动员上场。若比赛中我们已经取得了几块铜牌,我们想拿到一块金牌,那此时教练可以选择乙运动员上场,如果他发挥得好,我们就能得到一块金牌。所以在求解总体的数字特征时,不应只是看均值,均值相等看方差,方差小了选它,不应形成套路,要根据实际情形来判断。

各种各样统计的方法,没有对和错之分,而要根据实际情况来考虑其优劣。

(2)由于是随机抽样,如果样本充分大,样本的分布就能很好地近似于总体的分布,否则就没有意义了,比如,在官方网站上看到的各样数据是随机抽取的样本,但是它反映的信息与实际相差不多。

(3)有些数据可能并不能得到它的数字特征,甚至有些总体没有相应的数字特征,也就是总体的数字特征可能并不存在,或者说总体的数字特征没什么意义。举一个例子,假设100人考试,我们求其考试成绩的中位数,因为是偶数,所以由中间(第50人和第51人)这两个数的平均值,得到中位数。假设这100 人中有60 人考了满分100 分,剩下40人没有考满分,计算中位数为100分,但是这个中位数100 分有什么意义吗? 能判断比100分少的有50人,比100分多的有50人吗? 显然是不能的,所以有时候有些总体的数字特征没有什么意义。

在统计的问题里,我们关注得到的信息是否有意义,在许多时候不能“死扣”定义,这是和纯数学不一样的地方。所以在讨论用数据估计总体时,我们要赋予统计的意义,而不是从数学的定义出发。

3.百分位数

百分位数是中位数的推广,一般来讲,当总体是连续型变量时,给定一个百分数p∈(0,1),总体的p分位数的特点是,总体数据中的任意一个数小于或等于它的可能性是p,总体的p分位数通常是未知的,人们用样本的p分位数来估计它,样本容量越大,估计越准确。

根据前面的讨论,我们知道在统计中,对于百分位数,不应过分纠结百分位数的定义,而应重点关注在实际应用中其能否提供正确的信息。

例如,某场有100 人参加考试,录取率为5%,把所有成绩按照从低到高排列,找到排在第95%的成绩,也就是95%的分位数,比这个成绩高的录取,比这个成绩低的不被录取,但是如果这100人中有10 人考了100 分,也就是从第91 名一直到第100名,全是100分,95%这个分位数就没有任何的意义了,即使你求出来也没有任何的意义。所以这样的问题,在统计上就是没有意义的问题,尽管按照定义计算出结果,但是从信息角度来说,并不能提供正确的信息。

4.独立性检验,相关分析和回归分析

独立性检验、相关性分析和回归分析有什么区别呢? 独立性检验讨论的问题是两个随机变量是否相互独立;相关性分析讨论的问题是两个随机变量是否有线性关系。

两个随机变量独立,是指它们没有任何关系,自然它们也没有线性关系,相关系数一定为0。两个随机变量的相关系数为0,说明它们之间没有线性关系,但无法保证它们相互独立,它们可能有别的关系,例如,一个随机变量等于另一个随机变量的平方。

回归分析,在高中课程中,只要求会用最小二乘法建立一元线性回归方程。

由于回归方程中的自变量可以不是随机变量,因此,回归方程的检验和相关分析是不一样的(相关分析讨论的是随机变量之间的关系)。在高中没有要求对回归方程进行检验。最小二乘法是拟合线性函数的一种方法,如果从几何上看,拟合直线完全可以有别的方法。例如,给定n个点后,求一条直线,使得点到这条直线的距离之和最小,等等。高中数学的核心概念一个是函数,一个是向量,在北师大版《普通高中教科书 数学 选择性必修第一册》中,采用向量法来求解最小二乘法,用向量的观点来“认识”相关系数,这是十分关键的。

猜你喜欢
频数总体概率
第6讲 “统计与概率”复习精讲
第6讲 “统计与概率”复习精讲
概率与统计(一)
概率与统计(二)
用样本估计总体复习点拨
2020年秋粮收购总体进度快于上年
外汇市场运行有望延续总体平稳发展趋势
直击高考中的用样本估计总体
中考频数分布直方图题型展示
学习制作频数分布直方图三部曲