贝叶斯统计中“后验分布”的教学设计

2022-09-14 09:12王燕飞
吉林化工学院学报 2022年6期
关键词:男婴后验概率分布

王燕飞

(吉林化工学院 理学院,吉林 吉林 132022)

贝叶斯统计与经典统计犹如一枚硬币的两面,各有千秋。相对于后者的深入人心和悠久历史,前者的理论方法是更加灵活且注重实用效果的,这也是它得以广泛应用且迅速开枝散叶发展壮大的重要原因。贝叶斯方法获得越来越多专家学者的认同。以贝叶斯思想衍生的一系列方法和理论都以其命名,比如:贝叶斯网络、贝叶斯决策、贝叶斯分类算法、贝叶斯判别分析等等层出不穷。贝叶斯统计表现出了勃勃生机和欣欣向荣的景象,在统计学领域牢牢地站稳了一席之地,是现代统计学的重要分支。

贝叶斯统计起源于英国学者贝叶斯的遗作《论有关机遇问题的求解》[1],其中提出了著名的贝叶斯公式和一种归纳推理方法,被誉为贝叶斯统计学的奠基石[2]。而实际上贝叶斯公式的一般形式正是后验分布。它集合了总体信息、样本信息以及贝叶斯学派所青睐的先验信息[3]。而在解决统计问题时“是否使用先验信息”是贝叶斯统计与经典统计两种方法争论的焦点问题之一。区别于抽样之前所获得的总体参数的概率分布(先验分布),后验分布是在获得样本之后总体参数的概率分布,它反映了样本数据对参数分布的调整[4]。在贝叶斯统计中的统计推断预测[5]、参数估计[6]、假设检验[7]以及决策理论[8]等都是基于后验分布进行的,它犹如金字塔的塔基一样至关重要。因此,想要彻底地掌握贝叶斯统计理论的思想方法,不可避免地需要理解好后验分布这一概念。为此,本文从融入课程思政元素的角度,对“后验分布”知识点进行精心地教学设计,希望给学生带来问题背后的思考,深刻理解贝叶斯方法的思想,培养运用知识解决问题的能力,勇于探索真知和科学研究的精神。同时为教师讲解提供崭新的思路和启发。

一、教学目标

深刻理解后验分布的产生背景和意义,明确贝叶斯公式(后验分布的事件形式)与后验分布公式之间的关系。掌握后验分布的离散形式和连续形式,熟练运用后验分布求解计算。培养学生从贝叶斯统计的角度分析实际问题,并利用后验分布公式解决问题的能力。

二、学情分析

学生已经在概率论与数理统计课程中学习了贝叶斯公式。具备一定的归纳、抽象能力。但不足点是:对于分析和解决实际背景问题的能力相对薄弱,贝叶斯思想还没有建立起来。

三、教学重点及难点

1.教学重点:后验分布公式的两种形式、利用后验分布求解实际问题。

2.教学难点:先验分布类型的判断、后验分布公式的理解与运用。

四、教学方法的设计

首先,由伊索寓言故事“狼来了”引出学生所熟知的贝叶斯公式,引发学生思考,调动积极性进入“后验分布”的学习。通过解决故事中小孩可信度下降的问题,分析其中所隐含的贝叶斯思想。由此推广得到后验分布公式的离散形式和连续形式。其次,在经典案例“巴黎人口比例”的问题中,通过分析求解,使学生明确运用贝叶斯公式的技巧和方法。整个课程的2个案例,生动有趣,贴近生活,激发学生的学习兴趣。最后,通过“人物介绍”“知识延展”“问题拓展”等环节开阔学生眼界,扩展思路。

五、教学过程设计

(一) 课程引入

小时候都听过著名的伊索寓言“狼来了”,或许从那时起懂得了做人要诚实守信,不能信口雌黄的重要性。而这个故事背后所蕴含的统计意义却更加吸引人。下面利用经典统计学中的贝叶斯公式,分析一下为何不断说谎的小孩最终失去了村民的信任而自食其果的,换句话说小孩可信度是怎样逐渐降低的。

(二) 知识回顾:贝叶斯公式

(1)

这就是经典统计学中著名的贝叶斯公式[9]。可将事件B看作是试验结果,A1,A2,…,An看作是导致结果B的原因。则该公式表明了结果B发生条件下由第i个原因导致的概率。因此该公式也叫执果索因公式[10]。在具体的问题中,要弄清楚哪个是“果”,哪些是“因”。这是利用贝叶斯公式解决问题的难点。实际上,“果”顾名思义是发生的结果、事实或者数据,也就是说能够看得见的资料,在统计中其实指的就是样本数据。“因”自然是产生结果背后的原因或情况,是看不到的,而它有一个重要的特点是所有可能的“因”都要考虑到,即“因”构成完备事件组。在贝叶斯统计中,“因”的概率分布就是先验分布。

(三)案例一:伊索寓言“狼来了”

在山上放羊的小孩觉得无聊,想愚弄一下淳朴的村民,于是就向山下大喊“狼来了”。引得村民们拿着工具上山打狼,结果却看到小孩开心地哈哈大笑,气愤而归。第二天,小孩故伎重演,村民们半信半疑,但仍有一部分善良的人们上山营救。第三天,狼真的来了,这时候小孩无论怎样大喊都无济于事,村民们没有相信的了。最终狼把羊都吃了,小孩后悔莫及。

1.问题的分析及求解

利用贝叶斯公式,第一次“小孩说谎”这一结果发生之后“小孩可信”的概率为:

此时“小孩可信”的概率降低为0.44。显然,小孩的可信度由0.8降低为0.44,这正是从统计的角度量化了人们对小孩信任程度的降低情况。这也恰恰解释了为何再次上山营救的人们减少的原因。

同理再次使用贝叶斯公式,当第二次“小孩说谎”这一结果发生之后“小孩可信”的概率为:

于是,得到此时的“后验分布”概率值变成了0.14。即小孩的可信度再次下跌至0.14,此时人们对小孩已经基本不信任了。因此,当第三天小孩呼救时没有人再上山营救了。

2.小结

在这个案例中,要明确样本信息与先验信息,先验分布与后验分布的内涵。注意“样本信息”就是看得见的结果和事实。“先验信息”就是在样本信息出现之前的信息,构成的概率分布就是“先验分布”。而“后验分布”就是在样本信息出现之后的概率分布。“先”与“后”是相对而言的,当有新的样本信息出现之后,原来的“后验分布”又可以看成是“先验分布”,再次更新结果。于是,可以不断加入新的样本信息而不断更新结果。从这个角度来看,贝叶斯公式是一个尊重样本事实的理论结果。

3.问题拓展

请同学们思考:试想一下,在“狼来了”这个故事中,如果小孩从此痛改前非,不断做出一些待人诚恳的事情,那么,再加入这些样本信息之后,利用贝叶斯公式计算会如何呢?小孩的可信度会慢慢提高吗?直觉告诉答案是肯定的。同学们可以尝试验证一下。

4.课程思政

正所谓“浪子回头金不换”,每个人都应该以辩证的态度看待他人,不应该一成不变,同样也要不断努力改进自身,宽厚待人,严于律己。现代社会中,每个人的信誉度是非常重要的。金融信贷领域,人们使用信用卡,如果到期没还,则会被银行计入不良信用记录。如果信用卡逾期还款不超过3次,可申请信用卡但额度很小,也可以贷款但利率很高。逾期6次以上且有一次逾期不还就会被人民银行个人征信系统列入黑名单,就很难办理贷款了。在国外,信誉度的影响更大,甚至坐地铁不买票,也会记入到身份证上,无论做什么,比如说买房子、租房子、贷款找工作等等就都成问题,不良记录会让人寸步难行。希望同学们做人都能诚实守信,正如鲁迅先生所说,诚信是做人之根本。这也是贝叶斯公式带给的思考。

(四) 后验分布公式

1.后验分布的离散形式

(2)

当参数θ的取值密集为连续情况时,即随机变量θ的类型为连续型随机变量,则可将先验分布π(θi)替换为概率密度函数π(θ),从而得到连续形式的后验分布定义。

2.后验分布的连续形式

(3)

记作

(4)

(五) 案例二:“巴黎新生人口比例”问题

1786年有法国数学家拉普拉斯试图利用统计方法判断巴黎新生人口比例是否失衡。为此,他提出考察“新生男婴的比例大于0.5”的概率有多大?

1.问题分析及模型建立

可以将“新生男婴人数”看作是总体X,而“新生男婴的比例”为随机变量θ,则容易得出X服从二项分布,即X~b(n,θ),即总体X的分布律:

(5)

其中n为新生婴儿总数。那么问题就转化为求得P(θ>0.5),这需要获得参数θ的概率分布。

如果对于新生男婴的比例θ一无所知,但至少知道θ的取值范围是Θ={θ|0<θ<1},属于连续型随机变量,而θ在区间(0,1)范围内取何值是等可能的。显然,从概率模型角度来看,这符合几何概型,且θ服从均匀分布,即θ~U(0,1),此时θ的先验分布为

假设通过人口调查获得新生男婴人数x,这就是样本数据。那么在抽样之后θ的分布就是后验分布。

根据后验分布的连续形式公式,可以先计算x的边缘分布

(1-θ)n-xdθ。

由于

(其中Γ(n+1)=n!)。

所以

代入公式得后验分布为

这就是后验分布的结果。事实上,它是参数为x+1和n-x+1的贝塔分布。记作Be(x+1,

n-x+1)。

(2)从后验分布的图像可以看出,在有了样本数据x之后,随着x的取值情况不同,θ的概率分布由直线调整成不同情况的曲线。这就是加入样本信息之后,参数θ的概率分布的变化。通俗地说,当对新生男婴人数有了一定的了解之后,做出的判断就会更加接近真实情况;

(3)这个问题可以抽象为更一般的模型,即当总体服从X~b(n,θ),θ~U(0,1)时,θ的后验分布为Be(x+1,n-x+1)。

2.模型求解

拉普拉斯收集了1745-1770年巴黎诞生的婴儿数据。得到男婴为251 527个,女婴241 945个。根据这个模型,代入即x=251527,n=251 527+241 945=493 472。从而求得

这个积分现在可以用Matlab计算得到结果,同学们不妨一试。但当时显然没有这样的数学软件,拉普拉斯是用泰勒展开完成的近似计算。最终得到结果近似为1.15×10-42微乎其微的概率值。所以认为它的对立事件的概率接近1。即巴黎“新生男婴的比例大于0.5”这一事件几乎必然发生。

这个结论在当时轰动一时。拉普拉斯利用贝叶斯统计方法,通过后验分布研究了巴黎新生婴儿人口比例问题。从概率的角度分析,并尊重样本数据的使用,这样的方法产生的结论比单纯用一个男女比例的样本估计值更具有科学性和说服力。

3.人物简介

拉普拉斯(1749-1827年),法国数学家、天文学家、物理学家。他是天体力学的主要奠基人、天体演化学的创立者之一,他还是分析概率论的创始人,因此可以说他是应用数学的先驱。他从青年时期就显示出卓越的数学才能,18岁时离家赴巴黎,决定从事数学工作。1785年他被选为科学院院士。1799-1825年出版《天体力学》,堪称天体力学的不朽巨著。因此他被誉为“法国的牛顿”和天体力学之父。1812年发表了重要的《概率分析理论》一书,总结了当时整个概率论的研究,包括熟知的古典概型、中心极限定理及拉普拉斯变换等。它被誉为概率论历史上里程碑式的著作。拉普拉斯曾任拿破仑的老师,和拿破仑结下不解之缘。

4.知识延展

几乎没有用到先验信息而只使用了参数的取值范围,这样获得的先验分布称为无信息先验。这使得先验分布的确定更加客观,避免了由于利用先验信息确定先验分布时可能产生的主观因素。而这一主观因素也是经典统计学者攻击贝叶斯统计学方法的焦点之一,无信息先验的使用让其无话可说。因此,在实际问题中,当先验信息严重不足时,无信息先验是一个不错的选择。另一方面,如果有先验信息可以利用,那么还是使用它更加客观,对于先验分布的确定方法及无信息先验的系统学习会在后面的章节中继续深入学习。

5.问题拓展

(1)将问题中所得到的后验分布作为先验分布,搜集新的样本数据,利用后验分布公式继续求解,研究这一问题结果是否有所变化?

(2)利用相同方法,搜集样本数据,研究一下我国男婴出生率是否大于0.5?

(六) 总结

后验分布公式共有三种形式:随机事件形式(贝叶斯公式)、离散形式和连续形式。其中“离散”和“连续”指的是总体分布中的未知参数θ的随机变量类型,而总体X的概率分布p(x|θ)会因“离散”和“连续”型随机变量而分别细化为分布律和概率密度。在具体问题的求解过程中要从贝叶斯思想出发,分析对应总体及其分布、先验分布及后验分布公式类型。

六、教学创新点

本文针对“后验分布”这一知识点,对教学过程进行设计。主要创新点包括:

1.通过案例“狼来了”和“巴黎人口比例”,分别起到引入课程和理解后验分布公式的作用。案例生动有趣,学生代入感比较强;

2.利用Matlab数学软件计算事件概率,通过数学软件的操作,使得学生对于知识的理解更加深刻;

4.对于数学家拉普拉斯的介绍,开阔了学生视野,培养学术研究素养;

5.恰当融入“思政元素”,引领学生树立正确的人生观和价值观。

七、教学反思

通过求解“狼来了”和“巴黎人口比例”问题,使得学生深入理解“后验分布公式”的三种形式。利用数学软件操作,启发思考问题和思政引领等方式,学生表现出较高的积极性和较大的情感投入,通过提问和互动表明学生已经获得良好的学习效果,达到了本节的教学目标。

猜你喜欢
男婴后验概率分布
离散型概率分布的ORB图像特征点误匹配剔除算法
一种基于折扣因子D的贝叶斯方法在MRCT中的应用研究*
基于贝叶斯理论的云模型参数估计研究
弹性水击情况下随机非线性水轮机的概率分布控制
关于概率分布函数定义的辨析
一种基于最大后验框架的聚类分析多基线干涉SAR高度重建算法
风速概率分布对风电齿轮
基于后验预测分布的贝叶斯模型评价及其在霍乱传染数据中的应用