随机变量本质内涵、分类和相互关系析论

2021-01-28 06:30刘德志李晓智商可心胡孟颖
喀什大学学报 2020年6期
关键词:连续型初学者区间

刘德志,李晓智,商可心,胡孟颖

(安徽财经大学a.统计与应用数学学院;b.数量经济研究所,安徽蚌埠 233030)

0 引言

在科学技术创新和生产高速发展的时代,未知和未来的问题逐渐成为我们关注的主题.概率统计作为研究和衡量未来事件发生的可能性的量度,虽然在一次随机试验中某个事件的发生是带有偶然性的,但那些可在相同条件下大量重复的随机试验却往往呈现出明显的数量规律,因此受到现代科学发展的极大关注并被广泛应用[1].

在大学阶段数学的学习中,“概率论与数理统计”作为一门数学后续专业核心课,其重要程度不言而喻.然而,由于“概率论与数理统计”课程的学习是要建立在微积分和线性代数基础知识掌握之上的,使得很多初学者在学习该课程中会存在一些困难.在该门课程中,随机变量理解和分析作为重要的内容贯穿整个阶段学习,但是很多本科生乃至研究生对其理解偏误,所以本文就此问题展开分析和讨论.

1 随机变量的定义与本质内涵

在众多的“概率论与数理统计”课程教科书中,大都这样定义随机变量:定义在样本空间上Ω 的实值函数X=X(ω)称为随机变量,常常用大写字母X,Y,Z 等表示随机变量,其取值用小写字母x,y,z 等表示[2].其定义方式都是通过几个例子的引入直接给出,往往非常简单,这样就不利于很多初学者的理解和掌握.

从随机变量的定义来看,其本质的内涵就是一个映射,从样本空间Ω 上映射到实数集合R 上的子集上,样本点作为原象,而对应的实数作为象,随机变量则代表的是一种对应法则.这种对应法则并非我们常见的函数形式,而是一种多形式的表达.我们可以从“两点分布”这样一个最简单的例子来说明:

随机试验的样本空间为Ω={ω1,ω2},设置的随机变量X1为

从而形成b(1,p),则随机变量X1~b(1,p),则X1的概率分布为

在整个随机变量的设置过程中,无法看到建立的对应法则,也就是说样本点ω1对应0 是如何建立的无法通过确切的对应法则来表示,而是通过固有的经验来建立的.基于以上原则,两点分布也可以设置为下面随机变量X2为

因此,同一个随机试验可以设置多个随机变量,而最重要是在随机试验中对随机变量的描述,确立了在众多设置方式中的一种形式,且同一个随机试验设置多个随机变量是等价的,比如设随机变量表示骰子出现的点数,即表示Y(ωk)=k(k=1,2,…,6),其中表示样本点出现点.

在随机变量定义之后,很多教材在定义随机事件时就直接写成如下的形式:X≥k,X=k,X=k.这让很多初学者和实际应用的工作者无法理解其本质的含义,无法和随机事件是样本空间子集的定义统一起来.其实对于上述随机事件来说,在形式上省略了很多的内容,比如随机事件{X≥k}完整的形式为{ω:X(ω)≥k},其含义是满足X(ω)≥k 条件的元素ω 组成的集合,即为样本空间的子集,和随机事件的基本定义统一起来.

2 随机变量的分类

对随机变量的研究和分析,首先应该确定其类型,然后根据不同的类型进行分析.随机变量从取值的角度可以分为离散型随机变量、连续型随机变量和既不离散也不连续型随机变量三类,大学教材中一般只涉及到前两类[3].

2.1 离散型随机变量

在随机变量的分类中,离散型随机变量的定义是最简单的,假如一个随机变量仅可能取有限个或者可列个值,则称其为离散型随机变量.由随机变量取值就可以确定样本点数量为有限个或者可列个的随机试验皆属于离散型的范畴,通过概率分布列来表示概率分布,比如常见的0-1 分布、二项分布、多项分布、泊松分布、几何分布、超几何分布和负二项分布等.

对于离散型随机变量,其分布函数形式为阶梯型函数,由于分布函数的不减性,所以分布函数的图形为递增的阶梯形式,其中间断点的横坐标值为随机变量的取值,而在间断点处,纵坐标“跳跃”的高度为随机变量取横坐标值时的概率.

2.2 连续型随机变量

连续型随机变量在现实生活中应用是非常广泛的,其定义为假如一个随机变量的可能取值充满数轴上的一个区间(a,b),则称其为连续型随机变量,其中a 可以是-∞,b 可以是∞.由此定义可以看出,连续时间相依随机变量大都是连续随机变量,比如寿命等.连续分布通过可能存在的非负可积密度函数来刻画,常见的连续型随机变量的分布有均分分布、正态分布、对数正态分布、伽马分布、指数分布、威布尔分布、贝塔分布、柯西分布、逻辑分布、双指数型分布等[4].

对于连续型随机变量的分布函数而言,很多初学者和实际应用的工作者都存在理解上的误区,认为连续型随机变量和分布函数是连续的,两者是统一等价的,其实不然[5].连续型随机变量的分布函数一定是连续的,但是分布函数是连续函数的随机变量不一定是连续型随机变量.反例如下:

容易验证F(x)是连续函数,且由存在定理可知存在随机变量X,其分布函数为F(x).然而,如果假设随机变量X 为连续型随机变量,且取值区间为[0,1],则F′(x)=0,a.e.,x∈[0,1],于是

这和连续型随机变量的密度函数定义是矛盾的,说明随机变量X 不是连续型的.

2.3 既不离散也不连续型随机变量

对于随机变量的最后一类,既不离散也不连续型随机变量在很多的本科教材上都没有涉及,但是时常出现在各类高级别的概率论考试中.在本文中,我们以最简单的两点分布和区间[a,b]上均匀分布综合为例来说明如何研究这一类随机变量.

例如,随机变量X 分布为如下形式:在区间[a,b]的两个端点发生的概率为P(X=a)=p1,P(X=b)=p2,在区间(a,b)上为“均匀分布”,则该随机变量在(a,b)的“密度函数”为

由该密度函数和分布函数的形式就可以发现,对于此类随机变量,首先第一步是将离散部分在每个取值上的概率确定下来,然后用总体的概率“1”减掉离散部分概率的总和,用剩余的差再作为连续部分概率的总和,形成一个“概率分布列”和一个或者多个“概率密度函数”,即

其中,x0=-∞,x∞=∞,区间(xi,xi+1)(i=1,2,…)为离散部分取值对实数区间R 的分割.

3 随机变量间的相互关系

关于随机变量间的关系,有很多的分类方法.线性的角度作为一个非常重要的分类指标,常常用于现代生产生活中,其大致可以分为两大类,具有相关关系和不相关关系[6].

3.1 随机变量间相关关系

随机变量间X 和Y 相关关系一般用两随机变量间的相关系数衡量,即相关系数ρ≠0.由相关系数ρ 的取值区间[-1,0]∪(0,1],则可以细分为0<│ρ│<1 和│ρ│=1,对于0<│ρ│<1 这种情况来说,由于相关系数是对两随机变量之间的线性关系的描述,所以│ρ│当靠近1 时,说明两随机变量X 和Y 具有较强的线性关系,即两随机变量取值形成的散点分布在一条直线附近;当│ρ│靠近0 时,说明两随机变量X 和Y 具有较弱的线性关系,即两随机变量取值形成的散点无法分布在一条直线附近;而对于│ρ│=1 这种情况来说,等价为两随机变量X 和Y 在依概率1 的情况下,存在线性关系,即存在系数a≠0,b∈R,则│ρ│=1 ⇔P{Y=aX+b}=1,或者Y=aX+b,a.e..需要说明的是,这种关系并非普通意义下的线性关系[7].

3.2 随机变量间不相关关系

随机变量间X 和Y 不相关关系则可以用相关系数ρ=0来表示,说明两者之间不存在线性关系.对于此种情况则可以分为两随机变量独立和不独立两种关系,更进一步,对于不独立又可以进行分类[8].为了更加清楚表示分类关系,我们以图示说明.

其中“具有一定的非线性关系”需要进一步做出解释,在表达两个随机变量间X 和Y 存在非线性关系的方面,缺少类似线性关系的参考参数——相关系数,因此只能以“具有一定的非线性关系”来表示这一个分类.

4 结语

随机变量作为概率论中最重要的概念,对于其把握直接影响和决定很多初学者和实际应用的工作者的学习效果.本文在从本质上给出随机变量含义的同时,并给出了其分类,也纠正了很多初学者的误解.对于多个随机变量之间关系刻画过程中的“具有一定的非线性关系”情况,我们将在后续的研究中进一步探讨.因此,希望通过本文的阐述分析,能给许多初学者提供很好的帮助.

猜你喜欢
连续型初学者区间
你学会“区间测速”了吗
轮滑冰球初学者运动体适能与专项技能发展的相关性研究
思维建模在连续型随机变量中的应用
初学者,赶紧看过来
两个独立随机变量和的分布求解方法
全球经济将继续处于低速增长区间
连续型美式分期付款看跌期权
连续型广义乘法定理的辨析教学
区间对象族的可镇定性分析
给会计初学者的几点实用性建议