数学期望
设X是一个离散型随机变量,X的数学期望(或称为期望值)是X所有可能取值的加权平均,记为E(X)或μ,即
E(X)=i=1∑nxiP(X=xi)
其中,xi是X的可能取值,P(X=xi)是X取值为xi的概率。
若X是一个连续型随机变量,其概率密度函数为p(x),则X的数学期望为
E(X)=∫−∞+∞xp(x)dx
数学期望的意义在于,当随机变量X独立重复地进行大量实验时,X的平均值将趋于E(X)。
数学期望跟参数有关,有几个参数就跟几个参数有关。
若X∼B(n,p),则
E(X)=np若X∼P(λ),则
E(X)=λ若X∼G(p),则
E(X)=p1若X∼U(a,b),则
E(X)=2a+b若X∼E(λ),则
E(X)=λ1若X∼N(μ,σ2),则
E(X)=μ若X∼H(N,M,n),则
E(X)=nNM
在计算数学期望的时候需要用到级数的知识,需要考虑到函数列是否一致收敛来运用逐项求导或者求积分,级数是否绝对收敛来判断是否可以用级数的重排;
为了避免同一个随机变量因为排序不同造成的数学期望不同,我们要求
i=1∑∞xipi
是绝对收敛的(∑i=1∞∣xipi∣收敛),即该级数的任意一个重排都收敛于同一个值。
如果是连续型随机变量,则要求
∫−∞+∞∣xp(x)∣dx
可积。
数学期望的性质
a⩽X⩽b⇒a⩽E(X)⩽b
即数学期望不会超过随机变量的取值范围。
E(a+bY)=a+bE(Y)
从求和和积分的性质可以得到。
由随机变量加法的分布
假设 (X,Y)∼p(x,y),那么 Z=X+Y 具有密度
pZ(z)=∫−∞∞p(x,z−x)dx
所以
E(X+Y)=∫−∞∞zpZ(z)dz
E(X+Y)=∫−∞∞zpZ(z)dz=∫−∞∞z∫−∞∞p(x,z−x)dxdz=∫−∞∞∫−∞∞(x+y)p(x,y)dxdy=∫−∞∞∫−∞∞xp(x,y)dxdy+∫−∞∞∫−∞∞yp(x,y)dxdy=∫−∞∞xpX(x)dx+∫−∞∞ypY(y)dy=EX+EY
推广:
E(a1X1+a2X2+⋯+amXm)=a1EX1+a2EX2+⋯+amEXm
假设 X1,X2,…,Xm 是非负、独立同分布的随机变量,求
EX1+⋯+XmX1+⋯+Xk
EX1+⋯+XmX1=⋯=EX1+⋯+XmXm
存在,有限。另外,
1=EX1+⋯+XmX1+⋯+Xm=EX1+⋯+XmX1+⋯+EX1+⋯+XmXm=m⋅EX1+⋯+XmX1
所以,
EX1+⋯+XmX1=m1⇒EX1+⋯+XmX1+⋯+Xk=mk
加法定理计算期望
令 N 是产品总数,M 是次品数,现抽取 n 件产品检查,其中 n≤M。
令 Sn 表示 n 件抽查产品中次品的个数。那么
P(Sn=k)=(nN)(kM)(n−kN−M)
下面给出 X 的另一种表示:令 ξi 表示第 i-次抽检时次品个数,
Xi={1,0,p1−pi=1,2,…,n,同分布,但是不独立
那么
Sn=i=1∑nXi
ESn=i=1∑nEXi=nNM
Xi指第i次抽到的是不是次品,这相当于抽奖,无论抽奖顺序是什么,每个人抽到的概率都是一样的,所以Xi是同分布的,但是不独立。
如果随机变量X和Y独立,那么E(XY)=E(X)E(Y),如果E(XY)=E(X)E(Y),并不一定有X和Y独立。
随机变量函数的数学期望
随机变量函数的数学期望可以用以下公式来定义:
(Ω,F,P)是一个概率空间, X:Ω→R是一个随机变量,g(X) 是 X 的一个实值可测函数,那么 g(X) 的数学期望 E[g(X)] 定义为:
方差
方差是用来衡量随机变量偏离其均值的程度的指标。设 X 是一个随机变量,其数学期望为 E(X),则 X 的方差记作 Var(X) 或 σ2,定义如下:
Var(X)=E[(X−E(X))2]
方差定义的是随机变量 X 与其均值 E(X) 偏差的平方的期望。它反映了 X 取值的分散程度。方差越大,说明 X 的取值离均值越远,分散性越大;方差越小,说明 X 的取值集中在均值附近,分散性较小。
Var(X) 称为随机变量 X 的标准差,记作σ
若X∼B(n,p),则
Var(X)=np(1−p)若X∼P(λ),则
Var(X)=λ
对于泊松分布,方差等于数学期望,这是泊松分布的一个特性。
若X∼G(p),则
Var(X)=p21−p若X∼U(a,b),则
Var(X)=12(b−a)2若X∼E(λ),则
Var(X)=λ21若X∼N(μ,σ2),则
Var(X)=σ2若X∼H(N,M,n),则
Var(X)=nNMNN−MN−1N−n
计算公式
可以通过以下公式计算方差:
Var(X)=E(X2)−[E(X)]2
方差的定义是:
Var(X)=E[(X−E(X))2]
展开括号,得到:
Var(X)=E[X2−2X⋅E(X)+(E(X))2]
利用期望的线性性质,得到:
Var(X)=E(X2)−2E(X)⋅E(X)+(E(X))2
由于 E(X) 是一个常数,所以 E(X)⋅E(X)=[E(X)]2,因此可以简化为:
Var(X)=E(X2)−[E(X)]2
该公式表明,计算方差时可以通过求 X 的平方的期望 E(X2) 减去 X 的期望的平方 [E(X)]2 来得到。这种形式通常更方便,尤其是在 E(X) 和 E(X2) 容易求得的情况下,可以简化计算。
其中:
方差的性质
方差总是非负的,即 Var(X)≥0。
若 c 为常数,则 Var(X+c)=Var(X)。
对于独立随机变量 Y ,以及常数 a 和 b,有
Var(a+bY)=b2Var(Y)
对于独立随机变量 X 和 Y,有
Var(X+Y)=Var(X)+Var(Y)+2Cov(X,Y)
其中,Cov(X,Y) 是 X 和 Y 的协方差,即
Cov(X,Y)=E[(X−E(X))(Y−E(Y))]=E(XY)−E(X)E(Y)
如果X,Y相互独立,则Cov(X,Y)=0,所以
Var(X+Y)=Var(X)+Var(Y)
可推广到多个独立随机变量的情况。
选择平均值的原因
在计算方差时,我们通常使用平均值作为中心点,而不是其他值。这是因为平均值是使方差最小的点。也就是说,对于任何实数 c,有
Var′(X)=E[(X−c)2]⩾E[(X−E(X))2]=Var(X)
Var(X)=E(X−EX)2=E(X−c−(EX−c))2=E(X−c)2−2E(X−c)(EX−c)+E(EX−c)2=E(X−c)2−(EX−c)2⩽E(X−c)2
切比雪夫不等式(Chebyschev)
设 (Ω,A,P) 是概率空间, X:Ω→R 是随机变量,那么对任意 ε>0,
P(∣X−EX∣>ε)⩽ε2Var(X)
切比雪夫不等式给出了随机变量偏离其均值大于某个精度的概率的上界。
仅取 X∼p(x) 加以证明。
P(∣X−EX∣>ε)=∫x:∣x−EX∣>εp(x)dx
⩽∫x:∣x−EX∣>εε2∣x−EX∣2p(x)dx
⩽ε21∫−∞∞∣x−EX∣2p(x)dx
=ε2Var(X)
若 f 是单调不减严格正函数,那么
P(X>ε)⩽f(ε)Ef(X)
事实上,使用了Markov不等式:
P(X>ε)⩽P(f(X)⩾f(ε))⩽f(ε)Ef(X)
协方差矩阵
均值向量
对于一个随机向量 X=(X1,X2,…,Xn),如果Xi的数学期望存在;其均值向量 μ 定义为:
μ=E(X)=(E(X1),E(X2),…,E(Xn))
协方差
假设X和Y是两个随机变量,且两者的数学期望和方差都存在,那么X和Y的协方差定义为:
Cov(X,Y)=E[(X−E(X))(Y−E(Y))]
协方差也可以表示为:
Cov(X,Y)=E(XY)−E(X)E(Y)
对于任意两个随机变量X和Y,有
Cov(X,Y)2≤Var(X)Var(Y)
E[(X−E(X))(Y−E(Y))]⩽E[(X−E(X))2]E[(Y−E(Y))2]
运用任意实数t,满足
E[(∣X∣+t∣Y∣)2]⩾0
展开利用二次函数的性质即可;
协方差矩阵为
Σ=Var(X1)Cov(X2,X1)⋮Cov(Xn,X1)Cov(X1,X2)Var(X2)⋮Cov(Xn,X2)⋯⋯⋱⋯Cov(X1,Xn)Cov(X2,Xn)⋮Var(Xn)
对于二元随机变量 X=(X1,X2),协方差矩阵为
Σ=[Var(X1)Cov(X2,X1)Cov(X1,X2)Var(X2)]
协方差矩阵是一个非负定矩阵,即对于任意非零列向量 a,有 aTΣa≥0。
如果X, Y相互独立,此时 E(XY)=E(X)E(Y) 那么Cov(X,Y)=0,反之,如果Cov(X,Y)=0,并不一定有X和Y相互独立,但是可以定义为{==不相关==}。
二元联合正态分布的协方差为ρσ1σ2
相关系数
二元函数的相关系数(Correlation Coefficient)用来衡量两个随机变量 X 和 Y 之间的线性关系,其定义基于协方差和标准差,计算公式如下:
ρ(X,Y)=σX⋅σYCov(X,Y)
其中:
- Cov(X,Y) 是 X 和 Y 的协方差,定义为:
Cov(X,Y)=E[(X−E[X])(Y−E[Y])]=E[XY]−E[X]⋅E[Y]
- σX 和 σY 分别是 X 和 Y 的标准差,定义为:
σX=Var(X),σY=Var(Y)
其中方差为:
Var(X)=E[(X−E[X])2]
- 取值范围:
−1≤ρ(X,Y)≤1
- 当 ρ(X,Y)=1 时,X 和 Y 完全正线性相关。
- 当 ρ(X,Y)=−1 时,X 和 Y 完全负线性相关。
- 当 ρ(X,Y)=0 时,X 和 Y 没有线性关系,但不一定独立。
-
无量纲性:
ρ(X,Y) 是一个无量纲量,反映的是两变量线性关系的强弱,与变量的量纲无关。
-
对称性:
ρ(X,Y)=ρ(Y,X)
一般也用γ来表示相关系数
条件期望
对于两个随机变量X,Y,其条件期望定义为:
给定Y=yi,X的条件期望定义为
E(X∣Y=yi)=i=1∑∞xiP(X=xi∣Y=yi)
要求该级数绝对收敛
若给定X,Y的条件期望也是类似
P(X=x∣Y=y)=pY(y)p(x,y)
所以
E(X=x∣Y=y)=∫−∞+∞xP(X=x∣Y=y)dx
要求该积分绝对可积
若给定X,Y的条件期望也是类似
全期望公式
P(X=xi,Y=yj)=pij,i,j=1,2,…
每一个 yj,对应一个条件期望 E(X∣Y=yj),即
yj→E(X∣Y=yj)
定义
g(yj)=E(X∣Y=yj)
即
g(Y)=E(X∣Y)
它是 Y 的函数,所以是随机变量。求 Eg(Y);
Eg(Y)=j=1∑∞g(yj)P(Y=yj)
=j=1∑∞i=1∑∞xiP(X=xi∣Y=yj)P(Y=yj)
=i=1∑∞xij=1∑∞P(X=xi∣Y=yj)P(Y=yj)
=i=1∑∞xiP(X=xi)
=EX
E(E(X∣Y))=EX,E(E(Y∣X))=EY
这个结论对于离散,随机,连续变量都成立
矩
-
k 阶矩,k 阶中心矩:
假设 (Ω,A,P) 概率空间,X:Ω→R 随机变量
如果 E∣X∣k<∞,k⩾1,那么称
EXk,k 阶矩 k≥1
E(X−EX)k,k 阶中心矩 k≥1
X∼N(0,σ2),那么
E∣X∣k<∞,k≥1
并且
EX2k=(2k−1)!!σ2k,EX2k+1=0,k≥1
EX2k=∫−∞∞x2k2π1e−2x2dx
=−∫−∞∞x2k−12π1de−2x2
=−x2k−12π1e−2x2−∞∞+(2k−1)∫−∞∞x2k−22π1e−2x2dx
=(2k−1)EX2k−2
EX2k=(2k−1)EX2k−2=⋯=(2k−1)(2k−3)⋯1=(2k−1)!!X∼P(λ),那么
E∣X∣k<∞,k≥1
并且
EX(X−1)⋯(X−(k−1))=λk,k≥1
↓
EX2=EX(X−1)+EX
EX3=EX(X−1)(X−2)+3EX(X−1)+EX
EX4=EX(X−1)(X−2)(X−3)+6EX(X−1)(X−2)+7EX(X−1)+EX
EXk=EX(X−1)⋯(X−(k−1))+⋯
一般来说,随机变量任意K阶矩都相等,并不能保证随机变量的分布相同。但是正态分布和泊松分布可以由k阶矩来确定。
假设 X,Y 是两个随机变量,并且对任意 k≥1,
EXk=EYk=mk<∞
如果下列三个条件之一成立:
(i)
k=1∑∞(2k)!m2kt2k<∞,对某些 t>0
(ii)
k=1∑∞m2k−1/2k=∞
(iii)
k→∞limsup∣mk∣1/k<∞
那么
X≡dY
特征函数
(Ω,A,P),X:Ω→R,X∼FX(x). 定义
φ(t)=EeitX,t∈R
其中
EeitX=EcostX+iEsintX
一定存在有限。
[\varphi(t) : \mathbb{R} \to \mathbb{C}]
{==实变量复值函数==}
目的:利用复分析研究随机变量的分布性质。
意义:对概率论的发展起着重要作用。
若X是一个常数c,那么
φ(t)=eict若X是一个两点分布,P(X=1)=p,P(X=0)=1−p,那么
φ(t)=peit+1−p若X∼B(n,p),那么
φ(t)=(1−p+peit)n若X∼P(λ),那么
φ(t)=eλ(eit−1)若X∼U(a,b),那么
φ(t)=it(b−a)eitb−eita若X∼E(λ),那么
φ(t)=λ−itλ若X∼N(0,1),那么
φ(t)=e−2t2
普通的正态分布
eitμ−2σ2t2
特征函数的分析性质
-
φ(0)=1
-
∣φ(t)∣⩽1=φ(0) {==模长有界==}
-
φ(−t)=φ(t) {==共轭对称==}
-
φ(t) 在 R 上一致连续。
-
Bochner 非负定性
对于任何实数 t1,t2,…,tn,任何复数 a1,a2,…,an
k,l=1∑nakalˉφ(tk−tl)⩾0
- 可微性
假设 E∣X∣<∞,EX=μ,那么
φ(t) 可微
并且
φ′(0)=iμ
事实上,
φ(t)=∫−∞∞eitxdF(x).
因为
∫−∞∞∣x∣dF(x)<∞,
eitx求导之后被一个可积函数控制,
所以
φ′(t)=∫−∞∞ixeitxdF(x)
=i∫−∞∞xeitxdF(x)
类似地,如果 E∣X∣k<∞,那么
φ(k)(t)=ik∫−∞∞xkeitxdF(x)
特别,如果 E∣X∣<∞,那么 φ(t) 在 0 处可以进行 k 次展开:
φ(t)=φ(0)+φ′(0)t+2!φ′′(0)t2+⋯+k!φ(k)(0)tk+o(tk)
=1+iEXt−2EX2t2+⋯+k!ikEXktk+o(tk),t→0
特征函数的运算性质
- 令 X 的特征函数为 φX(t),那么
E[eit(aX+c)]=eitcφX(at)
如果 Y∼N(μ,σ2),那么可写成
Y=σX+μ,X∼N(0,1)
因此,
φY(t)=eiμt−2σ2t2
Z=X+Y
φZ(t)=φX(t)φY(t)
在{==X,Y相互独立==}的情况下,这个公式成立。
推广:
如果 X1,X2,…,Xn 相互独立,那么
φX1+X2+⋯+Xn(t)=φX1(t)φX2(t)⋯φXn(t)
Sn∼B(n,p),那么Sn=∑i=1nXi,其中Xi是独立同分布的两点分布随机变量,那么
φSn(t)=φX1(t)φX2(t)⋯φXn(t)=(1−p+peit)n
注意计算特征函数的时候不要直接把求期望放到指数上,即
EeitX=eitEX
是不对的
唯一性问题
分布函数和特征函数相互唯一确定吗?
假设 X 和 Y 的分布函数相同,那么它们的特征函数相同是显然的;
但是,特征函数相同,X 和 Y 的分布函数是否相同呢?
即
φX(t)=φY(t),∀t∈R
是否能推出
FX(x)=FY(x),∀x∈R
φX(t)≡φY(t)
那么
X=dY,FX(x)≡FY(x)
实际上,
FX(x2)−FX(x1)=T→∞lim2π1∫−TTite−itx2−e−itx1⋅φX(t)dt
有推论:
如果 X 的特征函数 φ(t) 绝对可积,即
∫−∞∞∣φ(t)∣dt
那么 X 具有密度函数 p(x),并且
p(x)=2π1∫−∞∞e−itxφ(t)dt
如果是离散型,那么
假设 φ(t) 是一个特征函数,如果
φ(t)=k=−∞∑∞akeikt
并且
ak⩾0,k=−∞∑∞ak=1
那么
P(X=k)=ak,k=…,−2,−1,0,1,2,…,
注意,某些 ak 可能为 0。
假设 (X,Y) 是二元联合正态随机变量
(X,Y)∼N(μ1,σ12;μ2,σ22;ρ)
求:ϕ(t1,t2)=?
为简单起见,假设 μ1=0,σ12=1;μ2=0,σ22=1,即
(X,Y)∼N(0,1;0,1;ρ)
令
Σ=(1ρρ1)
作线性变换:
(UV)=Σ−1/2(XY)
=(1ρρ1)−1/2(XY)
这样,(U,V)∼N(0,1;0,1;0),即 U,V 相互独立。所以,
ϕU,V(t1,t2)=e−21(t12+t22)
=e−21(t1,t2)⋅(t1,t2)′
ϕX,Y(t1,t2)=Eei(t1,t2)(X,Y)′=Eei(t1,t2)Σ1/2(U,V)′=e−21(t1,t2)Σ(t1,t2)′
这里最后一个等号是运用了 ϕU,V特征函数的变量替换和转置的性质;
这种变换的方式很好用,可以把标准联合正态分布的相关系数变为0;
设X是一个多元随机向量,t=(t1,t2,…,tn)∈Rn,定义
φX(t)=Eeit⋅X
即两者做内积的期望;
常见分布
至今为止,概率论的数字特征部分已经结束,开始概率极限理论的学习之前,在此总结一下苏老师课上提到过的各种分布的表达,密度函数(或概率),期望,方差,特征函数;
退化分布,为离散型随机变量,取某个值的概率为1,其余取值的概率为0;
P(X=a)=1
期望为E(X)=a,方差为Var(X)=0,特征函数为eita;
即 伯努利分布 ,Bernoulli distribution,离散型
[1p01−p],p∈(0,1)
可以记为X∼B(1,p);
期望为E(X)=p,方差为Var(X)=p(1−p),特征函数为peit+1−p;
即 binomial distribution,离散型
P(ξ=k)=(nk)pk(1−p)n−k,p∈(0,1),k=0,1,⋯,n
记为 ξ∼B(n,p)
期望为E(X)=np,方差为Var(X)=np(1−p),特征函数为(peit+1−p)n;
即 Poisson distribution,离散型
P(ξ=k)=k!λke−λ,λ>0,k∈N
记为 ξ∼P(λ)
期望和方差均为λ,特征函数为eλ(eit−1),使用凑成泰勒展开推导;
即 geometry distribution,一般用于解决第一次成功的问题,离散型
P(ξ=k)=p(1−p)k−1,p∈(0,1),k∈N+
可以记为X∼G(p);(Geometric distribution)
期望为E(X)=p1,方差为Var(X)=p21−p,特征函数为1−(1−p)eitpeit;推导过程是等比数列求和.
即 hypergeometry distribution,一般用于解决次品抽样问题,离散型
P(ξ=k)=(Nn)(Mk)(N−Mn−k),n⩽N,M⩽N,k=0,1,⋯,min{n,M}
可以记为X∼H(N,M,n);(Hypergeometry distribution)
期望为E(X)=NnM,方差为Var(X)=NnM(1−NM)(N−1N−n),特征函数似乎没见过;
即 uniform distribution,连续型,有密度函数
f(x)={b−a1,0,a<x<bx⩽a or x⩾b
记为X∼U(a,b);
数学期望为E(X)=2a+b,方差为Var(X)=12(b−a)2,特征函数为it(b−a)eitb−eita;三者推导都是无情积分;
即 exponential distribution,连续型
f(x)={λe−λx,0,x⩾0x<0
记为X∼E(λ);
数学期望为E(X)=λ1,方差为Var(X)=λ21,特征函数为λ−itλ;
即 normal distribution,连续型,有密度函数
f(x)=2πσ1e−2σ2(x−μ)2
记为X∼N(μ,σ2);
数学期望为E(X)=μ,方差为Var(X)=σ2,特征函数为eiμt−21σ2t2;
特别地,X∼N(0,1)称为标准正态分布;其特征函数为e−21t2;
若ξ1,ξ2,⋯,ξn独立同分布于标准正态分布N(0,1),则称ξ12+ξ22+⋯+ξn2服从卡方分布,为连续型
有密度函数
f(x)=22vΓ(2v)1x2v−1e−2x
记为χ2∼χ2(v);
v 为自由度,指的是自由变量的个数(n−r),r 为约束条件的个数;
期望为E(χ2)=v,方差为Var(χ2)=2v,特征函数为(1−2it)−2v;
记忆较为繁琐,可以只记住伽马分布即可;
即 Gamma distribution,连续型,有密度函数
f(x)=Γ(α)λαxα−1e−λx
记为X∼Γ(α,λ);
期望为E(X)=λα,方差为Var(X)=λ2α;
特征函数为(1−λit)−α;
可以看到令λ=21,α=2v时,Γ分布即为χ2分布;