数字特征

592621 分钟阅读

数学期望

数学期望的定义

XX是一个离散型随机变量,XX的数学期望(或称为期望值)是XX所有可能取值的加权平均,记为E(X)E(X)μ\mu,即

E(X)=i=1nxiP(X=xi) E(X)=\sum_{i=1}^{n}x_iP(X=x_i)

其中,xix_iXX的可能取值,P(X=xi)P(X=x_i)XX取值为xix_i的概率。

XX是一个连续型随机变量,其概率密度函数为p(x)p(x),则XX的数学期望为

E(X)=+xp(x)dx E(X)=\int_{-\infty}^{+\infty}xp(x)dx

数学期望的意义在于,当随机变量XX独立重复地进行大量实验时,XX的平均值将趋于E(X)E(X)

数学期望跟参数有关,有几个参数就跟几个参数有关。

常见分布的数学期望

XB(n,p)X\sim B(n,p),则

E(X)=np E(X)=np

XP(λ)X\sim P(\lambda),则

E(X)=λ E(X)=\lambda

XG(p)X\sim G(p),则

E(X)=1p E(X)=\dfrac{1}{p}

XU(a,b)X\sim U(a,b),则

E(X)=a+b2 E(X)=\dfrac{a+b}{2}

XE(λ)X\sim E(\lambda),则

E(X)=1λ E(X)=\dfrac{1}{\lambda}

XN(μ,σ2)X\sim N(\mu,\sigma^2),则

E(X)=μ E(X)=\mu

XH(N,M,n)X\sim H(N,M,n),则

E(X)=nMN E(X)=n\dfrac{M}{N}

在计算数学期望的时候需要用到级数的知识,需要考虑到函数列是否一致收敛来运用逐项求导或者求积分,级数是否绝对收敛来判断是否可以用级数的重排;

Note

为了避免同一个随机变量因为排序不同造成的数学期望不同,我们要求

i=1xipi \sum_{i=1}^{\infty}x_ip_i

是绝对收敛的(i=1xipi\sum_{i=1}^{\infty}\lvert x_ip_i \rvert收敛),即该级数的任意一个重排都收敛于同一个值。 如果是连续型随机变量,则要求

+xp(x)dx \int_{-\infty}^{+\infty}\lvert xp(x) \rvert dx

可积。

数学期望的性质

  • {==有界==}:
aXbaE(X)b a \leqslant X \leqslant b \Rightarrow a \leqslant E(X) \leqslant b

即数学期望不会超过随机变量的取值范围。

  • {==线性运算==}
E(a+bY)=a+bE(Y) E(a+bY)=a+bE(Y)

从求和和积分的性质可以得到。

  • {==加法定理==}

随机变量加法的分布

假设 (X,Y)p(x,y)(X, Y) \sim p(x, y),那么 Z=X+YZ = X + Y 具有密度

pZ(z)=p(x,zx)dxp_Z(z) = \int_{-\infty}^{\infty} p(x, z - x) dx

所以

E(X+Y)=zpZ(z)dzE(X + Y) = \int_{-\infty}^{\infty} z p_Z(z) dz E(X+Y)=zpZ(z)dz=zp(x,zx)dxdz=(x+y)p(x,y)dxdy=xp(x,y)dxdy+yp(x,y)dxdy=xpX(x)dx+ypY(y)dy=EX+EY\begin{align*} E(X + Y) &= \int_{-\infty}^{\infty} z p_Z(z) dz \\ &= \int_{-\infty}^{\infty} z \int_{-\infty}^{\infty} p(x, z - x) dx dz\\ &= \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} (x + y) p(x, y) dx dy\\ &= \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} x p(x, y) dx dy + \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} y p(x, y) dx dy\\ &= \int_{-\infty}^{\infty} x p_X(x) dx + \int_{-\infty}^{\infty} y p_Y(y) dy\\ &= E X + E Y \end{align*}

推广:

E(a1X1+a2X2++amXm)=a1EX1+a2EX2++amEXmE(a_1 X_1 + a_2 X_2 + \cdots + a_m X_m) = a_1 E X_1 + a_2 E X_2 + \cdots + a_m E X_m
应用

假设 X1,X2,,XmX_1, X_2, \dots, X_m 是非负、独立同分布的随机变量,求

EX1++XkX1++XmE \frac{X_1 + \cdots + X_k}{X_1 + \cdots + X_m} EX1X1++Xm==EXmX1++XmE \frac{X_1}{X_1 + \cdots + X_m} = \cdots = E \frac{X_m}{X_1 + \cdots + X_m}

存在,有限。另外,

1=EX1++XmX1++Xm=EX1X1++Xm++EXmX1++Xm=mEX1X1++Xm\begin{align*} 1 &= E \frac{X_1 + \cdots + X_m}{X_1 + \cdots + X_m}\\ &= E \frac{X_1}{X_1 + \cdots + X_m} + \cdots + E \frac{X_m}{X_1 + \cdots + X_m}\\ &= m \cdot E \frac{X_1}{X_1 + \cdots + X_m}\\ \end{align*}

所以,

EX1X1++Xm=1mEX1++XkX1++Xm=kmE \frac{X_1}{X_1 + \cdots + X_m} = \frac{1}{m} \Rightarrow E \frac{X_1 + \cdots + X_k}{X_1 + \cdots + X_m} = \frac{k}{m}

加法定理计算期望

NN 是产品总数,MM 是次品数,现抽取 nn 件产品检查,其中 nMn \leq M
SnS_n 表示 nn 件抽查产品中次品的个数。那么

P(Sn=k)=(Mk)(NMnk)(Nn)P(S_n = k) = \frac{\binom{M}{k} \binom{N - M}{n - k}}{\binom{N}{n}}

下面给出 XX 的另一种表示:令 ξi\xi_i 表示第 ii-次抽检时次品个数,

Xi={1,p0,1pi=1,2,,n同分布,但是不独立X_i = \begin{cases} 1, & p \\ 0, & 1 - p \end{cases} \quad i = 1, 2, \dots, n,\operatorname{同分布,但是不独立}

那么

Sn=i=1nXiS_n = \sum_{i=1}^n X_i ESn=i=1nEXi=nMNE S_n = \sum_{i=1}^n E X_i = n \frac{M}{N}
Key Point

XiX_i指第ii次抽到的是不是次品,这相当于抽奖,无论抽奖顺序是什么,每个人抽到的概率都是一样的,所以XiX_i是同分布的,但是不独立。

如果随机变量XXYY独立,那么E(XY)=E(X)E(Y)E(XY)=E(X)E(Y),如果E(XY)=E(X)E(Y)E(XY)=E(X)E(Y),并不一定有XXYY独立。

随机变量函数的数学期望

随机变量函数的数学期望可以用以下公式来定义:

(Ω,F,P)(\Omega,\mathcal{F},P)是一个概率空间, X:ΩRX:\Omega \to \mathbf{R}是一个随机变量,g(X)g(X)XX 的一个实值可测函数,那么 g(X)g(X) 的数学期望 E[g(X)]E[g(X)] 定义为:

期望 E[g(X)]E[g(X)] 为:

E[g(X)]=xg(x)P(X=x) E[g(X)] = \sum_{x} g(x) P(X = x)

其中 P(X=x)P(X = x)XX 取值为 xx 的概率。

期望 E[g(X)]E[g(X)] 为:

E[g(X)]=g(x)fX(x)dx E[g(X)] = \int_{-\infty}^{\infty} g(x) f_X(x) \, dx

其中 fX(x)f_X(x)XX 的概率密度函数。

如果XX有分布函数,那么

E[g(X)]=g(x)fX(x)dx=g(x)dFX(x) E[g(X)] = \int_{-\infty}^{\infty} g(x) f_X(x) \, dx= \int_{-\infty}^{\infty} g(x) dF_X(x)

方差

Definition

方差是用来衡量随机变量偏离其均值的程度的指标。设 XX 是一个随机变量,其数学期望为 E(X)E(X),则 XX 的方差记作 Var(X)\operatorname{Var}(X)σ2\sigma^2,定义如下:

Var(X)=E[(XE(X))2]\operatorname{Var}(X) = E[(X - E(X))^2]

方差定义的是随机变量 XX 与其均值 E(X)E(X) 偏差的平方的期望。它反映了 XX 取值的分散程度。方差越大,说明 XX 的取值离均值越远,分散性越大;方差越小,说明 XX 的取值集中在均值附近,分散性较小。

Var(X)\sqrt{\operatorname{Var}(X)} 称为随机变量 XX 的标准差,记作σ\sigma

常见分布的方差

XB(n,p)X\sim B(n,p),则

Var(X)=np(1p) \operatorname{Var}(X)=np(1-p)

XP(λ)X\sim P(\lambda),则

Var(X)=λ \operatorname{Var}(X)=\lambda

对于泊松分布,方差等于数学期望,这是泊松分布的一个特性。

XG(p)X\sim G(p),则

Var(X)=1pp2 \operatorname{Var}(X)=\dfrac{1-p}{p^2}

XU(a,b)X\sim U(a,b),则

Var(X)=(ba)212 \operatorname{Var}(X)=\dfrac{(b-a)^2}{12}

XE(λ)X\sim E(\lambda),则

Var(X)=1λ2 \operatorname{Var}(X)=\dfrac{1}{\lambda^2}

XN(μ,σ2)X\sim N(\mu,\sigma^2),则

Var(X)=σ2 \operatorname{Var}(X)=\sigma^2

XH(N,M,n)X\sim H(N,M,n),则

Var(X)=nMNNMNNnN1 \operatorname{Var}(X)=n\dfrac{M}{N}\dfrac{N-M}{N}\dfrac{N-n}{N-1}

计算公式

可以通过以下公式计算方差:

Var(X)=E(X2)[E(X)]2\operatorname{Var}(X) = E(X^2) - [E(X)]^2
Proof

方差的定义是:

Var(X)=E[(XE(X))2]\operatorname{Var}(X) = E[(X - E(X))^2]

展开括号,得到:

Var(X)=E[X22XE(X)+(E(X))2]\operatorname{Var}(X) = E[X^2 - 2X \cdot E(X) + (E(X))^2]

利用期望的线性性质,得到:

Var(X)=E(X2)2E(X)E(X)+(E(X))2\operatorname{Var}(X) = E(X^2) - 2 E(X) \cdot E(X) + (E(X))^2

由于 E(X)E(X) 是一个常数,所以 E(X)E(X)=[E(X)]2E(X) \cdot E(X) = [E(X)]^2,因此可以简化为:

Var(X)=E(X2)[E(X)]2\operatorname{Var}(X) = E(X^2) - [E(X)]^2

该公式表明,计算方差时可以通过求 XX 的平方的期望 E(X2)E(X^2) 减去 XX 的期望的平方 [E(X)]2[E(X)]^2 来得到。这种形式通常更方便,尤其是在 E(X)E(X)E(X2)E(X^2) 容易求得的情况下,可以简化计算。

其中:

  • E(X2)E(X^2)XX 的平方的期望,即二阶矩。

  • [E(X)]2[E(X)]^2XX 的期望的平方。

方差的性质

  • {==非负性==}:

方差总是非负的,即 Var(X)0\operatorname{Var}(X) \geq 0

  • {==平移不变性==}

cc 为常数,则 Var(X+c)=Var(X)\operatorname{Var}(X + c) = \operatorname{Var}(X)

  • {==方差的线性变换==}

对于独立随机变量 YY ,以及常数 aabb,有

Var(a+bY)=b2Var(Y) \operatorname{Var}(a + bY) = b^2 \operatorname{Var}(Y)
  • {==方差的加法==}

对于独立随机变量 XXYY,有

Var(X+Y)=Var(X)+Var(Y)+2Cov(X,Y) \operatorname{Var}(X + Y) = \operatorname{Var}(X) + \operatorname{Var}(Y)+2\operatorname{Cov}(X,Y)

其中,Cov(X,Y)\operatorname{Cov}(X,Y)XXYY 的协方差,即

Cov(X,Y)=E[(XE(X))(YE(Y))]=E(XY)E(X)E(Y) \operatorname{Cov}(X,Y) = E[(X - E(X))(Y - E(Y))]=E(XY)-E(X)E(Y)

如果X,YX,Y相互独立,则Cov(X,Y)=0\operatorname{Cov}(X,Y)=0,所以

Var(X+Y)=Var(X)+Var(Y) \operatorname{Var}(X + Y) = \operatorname{Var}(X) + \operatorname{Var}(Y)

可推广到多个独立随机变量的情况。

选择平均值的原因

在计算方差时,我们通常使用平均值作为中心点,而不是其他值。这是因为平均值是使方差最小的点。也就是说,对于任何实数 cc,有

Var(X)=E[(Xc)2]E[(XE(X))2]=Var(X) \operatorname{Var'}(X) = E[(X - c)^2] \geqslant E[(X - E(X))^2] = \operatorname{Var}(X)
Proof
Var(X)=E(XEX)2=E(Xc(EXc))2=E(Xc)22E(Xc)(EXc)+E(EXc)2=E(Xc)2(EXc)2E(Xc)2\begin{align*} \operatorname{Var}(X)&=E(X-EX)^2\\ &=E(X-c-(EX-c))^2\\ &=E(X-c)^2-2E(X-c)(EX-c)+E(EX-c)^2\\ &=E(X-c)^2-(EX-c)^2 \leqslant E(X-c)^2 \end{align*}

切比雪夫不等式(Chebyschev)

(Ω,A,P)(\Omega, \mathcal{A}, P) 是概率空间, X:ΩRX : \Omega \rightarrow \mathbb{R} 是随机变量,那么对任意 ε>0\varepsilon > 0

P(XEX>ε)Var(X)ε2P(|X - EX| > \varepsilon) \leqslant \frac{\operatorname{Var}(X)}{\varepsilon^2}
Note

切比雪夫不等式给出了随机变量偏离其均值大于某个精度的概率的上界。

仅取 Xp(x)X \sim p(x) 加以证明。

P(XEX>ε)=x:xEX>εp(x)dxP(|X - EX| > \varepsilon) = \int_{x: |x - EX| > \varepsilon} p(x) \, dx x:xEX>εxEX2ε2p(x)dx\leqslant \int_{x: |x - EX| > \varepsilon} \frac{|x - EX|^2}{\varepsilon^2} p(x) \, dx 1ε2xEX2p(x)dx\leqslant \frac{1}{\varepsilon^2} \int_{-\infty}^{\infty} |x - EX|^2 p(x) \, dx =Var(X)ε2= \frac{\operatorname{Var}(X)}{\varepsilon^2}
推广

ff 是单调不减严格正函数,那么

P(X>ε)Ef(X)f(ε)P(X > \varepsilon) \leqslant \frac{E f(X)}{f(\varepsilon)}

事实上,使用了Markov不等式:

P(X>ε)P(f(X)f(ε))Ef(X)f(ε)P(X > \varepsilon) \leqslant P(f(X) \geqslant f(\varepsilon)) \leqslant \frac{E f(X)}{f(\varepsilon)}

协方差矩阵

均值向量

对于一个随机向量 X=(X1,X2,,Xn)X = (X_1, X_2, \dots, X_n),如果XiX_i的数学期望存在;其均值向量 μ\mu 定义为:

μ=E(X)=(E(X1),E(X2),,E(Xn))\mu = E(X) = (E(X_1), E(X_2), \dots, E(X_n))

协方差

假设XXYY是两个随机变量,且两者的数学期望和方差都存在,那么XXYY的协方差定义为:

Cov(X,Y)=E[(XE(X))(YE(Y))]\operatorname{Cov}(X, Y) = E[(X - E(X))(Y - E(Y))]

协方差也可以表示为:

Cov(X,Y)=E(XY)E(X)E(Y)\operatorname{Cov}(X, Y) = E(XY) - E(X)E(Y)
Cauchy-Schwarz不等式

对于任意两个随机变量XXYY,有

Cov(X,Y)2Var(X)Var(Y) \operatorname{Cov}(X, Y)^2 \leq \operatorname{Var}(X) \operatorname{Var}(Y) E[(XE(X))(YE(Y))]E[(XE(X))2]E[(YE(Y))2] E[(X - E(X))(Y - E(Y))] \leqslant \sqrt{E[(X - E(X))^2]E[(Y - E(Y))^2]}

运用任意实数tt,满足

E[(X+tY)2]0 E[(|X|+t|Y|)^2] \geqslant 0

展开利用二次函数的性质即可;

协方差矩阵为

Σ=[Var(X1)Cov(X1,X2)Cov(X1,Xn)Cov(X2,X1)Var(X2)Cov(X2,Xn)Cov(Xn,X1)Cov(Xn,X2)Var(Xn)]\Sigma = \begin{bmatrix} \operatorname{Var}(X_1) & \operatorname{Cov}(X_1, X_2) & \cdots & \operatorname{Cov}(X_1, X_n) \\ \operatorname{Cov}(X_2, X_1) & \operatorname{Var}(X_2) & \cdots & \operatorname{Cov}(X_2, X_n) \\ \vdots & \vdots & \ddots & \vdots \\ \operatorname{Cov}(X_n, X_1) & \operatorname{Cov}(X_n, X_2) & \cdots & \operatorname{Var}(X_n) \end{bmatrix}

对于二元随机变量 X=(X1,X2)X = (X_1, X_2),协方差矩阵为

Σ=[Var(X1)Cov(X1,X2)Cov(X2,X1)Var(X2)]\Sigma = \begin{bmatrix} \operatorname{Var}(X_1) & \operatorname{Cov}(X_1, X_2) \\ \operatorname{Cov}(X_2, X_1) & \operatorname{Var}(X_2) \end{bmatrix}
Key Point

协方差矩阵是一个非负定矩阵,即对于任意非零列向量 aa,有 aTΣa0a^T \Sigma a \geq 0

如果XX, YY相互独立,此时 E(XY)=E(X)E(Y)E(XY)=E(X)E(Y) 那么Cov(X,Y)=0\operatorname{Cov}(X, Y) = 0,反之,如果Cov(X,Y)=0\operatorname{Cov}(X, Y) = 0,并不一定有XXYY相互独立,但是可以定义为{==不相关==}。

Example

二元联合正态分布的协方差为ρσ1σ2\rho \sigma_1 \sigma_2

相关系数

Definition

二元函数的相关系数(Correlation Coefficient)用来衡量两个随机变量 XXYY 之间的线性关系,其定义基于协方差和标准差,计算公式如下:

ρ(X,Y)=Cov(X,Y)σXσY\rho(X, Y) = \frac{\operatorname{Cov}(X, Y)}{\sigma_X \cdot \sigma_Y}

其中:

  • Cov(X,Y)\operatorname{Cov}(X, Y)XXYY 的协方差,定义为:
Cov(X,Y)=E[(XE[X])(YE[Y])]=E[XY]E[X]E[Y] \operatorname{Cov}(X, Y) = \mathbb{E}[(X - \mathbb{E}[X])(Y - \mathbb{E}[Y])] = \mathbb{E}[XY] - \mathbb{E}[X] \cdot \mathbb{E}[Y]
  • σX\sigma_XσY\sigma_Y 分别是 XXYY 的标准差,定义为:
σX=Var(X),σY=Var(Y) \sigma_X = \sqrt{\operatorname{Var}(X)}, \quad \sigma_Y = \sqrt{\operatorname{Var}(Y)}

其中方差为:

Var(X)=E[(XE[X])2] \operatorname{Var}(X) = \mathbb{E}[(X - \mathbb{E}[X])^2]
  1. 取值范围:
1ρ(X,Y)1 -1 \leq \rho(X, Y) \leq 1
  • ρ(X,Y)=1\rho(X, Y) = 1 时,XXYY 完全正线性相关。
  • ρ(X,Y)=1\rho(X, Y) = -1 时,XXYY 完全负线性相关。
  • ρ(X,Y)=0\rho(X, Y) = 0 时,XXYY 没有线性关系,但不一定独立。
  1. 无量纲性: ρ(X,Y)\rho(X, Y) 是一个无量纲量,反映的是两变量线性关系的强弱,与变量的量纲无关。

  2. 对称性:

ρ(X,Y)=ρ(Y,X) \rho(X, Y) = \rho(Y, X)

一般也用γ\gamma来表示相关系数

条件期望

对于两个随机变量X,Y,其条件期望定义为:

给定Y=yiY=y_i,XX的条件期望定义为

E(XY=yi)=i=1xiP(X=xiY=yi) E(X|Y=y_i)=\sum_{i=1}^\infty x_i P(X=x_i|Y=y_i)

要求该级数绝对收敛

若给定XX,YY的条件期望也是类似

P(X=xY=y)=p(x,y)pY(y) P(X=x|Y=y)=\dfrac{p(x,y)}{p_Y(y)}

所以

E(X=xY=y)=+xP(X=xY=y)dx E(X=x|Y=y)=\int_{-\infty}^{+\infty} x P(X=x|Y=y) dx

要求该积分绝对可积

若给定XX,YY的条件期望也是类似

全期望公式

P(X=xi,Y=yj)=pij,i,j=1,2,P(X = x_i, Y = y_j) = p_{ij}, \quad i, j = 1, 2, \ldots

每一个 yjy_j,对应一个条件期望 E(XY=yj)E(X|Y = y_j),即

yjE(XY=yj)y_j \rightarrow E(X|Y = y_j)

定义

g(yj)=E(XY=yj)g(y_j) = E(X|Y = y_j)

g(Y)=E(XY)g(Y) = E(X|Y)

它是 YY 的函数,所以是随机变量。求 Eg(Y)Eg(Y)

Eg(Y)=j=1g(yj)P(Y=yj)Eg(Y) = \sum_{j=1}^{\infty} g(y_j) P(Y = y_j) =j=1i=1xiP(X=xiY=yj)P(Y=yj)= \sum_{j=1}^{\infty} \sum_{i=1}^{\infty} x_i P(X = x_i | Y = y_j) P(Y = y_j) =i=1xij=1P(X=xiY=yj)P(Y=yj)= \sum_{i=1}^{\infty} x_i \sum_{j=1}^{\infty} P(X = x_i | Y = y_j) P(Y = y_j) =i=1xiP(X=xi)= \sum_{i=1}^{\infty} x_i P(X = x_i) =EX= E X
Key Point

E(E(XY))=EXE(E(X|Y))=EX,E(E(YX))=EYE(E(Y|X))=EY 这个结论对于离散,随机,连续变量都成立

  • k 阶矩,k 阶中心矩:

    假设 (Ω,A,P)(\Omega, \mathcal{A}, P) 概率空间,X:ΩRX: \Omega \to \mathbb{R} 随机变量
    如果 EXk<,k1E|X|^k < \infty, k \geqslant 1,那么称

EXk,k 阶矩 k1 E X^k, \quad k \text{ 阶矩 } k \geq 1 E(XEX)k,k 阶中心矩 k1 E(X - E X)^k, \quad k \text{ 阶中心矩 } k \geq 1
Example

XN(0,σ2)X \sim N(0, \sigma^2),那么

EXk<,k1E|X|^k < \infty, \quad k \geq 1

并且

EX2k=(2k1)!!σ2k,EX2k+1=0,k1EX^{2k} = (2k - 1)!! \sigma^{2k}, \quad EX^{2k + 1} = 0, \quad k \geq 1 EX2k=x2k12πex22dxEX^{2k} = \int_{-\infty}^{\infty} x^{2k} \frac{1}{\sqrt{2\pi}} e^{-\frac{x^2}{2}} \, dx =x2k112πdex22= -\int_{-\infty}^{\infty} x^{2k - 1} \frac{1}{\sqrt{2\pi}} d e^{-\frac{x^2}{2}} =x2k112πex22+(2k1)x2k212πex22dx= -x^{2k-1} \frac{1}{\sqrt{2\pi}} e^{-\frac{x^2}{2}} \bigg|_{-\infty}^{\infty} + (2k - 1) \int_{-\infty}^{\infty} x^{2k - 2} \frac{1}{\sqrt{2\pi}} e^{-\frac{x^2}{2}} \, dx =(2k1)EX2k2= (2k - 1) E X^{2k - 2} EX2k=(2k1)EX2k2==(2k1)(2k3)1=(2k1)!!EX^{2k} = (2k - 1) E X^{2k - 2} = \cdots = (2k - 1)(2k - 3) \cdots 1 = (2k - 1)!!

XP(λ)X \sim \mathcal{P}(\lambda),那么

EXk<,k1E|X|^k < \infty, \quad k \geq 1

并且

EX(X1)(X(k1))=λk,k1E X (X - 1) \cdots (X - (k - 1)) = \lambda^k, \quad k \geq 1 \downarrow EX2=EX(X1)+EXE X^2 = E X (X - 1) + E X EX3=EX(X1)(X2)+3EX(X1)+EXE X^3 = E X (X - 1)(X - 2) + 3 E X (X - 1) + E X EX4=EX(X1)(X2)(X3)+6EX(X1)(X2)+7EX(X1)+EXE X^4 = E X (X - 1)(X - 2)(X - 3) + 6 E X (X - 1)(X - 2) + 7 E X (X - 1) + E X EXk=EX(X1)(X(k1))+E X^k = E X (X - 1) \cdots (X - (k - 1)) + \cdots
Warining

一般来说,随机变量任意K阶矩都相等,并不能保证随机变量的分布相同。但是正态分布和泊松分布可以由k阶矩来确定。

定理

假设 X,YX, Y 是两个随机变量,并且对任意 k1k \geq 1,

EXk=EYk=mk<E X^k = E Y^k = m_k < \infty

如果下列三个条件之一成立:

(i)

k=1m2kt2k(2k)!<,对某些 t>0\sum_{k=1}^{\infty} \frac{m_{2k} t^{2k}}{(2k)!} < \infty, \quad \text{对某些 } t > 0

(ii)

k=1m2k1/2k=\sum_{k=1}^{\infty} m_{2k}^{-1/2k} = \infty

(iii)

lim supkmk1/k<\limsup_{k \to \infty} |m_k|^{1/k} < \infty

那么

XdYX \overset{d}{\equiv} Y

特征函数

(Ω,A,P),X:ΩR,XFX(x)(\Omega, A, P), X : \Omega \to \mathbb{R}, X \sim F_X(x). 定义

φ(t)=EeitX,tR\varphi(t) = E e^{itX}, \quad t \in \mathbb{R}

其中

EeitX=EcostX+iEsintXE e^{itX} = E \cos tX + iE \sin tX

一定存在有限。

[\varphi(t) : \mathbb{R} \to \mathbb{C}]

{==实变量复值函数==}

目的:利用复分析研究随机变量的分布性质。

意义:对概率论的发展起着重要作用。

常见分布的特征函数

XX是一个常数cc,那么

φ(t)=eict\varphi(t) = e^{ict}

XX是一个两点分布,P(X=1)=p,P(X=0)=1pP(X = 1) = p, \quad P(X = 0) = 1 - p,那么

φ(t)=peit+1p\varphi(t) = pe^{it} + 1 - p

XB(n,p)X \sim B(n, p),那么

φ(t)=(1p+peit)n\varphi(t) = (1 - p + pe^{it})^n

XP(λ)X \sim P(\lambda),那么

φ(t)=eλ(eit1)\varphi(t) = e^{\lambda (e^{it} - 1)}

XU(a,b)X \sim U(a, b),那么

φ(t)=eitbeitait(ba)\varphi(t) = \frac{e^{itb} - e^{ita}}{it(b-a)}

XE(λ)X \sim E(\lambda),那么

φ(t)=λλit\varphi(t) = \frac{\lambda}{\lambda - it}

XN(0,1)X \sim N(0, 1),那么

φ(t)=et22\varphi(t) = e^{-\frac{t^2}{2}}

普通的正态分布

eitμσ2t22 e^{it\mu-\frac{\sigma^2t^2}{2}}

特征函数的分析性质

  1. φ(0)=1\varphi(0) = 1

  2. φ(t)1=φ(0)|\varphi(t)| \leqslant 1 = \varphi(0) {==模长有界==}

  3. φ(t)=φ(t)\varphi(-t) = \overline{\varphi(t)} {==共轭对称==}

  4. φ(t)\varphi(t)R\mathbb{R} 上一致连续。

  5. Bochner 非负定性

对于任何实数 t1,t2,,tnt_1, t_2, \ldots, t_n,任何复数 a1,a2,,ana_1, a_2, \ldots, a_n

k,l=1nakalˉφ(tktl)0\sum_{k,l=1}^{n} a_k \bar{a_l} \varphi(t_k - t_l) \geqslant 0
  1. 可微性

假设 EX<,EX=μE|X| < \infty, \quad EX = \mu,那么

φ(t) 可微\varphi(t) \text{ 可微}

并且

φ(0)=iμ\varphi'(0) = i\mu

事实上,

φ(t)=eitxdF(x).\varphi(t) = \int_{-\infty}^{\infty} e^{itx} dF(x).

因为

xdF(x)<,\int_{-\infty}^{\infty} |x| dF(x) < \infty,

eitxe^{itx}求导之后被一个可积函数控制,

所以

φ(t)=ixeitxdF(x)\varphi'(t) = \int_{-\infty}^{\infty} ix e^{itx} dF(x) =ixeitxdF(x)= i \int_{-\infty}^{\infty} x e^{itx} dF(x)

类似地,如果 EXk<E|X|^k < \infty,那么

φ(k)(t)=ikxkeitxdF(x)\varphi^{(k)}(t) = i^k \int_{-\infty}^{\infty} x^k e^{itx} dF(x)

特别,如果 EX<E|X| < \infty,那么 φ(t)\varphi(t) 在 0 处可以进行 kk 次展开:

φ(t)=φ(0)+φ(0)t+φ(0)2!t2++φ(k)(0)k!tk+o(tk)\varphi(t) = \varphi(0) + \varphi'(0)t + \frac{\varphi''(0)}{2!} t^2 + \cdots + \frac{\varphi^{(k)}(0)}{k!} t^k + o(t^k) =1+iEXtEX22t2++ikEXkk!tk+o(tk),t0= 1 + iEXt - \frac{EX^2}{2} t^2 + \cdots + \frac{i^k EX^k}{k!} t^k + o(t^k), \quad t \to 0

特征函数的运算性质

  • XX 的特征函数为 φX(t)\varphi_X(t),那么
E[eit(aX+c)]=eitcφX(at)E[e^{it(aX+c)}] = e^{itc} \varphi_X(at)

如果 YN(μ,σ2)Y \sim N(\mu, \sigma^2),那么可写成

Y=σX+μ,XN(0,1)Y = \sigma X + \mu, \quad X \sim N(0, 1)

因此,

φY(t)=eiμtσ2t22\varphi_Y(t) = e^{i\mu t - \frac{\sigma^2 t^2}{2}}
  • XXYY 为两个随机变量,那么
Z=X+Y Z = X + Y φZ(t)=φX(t)φY(t)\varphi_Z(t) = \varphi_X(t) \varphi_Y(t)

在{==X,Y相互独立==}的情况下,这个公式成立。

推广:

如果 X1,X2,,XnX_1, X_2, \ldots, X_n 相互独立,那么

φX1+X2++Xn(t)=φX1(t)φX2(t)φXn(t)\varphi_{X_1 + X_2 + \cdots + X_n}(t) = \varphi_{X_1}(t) \varphi_{X_2}(t) \cdots \varphi_{X_n}(t)
Eg

SnB(n,p)S_n \sim B(n,p),那么Sn=i=1nXiS_n =\sum_{i=1}^n X_i,其中XiX_i是独立同分布的两点分布随机变量,那么

φSn(t)=φX1(t)φX2(t)φXn(t)=(1p+peit)n\varphi_{S_n}(t) = \varphi_{X_1}(t) \varphi_{X_2}(t) \cdots \varphi_{X_n}(t) = (1-p+pe^{it})^n
Warning

注意计算特征函数的时候不要直接把求期望放到指数上,即

EeitXeitEX Ee^{itX} \neq e^{itEX}

是不对的

唯一性问题

分布函数和特征函数相互唯一确定吗?

假设 XXYY 的分布函数相同,那么它们的特征函数相同是显然的;

但是,特征函数相同,XXYY 的分布函数是否相同呢?

φX(t)=φY(t),tR\varphi_X(t) = \varphi_Y(t), \quad \forall t \in \mathbb{R}

是否能推出

FX(x)=FY(x),xRF_X(x) = F_Y(x), \quad \forall x \in \mathbb{R}
唯一性定理
φX(t)φY(t)\varphi_X(t) \equiv \varphi_Y(t)

那么

X=dY,FX(x)FY(x)X \overset{d}{=} Y, \quad F_X(x) \equiv F_Y(x)

实际上,

FX(x2)FX(x1)=limT12πTTeitx2eitx1itφX(t)dtF_X(x_2) - F_X(x_1) = \lim_{T \to \infty} \frac{1}{2\pi} \int_{-T}^{T} \frac{e^{-itx_2} - e^{-itx_1}}{it} \cdot \varphi_X(t) dt

有推论:

如果 XX 的特征函数 φ(t)\varphi(t) 绝对可积,即

φ(t)dt\int_{-\infty}^{\infty} |\varphi(t)| dt

那么 XX 具有密度函数 p(x)p(x),并且

p(x)=12πeitxφ(t)dtp(x) = \frac{1}{2\pi} \int_{-\infty}^{\infty} e^{-itx} \varphi(t) dt

如果是离散型,那么 假设 φ(t)\varphi(t) 是一个特征函数,如果

φ(t)=k=akeikt\varphi(t) = \sum_{k=-\infty}^{\infty} a_k e^{ikt}

并且

ak0,k=ak=1a_k \geqslant 0, \quad \sum_{k=-\infty}^{\infty} a_k = 1

那么

P(X=k)=ak,k=,2,1,0,1,2,,P(X = k) = a_k, \quad k = \ldots, -2, -1, 0, 1, 2, \ldots,

注意,某些 aka_k 可能为 0。

Example

假设 (X,Y)(X, Y) 是二元联合正态随机变量

(X,Y)N(μ1,σ12;μ2,σ22;ρ)(X, Y) \sim N(\mu_1, \sigma_1^2; \mu_2, \sigma_2^2; \rho)

求:ϕ(t1,t2)=?\phi(t_1, t_2) = ?

为简单起见,假设 μ1=0,σ12=1;μ2=0,σ22=1\mu_1 = 0, \sigma_1^2 = 1; \mu_2 = 0, \sigma_2^2 = 1,即

(X,Y)N(0,1;0,1;ρ)(X, Y) \sim N(0, 1; 0, 1; \rho)

Σ=(1ρρ1)\Sigma = \begin{pmatrix} 1 & \rho \\ \rho & 1 \end{pmatrix}

作线性变换:

(UV)=Σ1/2(XY)\begin{pmatrix} U \\ V \end{pmatrix} = \Sigma^{-1/2} \begin{pmatrix} X \\ Y \end{pmatrix} =(1ρρ1)1/2(XY)= \begin{pmatrix} 1 & \rho \\ \rho & 1 \end{pmatrix}^{-1/2} \begin{pmatrix} X \\ Y \end{pmatrix}

这样,(U,V)N(0,1;0,1;0)(U, V) \sim N(0, 1; 0, 1; 0),即 U,VU, V 相互独立。所以,

ϕU,V(t1,t2)=e12(t12+t22)\phi_{U,V}(t_1, t_2) = e^{-\frac{1}{2}(t_1^2 + t_2^2)} =e12(t1,t2)(t1,t2)= e^{-\frac{1}{2}(t_1, t_2) \cdot (t_1, t_2)'} ϕX,Y(t1,t2)=Eei(t1,t2)(X,Y)=Eei(t1,t2)Σ1/2(U,V)=e12(t1,t2)Σ(t1,t2)\begin{align*} \phi_{X,Y}(t_1, t_2) &= E e^{i(t_1, t_2)(X, Y)'} \\ &= E e^{i(t_1, t_2) \Sigma^{1/2} (U, V)'} \\ &= e^{-\frac{1}{2} (t_1, t_2) \Sigma (t_1, t_2)'} \end{align*}

这里最后一个等号是运用了 ϕU,V\phi_{U,V}特征函数的变量替换和转置的性质;

这种变换的方式很好用,可以把标准联合正态分布的相关系数变为0;

多元随机向量的特征函数

X\mathbf{X}是一个多元随机向量,t=(t1,t2,,tn)Rn\mathbf{t}=(t_1,t_2,\ldots,t_n) \in \mathbb{R}^n,定义

φX(t)=EeitX\varphi_{\mathbf{X}}(\mathbf{t}) = Ee^{i\mathbf{t}\cdot\mathbf{X}}

即两者做内积的期望;

常见分布

至今为止,概率论的数字特征部分已经结束,开始概率极限理论的学习之前,在此总结一下苏老师课上提到过的各种分布的表达,密度函数(或概率),期望,方差,特征函数;

退化分布,为离散型随机变量,取某个值的概率为1,其余取值的概率为0;

P(X=a)=1P(X=a)=1

期望为E(X)=aE(X)=a,方差为Var(X)=0Var(X)=0,特征函数为eitae^{ita};

伯努利分布 ,Bernoulli distribution,离散型

[10p1p],p(0,1)\left[ \begin{matrix} 1&0\\ p&1-p \end{matrix} \right],p\in (0,1)

可以记为XB(1,p)X\sim B(1,p);

期望为E(X)=pE(X)=p,方差为Var(X)=p(1p)Var(X)=p(1-p),特征函数为peit+1ppe^{it}+1-p;

即 binomial distribution,离散型

P(ξ=k)=(nk)pk(1p)nk,p(0,1),k=0,1,,nP(\xi=k)=\begin{pmatrix} n\\k \end{pmatrix} p^k(1-p)^{n-k},p\in (0,1),k=0,1,\cdots,n

记为 ξB(n,p)\xi\sim B(n,p)

期望为E(X)=npE(X)=np,方差为Var(X)=np(1p)Var(X)=np(1-p),特征函数为(peit+1p)n(pe^{it}+1-p)^n;

即 Poisson distribution,离散型

P(ξ=k)=λkk!eλ,λ>0,kNP(\xi=k)=\frac{\lambda^k}{k!}e^{-\lambda} ,\lambda>0,k\in \mathbb N

记为 ξP(λ)\xi\sim\mathcal{P}(\lambda)

期望和方差均为λ\lambda,特征函数为eλ(eit1)e^{\lambda(e^{it}-1)},使用凑成泰勒展开推导;

即 geometry distribution,一般用于解决第一次成功的问题,离散型

P(ξ=k)=p(1p)k1,p(0,1),kN+P(\xi=k)=p(1-p)^{k-1},p\in (0,1),k\in \mathbb{N}_+

可以记为XG(p)X\sim G(p);(Geometric distribution)

期望为E(X)=1pE(X)=\frac{1}{p},方差为Var(X)=1pp2Var(X)=\frac{1-p}{p^2},特征函数为peit1(1p)eit\frac{pe^{it}}{1-(1-p)e^{it}};推导过程是等比数列求和.

即 hypergeometry distribution,一般用于解决次品抽样问题,离散型

P(ξ=k)=(Mk)(NMnk)(Nn),nN,MN,k=0,1,,min{n,M}P(\xi=k)=\frac{\displaystyle \begin{pmatrix} M\\k \end{pmatrix} \begin{pmatrix} N-M\\n-k \end{pmatrix} }{\displaystyle \begin{pmatrix} N\\n \end{pmatrix}} ,n\leqslant N,M\leqslant N,k=0,1,\cdots, \min\{n,M\}

可以记为XH(N,M,n)X\sim H(N,M,n);(Hypergeometry distribution)

期望为E(X)=nMNE(X)=\frac{nM}{N},方差为Var(X)=nMN(1MN)(NnN1)Var(X)=\frac{nM}{N}(1-\frac{M}{N})(\frac{N-n}{N-1}),特征函数似乎没见过;

即 uniform distribution,连续型,有密度函数

f(x)={1ba,a<x<b0,xa or xbf(x)=\begin{cases} \frac{1}{b-a},&a<x<b\\ 0,&x\leqslant a \text{ or } x\geqslant b \end{cases}

记为XU(a,b)X\sim U(a,b);

数学期望为E(X)=a+b2E(X)=\frac{a+b}{2},方差为Var(X)=(ba)212Var(X)=\frac{(b-a)^2}{12},特征函数为eitbeitait(ba)\frac{e^{itb}-e^{ita}}{it(b-a)};三者推导都是无情积分;

即 exponential distribution,连续型

f(x)={λeλx,x00,x<0f(x)=\begin{cases} \lambda e^{-\lambda x},&x\geqslant 0\\ 0,&x<0 \end{cases}

记为XE(λ)X\sim E(\lambda);

数学期望为E(X)=1λE(X)=\frac{1}{\lambda},方差为Var(X)=1λ2Var(X)=\frac{1}{\lambda^2},特征函数为λλit\frac{\lambda}{\lambda-it};

即 normal distribution,连续型,有密度函数

f(x)=12πσe(xμ)22σ2f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}

记为XN(μ,σ2)X\sim N(\mu,\sigma^2);

数学期望为E(X)=μE(X)=\mu,方差为Var(X)=σ2Var(X)=\sigma^2,特征函数为eiμt12σ2t2e^{i\mu t-\frac{1}{2}\sigma^2 t^2}; 特别地,XN(0,1)X\sim N(0,1)称为标准正态分布;其特征函数为e12t2e^{-\frac{1}{2}t^2};

ξ1,ξ2,,ξn\xi_1,\xi_2,\cdots,\xi_n独立同分布于标准正态分布N(0,1)N(0,1),则称ξ12+ξ22++ξn2\xi_1^2+\xi_2^2+\cdots+\xi_n^2服从卡方分布,为连续型

有密度函数

f(x)=12v2Γ(v2)xv21ex2 f(x)=\frac{1}{2^{\frac{v}{2}}\Gamma(\frac{v}{2})}x^{\frac{v}{2}-1}e^{-\frac{x}{2}}

记为χ2χ2(v)\chi^2 \sim \chi^2(v);

vv 为自由度,指的是自由变量的个数(nrn-r),rr 为约束条件的个数;

期望为E(χ2)=vE(\chi^2)=v,方差为Var(χ2)=2vVar(\chi^2)=2v,特征函数为(12it)v2(1-2it)^{-\frac{v}{2}};

记忆较为繁琐,可以只记住伽马分布即可;

即 Gamma distribution,连续型,有密度函数

f(x)=λαΓ(α)xα1eλxf(x)=\frac{\lambda^\alpha}{\Gamma(\alpha)}x^{\alpha-1}e^{-\lambda x}

记为XΓ(α,λ)X\sim \Gamma(\alpha,\lambda);

期望为E(X)=αλE(X)=\frac{\alpha}{\lambda},方差为Var(X)=αλ2Var(X)=\frac{\alpha}{\lambda^2};

特征函数为(1itλ)α(1-\dfrac{it}{\lambda})^{-\alpha};

可以看到令λ=12,α=v2\lambda=\dfrac{1}{2},\alpha=\dfrac{v}{2}时,Γ\Gamma分布即为χ2\chi^2分布;