PaS

概率公理

分布率(分布列)

离散型随机变量的分布律,需要画一个表,类似:

图片image-1

随机变量的分布函数

F(x)=P(Xx)F(x) = P(X\leq x)

0-1分布

P(X=k)={p,k=11p,k=0P(X=k)=\begin{cases} p, & k=1\\ 1-p, & k=0 \end{cases}

也可以写成

P(X=k)=pk(1p)1kk=0,1P(X = k) = p^k(1 - p)^{1-k} \quad k = 0,1

二项分布

P(X=k)=Cnkpk(1p)nkk=0,1,,nP(X = k) = C_n^kp^k(1-p)^{n-k}\quad k = 0, 1, \cdots, n

Poisson分布

[0,1][0,1]线段上每个点发生事件的概率密度为常数λ\lambda,发生事件个数随机变量为XX,则有

P(X=k)=limnCnkpk(1p)nkP(X = k) = \lim_{n\to \infty} C_n^kp^k(1-p)^{n-k}

(当nn非常大的时候,我们可以认为每一个区间内只有可能发生一个事件)

其中p=λnp=\frac{\lambda}{n}

P(X=k)=limnCnkpk(1p)nk=limnn(n1)(n2)(nk+1)k!(λn)k(1λn)nk=limnλkk!(1λn)nk=limnλkk![(1λn)nλ]λ=λkk!eλ\begin{aligned}P(X = k) &= \lim_{n\to \infty} C_n^kp^k(1-p)^{n-k}\\ &= \lim_{n\to\infty}\frac{n(n - 1)(n-2)\cdots(n-k+1)}{k!}(\frac{\lambda}{n})^k(1-\frac{\lambda}{n})^{n-k}\\ &= \lim_{n\to \infty} \frac{\lambda^k}{k!}(1-\frac{\lambda}{n})^{n-k}\\ &=\lim_{n\to\infty}\frac{\lambda^k}{k!}[(1 - \frac{\lambda}{n})^{\frac{n}{\lambda}}]^\lambda\\ &=\frac{\lambda^k}{k!}e^{-\lambda} \end{aligned}

所以称P(X=k)=λkk!eλk=0,1,2,P(X=k)=\frac{\lambda^k}{k!}e^{-\lambda}\quad k=0,1,2,\cdots为Poisson分布。

证明这个分布是分布列:

k=0λkk!eλ=eλk=0λkk!=eλeλ=1\begin{aligned}&\sum_{k=0}^{\infty} \frac{\lambda^k}{k!}e^{-\lambda}\\ =&e^{-\lambda}\sum_{k=0}^{\infty} \frac{\lambda^k}{k!}\\ =&e^{-\lambda}e^{\lambda} =1 \end{aligned}

随机变量的概率密度函数

XX是⼀随机变量,F(x)F(x)是它的分布函数,若存在⼀个⾮负可积函数f(x)f(x)使得

F(x)=xf(t)dtF(x) = \int_{-\infty}^{x} f(t)\mathrm d t

可写作fX(x)f_X(x),具有

  • 非负性;
  • 规范性:F(+)=1F(+\infty)=1

虽然概率密度函数不唯一,但是一般取F(x)F(x)的导数就好了。

几个概率密度函数

  1. 均匀分布

f(x)={0xaorxb1baa<x<bf(x) = \begin{cases} 0 & x \leq a\, \text{or}\, x\geq b\\ \frac{1}{b - a} & a < x < b \end{cases}

  1. 指数分布

f(x)={λeλxx>00x0f(x) = \begin{cases} \lambda e^{-\lambda x} & x > 0\\ 0 & x \leq 0 \end{cases}

此时

F(x)={1eλxx>00x0F(x) = \begin{cases} 1 - e^{-\lambda x} & x > 0\\ 0 & x \leq 0 \end{cases}

  1. 正态分布

f(x)=12πσe(xμ)22σ2f(x) = \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x - \mu)^2}{2\sigma^2}}

其中μ\mu为均值(位置参数),σ\sigma为标准差(形状参数)。

μ=0,σ=1\mu = 0, \sigma = 1时,称为标准正态分布,记为N(0,1)N(0,1)

Φ(x)=x12πet22dt\Phi(x) = \int_{-\infty}^{x} \frac{1}{\sqrt{2\pi}}e^{-\frac{t^2}{2}}\mathrm d t

对于N(μ,σ2)N(\mu, \sigma^2),有

P(a<Xb)=Φ(bμσ)Φ(aμσ)P(a < X \leq b) = \Phi(\frac{b - \mu}{\sigma}) - \Phi(\frac{a - \mu}{\sigma})

所以当x=kσ+μx = k\sigma + \mu时,P(Xx)=Φ(k)P(X \leq x) = \Phi(k)

图片1

变量代换

图片image-2

多维随机变量联合分布

图片image-5

图片image-3

多维随机变量边缘分布

图片image-4

离散型的联合分布律

图片image-6

联合密度

图片image-7

条件概率密度

图片image-8

注意,这里认为y是定植

协方差

Cov(X,Y)=E[(XE(X))(YE(Y))]Cov(X,Y) = E[(X - E(X))(Y - E(Y))]

相关系数

ρXY=Cov(X,Y)D(X)D(Y)\rho_{XY} = \frac{Cov(X,Y)}{\sqrt{D(X)}\sqrt{D(Y)}}

协方差矩阵

矩阵$$c_{ij} = Cov(X_i, X_j)$$称为随机变量组(X1,X2,,Xn)(X_1, X_2, \cdots, X_n)的协方差矩阵。

E,D,CovE,D,Cov的推导和总结

定义

E(X)={xf(x)dx连续xipi离散D(X)=E[(XE(X))2]cov(X,Y)=E[(XE(X))(YE(Y))]\begin{aligned} E(X) &= \begin{cases} \int xf(x)\mathrm d x && \text{连续}\\ \sum x_ip_i && \text{离散} \end{cases} \\ D(X) &= E[(X - E(X))^2] \\ cov(X, Y) &= E[(X - E(X))(Y - E(Y))] \end{aligned}

方差恒等式

D(X)=E(X2)E2(X)D(X) = E(X^2) - E^2(X)

证明

D(X)=E[(XE(X))2]=E(X2)2E[XE(X)]+E[E2(X)]=E(X2)2E2(X)+E2(X)=E(X2)E2(X)\begin{aligned}D(X) &= E[(X - E(X))^2]\\ &= E(X^2) -2E[XE(X)] + E[E^2(X)]\\ &= E(X^2) - 2E^2(X) + E^2(X)\\ &= E(X^2) - E^2(X) \end{aligned}

协方差恒等式

cov(X,Y)=E(XY)E(X)E(Y)cov(X, Y) = E(XY) - E(X)E(Y)

证明

cov(X,Y)=E[(XE(X))(YE(Y))]=E(XY)E(X)E(Y)E(Y)E(X)+E(X)E(Y)=E(XY)E(X)E(Y)\begin{aligned} cov(X, Y) &= E[(X - E(X))(Y - E(Y))] \\ &= E(XY) - E(X)E(Y) - E(Y)E(X) + E(X)E(Y) \\ &= E(XY) - E(X)E(Y) \end{aligned}

多元期望恒等式

E(X+Y)=E(X)+E(Y)E(X + Y) = E(X) + E(Y)

按照定义可得。

E(XY)=E(X)E(Y)+cov(X,Y)E(XY) = E(X)E(Y) + cov(X, Y)

根据协方差恒等式变形可得

多元方差恒等式

D(X+Y)=D(X)+D(Y)+2cov(X,Y)D(X + Y) = D(X) + D(Y) + 2cov(X, Y)

证明

D(X+Y)=E[(X+Y)2]E2(X+Y)=E(X2)+E(Y2)+2E(XY)E2(X)E2(Y)2E(X)E(Y)=D(X)+D(Y)+2cov(X,Y)\begin{aligned} D(X + Y) &= E[(X + Y)^2] - E^2(X + Y) \\ &= E(X^2) + E(Y^2) + 2E(XY) - E^2(X) - E^2(Y) - 2E(X)E(Y)\\ &= D(X) + D(Y) + 2cov(X, Y) \end{aligned}

正态分布

维度为 (d) 的多元正态分布 $ \mathcal N(\mu, \Sigma) $ 的概率密度函数为:

p(x)=1(2π)d/2Σ1/2exp(12(xμ)Σ1(xμ)),p(x) = \frac{1}{(2\pi)^{d/2}\,|\Sigma|^{1/2}} \exp\left( -\frac{1}{2}(x-\mu)^\top \Sigma^{-1}(x-\mu) \right),

其中

  • xRdx \in \mathbb{R}^d
  • μRd\mu \in \mathbb{R}^d 为均值向量,
  • ΣRd×d\Sigma \in \mathbb{R}^{d\times d} 为对称正定协方差矩阵。

若需要,我可以给你解释每项的含义或推导。

Chebyshev不等式

ε>0,P(Xμε)σ2ε2\forall \varepsilon > 0, P(\left|X - \mu\right|\geq \varepsilon) \leq \frac{\sigma^2}{\varepsilon^2}

证明:

Show More

根据方差的定义式:

σ2=D(X)=(xμ)2f(x)dx\sigma^2 = D(X) = \int_{-\infty}^{\infty} (x - \mu)^2 f(x)\mathrm d x

所以有:

σ2ε2=(xμε)2f(x)dxxμε(xμε)2f(x)dxxμεf(x)dx=P(Xμε)\begin{aligned}\frac{\sigma^2}{\varepsilon^2} &= \int_{-\infty}^{\infty} (\frac{x - \mu}{\varepsilon})^2 f(x)\mathrm d x\\ &\geq \int_{\left|x - \mu\right|\geq \varepsilon}(\frac{x - \mu}{\varepsilon})^2 f(x)\mathrm d x\\ &\geq \int_{\left|x - \mu\right|\geq \varepsilon} f(x)\mathrm d x = P(\left|X - \mu\right|\geq \varepsilon) \end{aligned}

可以得到推论:

k>0,P(Xμkσ)1k2\forall k>0, P(\left|X - \mu\right|\geq k\sigma)\leq \frac{1}{k^2}

依概率收敛

Y1,Y2,,YnY_1, Y_2, \cdots, Y_n为随机变量序列,若对任意ε>0\varepsilon > 0,都有$$\lim_{n\to \infty} P(\left|Y_n - X\right|\geq \varepsilon) = 0$$则称随机变量序列YnY_n依概率收敛于随机变量XX,记为YnPnYY_n \underset{n\to\infty}{\xrightarrow{P}} Y

其中XX也可以是一个常数。

伯努利大数定律

nAn_A表示在nn次独立重复的伯努利试验中事件AA发生的次数,p=P(A)p = P(A),则对于任意ε>0\varepsilon > 0,都有$$\lim_{n\to \infty} P(\left|\frac{n_A}{n} - p\right| < \varepsilon) = 1$$

证明:

Show More

XnX_n表示前nn次命中次数的随机变量,则根据Chebyshev不等式有$$\begin{aligned}\lim_{n\to \infty} P(\left|\frac{n_A}{n} - p\right| < \varepsilon) &= \lim_{n\to\infty}P(\left|X_n - np\right|< n \varepsilon)\ &= \lim_{n\to\infty}[1 - \frac{np(1-p)}{(n\varepsilon)^2}]\ &= 1\end{aligned}$$

服从大数定律

若随机变量序列X1,X2,,XnX_1, X_2, \cdots, X_n满足某些条件,则对于任意ε>0\varepsilon > 0,都有$$\lim_{n\to \infty} P(\left|\frac{X_1 + X_2 + \cdots + X_n}{n} - \frac{E(X_1) + E(X_2) + \cdots + E(X_n)}{n}\right| < \varepsilon) = 1$$则称该序列服从大数定律。

切比雪夫大数定律

X1,X2,,XnX_1, X_2, \cdots, X_n相互独立方差存在、方差有共同的上界。则有$$\lim_{n\to \infty} P(\left|\frac{X_1 + X_2 + \cdots + X_n}{n} - \frac{E(X_1) + E(X_2) + \cdots + E(X_n)}{n}\right| < \varepsilon) = 1$$

证明:

Show More

Yn=1ni=1nXiY_n = \frac{1}{n}\sum_{i = 1}^n X_i,则E(Yn)=1ni=1nE(Xi)E(Y_n) = \frac{1}{n}\sum_{i = 1}^n E(X_i)D(Yn)=1n2i=1nD(Xi)σm2nD(Y_n) = \frac{1}{n^2}\sum_{i = 1}^n D(X_i)\leq \frac{\sigma_m^2}{n}

所以$$\begin{aligned}\lim_{n\to \infty} P(\left|Y_n - E(Y_n)\right|<\varepsilon) &=\lim_{n\to\infty} [1-\frac{\sigma_m2}{n\varepsilon2}]\end{aligned}$$

Khintchine大数定律

X1,X2,,XnX_1, X_2, \cdots, X_n相互独立且具有相同分布的随机变量序列,且E(Xi)=μE(X_i) = \mu,则对于任意ε>0\varepsilon > 0,都有$$\lim_{n\to \infty} P(\left|\frac{X_1 + X_2 + \cdots + X_n}{n} - \mu\right| < \varepsilon) = 1$$

这个定理太屌了,课本说我证不了(方差不保证存在,也不保证有界)。

推广:

X1,X2,,XnX_1, X_2, \cdots, X_n相互独立且具有相同分布的随机变量序列,且E(Xik)=μkE(X_i^k) = \mu_k,则对于任意ε>0\varepsilon > 0,都有$$\lim_{n\to \infty} P(\left|\frac{X_1^k + X_2^k + \cdots + X_n^k}{n} - \mu_k\right| < \varepsilon) = 1$$

大数定律总结

Chebyshev不等式的形象理解:对于存在方差的随机分布,偏离中心点较远的概率有上界,也就是说样本大概率分布在中心店附近;

伯努利大数定律的形象理解:频率收敛于概率,因为平均值的方差是随机变量的1/n1/n倍,所以方差会逐渐缩小。

切比雪夫大数定律的形象理解:平均值的方差是随机变量的1/n1/n倍,所以相互独立的随机变量只要方差有上界,在nn变大是一定会收敛到00

Khintchine大数定律的形象理解:任何独立同分布随机变量最后会收敛到均值(只要均值存在),不需要保证方差存在。

独立同分布的中心极限定理

X1,X2,,XnX_1, X_2, \cdots, X_n相互独立且具有相同分布的随机变量序列,且E(Xi)=μ,D(Xi)=σ2>0E(X_i) = \mu, D(X_i) = \sigma^2 > 0,则当nn充分大时,随机变量$$Z_n = \frac{X_1 + X_2 + \cdots + X_n - n\mu}{\sigma\sqrt{n}}$$近似服从标准正态分布N(0,1)N(0,1)

De Moivre-Laplace中心极限定理

XX服从参数为(n,p)(n,p)二项分布,则当nn充分大时,随机变量$$Z = \frac{X - np}{\sqrt{np(1-p)}}$$近似服从标准正态分布N(0,1)N(0,1)

中心极限定理总结

独立同分布的中心极限定理:对于任意存在μ\muσ\sigma的分布,独立取多次,合随机变量会服从正态分布(有n\sqrt n的修正量)。

De Moivre-Laplace中心极限定理:取二项分布的特殊情况。

数理统计-样本

总体中抽nn个个体(总体XX的容量为nn的样本):(X1,X2,,Xn)(X_1, X_2, \cdots, X_n)

观测到的数据(样本观测值):(x1,x2,,xn)(x_1, x_2, \cdots, x_n)

如果满足1. 同分布性;2. 独立性;则称为简单随机样本

简单随机样本满足:

F(x1,x2,,xn)=i=1nF(xi)F(x_1, x_2, \cdots, x_n) = \prod_{i=1}^n F(x_i)

若概率密度为f(x)f(x),则联合概率密度为

f(x1,x2,,xn)=i=1nf(xi)f(x_1, x_2, \cdots, x_n) = \prod_{i=1}^n f(x_i)

(X1,X2,,Xn)(X_1, X_2, \cdots, X_n)为来自总体XX的简单随机样本,g(r1,r2,,rn)g(r_1, r_2, \cdots, r_n)为实值连续函数(不含除了自变量之外的未知参数),则称g(X1,X2,,Xn)g(X_1, X_2, \cdots, X_n)为统计量。若(x1,x2,,xn)(x_1, x_2, \cdots, x_n)为样本值,则称g(x1,x2,,xn)g(x_1, x_2, \cdots, x_n)为统计量的样本值。

常用统计量:

  1. 样本均值X=1ni=1nXi\overline{X} = \frac{1}{n}\sum_{i=1}^n X_i,样本值记为x\overline{x}
  1. 样本方差S2=1n1i=1n(XiX)2S^2 = \frac{1}{n-1}\sum_{i=1}^n (X_i - \overline{X})^2,样本值记为s2s^2。(注意分母是n1n-1,而不是nn
  1. 样本标准差S=S2S = \sqrt{S^2},样本值记为ss
  2. 样本的kk阶原点距Mk=1ni=1nXikM_k = \frac{1}{n}\sum_{i=1}^n X_i^k,样本值记为mkm_k
  3. 样本的kk阶中心距(CM)k=1ni=1n(XiX)k(CM)_k = \frac{1}{n}\sum_{i=1}^n (X_i - \overline{X})^k,样本值记为(cm)k(cm)_k
  4. (x1,x2,,xn)(x_1, x_2, \cdots, x_n)的顺序统计量为x1x2xnx_{1}^* \leq x_{2}^* \leq \cdots \leq x_{n}^*。定义X(k)=xkX_{(k)} = x_{k}^*,称为样本的第kk个顺序统计量,称Dn=X(n)X(1)D_n = X_{(n)} - X_{(1)}为样本极差,样本值记为dnd_n

α\alpha分位数

上侧α\alpha分位数xαx_\alpha定义为满足P(X>xα)=αP(X > x_\alpha) = \alphaxαx_\alpha值。

如果f(x)f(x)是偶函数,定义双侧α\alpha分位数xα/2x_{\alpha/2}为满足P(X>xα/2)=αP(\left|X\right| > x_{\alpha/2}) = \alphaxα/2x_{\alpha/2}值。

补充:特征函数法

假设XX是一个随机变量,则我们称

φX(t)=E[eitX],tR\varphi_{X}(t) = E[e^{itX}]\,\,, t\in\mathbb R

XX的特征函数

也就是说

φX(t)=eitxf(x)dx\varphi_{X}(t) = \int_{-\infty}^{\infty} e^{itx}f(x)\mathrm d x

特征函数一定存在,且可以唯一确定分布。

XXYY独立,可以验证特征函数满足(二重积分拆成两个积分):

φX+Y(t)=φX(t)φX(t)\varphi_{X+Y}(t) = \varphi_{X}(t)\varphi_{X}(t)

还有(变量代换,定义式)

φaX(t)=E(eitaX)=φX(at)\varphi_{aX}(t) = E(e^{itaX}) = \varphi_{X}(at)

标准正态分布的特征函数:

φX(t)=eitx12πex2/2dx=et22πe(xit)2/2d(xit)=et2/2\begin{aligned} \varphi_X(t) &= \int e^{itx}\frac{1}{\sqrt{2\pi}}e^{-x^2/2}\mathrm d x\\ &= \frac{e^{-t^2}}{\sqrt{2\pi}}\int e^{-\left(x - it\right)^2/2}\mathrm d (x - it)\\ &= e^{-t^2/2} \end{aligned}

任意正态分布的特征函数:

φY(t)=φσX+μ(t)=eσ2t2/2×eitμ=eitμσ2t2/2\varphi_Y(t) = \varphi_{\sigma X + \mu}(t) = e^{-\sigma^2t^2/2}\times e^{it\mu} = e^{it\mu - \sigma^2t^2/2}

常用统计量的分布

正态分布

X1,X2,,XnX_1, X_2, \cdots, X_n相互独立,且XiN(μi,σi2)X_i \sim N(\mu_i, \sigma_i^2),则有:

i=1naiXiN(i=1naiμi,i=1nai2σi2)\sum_{i=1}^n a_i X_i \sim N(\sum_{i=1}^n a_i \mu_i, \sum_{i=1}^n a_i^2 \sigma_i^2)

特别地,当XiN(μ,σ2)X_i \sim N(\mu, \sigma^2)时,有

XN(μ,σ2n)\overline{X} \sim N(\mu, \frac{\sigma^2}{n})

且有以下结论

两个服从正态分布的随机变量XN(μ1,σ1)X\sim N(\mu_1, \sigma_1)YN(μ2,σ2)Y\sim N(\mu_2, \sigma_2),且相互独立,有

X+YN(μ1+μ2,σ1+σ2)X+Y\sim N(\mu_1 + \mu_2, \sigma_1 + \sigma_2)

以上结论都可以用特征函数法(傅立叶变换)证明。

证明

φX(t)=φXi(t/n)=[ϕX(t/n)]n=e(itμ/nσ2t22n2)n=eitμ(σn)2t2/2\varphi_{\overline X}(t) = \varphi_{\sum X_i}(t/n) = \left[\phi_X(t/n)\right]^n = e^{\left(it\mu/n-\frac{\sigma^2t^2}{2n^2}\right)\cdot n}\\ = e^{it\mu - \left(\frac{\sigma}{\sqrt n}\right)^2t^2/2}

所以φX(t)N(μ,(σn)2)\varphi_{\overline X}(t) \sim N(\mu, \left(\frac{\sigma}{\sqrt n}\right)^2)

另一个带入特征函数是显然的。

此外,正态分布是唯一具有方差和均值独立性质的分布。

χ2\chi^2分布

X1,X2,,XnX_1, X_2, \cdots, X_n相互独立,且XiN(0,1)X_i \sim N(0,1),则随机变量$$Y = \sum_{i=1}^n X_i^2$$服从自由度为nnχ2\chi^2分布,记为Yχ2(n)Y \sim \chi^2(n)

其中卡方分布的概率密度函数为

fχ2(x)={12n/2Γ(n/2)ex/2xn21x>00elsef_{\chi^2}(x) = \begin{cases} \frac{1}{2^{n/2}\Gamma(n/2)}e^{-x/2}x^{\frac{n}{2}-1} & x > 0\\ 0 & \text{else} \end{cases}

性质:

  1. E(χ2)=nE(\chi^2) = nD(χ2)=2nD(\chi^2) = 2n
  2. Y1χ2(n1),Y2χ2(n2)Y_1 \sim \chi^2(n_1), Y_2 \sim \chi^2(n_2),则Y1+Y2χ2(n1+n2)Y_1 + Y_2 \sim \chi^2(n_1 + n_2)
  3. nn充分大时,χ2(n)\chi^2(n)近似服从正态分布N(n,2n)N(n, 2n)

tt分布

XN(0,1),Yχ2(n)X \sim N(0,1), Y \sim \chi^2(n),且XXYY相互独立,则随机变量$$T = \frac{X}{\sqrt{Y/n}}$$服从自由度为nntt分布,记为Tt(n)T \sim t(n)

Tt(n)T\sim t(n),则概率密度函数为

ft(x)=Γ((n+1)/2)nπΓ(n/2)(1+x2n)(n+1)/2f_t(x) = \frac{\Gamma((n+1)/2)}{\sqrt{n\pi}\Gamma(n/2)}(1 + \frac{x^2}{n})^{-(n+1)/2}

性质:

nn\to\infty时,t(n)t(n)近似服从正态分布N(0,1)N(0,1)

FF分布

Uχ2(m)U \sim \chi^2(m), Vχ2(n)V \sim \chi^2(n),且UUVV相互独立,则随机变量$$F = \frac{U/m}{V/n}$$服从自由度为(m,n)(m,n)FF分布,记为FF(m,n)F \sim F(m,n)

FF(m,n)F\sim F(m,n),则概率密度函数为

fF(t)={Γ((m+n)/2)Γ(m/2)Γ(n/2)(mn)m/2tm/21(1+mnt)(m+n)/2t>00elsef_F(t) = \begin{cases} \frac{\Gamma((m+n)/2)}{\Gamma(m/2)\Gamma(n/2)}(\frac{m}{n})^{m/2}t^{m/2-1}(1 + \frac{m}{n}t)^{-(m+n)/2} & t > 0\\ 0 & \text{else} \end{cases}

性质:

  1. FF(m,n)F \sim F(m,n),则1FF(n,m)\frac{1}{F} \sim F(n,m)
  2. F(m,n)F(m, n)的上侧α\alpha分位数为Fα(m,n)F_{\alpha}(m,n),则F1α(m,n)=1Fα(n,m)F_{1-\alpha}(m,n) = \frac{1}{F_{\alpha}(n,m)}

总结

χ2\chi^2分布是nn个独立标准正态分布的随机变量平方和;可以用于刻画正态分布样本的方差;

tt分布用于刻画多个独立正态分布随机变量的均值,在方差未知的情况下(用统计方差代替);

FF分布用于刻画两个样本的方差比。

正态总体的抽样分布

单个正态总体的抽样分布

X1,X2,,XnX_1, X_2, \cdots, X_n为来自总体XN(μ,σ2)X \sim N(\mu, \sigma^2)的简单随机样本。则有:

  1. XN(μ,σ2n)\overline{X} \sim N(\mu, \frac{\sigma^2}{n})
  2. S2σ2n1χ2(n1)S^2 \sim \frac{\sigma^2}{n-1}\chi^2(n-1)
  3. Xμσ/nN(0,1)\frac{\overline{X} - \mu}{\sigma/\sqrt{n}} \sim N(0,1)
  4. (n1)S2σ2χ2(n1)\frac{(n-1)S^2}{\sigma^2} \sim \chi^2(n-1)
  5. XμS/nt(n1)\frac{\overline{X} - \mu}{S/\sqrt{n}} \sim t(n-1)
证明
  1. 已经证明过了;
  2. S2=1n1(XiX)2=1n1((Xiμ)2+2(Xiμ)(μX)+(μX)2)=1n1((Xiμ)2n(Xμ)2)S^2=\frac{1}{n - 1}\sum (X_i - \overline X)^2 = \frac{1}{n - 1}\left(\sum (X_i - \mu)^2 + 2\sum (X_i - \mu)(\mu - \overline X) + \sum (\mu - \overline X)^2\right)=\frac{1}{n-1}\left(\sum(X_i - \mu)^2 - n(\overline X - \mu)^2\right),RHS的左半边服从σ2χ2(n)\sigma^2 \chi^2(n),右半边服从σ2chi2(1)-\sigma^2 chi^2(1),LHS和RHS的右半边独立,反用可加性(使用可减性,特征函数唯一),S2σ2n1χ2(n1)S^2\sim \frac{\sigma^2}{n - 1}\chi^2(n - 1).
  3. 同1;
  4. 同2;
  5. XμS/n=Xμσ/nσnσn(n1)S2σ2/(n1)=Xμσ/n(n1)S2σ2/(n1)t(n1)\frac{\overline X - \mu}{S/\sqrt n} = \frac{\frac{\overline X - \mu}{\sigma/\sqrt n}\sigma\sqrt n}{\sigma\sqrt n\sqrt{\frac{(n - 1)S^2}{\sigma^2}/(n - 1)}} = \frac{\frac{\overline X - \mu}{\sigma/\sqrt n}}{\sqrt{\frac{(n - 1)S^2}{\sigma^2}/(n - 1)}}\sim t(n - 1)

两个正态总体的抽样分布

X1,X2,,XnX_1, X_2, \cdots, X_nY1,Y2,,YmY_1, Y_2, \cdots, Y_m为来自总体XN(μX,σX2)X \sim N(\mu_X, \sigma_X^2)YN(μY,σY2)Y \sim N(\mu_Y, \sigma_Y^2)的简单随机样本,且XXYY相互独立。则有:

  1. S12S22/σX2σY2F(n1,m1)\frac{S_1^2}{S_2^2}/\frac{\sigma_X^2}{\sigma_Y^2} \sim F(n-1, m-1)
  2. XYN(μXμY,σX2n+σY2m)\overline{X} - \overline{Y} \sim N(\mu_X - \mu_Y, \frac{\sigma_X^2}{n} + \frac{\sigma_Y^2}{m})
  3. σX=σY=σ\sigma_X = \sigma_Y = \sigma时,(XY)(μXμY)1n+1m(n1)S12+(m1)S22n+m2t(n+m2)\frac{(\overline{X} - \overline{Y}) - (\mu_X - \mu_Y)}{\sqrt{\frac{1}{n} + \frac{1}{m}}\sqrt{\frac{(n - 1)S_1^2 + (m - 1)S_2^2}{n + m - 2}}} \sim t(n + m - 2)
证明
  1. 就是定义;
  2. 正态函数性质;
  3. 改成X+Y\overline X + \overline Y也是同样的分布;按照定义可以推

{XY(μXμY)σ2n+σ2mN(0,1)n+m2σ2(n1)S12+(m1)S22n+m2χ2(n+m2)\begin{cases} \frac{\overline X - \overline Y - (\mu_X - \mu_Y)}{\frac{\sigma^2}{n} + \frac{\sigma^2}{m}} \sim N(0, 1)\\ \frac{n + m - 2}{\sigma^2}\frac{(n - 1)S_1^2 + (m - 1)S_2^2}{n + m - 2}\sim \chi^2(n + m - 2) \end{cases}

点估计

用统计量估计参数,叫做点估计

频率替代法

用频率估计概率

矩估计法

kk个未知参数,就用kk阶原点矩来估计

先求出kk个原点矩(根据得到的数据),再反解出参数。

θ^\hat\theta_{\text{矩}}表示。

最大似然估计法

先求出似然函数LL(所有概率乘起来,是xix_i的函数);

然后再求导,求出最大值,最大值点就是似然估计值。

求导前先观察单调性。

θ^极大\hat\theta_{\text{极大}}表示。

估计量的评价标准

无偏性

θ^\hat\theta可以写成X1,X2,,XnX_1, X_2, \cdots, X_n的函数,所以θ^\hat\theta也是一个随机变量。

对于θ^\hat\theta这个随机变量的均值E(θ^)E(\hat\theta),如果满足

E(θ^)=θE(\hat\theta) = \theta

则认为θ^\hat\theta是无偏估计量。

这里的θ\theta是未知参数。

有效性

θ^1=θ^1(X1,X2,,Xn)\hat\theta_1 = \hat\theta_1(X_1, X_2, \cdots, X_n)θ^2=θ^2(X1,X2,,Xn)\hat\theta_2 = \hat\theta_2(X_1, X_2, \cdots, X_n)都无偏,则如果有

D(θ^1)<D(θ^2)D(\hat\theta_1) < D(\hat\theta_2)

则认为θ^1\hat\theta_1θ^2\hat\theta_2有效。

因为这个估计方法震荡更小。

估计量方差下界

Rao-Cramer不等式:

D(θ^)I(θ)=1nE[(lnf(x;θ)θ)2]>0D(\hat\theta) \geq I(\theta) = \frac{1}{nE\left[\left(\frac{\partial \ln f(x;\theta)}{\partial\theta}\right)^2\right]} > 0

前提条件是θ^\hat\theta无偏。

证明

由于

E(θ^)=θ^(x)f(x;θ)dx=θE(\hat\theta) = \int \hat\theta(\bm x)f(\bm x;\theta)\mathrm d\bm x = \theta

可以得出

D(θ^)=E[(θ^θ)2]=(θ^θ)2f(x;θ)dx\begin{aligned} D(\hat\theta) &= E[(\hat\theta - \theta)^2] \\ &= \int (\hat\theta - \theta)^2 f(\bm x; \theta)\mathrm d \bm x \\ \end{aligned}

而根据科西不等式

[(θ^θ)2f(x;θ)dx][(fθ)2f(x;θ)dx]((θ^θ)(fθ)dx)2\begin{aligned} &[\int (\hat\theta - \theta)^2 f(\bm x; \theta)\mathrm d \bm x][\int \frac{(\frac{\partial f}{\partial \theta})^2}{f(\bm x;\theta)}\mathrm d\bm x] \\ \geq& \left(\int (\hat\theta - \theta)\left(\frac{\partial f}{\partial \theta}\right)\mathrm d \bm x\right)^2 \\ \end{aligned}

有LHS的右半边

(fθ)2f(x;θ)dx=[lnf(x;θ)θ]2f(x;θ)dx=E[(lnf(x;θ)θ)2]\int \frac{(\frac{\partial f}{\partial \theta})^2}{f(\bm x;\theta)}\mathrm d\bm x = \int \left[\frac{\partial \ln f(\bm x;\theta)}{\partial \theta}\right]^2 f(\bm x;\theta)\mathrm d\bm x = E\left[\left(\frac{\partial \ln f(\bm x; \theta)}{\partial \theta}\right)^2\right]

RHS=θθ^f(x;θ)dxθθf(x;θ)dx=θθ0=1\begin{aligned}\text{RHS} &= \frac{\partial}{\partial\theta}\int \hat\theta f(\bm x;\theta)\mathrm d \bm x - \theta\frac{\partial}{\partial\theta}\int f(\bm x;\theta)\mathrm d\bm x\\ &= \frac{\partial \theta}{\partial\theta} - 0 = 1 \end{aligned}

I(θ)=1E[(lnf(x;θ)θ)2]=1nE[(lnf(x;θ)θ)2]I(\theta) = \frac{1}{E\left[\left(\frac{\partial \ln f(\bm x;\theta)}{\partial\theta}\right)^2\right]} = \frac{1}{nE\left[\left(\frac{\partial \ln f(x;\theta)}{\partial\theta}\right)^2\right]}

D(θ^)I(θ)D(\hat\theta)\geq I(\theta)

其中I(θ)I(\theta)被称为Fisher信息量。

如果某个无偏估计量的方差达到了下界I(θ)I(\theta),则是有效估计量(仅是充分条件,有可能不存在估计量达到下界)。

一致性

如果对于任意ε>0\varepsilon>0,都有

limnP(θ^nθ<ε)=1\lim_{n\to\infty} P(\left|\hat\theta_n-\theta\right| < \varepsilon) = 1

θ^n\hat\theta_nθ\theta的一致估计量。

性质

如果θ^\hat\theta无偏,且

limnD(θ^)=0\lim_{n\to\infty} D(\hat\theta) = 0

θ^n\hat\theta_n是一致估计量。

证明

Chebyshev不等式

P(θ^nθε)D(θ^n)εP(\left|\hat\theta_n - \theta\right|\geq \varepsilon)\leq \frac{D(\hat\theta_n)}{\varepsilon}

nn趋于无穷即可。

区间估计

若对于任意α(0,1)\alpha\in(0, 1),存在θ^1\hat\theta_1θ^2\hat\theta_2两个关于X=(X1,X2,,Xn)X = (X_1, X_2, \cdots, X_n)的函数,满足P(θ^1<θ<θ^2)=1αP(\hat\theta_1 < \theta < \hat\theta_2) = 1-\alpha,则称(θ^1,θ^2)(\hat\theta_1, \hat\theta_2)θ\theta的置信度为1α1-\alpha的置信区间。θ1\theta_1被称为置信下限,θ2\theta_2被称为置信上限。

单个正态总体参数的置信区间

设总体XN(μ,σ2)X\sim N(\mu, \sigma^2)(X1,X2,,Xn)(X_1, X_2, \cdots, X_n)是来⾃总体的⼀个样本,1α1-\alpha是给定的置信度。

μ\mu的区间估计

σ\sigma已知

则可以令U=Xμσ/nU = \frac{\overline X - \mu}{\sigma/\sqrt n},则UN(0,1)U\sim N(0, 1)。令UU为枢轴量。

uα/2u_{\alpha/2}为标准正态分布的上α/2\alpha / 2分位点,即

P(U>uα/2)=α/2P(U > u_{\alpha/2}) = \alpha/2

则有P(uα/2<U<uα/2)=1αP(-u_{\alpha/2} < U < u_{\alpha/2}) = 1-\alpha变化可得

P(Xuα/2σn<μ<X+uα/2σn)=1αP(\overline X - \frac{u_{\alpha/2}\sigma}{\sqrt n} <\mu < \overline X + \frac{u_{\alpha / 2}\sigma}{\sqrt n}) = 1 - \alpha

即置信区间为$$(\overline X - u_{\alpha / 2}\frac{\sigma}{\sqrt n}, \overline X + u_{\alpha/2}\frac{\sigma}{\sqrt n})$$

σ\sigma未知

根据Sσ2n1χ2(n1)S\sim \frac{\sigma^2}{n - 1}\chi^2(n - 1)可以得到

U=XμS/nt(n1)U=\frac{\overline X - \mu}{S / \sqrt{n}}\sim t(n - 1)

P(tα/2(n1)<XμS/n<tα/2(n1))=1αP(-t_{\alpha/2}(n - 1) < \frac{\overline X - \mu}{S / \sqrt n} < t_{\alpha / 2}(n - 1)) = 1 - \alpha

从而得到

P(XStα/2(n1)n<μ<X+Stα/2(n1)n)=1αP(\overline X -\frac{St_{\alpha/2}(n - 1)}{\sqrt n} < \mu < \overline X + \frac{St_{\alpha / 2}(n - 1)}{\sqrt n}) = 1 - \alpha

σ\sigma的区间估计

μ\mu已知

U=(Xiμ)2σ2U = \sum \frac{(X_i - \mu)^2}{\sigma^2}

Uχ2(n)U\sim \chi^2(n),有

P(χ1α/22(n)<1σ2(Xiμ)2<χα/22(n))=1αP(\chi^2_{1 - \alpha/2}(n) < \frac{1}{\sigma^2}\sum (X_i - \mu)^2< \chi^2_{\alpha / 2}(n)) = 1 - \alpha

P((Xiμ)2χα/22(n)<σ2<(Xiμ)2χ1α/22(n))=1αP(\frac{\sum (X_i - \mu)^2}{\chi^2_{\alpha/2}(n)} < \sigma^2 < \frac{\sum(X_i - \mu)^2}{\chi^2_{1 - \alpha / 2}(n)}) = 1 - \alpha

μ\mu未知

U=n1σ2S2χ2(n1)U = \frac{n - 1}{\sigma^2}S^2\sim \chi^2(n - 1)

P(χ1α/22(n1)<n1σ2S2<χα/22(n1))P(\chi^2_{1 - \alpha/2}(n - 1) < \frac{n - 1}{\sigma^2}S^2 < \chi^2_{\alpha/2}(n - 1))

P((n1)Sχα/22(n1)<σ2<(n1)Sχ1α/22(n1))P(\frac{(n -1)S}{\chi^2_{\alpha/2}(n - 1)} < \sigma^2 < \frac{(n-1)S}{\chi^2_{1 - \alpha/2}(n - 1)})

两个正态总体参数的置信区间

用前一章知识也可以类似解决。

假设检验

原假设H0H_0,做出的假设,比如“μ=7.5\mu=7.5”。
备择假设H1H_1,否命题,如“μ7.5\mu\neq 7.5”。
拒绝域:一个集合,比如说W={(X1,X2,,Xn)X7.5>C}\mathcal W = \{(X_1, X_2, \cdots, X_n)\mid\left|\overline X - 7.5\right| > C\}.
检验统计量:构造的随机变量,比如说U=X7.5σ/36N(0,1)U=\frac{\overline X - 7.5}{\sigma/\sqrt {36}}\sim N(0, 1),然后找到P(U>k)=αP(\left|U\right| > k) = \alpha,就能求出拒绝域。
双侧检验:拒绝域为两侧;
单侧检验:拒绝域在一侧;
显著性水平α\alpha使得H0H_0成立时,P((X1,X2,,Xn)W)αP((X_1, X_2, \cdots, X_n)\in \mathcal W)\leq \alpha

错误

第I类错误

“弃真”错误,发生了小概率事件,放弃了H0H_0而接受了H1H_1,概率为

P(拒绝H0H0为真)αP(\text{拒绝}H_0\mid H_0\text{为真}) \leq \alpha

第II类错误

“存假”错误,H0H_0错误但是接受了H0H_0,记

P(接受H0H0为假)=βP(\text{接受}H_0\mid H_0\text{为假}) = \beta

单个正态总体参数均值的假设检验

方差已知

显著差异

H0:μ=μ0,H1:μμ0H_0: \mu = \mu_0, H_1: \mu\neq \mu_0

假设H0H_0成立,构造$$U = \frac{\overline X - \mu_0}{\sigma/\sqrt n}\sim N(0, 1)$$

拒绝域

Xμ0σ/n>uα/2\left|\frac{\overline X - \mu_0}{\sigma / \sqrt n}\right| > u_{\alpha / 2}

显著偏小

H0:μμ0,H1:μ<μ0H_0: \mu \geq \mu_0, H_1: \mu < \mu_0

假设H0H_0成立,构造

U=Xμσ/nN(0,1)U = \frac{\overline X - \mu}{\sigma / \sqrt n}\sim N(0, 1)

P(Xμσ/n<uα)=αP(Xμ0σ/n<uα)P(\frac{\overline X - \mu}{\sigma / \sqrt n}< -u_{\alpha}) = \alpha\geq P(\frac{\overline X -\mu_0}{\sigma/\sqrt n} < -u_{\alpha})

所以说拒绝域

Xμ0σ/n<uα\frac{\overline X - \mu_0}{\sigma/\sqrt n} < -u_{\alpha}

显著偏大

Xμ0σ/n>uα\frac{\overline X - \mu_0}{\sigma/\sqrt n} > u_{\alpha}

方差未知

使用$$U = \frac{\overline X - \mu_0}{S/\sqrt n}\sim t(n - 1)$$

显著差异

Xμ0S/n>tα/2(n1)\left|\frac{\overline X - \mu_0}{S/\sqrt n}\right| > t_{\alpha/2}(n - 1)

显著偏小

Xμ0S/n<tα(n1)\frac{\overline X - \mu_0}{S/\sqrt n} < -t_{\alpha}(n - 1)

显著偏大

Xμ0S/n>tα(n1)\frac{\overline X - \mu_0}{S/\sqrt n} > t_{\alpha}(n-1)

单个正态总体参数方差的假设检验

均值已知

显著差异

。。。都和前面差不多,不玩了

两个正态总体参数的假设检验

非正态总体参数的假设检验

随机事件概率pp的假设检验

对于H0:p=p0H_0: p = p_0H1:pp0H_1: p \neq p_0,假设H0H_0成立,有

XiB(1,p)X_i\sim B(1, p)

{E(X)=p0D(X)=p0(1p0)n\begin{cases} E(\overline X) = p_0\\ D(\overline X) = \frac{p_0(1-p_0)}{n}\\ \end{cases}

根据中心极限定理

U=Xp0p0(1p0)/n近似N(0,1)U = \frac{\overline X - p_0}{\sqrt{p_0(1-p_0)/n}}\overset{\text{近似}}{\sim} N(0, 1)

拒绝域为

Xp0p0(1p0)/n>uα/2\left|\frac{\overline X - p_0}{\sqrt{p_0(1-p_0)/n}}\right| > u_{\alpha/2}

其他两类同理。

非正态总体的大样本检验

大样本,近似正态。

非参数检验

{H0:X的分布函数是F(x)H1:X的分布函数不是F(x)\begin{cases}H_0: X\text{的分布函数是}F(x)\\H_1: X\text{的分布函数不是}F(x)\end{cases}

Pearson定理

如果H0H_0为真,那么不管F(x)F(x)是什么,nn充分大时,统计量χ2\chi^2总是服从于自由度为kr1k - r - 1χ2\chi^2分布,即

χ2=i=1k(ninpi)2npi近似χ2(kr1)\chi^2 = \sum_{i = 1}^k\frac{(n_i - np_i)^2}{np_i}\overset{近似}{\sim}\chi^2(k-r-1)

其中kk为划分数,rrF(x)F(x)中未知参数的个数。

对于式子(ninpi)2npi\frac{(n_i - np_i)^2}{np_i},可以令p^i=nin\hat p_i = \frac{n_i}{n},则可以改写为$$\frac{(n_i - np_i)^2}{np_i} = \left(\frac{\hat p_i - p_i}{\sqrt{p_i/n}}\right)^2$$

这个玩意是怎么来的呢?

观察到(np^1,np^2,,np^n)(n\hat p_1, n\hat p_2, \cdots, n\hat p_n)满足多项式分布,且有

{E(p^i)=piD(p^i)=pi(1pi)/ncov(p^i,p^j)=pipj/n\begin{cases} E(\hat p_i) = p_i\\ D(\hat p_i) = p_i(1 - p_i)/n\\ cov(\hat p_i, \hat p_j) = -p_ip_j/n\\ \end{cases}

nn\to\infty时,多项式分布趋近于正态分布,有

n(p^1p1p^2p2p^kpk)N(0,(p1(1p1)p1p2p1pkp2p1p2(1p2)p2pkpkp1p2pkpk(1pk)))\sqrt n\begin{pmatrix} \hat p_1 - p_1\\ \hat p_2 - p_2\\ \vdots\\ \hat p_k - p_k\\ \end{pmatrix}\sim N\left(0, \begin{pmatrix} p_1(1 - p_1)& -p_1p_2& \cdots& -p_1p_k\\ -p_2p_1& p_2(1 - p_2)&\cdots&-p_2p_k\\ \vdots&\vdots&\ddots&\vdots\\ -p_kp_1&-p_2p_k&\cdots&p_k(1-p_k)\\ \end{pmatrix}\right)

可以再化为

n(p^1p1p1p^2p2p2p^kpkpk)N(0,(1p1p1p2p1pkp2p11p2p2pkpkp1p2pk1pk))\sqrt n\begin{pmatrix} \frac{\hat p_1 - p_1}{\sqrt p_1}\\ \frac{\hat p_2 - p_2}{\sqrt p_2}\\ \vdots\\ \frac{\hat p_k - p_k}{\sqrt p_k}\\ \end{pmatrix}\sim N\left(0, \begin{pmatrix} 1 - p_1& -\sqrt{p_1p_2}& \cdots& -\sqrt{p_1p_k}\\ -\sqrt{p_2p_1}& 1 - p_2&\cdots&-\sqrt{p_2p_k}\\ \vdots&\vdots&\ddots&\vdots\\ -\sqrt{p_kp_1}&-\sqrt{p_2p_k}&\cdots&1-p_k\\ \end{pmatrix}\right)

正态分布的协方差矩阵可以进一步写为

C=EppTC = E - \sqrt{\bm p}\sqrt{\bm p}^T

其中

p=(p1,p2,,pk)T\sqrt{\bm p} = (\sqrt {p_1}, \sqrt{p_2}, \cdots, \sqrt{p_k})^T

所以有p=1\|\sqrt{\bm p}\|=1

可以验证rank(C)=k1rank(C) = k - 1,后续推导略。