PaS

Posted on 2025-12-28 Edited on 2026-03-23

概率公理

分布率（分布列）

求离散型随机变量的分布律，需要画一个表，类似：

图片image-1

随机变量的分布函数

F(x) = P(X\leq x)

0-1分布

P(X=k)=\begin{cases} p, & k=1\\ 1-p, & k=0 \end{cases}

也可以写成

P(X = k) = p^k(1 - p)^{1-k} \quad k = 0,1

二项分布

P(X = k) = C_n^kp^k(1-p)^{n-k}\quad k = 0, 1, \cdots, n

Poisson分布

$[0,1]$ 线段上每个点发生事件的概率密度为常数 $\lambda$ ，发生事件个数随机变量为 $X$ ，则有

P(X = k) = \lim_{n\to \infty} C_n^kp^k(1-p)^{n-k}

（当 $n$ 非常大的时候，我们可以认为每一个区间内只有可能发生一个事件）

其中 $p=\frac{\lambda}{n}$ 。

\begin{aligned}P(X = k) &= \lim_{n\to \infty} C_n^kp^k(1-p)^{n-k}\\ &= \lim_{n\to\infty}\frac{n(n - 1)(n-2)\cdots(n-k+1)}{k!}(\frac{\lambda}{n})^k(1-\frac{\lambda}{n})^{n-k}\\ &= \lim_{n\to \infty} \frac{\lambda^k}{k!}(1-\frac{\lambda}{n})^{n-k}\\ &=\lim_{n\to\infty}\frac{\lambda^k}{k!}[(1 - \frac{\lambda}{n})^{\frac{n}{\lambda}}]^\lambda\\ &=\frac{\lambda^k}{k!}e^{-\lambda} \end{aligned}

所以称 $P(X=k)=\frac{\lambda^k}{k!}e^{-\lambda}\quad k=0,1,2,\cdots$ 为Poisson分布。

证明这个分布是分布列：

\begin{aligned}&\sum_{k=0}^{\infty} \frac{\lambda^k}{k!}e^{-\lambda}\\ =&e^{-\lambda}\sum_{k=0}^{\infty} \frac{\lambda^k}{k!}\\ =&e^{-\lambda}e^{\lambda} =1 \end{aligned}

随机变量的概率密度函数

设 $X$ 是⼀随机变量， $F(x)$ 是它的分布函数，若存在⼀个⾮负可积函数 $f(x)$ 使得

F(x) = \int_{-\infty}^{x} f(t)\mathrm d t

可写作 $f_X(x)$ ，具有

非负性；
规范性： $F(+\infty)=1$ 。

虽然概率密度函数不唯一，但是一般取 $F(x)$ 的导数就好了。

几个概率密度函数

均匀分布

f(x) = \begin{cases} 0 & x \leq a\, \text{or}\, x\geq b\\ \frac{1}{b - a} & a < x < b \end{cases}

指数分布

f(x) = \begin{cases} \lambda e^{-\lambda x} & x > 0\\ 0 & x \leq 0 \end{cases}

此时

F(x) = \begin{cases} 1 - e^{-\lambda x} & x > 0\\ 0 & x \leq 0 \end{cases}

正态分布

f(x) = \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x - \mu)^2}{2\sigma^2}}

其中 $\mu$ 为均值（位置参数）， $\sigma$ 为标准差（形状参数）。

当 $\mu = 0, \sigma = 1$ 时，称为标准正态分布，记为 $N(0,1)$ 。

令

\Phi(x) = \int_{-\infty}^{x} \frac{1}{\sqrt{2\pi}}e^{-\frac{t^2}{2}}\mathrm d t

对于 $N(\mu, \sigma^2)$ ，有

P(a < X \leq b) = \Phi(\frac{b - \mu}{\sigma}) - \Phi(\frac{a - \mu}{\sigma})

所以当 $x = k\sigma + \mu$ 时， $P(X \leq x) = \Phi(k)$ 。

变量代换

图片image-2

多维随机变量联合分布

图片image-5

图片image-3

多维随机变量边缘分布

图片image-4

离散型的联合分布律

图片image-6

联合密度

图片image-7

条件概率密度

图片image-8

注意，这里认为y是定植

协方差

Cov(X,Y) = E[(X - E(X))(Y - E(Y))]

协方差矩阵

矩阵$$c_{ij} = Cov(X_i, X_j)$$称为随机变量组 $(X_1, X_2, \cdots, X_n)$ 的协方差矩阵。

$E,D,Cov$ 的推导和总结

定义
$\begin{aligned} E(X) &= \begin{cases} \int xf(x)\mathrm d x && \text{连续}\\ \sum x_ip_i && \text{离散} \end{cases} \\ D(X) &= E[(X - E(X))^2] \\ cov(X, Y) &= E[(X - E(X))(Y - E(Y))] \end{aligned}$

方差恒等式

$D(X) = E(X^2) - E^2(X)$

证明

\begin{aligned}D(X) &= E[(X - E(X))^2]\\ &= E(X^2) -2E[XE(X)] + E[E^2(X)]\\ &= E(X^2) - 2E^2(X) + E^2(X)\\ &= E(X^2) - E^2(X) \end{aligned}

协方差恒等式

$cov(X, Y) = E(XY) - E(X)E(Y)$

证明

\begin{aligned} cov(X, Y) &= E[(X - E(X))(Y - E(Y))] \\ &= E(XY) - E(X)E(Y) - E(Y)E(X) + E(X)E(Y) \\ &= E(XY) - E(X)E(Y) \end{aligned}

多元期望恒等式

$E(X + Y) = E(X) + E(Y)$

按照定义可得。

$E(XY) = E(X)E(Y) + cov(X, Y)$

根据协方差恒等式变形可得

多元方差恒等式

$D(X + Y) = D(X) + D(Y) + 2cov(X, Y)$

证明

\begin{aligned} D(X + Y) &= E[(X + Y)^2] - E^2(X + Y) \\ &= E(X^2) + E(Y^2) + 2E(XY) - E^2(X) - E^2(Y) - 2E(X)E(Y)\\ &= D(X) + D(Y) + 2cov(X, Y) \end{aligned}

正态分布

维度为 (d) 的多元正态分布 $ \mathcal N(\mu, \Sigma) $ 的概率密度函数为：

p(x) = \frac{1}{(2\pi)^{d/2}\,|\Sigma|^{1/2}} \exp\left( -\frac{1}{2}(x-\mu)^\top \Sigma^{-1}(x-\mu) \right),

其中

$x \in \mathbb{R}^d$ ，
$\mu \in \mathbb{R}^d$ 为均值向量，
$\Sigma \in \mathbb{R}^{d\times d}$ 为对称正定协方差矩阵。

若需要，我可以给你解释每项的含义或推导。

Chebyshev不等式

$\forall \varepsilon > 0, P(\left|X - \mu\right|\geq \varepsilon) \leq \frac{\sigma^2}{\varepsilon^2}$

证明：

根据方差的定义式：

\sigma^2 = D(X) = \int_{-\infty}^{\infty} (x - \mu)^2 f(x)\mathrm d x

所以有：

\begin{aligned}\frac{\sigma^2}{\varepsilon^2} &= \int_{-\infty}^{\infty} (\frac{x - \mu}{\varepsilon})^2 f(x)\mathrm d x\\ &\geq \int_{\left|x - \mu\right|\geq \varepsilon}(\frac{x - \mu}{\varepsilon})^2 f(x)\mathrm d x\\ &\geq \int_{\left|x - \mu\right|\geq \varepsilon} f(x)\mathrm d x = P(\left|X - \mu\right|\geq \varepsilon) \end{aligned}

可以得到推论：

$\forall k>0, P(\left|X - \mu\right|\geq k\sigma)\leq \frac{1}{k^2}$

依概率收敛

设 $Y_1, Y_2, \cdots, Y_n$ 为随机变量序列，若对任意 $\varepsilon > 0$ ，都有$$\lim_{n\to \infty} P(\left|Y_n - X\right|\geq \varepsilon) = 0$$则称随机变量序列 $Y_n$ 依概率收敛于随机变量 $X$ ，记为 $Y_n \underset{n\to\infty}{\xrightarrow{P}} Y$ 。

其中 $X$ 也可以是一个常数。

伯努利大数定律

设 $n_A$ 表示在 $n$ 次独立重复的伯努利试验中事件 $A$ 发生的次数， $p = P(A)$ ，则对于任意 $\varepsilon > 0$ ，都有$$\lim_{n\to \infty} P(\left|\frac{n_A}{n} - p\right| < \varepsilon) = 1$$

证明：

设 $X_n$ 表示前 $n$ 次命中次数的随机变量，则根据Chebyshev不等式有$$\begin{aligned}\lim_{n\to \infty} P(\left|\frac{n_A}{n} - p\right| < \varepsilon) &= \lim_{n\to\infty}P(\left|X_n - np\right|< n \varepsilon)\ &= \lim_{n\to\infty}[1 - \frac{np(1-p)}{(n\varepsilon)^2}]\ &= 1\end{aligned}$$

服从大数定律

若随机变量序列 $X_1, X_2, \cdots, X_n$ 满足某些条件，则对于任意 $\varepsilon > 0$ ，都有$$\lim_{n\to \infty} P(\left|\frac{X_1 + X_2 + \cdots + X_n}{n} - \frac{E(X_1) + E(X_2) + \cdots + E(X_n)}{n}\right| < \varepsilon) = 1$$则称该序列服从大数定律。

切比雪夫大数定律

设 $X_1, X_2, \cdots, X_n$ 为相互独立且方差存在、方差有共同的上界。则有$$\lim_{n\to \infty} P(\left|\frac{X_1 + X_2 + \cdots + X_n}{n} - \frac{E(X_1) + E(X_2) + \cdots + E(X_n)}{n}\right| < \varepsilon) = 1$$

证明：

令 $Y_n = \frac{1}{n}\sum_{i = 1}^n X_i$ ，则 $E(Y_n) = \frac{1}{n}\sum_{i = 1}^n E(X_i)$ ， $D(Y_n) = \frac{1}{n^2}\sum_{i = 1}^n D(X_i)\leq \frac{\sigma_m^2}{n}$ 。

所以$$\begin{aligned}\lim_{n\to \infty} P(\left|Y_n - E(Y_n)\right|<\varepsilon) &=\lim_{n\to\infty} [1-\frac{\sigma_m^{2}{n\varepsilon}2}]\end{aligned}$$

Khintchine大数定律

设 $X_1, X_2, \cdots, X_n$ 为相互独立且具有相同分布的随机变量序列，且 $E(X_i) = \mu$ ，则对于任意 $\varepsilon > 0$ ，都有$$\lim_{n\to \infty} P(\left|\frac{X_1 + X_2 + \cdots + X_n}{n} - \mu\right| < \varepsilon) = 1$$

这个定理太屌了，课本说我证不了（方差不保证存在，也不保证有界）。

推广：

设 $X_1, X_2, \cdots, X_n$ 为相互独立且具有相同分布的随机变量序列，且 $E(X_i^k) = \mu_k$ ，则对于任意 $\varepsilon > 0$ ，都有$$\lim_{n\to \infty} P(\left|\frac{X_1^k + X_2^k + \cdots + X_n^k}{n} - \mu_k\right| < \varepsilon) = 1$$

大数定律总结

Chebyshev不等式的形象理解：对于存在方差的随机分布，偏离中心点较远的概率有上界，也就是说样本大概率分布在中心店附近；

伯努利大数定律的形象理解：频率收敛于概率，因为平均值的方差是随机变量的 $1/n$ 倍，所以方差会逐渐缩小。

切比雪夫大数定律的形象理解：平均值的方差是随机变量的 $1/n$ 倍，所以相互独立的随机变量只要方差有上界，在 $n$ 变大是一定会收敛到 $0$ 。

Khintchine大数定律的形象理解：任何独立同分布随机变量最后会收敛到均值（只要均值存在），不需要保证方差存在。

独立同分布的中心极限定理

设 $X_1, X_2, \cdots, X_n$ 为相互独立且具有相同分布的随机变量序列，且 $E(X_i) = \mu, D(X_i) = \sigma^2 > 0$ ，则当 $n$ 充分大时，随机变量$$Z_n = \frac{X_1 + X_2 + \cdots + X_n - n\mu}{\sigma\sqrt{n}}$$近似服从标准正态分布 $N(0,1)$ 。

De Moivre-Laplace中心极限定理

设 $X$ 服从参数为 $(n,p)$ 的二项分布，则当 $n$ 充分大时，随机变量$$Z = \frac{X - np}{\sqrt{np(1-p)}}$$近似服从标准正态分布 $N(0,1)$ 。

中心极限定理总结

独立同分布的中心极限定理：对于任意存在 $\mu$ 和 $\sigma$ 的分布，独立取多次，合随机变量会服从正态分布（有 $\sqrt n$ 的修正量）。

De Moivre-Laplace中心极限定理：取二项分布的特殊情况。

数理统计-样本

总体中抽 $n$ 个个体（总体 $X$ 的容量为 $n$ 的样本）： $(X_1, X_2, \cdots, X_n)$ 。

观测到的数据（样本观测值）： $(x_1, x_2, \cdots, x_n)$ 。

如果满足1. 同分布性；2. 独立性；则称为简单随机样本。

简单随机样本满足：

F(x_1, x_2, \cdots, x_n) = \prod_{i=1}^n F(x_i)

若概率密度为 $f(x)$ ，则联合概率密度为

f(x_1, x_2, \cdots, x_n) = \prod_{i=1}^n f(x_i)

设 $(X_1, X_2, \cdots, X_n)$ 为来自总体 $X$ 的简单随机样本， $g(r_1, r_2, \cdots, r_n)$ 为实值连续函数（不含除了自变量之外的未知参数），则称 $g(X_1, X_2, \cdots, X_n)$ 为统计量。若 $(x_1, x_2, \cdots, x_n)$ 为样本值，则称 $g(x_1, x_2, \cdots, x_n)$ 为统计量的样本值。

常用统计量：

样本均值 $\overline{X} = \frac{1}{n}\sum_{i=1}^n X_i$ ，样本值记为 $\overline{x}$ 。

样本方差 $S^2 = \frac{1}{n-1}\sum_{i=1}^n (X_i - \overline{X})^2$ ，样本值记为 $s^2$ 。（注意分母是 $n-1$ ，而不是 $n$ ）

样本标准差 $S = \sqrt{S^2}$ ，样本值记为 $s$ 。
样本的 $k$ 阶原点距 $M_k = \frac{1}{n}\sum_{i=1}^n X_i^k$ ，样本值记为 $m_k$ 。
样本的 $k$ 阶中心距 $(CM)_k = \frac{1}{n}\sum_{i=1}^n (X_i - \overline{X})^k$ ，样本值记为 $(cm)_k$ 。
记 $(x_1, x_2, \cdots, x_n)$ 的顺序统计量为 $x_{1}^* \leq x_{2}^* \leq \cdots \leq x_{n}^*$ 。定义 $X_{(k)} = x_{k}^*$ ，称为样本的第 $k$ 个顺序统计量，称 $D_n = X_{(n)} - X_{(1)}$ 为样本极差，样本值记为 $d_n$ 。

$\alpha$ 分位数

上侧 $\alpha$ 分位数 $x_\alpha$ 定义为满足 $P(X > x_\alpha) = \alpha$ 的 $x_\alpha$ 值。

如果 $f(x)$ 是偶函数，定义双侧 $\alpha$ 分位数 $x_{\alpha/2}$ 为满足 $P(\left|X\right| > x_{\alpha/2}) = \alpha$ 的 $x_{\alpha/2}$ 值。

补充：特征函数法

假设 $X$ 是一个随机变量，则我们称

\varphi_{X}(t) = E[e^{itX}]\,\,, t\in\mathbb R

为 $X$ 的特征函数

也就是说

\varphi_{X}(t) = \int_{-\infty}^{\infty} e^{itx}f(x)\mathrm d x

特征函数一定存在，且可以唯一确定分布。

若 $X$ 和 $Y$ 独立，可以验证特征函数满足（二重积分拆成两个积分）：

\varphi_{X+Y}(t) = \varphi_{X}(t)\varphi_{X}(t)

还有（变量代换，定义式）

\varphi_{aX}(t) = E(e^{itaX}) = \varphi_{X}(at)

标准正态分布的特征函数：

\begin{aligned} \varphi_X(t) &= \int e^{itx}\frac{1}{\sqrt{2\pi}}e^{-x^2/2}\mathrm d x\\ &= \frac{e^{-t^2}}{\sqrt{2\pi}}\int e^{-\left(x - it\right)^2/2}\mathrm d (x - it)\\ &= e^{-t^2/2} \end{aligned}

任意正态分布的特征函数：

\varphi_Y(t) = \varphi_{\sigma X + \mu}(t) = e^{-\sigma^2t^2/2}\times e^{it\mu} = e^{it\mu - \sigma^2t^2/2}

常用统计量的分布

正态分布

若 $X_1, X_2, \cdots, X_n$ 相互独立，且 $X_i \sim N(\mu_i, \sigma_i^2)$ ，则有：

$\sum_{i=1}^n a_i X_i \sim N(\sum_{i=1}^n a_i \mu_i, \sum_{i=1}^n a_i^2 \sigma_i^2)$

特别地，当 $X_i \sim N(\mu, \sigma^2)$ 时，有

$\overline{X} \sim N(\mu, \frac{\sigma^2}{n})$

且有以下结论

两个服从正态分布的随机变量 $X\sim N(\mu_1, \sigma_1)$ 和 $Y\sim N(\mu_2, \sigma_2)$ ，且相互独立，有
$X+Y\sim N(\mu_1 + \mu_2, \sigma_1 + \sigma_2)$

以上结论都可以用特征函数法（傅立叶变换）证明。

证明

\varphi_{\overline X}(t) = \varphi_{\sum X_i}(t/n) = \left[\phi_X(t/n)\right]^n = e^{\left(it\mu/n-\frac{\sigma^2t^2}{2n^2}\right)\cdot n}\\ = e^{it\mu - \left(\frac{\sigma}{\sqrt n}\right)^2t^2/2}

所以 $\varphi_{\overline X}(t) \sim N(\mu, \left(\frac{\sigma}{\sqrt n}\right)^2)$ 。

另一个带入特征函数是显然的。

此外，正态分布是唯一具有方差和均值独立性质的分布。

$\chi^2$ 分布

设 $X_1, X_2, \cdots, X_n$ 相互独立，且 $X_i \sim N(0,1)$ ，则随机变量$$Y = \sum_{i=1}^n X_i^2$$服从自由度为 $n$ 的 $\chi^2$ 分布，记为 $Y \sim \chi^2(n)$ 。

其中卡方分布的概率密度函数为

f_{\chi^2}(x) = \begin{cases} \frac{1}{2^{n/2}\Gamma(n/2)}e^{-x/2}x^{\frac{n}{2}-1} & x > 0\\ 0 & \text{else} \end{cases}

性质：

$E(\chi^2) = n$ ， $D(\chi^2) = 2n$ 。

若 $Y_1 \sim \chi^2(n_1), Y_2 \sim \chi^2(n_2)$ ，则 $Y_1 + Y_2 \sim \chi^2(n_1 + n_2)$ 。

$n$ 充分大时， $\chi^2(n)$ 近似服从正态分布 $N(n, 2n)$ 。

$t$ 分布

设 $X \sim N(0,1), Y \sim \chi^2(n)$ ，且 $X$ 和 $Y$ 相互独立，则随机变量$$T = \frac{X}{\sqrt{Y/n}}$$服从自由度为 $n$ 的 $t$ 分布，记为 $T \sim t(n)$ 。

记 $T\sim t(n)$ ，则概率密度函数为

f_t(x) = \frac{\Gamma((n+1)/2)}{\sqrt{n\pi}\Gamma(n/2)}(1 + \frac{x^2}{n})^{-(n+1)/2}

性质：

$n\to\infty$ 时， $t(n)$ 近似服从正态分布 $N(0,1)$ 。

$F$ 分布

设 $U \sim \chi^2(m)$ , $V \sim \chi^2(n)$ ，且 $U$ 和 $V$ 相互独立，则随机变量$$F = \frac{U/m}{V/n}$$服从自由度为 $(m,n)$ 的 $F$ 分布，记为 $F \sim F(m,n)$ 。

记 $F\sim F(m,n)$ ，则概率密度函数为

f_F(t) = \begin{cases} \frac{\Gamma((m+n)/2)}{\Gamma(m/2)\Gamma(n/2)}(\frac{m}{n})^{m/2}t^{m/2-1}(1 + \frac{m}{n}t)^{-(m+n)/2} & t > 0\\ 0 & \text{else} \end{cases}

性质：

若 $F \sim F(m,n)$ ，则 $\frac{1}{F} \sim F(n,m)$ 。

若 $F(m, n)$ 的上侧 $\alpha$ 分位数为 $F_{\alpha}(m,n)$ ，则 $F_{1-\alpha}(m,n) = \frac{1}{F_{\alpha}(n,m)}$ 。

总结

$\chi^2$ 分布是 $n$ 个独立标准正态分布的随机变量平方和；可以用于刻画正态分布样本的方差；

$t$ 分布用于刻画多个独立正态分布随机变量的均值，在方差未知的情况下（用统计方差代替）；

$F$ 分布用于刻画两个样本的方差比。

正态总体的抽样分布

单个正态总体的抽样分布

设 $X_1, X_2, \cdots, X_n$ 为来自总体 $X \sim N(\mu, \sigma^2)$ 的简单随机样本。则有：

$\overline{X} \sim N(\mu, \frac{\sigma^2}{n})$ 。

$S^2 \sim \frac{\sigma^2}{n-1}\chi^2(n-1)$ 。

$\frac{\overline{X} - \mu}{\sigma/\sqrt{n}} \sim N(0,1)$ 。

$\frac{(n-1)S^2}{\sigma^2} \sim \chi^2(n-1)$ 。

$\frac{\overline{X} - \mu}{S/\sqrt{n}} \sim t(n-1)$ 。

证明

已经证明过了;
$S^2=\frac{1}{n - 1}\sum (X_i - \overline X)^2 = \frac{1}{n - 1}\left(\sum (X_i - \mu)^2 + 2\sum (X_i - \mu)(\mu - \overline X) + \sum (\mu - \overline X)^2\right)=\frac{1}{n-1}\left(\sum(X_i - \mu)^2 - n(\overline X - \mu)^2\right)$ ，RHS的左半边服从 $\sigma^2 \chi^2(n)$ ，右半边服从 $-\sigma^2 chi^2(1)$ ，LHS和RHS的右半边独立，反用可加性（使用可减性，特征函数唯一）， $S^2\sim \frac{\sigma^2}{n - 1}\chi^2(n - 1)$ .
同1；
同2；
$\frac{\overline X - \mu}{S/\sqrt n} = \frac{\frac{\overline X - \mu}{\sigma/\sqrt n}\sigma\sqrt n}{\sigma\sqrt n\sqrt{\frac{(n - 1)S^2}{\sigma^2}/(n - 1)}} = \frac{\frac{\overline X - \mu}{\sigma/\sqrt n}}{\sqrt{\frac{(n - 1)S^2}{\sigma^2}/(n - 1)}}\sim t(n - 1)$

两个正态总体的抽样分布

设 $X_1, X_2, \cdots, X_n$ 和 $Y_1, Y_2, \cdots, Y_m$ 为来自总体 $X \sim N(\mu_X, \sigma_X^2)$ 和 $Y \sim N(\mu_Y, \sigma_Y^2)$ 的简单随机样本，且 $X$ 和 $Y$ 相互独立。则有：

$\frac{S_1^2}{S_2^2}/\frac{\sigma_X^2}{\sigma_Y^2} \sim F(n-1, m-1)$ 。

$\overline{X} - \overline{Y} \sim N(\mu_X - \mu_Y, \frac{\sigma_X^2}{n} + \frac{\sigma_Y^2}{m})$ 。

$\sigma_X = \sigma_Y = \sigma$ 时， $\frac{(\overline{X} - \overline{Y}) - (\mu_X - \mu_Y)}{\sqrt{\frac{1}{n} + \frac{1}{m}}\sqrt{\frac{(n - 1)S_1^2 + (m - 1)S_2^2}{n + m - 2}}} \sim t(n + m - 2)$ 。

证明

就是定义；
正态函数性质；
改成 $\overline X + \overline Y$ 也是同样的分布；按照定义可以推

\begin{cases} \frac{\overline X - \overline Y - (\mu_X - \mu_Y)}{\frac{\sigma^2}{n} + \frac{\sigma^2}{m}} \sim N(0, 1)\\ \frac{n + m - 2}{\sigma^2}\frac{(n - 1)S_1^2 + (m - 1)S_2^2}{n + m - 2}\sim \chi^2(n + m - 2) \end{cases}

点估计

用统计量估计参数，叫做点估计

频率替代法

用频率估计概率

矩估计法

有 $k$ 个未知参数，就用 $k$ 阶原点矩来估计

先求出 $k$ 个原点矩（根据得到的数据），再反解出参数。

用 $\hat\theta_{\text{矩}}$ 表示。

最大似然估计法

先求出似然函数 $L$ （所有概率乘起来，是 $x_i$ 的函数）；

然后再求导，求出最大值，最大值点就是似然估计值。

求导前先观察单调性。

用 $\hat\theta_{\text{极大}}$ 表示。

估计量的评价标准

无偏性

$\hat\theta$ 可以写成 $X_1, X_2, \cdots, X_n$ 的函数，所以 $\hat\theta$ 也是一个随机变量。

对于 $\hat\theta$ 这个随机变量的均值 $E(\hat\theta)$ ，如果满足

$E(\hat\theta) = \theta$

则认为 $\hat\theta$ 是无偏估计量。

这里的 $\theta$ 是未知参数。

有效性

设 $\hat\theta_1 = \hat\theta_1(X_1, X_2, \cdots, X_n)$ 和 $\hat\theta_2 = \hat\theta_2(X_1, X_2, \cdots, X_n)$ 都无偏，则如果有

$D(\hat\theta_1) < D(\hat\theta_2)$

则认为 $\hat\theta_1$ 比 $\hat\theta_2$ 有效。

因为这个估计方法震荡更小。

估计量方差下界

Rao-Cramer不等式：

$D(\hat\theta) \geq I(\theta) = \frac{1}{nE\left[\left(\frac{\partial \ln f(x;\theta)}{\partial\theta}\right)^2\right]} > 0$

前提条件是 $\hat\theta$ 无偏。

证明

由于

E(\hat\theta) = \int \hat\theta(\bm x)f(\bm x;\theta)\mathrm d\bm x = \theta

可以得出

\begin{aligned} D(\hat\theta) &= E[(\hat\theta - \theta)^2] \\ &= \int (\hat\theta - \theta)^2 f(\bm x; \theta)\mathrm d \bm x \\ \end{aligned}

而根据科西不等式

\begin{aligned} &[\int (\hat\theta - \theta)^2 f(\bm x; \theta)\mathrm d \bm x][\int \frac{(\frac{\partial f}{\partial \theta})^2}{f(\bm x;\theta)}\mathrm d\bm x] \\ \geq& \left(\int (\hat\theta - \theta)\left(\frac{\partial f}{\partial \theta}\right)\mathrm d \bm x\right)^2 \\ \end{aligned}

有LHS的右半边

\int \frac{(\frac{\partial f}{\partial \theta})^2}{f(\bm x;\theta)}\mathrm d\bm x = \int \left[\frac{\partial \ln f(\bm x;\theta)}{\partial \theta}\right]^2 f(\bm x;\theta)\mathrm d\bm x = E\left[\left(\frac{\partial \ln f(\bm x; \theta)}{\partial \theta}\right)^2\right]

而

\begin{aligned}\text{RHS} &= \frac{\partial}{\partial\theta}\int \hat\theta f(\bm x;\theta)\mathrm d \bm x - \theta\frac{\partial}{\partial\theta}\int f(\bm x;\theta)\mathrm d\bm x\\ &= \frac{\partial \theta}{\partial\theta} - 0 = 1 \end{aligned}

令

I(\theta) = \frac{1}{E\left[\left(\frac{\partial \ln f(\bm x;\theta)}{\partial\theta}\right)^2\right]} = \frac{1}{nE\left[\left(\frac{\partial \ln f(x;\theta)}{\partial\theta}\right)^2\right]}

则

D(\hat\theta)\geq I(\theta)

其中 $I(\theta)$ 被称为Fisher信息量。

如果某个无偏估计量的方差达到了下界 $I(\theta)$ ，则是有效估计量（仅是充分条件，有可能不存在估计量达到下界）。

一致性

如果对于任意 $\varepsilon>0$ ，都有
$\lim_{n\to\infty} P(\left|\hat\theta_n-\theta\right| < \varepsilon) = 1$
则 $\hat\theta_n$ 是 $\theta$ 的一致估计量。

性质

如果 $\hat\theta$ 无偏，且
$\lim_{n\to\infty} D(\hat\theta) = 0$
则 $\hat\theta_n$ 是一致估计量。

证明

Chebyshev不等式

P(\left|\hat\theta_n - \theta\right|\geq \varepsilon)\leq \frac{D(\hat\theta_n)}{\varepsilon}

令 $n$ 趋于无穷即可。

区间估计

若对于任意 $\alpha\in(0, 1)$ ，存在 $\hat\theta_1$ 和 $\hat\theta_2$ 两个关于 $X = (X_1, X_2, \cdots, X_n)$ 的函数，满足 $P(\hat\theta_1 < \theta < \hat\theta_2) = 1-\alpha$ ，则称 $(\hat\theta_1, \hat\theta_2)$ 为 $\theta$ 的置信度为 $1-\alpha$ 的置信区间。 $\theta_1$ 被称为置信下限， $\theta_2$ 被称为置信上限。

单个正态总体参数的置信区间

设总体 $X\sim N(\mu, \sigma^2)$ ， $(X_1, X_2, \cdots, X_n)$ 是来⾃总体的⼀个样本， $1-\alpha$ 是给定的置信度。

对 $\mu$ 的区间估计

$\sigma$ 已知

则可以令 $U = \frac{\overline X - \mu}{\sigma/\sqrt n}$ ，则 $U\sim N(0, 1)$ 。令 $U$ 为枢轴量。

令 $u_{\alpha/2}$ 为标准正态分布的上 $\alpha / 2$ 分位点，即

P(U > u_{\alpha/2}) = \alpha/2

则有 $P(-u_{\alpha/2} < U < u_{\alpha/2}) = 1-\alpha$ 变化可得

$P(\overline X - \frac{u_{\alpha/2}\sigma}{\sqrt n} <\mu < \overline X + \frac{u_{\alpha / 2}\sigma}{\sqrt n}) = 1 - \alpha$
即置信区间为$$(\overline X - u_{\alpha / 2}\frac{\sigma}{\sqrt n}, \overline X + u_{\alpha/2}\frac{\sigma}{\sqrt n})$$

$\sigma$ 未知

根据 $S\sim \frac{\sigma^2}{n - 1}\chi^2(n - 1)$ 可以得到

U=\frac{\overline X - \mu}{S / \sqrt{n}}\sim t(n - 1)

则

$P(-t_{\alpha/2}(n - 1) < \frac{\overline X - \mu}{S / \sqrt n} < t_{\alpha / 2}(n - 1)) = 1 - \alpha$
从而得到
$P(\overline X -\frac{St_{\alpha/2}(n - 1)}{\sqrt n} < \mu < \overline X + \frac{St_{\alpha / 2}(n - 1)}{\sqrt n}) = 1 - \alpha$

对 $\sigma$ 的区间估计

$\mu$ 已知

U = \sum \frac{(X_i - \mu)^2}{\sigma^2}

则 $U\sim \chi^2(n)$ ，有

$P(\chi^2_{1 - \alpha/2}(n) < \frac{1}{\sigma^2}\sum (X_i - \mu)^2< \chi^2_{\alpha / 2}(n)) = 1 - \alpha$
即
$P(\frac{\sum (X_i - \mu)^2}{\chi^2_{\alpha/2}(n)} < \sigma^2 < \frac{\sum(X_i - \mu)^2}{\chi^2_{1 - \alpha / 2}(n)}) = 1 - \alpha$

$\mu$ 未知

U = \frac{n - 1}{\sigma^2}S^2\sim \chi^2(n - 1)

有

$P(\chi^2_{1 - \alpha/2}(n - 1) < \frac{n - 1}{\sigma^2}S^2 < \chi^2_{\alpha/2}(n - 1))$
即
$P(\frac{(n -1)S}{\chi^2_{\alpha/2}(n - 1)} < \sigma^2 < \frac{(n-1)S}{\chi^2_{1 - \alpha/2}(n - 1)})$

两个正态总体参数的置信区间

用前一章知识也可以类似解决。

假设检验

原假设： $H_0$ ，做出的假设，比如“ $\mu=7.5$ ”。
备择假设： $H_1$ ，否命题，如“ $\mu\neq 7.5$ ”。
拒绝域：一个集合，比如说 $\mathcal W = \{(X_1, X_2, \cdots, X_n)\mid\left|\overline X - 7.5\right| > C\}$ .
检验统计量：构造的随机变量，比如说 $U=\frac{\overline X - 7.5}{\sigma/\sqrt {36}}\sim N(0, 1)$ ，然后找到 $P(\left|U\right| > k) = \alpha$ ，就能求出拒绝域。
双侧检验：拒绝域为两侧；
单侧检验：拒绝域在一侧；
显著性水平： $\alpha$ 使得 $H_0$ 成立时， $P((X_1, X_2, \cdots, X_n)\in \mathcal W)\leq \alpha$ 。

错误

第I类错误

“弃真”错误，发生了小概率事件，放弃了 $H_0$ 而接受了 $H_1$ ，概率为

P(\text{拒绝}H_0\mid H_0\text{为真}) \leq \alpha

第II类错误

“存假”错误， $H_0$ 错误但是接受了 $H_0$ ，记

P(\text{接受}H_0\mid H_0\text{为假}) = \beta

单个正态总体参数均值的假设检验

方差已知

显著差异

H_0: \mu = \mu_0, H_1: \mu\neq \mu_0

假设 $H_0$ 成立，构造$$U = \frac{\overline X - \mu_0}{\sigma/\sqrt n}\sim N(0, 1)$$

拒绝域

\left|\frac{\overline X - \mu_0}{\sigma / \sqrt n}\right| > u_{\alpha / 2}

显著偏小

H_0: \mu \geq \mu_0, H_1: \mu < \mu_0

假设 $H_0$ 成立，构造

U = \frac{\overline X - \mu}{\sigma / \sqrt n}\sim N(0, 1)

有

P(\frac{\overline X - \mu}{\sigma / \sqrt n}< -u_{\alpha}) = \alpha\geq P(\frac{\overline X -\mu_0}{\sigma/\sqrt n} < -u_{\alpha})

所以说拒绝域

\frac{\overline X - \mu_0}{\sigma/\sqrt n} < -u_{\alpha}

显著偏大

\frac{\overline X - \mu_0}{\sigma/\sqrt n} > u_{\alpha}

方差未知

使用$$U = \frac{\overline X - \mu_0}{S/\sqrt n}\sim t(n - 1)$$

显著差异

\left|\frac{\overline X - \mu_0}{S/\sqrt n}\right| > t_{\alpha/2}(n - 1)

显著偏小

\frac{\overline X - \mu_0}{S/\sqrt n} < -t_{\alpha}(n - 1)

显著偏大

\frac{\overline X - \mu_0}{S/\sqrt n} > t_{\alpha}(n-1)

单个正态总体参数方差的假设检验

均值已知

显著差异

。。。都和前面差不多，不玩了

两个正态总体参数的假设检验

非正态总体参数的假设检验

随机事件概率 $p$ 的假设检验

对于 $H_0: p = p_0$ ， $H_1: p \neq p_0$ ，假设 $H_0$ 成立，有

X_i\sim B(1, p)

且

\begin{cases} E(\overline X) = p_0\\ D(\overline X) = \frac{p_0(1-p_0)}{n}\\ \end{cases}

根据中心极限定理

U = \frac{\overline X - p_0}{\sqrt{p_0(1-p_0)/n}}\overset{\text{近似}}{\sim} N(0, 1)

拒绝域为

\left|\frac{\overline X - p_0}{\sqrt{p_0(1-p_0)/n}}\right| > u_{\alpha/2}

其他两类同理。

非正态总体的大样本检验

大样本，近似正态。

非参数检验

\begin{cases}H_0: X\text{的分布函数是}F(x)\\H_1: X\text{的分布函数不是}F(x)\end{cases}

Pearson定理

如果 $H_0$ 为真，那么不管 $F(x)$ 是什么， $n$ 充分大时，统计量 $\chi^2$ 总是服从于自由度为 $k - r - 1$ 的 $\chi^2$ 分布，即
$\chi^2 = \sum_{i = 1}^k\frac{(n_i - np_i)^2}{np_i}\overset{近似}{\sim}\chi^2(k-r-1)$
其中 $k$ 为划分数， $r$ 为 $F(x)$ 中未知参数的个数。

对于式子 $\frac{(n_i - np_i)^2}{np_i}$ ，可以令 $\hat p_i = \frac{n_i}{n}$ ，则可以改写为$$\frac{(n_i - np_i)^2}{np_i} = \left(\frac{\hat p_i - p_i}{\sqrt{p_i/n}}\right)^2$$

这个玩意是怎么来的呢？

观察到 $(n\hat p_1, n\hat p_2, \cdots, n\hat p_n)$ 满足多项式分布，且有

\begin{cases} E(\hat p_i) = p_i\\ D(\hat p_i) = p_i(1 - p_i)/n\\ cov(\hat p_i, \hat p_j) = -p_ip_j/n\\ \end{cases}

当 $n\to\infty$ 时，多项式分布趋近于正态分布，有

\sqrt n\begin{pmatrix} \hat p_1 - p_1\\ \hat p_2 - p_2\\ \vdots\\ \hat p_k - p_k\\ \end{pmatrix}\sim N\left(0, \begin{pmatrix} p_1(1 - p_1)& -p_1p_2& \cdots& -p_1p_k\\ -p_2p_1& p_2(1 - p_2)&\cdots&-p_2p_k\\ \vdots&\vdots&\ddots&\vdots\\ -p_kp_1&-p_2p_k&\cdots&p_k(1-p_k)\\ \end{pmatrix}\right)

可以再化为

\sqrt n\begin{pmatrix} \frac{\hat p_1 - p_1}{\sqrt p_1}\\ \frac{\hat p_2 - p_2}{\sqrt p_2}\\ \vdots\\ \frac{\hat p_k - p_k}{\sqrt p_k}\\ \end{pmatrix}\sim N\left(0, \begin{pmatrix} 1 - p_1& -\sqrt{p_1p_2}& \cdots& -\sqrt{p_1p_k}\\ -\sqrt{p_2p_1}& 1 - p_2&\cdots&-\sqrt{p_2p_k}\\ \vdots&\vdots&\ddots&\vdots\\ -\sqrt{p_kp_1}&-\sqrt{p_2p_k}&\cdots&1-p_k\\ \end{pmatrix}\right)

正态分布的协方差矩阵可以进一步写为

C = E - \sqrt{\bm p}\sqrt{\bm p}^T

其中

\sqrt{\bm p} = (\sqrt {p_1}, \sqrt{p_2}, \cdots, \sqrt{p_k})^T

所以有 $\|\sqrt{\bm p}\|=1$

可以验证 $rank(C) = k - 1$ ，后续推导略。

概率公理

分布率（分布列）

随机变量的分布函数

0-1分布

二项分布

Poisson分布

随机变量的概率密度函数

几个概率密度函数

变量代换

多维随机变量联合分布

多维随机变量边缘分布

离散型的联合分布律

联合密度

条件概率密度

协方差

相关系数

协方差矩阵

E,D,CovE,D,CovE,D,Cov的推导和总结

方差恒等式

协方差恒等式

多元期望恒等式

多元方差恒等式

正态分布

Chebyshev不等式

依概率收敛

伯努利大数定律

服从大数定律

切比雪夫大数定律

Khintchine大数定律

大数定律总结

独立同分布的中心极限定理

De Moivre-Laplace中心极限定理

中心极限定理总结

数理统计-样本

α\alphaα分位数

补充：特征函数法

常用统计量的分布

正态分布

χ2\chi^2χ2分布

ttt分布

FFF分布

总结

正态总体的抽样分布

单个正态总体的抽样分布

两个正态总体的抽样分布

点估计

频率替代法

矩估计法

最大似然估计法

估计量的评价标准

无偏性

有效性

估计量方差下界

一致性

区间估计

单个正态总体参数的置信区间

对μ\muμ的区间估计

σ\sigmaσ已知

σ\sigmaσ未知

对σ\sigmaσ的区间估计

μ\muμ已知

μ\muμ未知

两个正态总体参数的置信区间

假设检验

错误

第I类错误

第II类错误

单个正态总体参数均值的假设检验

方差已知

显著差异

显著偏小

显著偏大

方差未知

显著差异

显著偏小

显著偏大

单个正态总体参数方差的假设检验

均值已知

显著差异

两个正态总体参数的假设检验

$E,D,Cov$ 的推导和总结

$\alpha$ 分位数

$\chi^2$ 分布

$t$ 分布

$F$ 分布

对 $\mu$ 的区间估计

$\sigma$ 已知

$\sigma$ 未知

对 $\sigma$ 的区间估计

$\mu$ 已知

$\mu$ 未知

随机事件概率 $p$ 的假设检验