基本概念及定义

对于大学期间有系统学习过概率论与数理统计这么课程的同学，即使长时间不用，对其中细节早已遗忘，但是多少肯定还是有建立起基本的知识体系和认知。至少知道什么是概率，什么是正态分布。以下内容是对概率论与数理统计部分主要内容的快速review，相信这些内容足够唤起记忆。

概率论基本概念

随机事件：随机实验中可能发生也可能不发生的事情，简称事件

必然事件：随机实验中必然发生写事件，用符号 $\Omega$ 表示

不可能事件：随机试验中必然不发生的事件，用符号 $\varnothing$ 表示

随机实验 $E$ 中必然发生一个且仅发生一个的最简单事件为实验 $E$ 的基本事件，由若干基本事件组合而成的事件成为复合事件。一个事件是否为基本事件是相对于实验目的而言的。

我们用集合表示事件，对于随机实验 $E$ 的每一个基本事件，用一个只包含一个元素 $\omega$ 的单元素 $\{\omega\}$ 表示；复合事件，则用对应的若干个元素所组成的集合表示；由全体基本事件所对应的全部元素所组成的集合，称为随机实验 $E$ 的样本空间，样本空间仍然用 $\Omega$ 表示，和必然事件一样。样本空间的每一个元素 $\omega$ 为样本点。

随机变量：设 $\Omega$ 是随机试验 $E$ 的样本空间，若对于每一个样本点 $\omega \in \Omega$ ，都有唯一的实数 $X(\omega)$ 与之对应，且对于任意实数 $x$ ，都有确定的概率 $P\{X(\omega) \leq x\}$ 与之对应，则称 $X(\omega)$ 为随机变量，简记为 $X$ 。随机变量是一个函数。

概率分布函数：设 $\Omega$ 是随机试验 $E$ 的样本空间， $x$ 是任意实数，称函数 $F(x) = P\{X \leq x\}= P\{\omega:X(\omega) \leq x\}$ 为随机变量 $X$ 的分布函数 ， $F(x)$ 也可以记作 $F_X(x)$ 。

离散型随机变量：如果随机变量 $X$ 只取有限个或可列无穷多个数值： $x_1,x_2,\cdots,x_n,\cdots$ ，若 $P\{X=x_i\}=p_i$ ，且它满足： $(1) \quad p_i\geq 0; \\ (2) \ \sum_{i=1}^{\infty} p_i=1,$ 则称 $X$ 为离散型随机变量，并称： $P\{X=x_i\}=p_i,\quad i=1,2,\cdots$ 为 $X$ 的分布律。

伯努利（Bernoulli）实验：若一个实验的样本空间只有两个样本点，即只有两个可能的对立结果（例如：抛硬币）： $A$ 和 $\bar{A}$ ，则称之为伯努利实验。在伯努利实验中， $A$ 为伯努利实验的基本事件，若 $P(A)=p,0<p<1$ ，令 $\begin{align*} X= \left\{ \begin{array}{lr} 1, &A\ occurs\\ 0, &\bar{A} \ occurs \end{array} \right. \end{align*}$

则 $X$ 的分布律为： $P\{X=x\}=p^x(1-p)^{1-x}, \quad x=0,1$ 也称 $X$ 服从(0-1)分布。

$n$ 次重复独立的伯努利实验称为 $n$ 重伯努利实验。在 $n$ 重伯努利实验中，事件 $A$ 恰好发生 $k$ 次的概率为： $P_n(k)=C_n^kp^k(1-p)^{n-k}, \quad k=0,1,2,\cdots,n$

若随机变量 $X$ 的分布律为： $P\{X=k\}=P_n(k)=C_n^kp^k(1-p)^{n-k}, \quad k=0,1,2,\cdots,n$ 则称 $X$ 服从二项分布，记为 $X\sim B(n,p)$ 。可以用”一次实验同时抛 $n$ 枚硬币出现 $k$ 次正面的概率“来理解二项分布。（0-1）分布是二项的特殊情况，即 $X\sim B(1,p)$ 。

概率密度：设 $F(x)$ 是随机变量 $X$ 的分布函数，若存在非负函数 $f(x)$ ，对任意实数 $x$ ，有 $F(x) = \int_{-\infty}^x f(u)du$ 则称 $X$ 是连续型随机变量，称 $f(x)$ 为 $X$ 的概率密度。

随机变量的数字特征

数学期望

随机变量服从二项分布的数学期望：设随机变量 $X\sim B(n,p)$ ，由二项分布的可加性可知， $X$ 可以表示为 $n$ 个相互独立(0-1)分布随机变量之和 $X=X_1+X_2+\cdots+X_n$ ，且 $E(X_i)=0\times(1-p)+1\times p = p \quad (i=1,2,\cdots,n)$ 从而 $E(X)=\sum_{i=1}^n E(X_i) = np$

方差

随机变量服从(0-1)分布的方差： $D(X)=E[X-E(X)]^2=E(X^2)-[E(X)]^2 \\ =(0^2\times(1-p)+1^2\times p)-p^2=p-p^2=p(1-p)$ 随机变量服从二项分布的方差：

由二项分布的可加性可知， $X$ 可以表示为 $n$ 个相互独立(0-1)分布随机变量之和 $X=X_1+X_2+\cdots+X_n$ ，从而有： $D(X)=\sum_{i=1}^n D(X_i) = np(1-p)$

协方差与相关系数

大数定律与中心极限定理

大数定律

大数定律常见的有5种表述形式，我们选取其中2个进行表述。

辛坎大数定律：设 $X_1,X_2,\cdots,X_n,\cdots$ 是相互独立且服从同一分布的随机变量序列，随机变量 $X_i$ 具有数学期望： $E(X_i)=\mu \quad (i=1,2,\cdots)$ 则 $X_1,X_2,\cdots,X_n,\cdots$ 服从大数定律，即对任意实数 $\varepsilon>0$ 有： $\lim_{n\rightarrow\infty}P\Big\{\Big|\frac{1}{n}\sum_{i=1}^nX_i-\mu\Big|<\varepsilon \Big\}=1$ 伯努利大数定律：设 $m$ 是 $n$ 重伯努利实验中事件 $A$ 出现的次数， $p$ 是 $A$ 在每次实验中发生的概率，则对于任意给定的实数 $\varepsilon>0$ 有： $\lim_{n\rightarrow\infty}P\Big\{\Big|\frac{m}{n}-p\Big|<\varepsilon \Big\}=1$ 通俗解释，对于相当多次数重复实验，根据大数定律知道，样本数量越多，则其算术平均值就有越高的概率接近期望值。以抛硬币为例，重复足够多次后正面出现的概率趋近于0.5。

中心极限定理

独立同分布中心极限定理：设 $X_1,X_2,\cdots,X_n,\cdots$ 是独立同分布的随机变量序列，随机变量 $X_i$ 具有数学期望和方差： $E(X_i)=\mu, \quad D(X_i)=\sigma^2>0 \quad (i=1,2,\cdots)$ 则 $X_1,X_2,\cdots,X_n,\cdots$ 服从中心极限定理，即： $\lim_{n\rightarrow\infty}P\Big\{ \frac{\sum_{i=1}^n X_i - n\mu}{\sqrt{n}\sigma}\leq x \Big\}=\varPhi(x)$ 其中 $\varPhi(x)$ 为标准正态分布。

此定理的结果说明序列 $Z_n=\frac{\sum_{i=1}^n X_i - n\mu}{\sqrt{n}\sigma}$ 的极限分布是标准正态分布。因此，当 $n$ 很大时，可以认为 $Z_n$ 近似服从 $N(0,1)$ 分布，从而： $\sum_{i=1}^n X_i=\sqrt{n}\sigma Z_n+n\mu$ 近似服从 $N(n\mu,n\sigma^2)$ 分布。而 $X_1,X_2,\cdots,X_n,\cdots$ 的前 $n$ 项的算数平均 $\bar{X}_n=\frac{1}{n}\sum_{i=1}^{n}X_i$ 近似服从 $N(\mu,\frac{\sigma^2}{n})$ 分布。当 $n$ 充分大时，由中心极限定理可得概率近似计算公式： $\begin{align*} P\{x_1 < \sum_{i=1}^{n}X_i \leq x_2\} & = P\Big\{ \frac{x_1-n\mu}{\sqrt{n}\sigma}<Z_n\leq\frac{x_2-n\mu}{\sqrt{n}\sigma} \Big\} \\ & \approx \varPhi(\frac{x_2-n\mu}{\sqrt{n}\sigma})-\varPhi(\frac{x_1-n\mu}{\sqrt{n}\sigma}) \end{align*}$

棣莫弗-拉普拉斯中心极限定理：设随机变量 $Y_n\sim B(n,p) \quad (n=1,2,\cdots)$ ，则对任意实数 $x$ 有 $\lim_{n\rightarrow\infty}P\Big\{ \frac{Y_n-np}{\sqrt{np(1-p)}}\leq x \Big\} = \varPhi(x)$ 若随机变量 $Y_n\sim B(n,p)$ ，当 $n$ 足够大时，由中心极限定理可得到概率近似计算公式： $\begin{align*} P\{m_1 < Y_n \leq m_2\} & = P\Big\{ \frac{m_1-np}{\sqrt{np(1-p)}} < \frac{Y_n-np}{\sqrt{np(1-p)}} \leq \frac{m_2-np}{\sqrt{np(1-p)}} \Big\} \\ & \approx \varPhi\Big(\frac{m_2-np}{\sqrt{np(1-p)}}\Big)-\varPhi\Big(\frac{m_1-np}{\sqrt{np(1-p)}}\Big) \end{align*}$

中心极限定理通俗的解释就是随着样本量的增加，样本均值的分布会逐渐趋近于正态分布：

数理统计基本概念

总体：研究对象的全体

个体：组成总体的每个基本元素

赋有一定概率分布的总体称为统计总体，其概率分布称为总体分布。当总体分布为正态分布时，称为正态分布总体或简称正态总体。

总体的概率分布是总体的核心。因此，进一步将总体看成具有相应的概率分布的随机变量，比如 $X$ ，称作总体 $X$ ，则随机变量 $X$ 的概率分布就是总体分布。

样本是按一定的规定从总体中抽出的一部分个体。这里的”按一定的规定“，是指为保证总体中的每一个个体有同等的被抽出的机会而采取的一些措施。取得样本的过程，称为抽样。

样本是一组随机变量，记为 $X_1,X_2,\cdots,X_n$ ，其中 $n$ 称为样本容量或样本大小或样本量。实施抽样后得到的具体数据 $x_1,x_2,\cdots,x_n$ 称为样本观测值。

简单随机样本：样本 $X_1,X_2,\cdots,X_n$ 满足以下要求的称之为简单随机样本，如果没有特别说明，通常都是简单随机样本：

代表性。每个 $X_i$ 应该与总体 $X$ 有相同的分布；
独立性。 $X_1,X_2,\cdots,X_n$ 应该是相互独立的随机变量。

统计量：设 $X_1,X_2,\cdots,X_n$ 为来自总体 $X$ 的一个样本，若样本函数 $g(X_1,X_2,\cdots,X_n)$ 中不含任何未知参数，则称 $g(X_1,X_2,\cdots,X_n)$ 为一个统计量。常用的统计量有：

$\bar{X}=\frac{1}{n}\sum_{i=1}^n X_i$ 称为样本均值。注意：总体均值又称数学期望。
$S^2=\frac{1}{n-1}\sum_{i=1}^n (X_i-\bar{X})^2$ 称为样本方差。 $S$ 称为样本标准差。注意和总体方差的区别，总体方差是除以 $n$ 而不是 $n-1$ 。
$A_k=\frac{1}{n}\sum_{i=1}^n X_i^k$ （ $k$ 为任意正整数），称为样本 $k$ 阶原点矩。
$M_k=\frac{1}{n}\sum_{i=1}^n (X_i-\bar{X})^k$ （ $k$ 为任意正整数），称为样本 $k$ 阶中心矩。样本原点矩和样本中心距统称样本矩。

注意：样本1阶原点矩就是样本均值 $A_1 = \bar{X}$ ；而样本2阶中心矩并不等于样本方差，而是 $M_2=\frac{n-1}{n}S^2$ 。

将样本观测值 $x_1,x_2,\cdots,x_n$ 带入统计量公式中得到的值称之为统计值。

统计量也是随机变量，统计量的分布称为抽样分布，比如样本均值的抽样分布。

抽样分布定理：设 $X_1,X_2,\cdots,X_n$ 是正态总体 $N(\mu,\sigma^2)$ 的样本， $\bar{X}$ 、 $S^2$ 分别是样本均值和样本方差，则有： $\begin{align*} &(1)\quad \bar{X}\ and\ S^2\ are\ independent\\ &(2)\quad \bar{X}\sim N(\mu,\frac{\sigma^2}{n}) \\ &(3)\quad \frac{n-1}{\sigma^2}S^2\sim \chi^2(n-1) \\ &(4)\quad \frac{\bar{X}-\mu}{S/\sqrt{n}}\sim t(n-1)\\ \end{align*}$

设 $X_1,X_2,\cdots,X_n$ 是正态总体 $N(\mu_1,\sigma_1^2)$ 的样本， $Y_1,Y_2,\cdots,Y_n$ 是正态总体 $N(\mu_2,\sigma_2^2)$ 的样本。两个样本相互独立， $\bar{X},\bar{Y},S_1^2,S_2^2$ 分别代表两个样本的均值和方差，则有：

$F=\frac{S_1^2/\sigma_1^2}{S_2^2/\sigma_2^2} \sim F(n_1-1,n_2-1)$

当 $\sigma_1^2=\sigma_2^2=\sigma^2$ 时， $T=\frac{(\bar{X}-\bar{Y})-(\mu_1-\mu_2)}{S_w\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}} \sim t(n_1+n_2-2)$ 其中 $S_w=\sqrt{\frac{(n_1-1)S_1^2+(n_2-1)S_2^2}{n_1+n_2-2}}$ 。

参数估计

参数估计在机器学习导出损失函数以及A/B实验的计算中起着重要的作用。

参数估计是统计推断的基本问题之一。在实际问题中，往往遇到总体的分布类型已知，而所依据的几个参数未知的情形。针对未知参数，借助于总体的样本对其做出估计。

参数的点估计

矩估计法和极大似然估计法是常用的参数点估计方法。

跟据矩估计法和极大似然估计法均可得出，若 $X_1,X_2,\cdots,X_n$ 是正态总体 $N(\mu,\sigma^2)$ 的样本，则均值 $\mu$ 和方差 $\sigma^2$ 的估计为： $\hat{\mu}=\bar{X},\quad \hat{\sigma}^2=\frac{1}{n}\sum_{i=1}^n(X_i-\bar{X})^2$ 但基于参数估计无偏性的准则，由矩估计法和极大似然估计法求得的 $\hat{\sigma}^2$ 并不是无偏的。需要将分母 $n$ 修正为 $n-1$ ，也就是 $S^2=\frac{1}{n-1}\sum_{i=1}^n(X_i-\bar{X})^2$ 为 $\sigma^2$ 的无偏估计。

参数的区间估计

利用枢轴变量法构造置信区间

一个正态总体参数的置信区间

设 $X_1,X_2,\cdots,X_n$ 是正态总体 $N(\mu,\sigma^2)$ 的样本，求未知参数 $\mu$ 的置信度为 $1-\alpha$ 的置信区间：

$\sigma^2$ 已知

因为样本均值 $\bar{X}$ 是 $\mu$ 的无偏估计，且根据抽样分布定理 $\bar{X}\sim N(\mu,\frac{\sigma^2}{n})$ ，所以： $U=\frac{\bar{X}-\mu}{\sigma/\sqrt{n}} \sim N(0,1)$ 于是由标准正态分布的上侧分位数的定义可知，对于给定的置信度 $1-\alpha$ ，有 $P\{|U|\leq u_\frac{\alpha}{2}\}=1-\alpha$ ，即： $\begin{align*} & P\{-u_\frac{\alpha}{2} \leq \frac{\bar{X}-\mu}{\sigma/\sqrt{n}} \leq u_\frac{\alpha}{2}\} \\ =& P\{\bar{X}-\frac{\sigma}{\sqrt{n}}u_\frac{\alpha}{2} \leq \mu \leq \bar{X}+\frac{\sigma}{\sqrt{n}}u_\frac{\alpha}{2}\} \\ =& 1-\alpha \end{align*}$ 从而得到 $\mu$ 的置信度为 $1-\alpha$ 的置信区间为 $[\bar{X}-\frac{\sigma}{\sqrt{n}}u_\frac{\alpha}{2},\bar{X}+\frac{\sigma}{\sqrt{n}}u_\frac{\alpha}{2}]$
$\sigma^2$ 未知

此时 $U=\frac{\bar{X}-\mu}{\sigma/\sqrt{n}}$ 不再构成枢轴变量，因为 $\sigma^2$ 未知，故用 $S^2$ 代替 $\sigma^2$ 。根据抽样分布定理，枢轴变量 $T=\frac{\bar{X}-\mu}{S/\sqrt{n}}\sim t(n-1)$ 。因为 $t$ 分布也是关于 $Y$ 轴对称，于是有： $P\{-t_\frac{\alpha}{2}(n-1) \leq \frac{\bar{X}-\mu}{S/\sqrt{n}} \leq t_\frac{\alpha}{2}(n-1)\}=1-\alpha$ 经过恒等变形，得到参数 $\mu$ 的置信度为 $1-\alpha$ 的置信区间是 $[\bar{X}-\frac{S}{\sqrt{n}}t_\frac{\alpha}{2}(n-1),\bar{X}+\frac{S}{\sqrt{n}}t_\frac{\alpha}{2}(n-1)]$

两个正态总体的区间估计

$\sigma_1^2,\sigma_2^2$ 已知

因为 $\bar{X}-\bar{Y}$ 是 $\mu_1-\mu_2$ 的无偏估计，又由于 $\bar{X},\bar{Y}$ 相互独立，所以： $\bar{X}-\bar{Y} \sim N\big(\mu_1-\mu_2,\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}\big)$ 进一步取枢轴变量为： $U=\frac{(\bar{X}-\bar{Y})-(\mu_1-\mu_2)}{\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}} \sim N(0,1)$ 由此可得 $\mu_1-\mu_2$ 的置信水平为 $1-\alpha$ 的置信区间为： $\Big[ \bar{X}-\bar{Y}-u_{\frac{\alpha}{2}}\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}},\ \bar{X}-\bar{Y}+u_{\frac{\alpha}{2}}\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}} \Big]$
$\sigma_1^2,\sigma_2^2$ 未知，但 $\sigma_1^2=\sigma_2^2$

由两个总体的抽样分布定理可知： $T=\frac{(\bar{X}-\bar{Y})-(\mu_1-\mu_2)}{S_w\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}} \sim t(n_1+n_2-2)$ 以 $T$ 作为枢轴变量，求出 $\mu_1-\mu_2$ 的置信水平为 $1-\alpha$ 的置信区间为： $\Big[ \bar{X}-\bar{Y}-t_{\frac{\alpha}{2}}(n_1+n_2-2)S_w\sqrt{\frac{1}{n_1}+\frac{1}{n_2}},\ \bar{X}-\bar{Y}+t_{\frac{\alpha}{2}}(n_1+n_2-2)S_w\sqrt{\frac{1}{n_1}+\frac{1}{n_2}} \Big]$

大样本方法构造置信区间

对于非正态总体而言，要确定其抽样分布往往是比较困难的。大样本方法就是以中心极限定理为理论基础，利用极限分布确定枢轴变量的分布，进而构造出置信区间。本质上是利用近似分布代替精确分布以构造近似置信区间。

设某非正态总体，其数学期望为 $\mu$ ，方差为 $\sigma^2$ ，但 $\mu,\sigma^2$ 均未知，从该总体中抽取样本 $X_1,X_2,\cdots,X_n$ 。试求参数 $\mu$ 的置信水平为 $1-\alpha$ 的置信区间：

由中心极限定理知： $\frac{\bar{X}-\mu}{\sigma/\sqrt{n}}$ 的极限分布 $(n\rightarrow \infty)$ 为 $N(0,1)$ 。由于 $\sigma$ 未知，故不能以 $\frac{\bar{X}-\mu}{\sigma/\sqrt{n}}$ 作为枢轴变量。而样本标准差 $S$ 是 $\sigma$ 的一个个相合估计，所以当 $n\rightarrow \infty$ 时， $\frac{\bar{X}-\mu}{S/\sqrt{n}}$ 仍以 $N(0,1)$ 为极限分布。因此，当 $n$ 足够大时，可以得出 $\mu$ 的置信区间为： $\Big[\bar{X}-\frac{S}{\sqrt{n}}u_\frac{\alpha}{2},\ \bar{X}+\frac{S}{\sqrt{n}}u_\frac{\alpha}{2} \Big]$ 究竟多大的 $n$ 才称为大样本？许多应用实践表明，当 $n \geq 30$ 时，近似程度是可以接受的。

单侧置信区间

单侧置信区间的估计与双侧情况完全类似，只需将置信区间的一个端点换成 $+\infty$ 或 $-\infty$ ，而将两一个端点中的 $\frac{\alpha}{2}$ 换成相应的 $\alpha$ 即可。

例如，总体分布 $N(\mu,\sigma^2)$ ， $\sigma^2$ 已知，求参数 $\mu$ 的单侧置信上、下限。仍然以 $U=\frac{\bar{X}-\mu}{\sigma/\sqrt{n}}$ 为枢轴变量。由 $P\Big\{ \frac{\bar{X}-\mu}{\sigma/\sqrt{n}} \leq u_{\alpha} \Big\} = 1-\alpha$ 得 $\mu$ 的单侧置信下限为 $\bar{X} - \frac{\sigma}{\sqrt{n}}u_{\alpha}$ ，相应的单侧置信区间为 $\Big[\bar{X} - \frac{\sigma}{\sqrt{n}}u_{\alpha},+\infty \Big)$ 。又由 $P\Big\{ -u_{\alpha} \leq \frac{\bar{X}-\mu}{\sigma/\sqrt{n}} \Big\} = 1-\alpha$ 得 $\mu$ 的单侧置信上限为 $\bar{X} + \frac{\sigma}{\sqrt{n}}u_{\alpha}$ ，相应的单侧置信区间为 $\Big(-\infty, \bar{X} + \frac{\sigma}{\sqrt{n}}u_{\alpha} \Big]$ 。

概率论与数理统计