概率统计-zero-notes

2024-04-11 笔记 0 Comments

$\def\sube{\subseteq}$ \def\sube{\subseteq}

~~明天期中考试，一节课没上，妈的，我以为下周考试的。~~

~~还好是lds教授的，属于是极度easy模式，但还是有点寄。~~

概率论：从数量规律，统计规律角度对客观世界随机现象展开研究。
概率是随机事件出现可能性的度量。概率论是数理统计学的基础。

~~这门课有点不太行，没学到东西~~

概率论

随机事件与概率

~~加法原理，乘法原理，排列，组合~~

概率：统计定义（频率在某个附近摆动）；主观定义（发生的可能性的个人主观信念）；古典定义（古典概型中，A中基本事件个数除以样本空间基本事件个数）；几何定义（样本空间为有限区域 $\Omega$ ，测度的比值）【概率为零不是不可能事件，概率为1不是必然事件】

Kolmogorov的定义

$\Omega$ 为非空集合，称为样本空间，$2^{\Omega}$ 是它的幂集，有 $\mathcal F \sube 2^{\Omega}$，如果 $\Omega \in \mathcal F$，任何 $A \in \mathcal F$ 满足补和无穷并都封闭，那么这个 $\mathcal F$ 称为 $\Omega$ 上的 $\sigma$ 代数。

其实值得好好想一想，目前大概理解成集合的集合就行了。

在 $\sigma$ 代数上定义测度（一个实值函数），满足非负性 $0\le P(A)\le 1$，归一性 $P(\Omega)=1$，完全可加性（互不相交的 $A_i$ 的函数值加起来就等于这些并起来的函数值）。

$P$ 为 $(\Omega,\mathcal F)$ 上的概率测度，简称概率； $A$ 为随机事件，简称事件；$(\Omega,\mathcal F,P)$ 为概率空间。

对于有限/无穷可列的，通常取 $\mathcal F= 2^{\Omega}$，有限概率空间和可列概率空间叫做离散概率空间。

条件概率 ： $P(A\mid B)=P(AB)/P(B)$，要求 $P(B)>0$

乘法公式：$P(AB)=P(A)P(B\mid A)$

全概率公式：$P(A)=\sum P(B_i) P(A \mid B_i)$ 对于一个划分

Bayes公式：$P(A\mid B)=\frac{P(A_k)P(B\mid A_k)}{P(B)}=\frac{P(A)P(B\mid A_k)}{\sum P(B \mid A_i) P(A_i)}$，条件是 $P(B)>0$

先验概率：$P(B)$

后验概率：$P(B \mid A_i)$

事件独立性： $P(AB)=P(A)P(B)$

相互独立： $P(ABC)=P(A)P(B)P(C)$ 且 $P(AB)=P(A)P(B),P(AC)=P(A)P(C),P(BC)=P(B)P(C)$，一定是且的关系。

二项概率公式 $P_n(k)=C_n^k p^kq^{n-k}$，

在独立试验序列概型中，如果每次试验只有两种可能，则称为 Bernoulli 伯努利试验，

在Bernoulli中，事件A首次 $Q(k)=q^{k-1}p, k=1,2,…$ 的概率称为几何分布

事件 $A$ 在第 $k$ 次试验时第 $r$ 次发生的概率 $S(k,r)=C_{k-1}^{r-1}p^rq^{k-r}$ 称为 Pascal*分布

随机变量及其概率分布

随机变量：概率空间 $(\Omega,\mathcal F,P)$ 中，定义单值函数 $X:\Omega \to R$，若 $\forall x \in R$，均有 $\set{\omega,\mid X(\omega) \le x} \in \mathcal F$，则称 $X$ 是随机变量。

其中随机事件 $\set{\omega \mid X(\omega) \le x}$ 是随机事件，常记作 $\set{X \le x}$

直观理解为一个单值函数，同样可以分为离散型随机变量和连续型随机变量

对随机变量 $X$ 概率特性的刻画包括：

分布函数 $F(x)=P(X \le x) , -\infty < x < +\infty$

满足：单调不减，右连续，负无穷处极限为零，正无穷处极限为一
$P(X=a)=F(a)-F(a-0)$

离散型随机变量

概率分布/分布律（离散型随机变量）

$p_k=P(X=x_k),k=1,2…$
其分布函数是分段阶梯函数。非负性，归一性，第一类跳跃间断点。

两点分布，伯努利分布，01分布

二项分布：多重Bernoulli试验中，$P_n(k)=C_n^kp^k(1-p)^{n-k}$ 称 $X$ 服从参数为 n,p 的二项分布 $X \sim B(n,p)$

试验多次重复，结果与其他独立，只有两个可能

几何分布：$q^{k-1}p$

Pascal分布：事件 $A$ 第 $r$ 次发生时的试验次数 $X$， $P(X=k)=C_{k-1}^{r-1}p^rq^{k-r}$, $q=1-p$

超几何分布： 二项分布的不放回抽样，N很大时近似服从 $B(n,p)$，后者为前者极限分布。

泊松分布： $P(X=k)=e^{-\lambda} \frac{\lambda^k}{k!}$

$X \sim \pi (\lambda),X \sim P(\lambda)$

这个好像考得有点多

设 $X\sim B(n,p_n)$ $np_n=\lambda>0$，则可以得到

$\lim _{n \to \infty} C(n,k)p_n^k(1-p_n)^{n-k}=e^{-\lambda}\frac{\lambda^k}{k!}$，在 n 很大的时候 $\lambda$ 比较小。

所以叫做 稀有事件在大量重复试验中出现的次数。

关于最大值取值是否讨论整数，ppt里有描述了，如果不是整数直接就是下取整！因为我算的是 $P(X=k)/P(X=k-1)$，是整数的有两个可能

连续型随机变量

对于随机变量 $X$，如果存在一个非负可积函数

$F(x)=\int_{-\infty}^x f(t)\dd t,-\infty<x<\infty$

则称 $X$ 是连续型随机变量，$f(x)$ 是它的概率密度函数，简称密度函数，概率密度

讨论连续型随机变量落入区间的概率，不讨论区间的开闭性。

当然也存在不是连续的也不是离散的随机变量，连续型随机变量的概率密度也不唯一，但是无所谓就是有限个点可以任意改变，不加区别。

均匀分布

$f(x)=\cases{\frac{1}{b-a}&a<x<b\\0&others}$

参数为 $a,b$ 的均匀分布，区间 $(a,b)$ 上的均匀分布，$X\sim U(a,b)$

指数分布

$f(x)=\cases{\lambda e^{-\lambda x}&$x\ge 0$\\0,&others}$

称 $X$ 服从参数为 $\lambda$ 的指数分布，$X\sim E(\lambda)$，$\lambda>0$ 为常数

分布函数为 $F(x)=\cases{1-e^{-\lambda x}&$x \ge 0$\0&x<0}$

这个一定要是负的，大概是因为不能到无穷远的地方，总之要收敛。

常作为各种寿命的寿命分布近似，元减寿命 $T$ 的分布 $P(T\le t+\Delta t \mid T>t)=\lambda \Delta t+o(\Delta t)$

满足无记忆性，$P(X>s+t \mid X>s)=P(X>t)$

指数分布的无记忆性是其所独有的。

正态分布

服从两点分布的相互独立随机变量序列求和，一种近似

$\Large f(x)=\frac{1}{\sqrt{2\pi}\sigma}e ^{-\frac{(x-\mu)^2}{2\sigma^2}}$

因为中心极限定理，生活中大量现象服从或服从正态分布。

天文观测误差，二项分布近似计算，鸟蛋直径

在 $x=\mu\pm \sigma$ 的地方，函数凹凸性改变。

标准正态分布 $N(0,1)$，即 $\mu=0,\sigma^2=1$ 的正态分布，偶函数，其分布函数为

$\Phi(x)=\frac{1}{\sqrt{2\pi}} \int_{-\infty}^xe^{-t^2/2}\dd t$

$\Phi(-x)=1-\Phi(x)$
一般的正态分布函数 $F(x)=\Phi(\frac{x-\mu}{\sigma})$
$2\Phi(1)-1=0.6826,2\Phi(2)-1=0.9545,2\Phi(3)-1=0.9973$

$\Gamma$ 分布

$f(x)=\cases{ \frac{\beta^\alpha}{\Gamma(\alpha)} x^{\alpha-1} e^{-\beta x}&$x >0$\\ 0&$x\le 0$ }$ $X\sim\Gamma(\alpha,\beta)$ $\Gamma(a+1)=a\Gamma(a),\Gamma(n+1)=n!,\Gamma(0.5)=\pi^{1/2},\Gamma(1)=1\\ \Gamma(a)=\int_0^\infty x^{\alpha-1}e^{-x}\dd x$

当 $\alpha=1$ 时候，是指数分布 $\Gamma(1,\beta)=E(\beta)$

当 $\alpha=n/2,\beta=1/2$ 时，记作自由度为 $n$ 的 $\mathcal X^2$ 分布，$\Gamma(n/2,1/2)=\mathcal X^2(n)$

随机变量的函数及其分布

如 $Y=\frac{1}{2} m X^2$ 也是一个随机变量

离散型随机变量的分布律法

$P(X=x_k)=p_k$

$P(Y=yi)=\sum{k,g(x_k)=y_i}p_k$

连续型随机变量函数的分布

分布函数法
- 例如 $P(Y\le y)=P(aX+b\le y)$
公式法
- 正态随机变量之线性变换仍服从正态分布

连续型随机变量函数的分布函数不一定是连续函数。

多维随机变量及其概率分布

概率空间 $(\Omega,\mathcal F,P)$ 上的 $n$ 个随机变量 $X_1,X_2…X_n$，看作一个整体，$X=(X_1,X_2,…X_n)$，为 n 维随机变量。

联合分布函数

$F(x_1,x_2,..x_n)=P(X_1\le x_1,X_2\le x_2,…X_n \le x_n)$
对每个变量单调不减

边缘分布函数

任意 $k$ 个分量

$F_X(x)=P(X\le x)=P(X\le x,Y<+\infty)=F(x,\infty)$

二维连续型随机变量及其概率特性

对于二维来说，分量 $X,Y$ 的概率分布 $(X,Y)$ 关于 $X$ 和 $Y$ 的边缘概率分布/边缘分布律

二维均匀分布

二维正态分布 $(X,Y)\sim N(\mu_1,\sigma_1^2;\mu_2,\sigma_2^2;\rho)$

n维正态分布

$f(x)=\frac{1}{(2\pi)^{n/2}|\Sigma|^{1/2}}\exp[-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)]$

若相互独立，则边缘分布完全确定联合分布。

独立判断方法：

连续性二维联合密度，$f(x,y)=r(x)g(y)$，非负可积函数。
$F(x,y)=R(x)G(y)$, $F_X(x)=R(x)/R(+\infty)$

条件概率分布

对于离散的

$P(Y=y_j\mid X=x_i) = \frac{P(X=x_i,Y=y_j)}{P(X=x_i)}$

类似于乘法公式，全概率公式。

对于连续的

$P(X\le x\mid Y=y) = \lim_{\epsilon \to 0+} P(X\le x \mid y-\epsilon<Y<y+\epsilon)$

对于 $fY(y)>0$, $f{X|Y}(x\mid y)=\frac{f(x,y)}{f(y)}$

注意：条件变量变化范围的写法及出现位置 !

注意：联合 ( 密度 ) 各变量的变化范围及其融合

$X\sim B(n_1,p),Y\sim B(n_2,p),Z=X+Y\sim B(n_1+n_2,p)$ $X\sim P(\lambda_1),Y\sim P(\lambda_2),Z=X+Y\sim P(\lambda_1+\lambda_2)$

正态随机变量，若 $(X,Y) \sim N(\mu_1,\sigma_1^2;\mu_2,\sigma_2^2;\rho)$, $X+Y \sim N(\mu_1+\mu_2,\sigma_1^2+2\rho\sigma_1\sigma_2+\sigma_2^2)$

一种作业出现的可能有用的估计要记住的得学的计算的方法，方法是构造新的二维随机变量Z,U，各分量随机变量均为X和Y的函数，先求联合密度函数，再求边缘密度要求连续偏导数

$f_{ZU}(z,u)=f_{XY}(h(z,u),s(z,u))|J|$

$J$ 是雅可比行列式。注意要先把 $x=h(z,u)$ 写出来。因为这个是上面的。反函数不唯一时仍需要分布函数法。

对于商的分布Z=X/Y，值得一学

相互独立随机变量的最大值/最小值，最大值就是全部概率乘起来。

随机变量的数字特征

对于离散随机变量，如果无穷级数 $\sum_{k=1}^{+\infty} x_kp_k$ 绝对收敛，那么 $X$ 为其数学期望，简称期望。

指数分布 $X\sim P(\lambda)$，期望为 $\lambda$ ，可以算超几何分布 $nM/N$，几何分布 $1/p$。

一般的期望通过划分后对离散的取极限得到。

连续型随机变量的数学期望：如果广义积分绝对收敛。

随机变量函数 $Y=g(X)$ 的数学期望 $\int_{-\infty}^{+\infty}g(x)f(x)\dd x$

$E(X+Y)=E(X)+E(Y)$

$E(XY)=E(X)E(Y)$ 如果独立

$[E(XY)]^2 \le E(X^2)E(Y^2)$

用判别式法证明，但是这个东西是不是也应该理解成柯西不等式？

方差

离散：$D(X)=\sum_{k=1}^{\infty}(x_k-E(X))^2p_k$，连续就是积分

$D(X)=E(X^2)-E^2(X)$ $D(aX+b)=a^2D(X)$ $D(X+Y)=D(X)+D(Y)+2E(X-E(X))E(Y-E(Y)))$

对任意常数 $C$, $D(X) \le E(X-C)^2$

切比雪夫不等式

$P(|X-E(X)| \ge \epsilon) \le \frac{1}{\epsilon^2}D(X)$

说实话，矩生成函数很漂亮。

偏度系数 $\alpha=E(X-E(X))/(\sqrt {D(X)})^3$ 刻画关于其对于数学期望的对称程度。

峰度系数，变异系数，中位数，分位数……

协方差，相关系数

$cov(X,Y)=E([X-EX][Y-EY])=E(XY)-E(X)E(Y)$

协方差为零不代表相互独立。

$cov(X,X)=D(X)\\ cov(aX,bY)=ab\cdot cov(X,Y)\\ cov(X+Y,Z)=cov(X,Z)+cov(Y,Z)\\ D(X+ Y)=D(X)+D(Y)+2cov(X,Y)$ $|cov(X,Y)|^2 \le D(X)D(Y)$

随机变量标准化后

$\rho_{XY}=\frac{cov(X,Y)}{\sqrt {D(X)D(Y)}}=cov(X^*,Y^*)$

叫做相关系数。

相关系数等于1说明线性关系的概率为1。
等于零表示不相关（但不是独立）

但是如果满足二维正态分布，相互独立就是不相关。

随机变量的矩

k阶中心矩 $E((X-EX)^k)$
二阶混合中心矩：协方差

协方差矩阵：非负定，对称，$\sigma_{ij}^2\le \sigma_i^2\sigma_j^2$

$\pmatrix{D(X)&cov(X,Y)\\cov(Y,X)&D(Y)}$

线性变换下的协方差矩阵 $Y=AX$, $\Sigma(Y)=A \Sigma(X) A^T$

概率极限理论

真学不完了？？？

几乎处处收敛 $P(\lim_{n \to \infty} X_n=X)=1$ 【收敛的概率为1，这个最强】
依概率收敛 $\lim_{n \to \infty}P( |X_n-X|<\epsilon)=1$
依分布收敛，弱收敛：对于所有连续点 $x$， $\lim_{n \to \infty} F_n(x)=F(x)$

从上往下能推出。

[Bob] 其实只需要记住一个切比雪夫大数定律，伯努利大数定律就是针对两点分布的，辛钦是更严格的，强大数定律是几乎处处收敛，独立同分布中心极限定理针对标准化之后的正太分布

重要不等式

$P(|X| \ge \epsilon) \le E(|X|^k)/\epsilon^k$
$P(|X-EX| \ge \epsilon ) \le D(X)/\epsilon^2$

伯努利大数定律

$\lim _{n \to \infty}P(|n_A/n-p|\ge \epsilon)=0$
算出E，算出D，用切比雪夫不等式证明
这种稳定叫做：依概率稳定。

契比雪夫大数定律

$\lim{n \to \infty}P(|\frac{1}{n}\sum{i=1}^nX_k-\mu|\ge \epsilon)=0$
具有相同数学期望和方差的独立随机变量序列服从大数定律，即该序列之算术平均依概率收敛于其数学期望
方差有上限也行。不独立只要和的方差不太大也行。

辛钦大数定律

独立同分布的话，没有方差也行

柯尔莫哥洛夫强大数定律

几乎处处收敛
独立，期望和方差存在，$\sum \frac{D(X_n)}{n^2}$ 收敛的话， $\set{X_n}$ 服从强大数定律。
独立同分布，期望存在，$\set{X_n}$ 服从强大数定律

中心极限定理

随机变量序列 $Xk,E(X_k),D(X_k)$ 都存在，则 $\sum{k=1}^n X_k$ 的标准化变量依分布收敛极限服从正态分布。
序列 $X_k$ 服从中心极限定理。

那么问题来了，怎么证明呢。

中心极限定理 - 维基百科，自由的百科全书 (wikipedia.org)

能拿来用就不错了。

数理统计 statisics

新概念有点多啊

研究分布未知或所知不完全的情况，以概率论为基础，对自然界随机现象进行观测检验。

描述统计学/推断统计学

萌芽阶段：直方图，最小二乘法，$\mathcal X^2$ 分布，回归分析……

蓬勃到成熟阶段，二战结束后：大样本小样本同济路论，现代数理统计理论，置信区间，多元，时间序列分析。1946年Cramer名著《统计学的数学方法》

继续发展阶段：理论与应用；贝叶斯学派，非线性滤波理论……

主要内容包括：参数估计，非参数估计，假设检验，方差分析，回归分析，相关分析，多元分析，试验设计、正交试验设计，抽样调查方法。

总体：一般为某个随机变量；样本：从总体中抽取的部分个体$(X_1,X_2,…X_n)$。n 称为样本容量。在一次试验中样本的观测值 $(x_1,x_2…x_n)$ 称为样本的一个实现。

简单随机样本为独立同分布，下简称样本。

统计量是指不含有位置参数的实值连续函数 $g(X_1,X_2…X_n)$。

观察值是指 $g(x_1,x_2..x_n)$

统计推断：包括统计估计，假设检验。

统计估计：根据样本对未知方面进行求取或界定。包括（参数估计，非参数估计），参数估计包括（点估计，区间估计）

假设检验：利用样本所提供的信息对所作假设进行检验，接受或者拒绝。

经验分布函数：等可能地取到每个离散的样本，

常用统计量

样本均值
$\overline X=\frac{1}{n}\sum_{i=1}^nX_i$
样本方差
$S^2=\frac{1}{n-1}\sum_{i=1}^{n}(X_i-\overline X)^2$
样本 $k$ 阶原点矩
$A_k=\frac{1}{n}\sum_{i=1}^n X_i^k$
样本 $k$ 阶中心矩
$B_k=\frac{1}{n}\sum_{i=1}^n (X_i-\overline X)^k$
$B_2=\frac{n-1}{n}S^2\triangleq S_n^2$
顺序统计量与极差：从小到大排序，排完序后的 $(X{(1)},X{(2)},..,X{(n)})$ 叫做顺序统计量，可以有第k个顺序统计量。$X{(n)}-X_{(1)}$ 为极差统计量，简称极差

卡方分布

定义一种统计量叫卡方统计量，

尽量背下来吧

$f(x_{+})=\frac{1}{2^{n/2}\Gamma(n/2)} e^{-x/2} x^{n/2-1}$

众所周知 $\mathcal X^2(n)=\Gamma(n/2,1/2)$

而 $\Gamma(1,\beta )=E(\beta)$。

卡方分布的均值为 $n$，方差为 $2n$。（也就是说标准正态分布平方均值为1方差为2）

t分布

自由度为n的t统计量： X标准正态分布，Y卡方分布，两者独立，则统计量$T=\frac{X}{\sqrt {Y/n}}\sim t(n)$。

：是偶函数，当n很大时，$t\alpha(n)$ 约为 $u\alpha$

F(n,m)分布

$X$ 和 $Y$ 从卡方分布中采样，自由度分别n和m，相互独立。

$F=\frac{X/n}{T/m}\sim F(n,m)$，第一自由度为n，第二自由度为m的F分布。

$1/a\sim F(m,n) :a \sim F(n,m)\\ F_{1-\alpha}(n,m)=\frac{1}{F_{\alpha}(m,n)}$

这有个例三听值得一看的：$t{1-\alpha/2}^n(n)=F\alpha(1,n)$

正态分布的一些结论

$\frac{\overline X-\mu}{\sigma/\sqrt n} \sim N(0,1)\\ \frac{(n-1)S^2}{\sigma^2}\sim \mathcal X^2(n-1)\\ \frac{\overline X-\mu}{\sigma /\sqrt n}/\frac{S}{\sigma} \sim t(n-1)$

$\frac{(n-1)S^2}{\sigma^2}$ 与 $\overline X$ 相互独立。

然后可以写出 $\overline X-\overline Y$ 相关的 $t$ 分布，公式好复杂，可能之后还会提到。

$\Gamma(\alpha)=\int_{0}^\infty x^{\alpha-1}e^{-x}\mathrm dx$

参数估计

点估计：未知参数的值
区间估计：未知参数的取值区间

点估计：

构造 $k$ 个统计量，$\hat \theta_i(X_1,X_2..X_n)$ 这些统计量叫做估计量。

频率替换法，根据伯努利大数定律。
矩估计法，以样本相应 $k$ 阶矩作为齐估计量，或对总体矩的连续函数，以样本的相应矩的相应连续函数作为其估计量。

具体步骤如下：

假设需要估计的参数为 $\theta=(\theta_1,\theta_2…\theta_k)^T$，设总体 $X$ 的 $r$ 阶矩存在，为 $E(X^r)=\mu_r(\theta)$

$\mu_r(\hat \theta) = \frac{1}{n}\sum_{i=1}^nX_i^r$

则是关于未知参数 $\hat \theta$ 的 $k$ 个方程组，解方程组得到

$\hat \theta(X_1,X_2,...X_n )=F(X_1,X_2,...X_n)$

这个叫做未知参数的矩估计量

代入样本观测得到 $k$ 个数

$\hat \theta(x_1,x_2,...x_n)$

叫做未知参数 $\theta_1,…\theta_k$ 的矩估计值。

辛钦定理(推广) 是矩估计的理论依据，因为有 $A_r \longrightarrow \mu_r$，依概率收敛。如果依概率收敛的序列就可以有 $g(A_1,A_2…A_k)\longrightarrow g(\mu_1,\mu_2,…\mu_k)$

极大似然估计

似然函数：

联合密度函数是：$L(x_1,x_2…\theta)=\prod f(x_i,\theta)$

当观测值给定后，$L(\theta)$ 称为样本的似然函数。

这时候取最大的值的 $\hat \theta$，带入后得到的就可以得到 极大似然估计值 ，带入如果随机变量就是 极大似然估计量。多个参数也一样。

后面大家都会了，就求个导就行，不能导就换点求极值的方法。

如果单值函数反函数（直观理解成一一映射）那就是估计不变的。

对于同一个未知参数，不同的估计方法可能不同

三个性质

无偏性：$E(\hat \theta) = \theta$；

重点来了，为什么是 $S^2=\frac{1}{n-1}\sum _{i=1}^n (X_i-\overline X)^2$，因为这个是 $D(x)=\sigma^2$ 的无偏估计量。主要是n个的方差要除以n，所以就要减去1/n。

这里缺一点东西，关于 $S$ 不是 $\sqrt{DX}=\sigma$ 的无偏估计，先挖个坑。

有效性：在都是无偏估计的情况下看总体方差更小的更有效。

一致性

样本容量很大的时候依概率收敛，对于 $\epsilon$ 要一致。

【参数估计，区间估计】

假设检验

假设阶段做 零假设 ，也叫 原假设，提出一个相对的假设叫做 备择假设。两者互不相交。假设包括单边假设双边假设。
关键是小概率事件是否成立。

对于正态样本的均值的估计

$\frac{\bar X-\mu}{S/\sqrt n}\sim t(n-1)$

核心是比较

$\frac{\bar X-\mu_0}{S\sqrt n} >t_{1-\alpha}(n-1)$

如果这个发生，说明是在 $\mu_0$ 的情况下是小概率事件。

值得记住的是 $t$ 分布是一个关于零对称的，所以 $t{\alpha}=-t{1-\alpha}$

犯第一类错误（弃真）的概率是 $\alpha$，第二类（存伪）为 $\beta$。

暂时不会

$\beta=\Phi(u_\beta)=\Phi(-u_{1-\beta})$

假设检验的评价标准可以是功效函数，参数是总体待推理参数，函数值是样本落在拒绝域中的概率。

一致最优检验是说，功效函数一致地比其它所有检验都要好。

无偏检验是说，在 $H_0$ 不成立时拒绝 $H_0$ 地概率不小于 $H_0$ 成立时拒绝 $H_0$ 的概率。

正态总体的假设检验

总体均值的检验

$X\sim N(\mu,\sigma^2)$ $U=\frac{\bar X-\mu_0}{\sigma /\sqrt n}\sim N(0,1)$

对于 $\sigma^2$ 已知，拒绝域是

$|U|>u_{1-\alpha/2},U<-u_{1-\alpha},U>u_{1-\alpha}$

对于 $\sigma^2$ 未知，使用 $t$ 检验

$T=\frac{\bar X-\mu_0}{S/\sqrt n}\sim t(n-1)$

拒绝域基本就是

$|T|>t_{1-\alpha/2},T<-t_{1-\alpha},T>t_{1-\alpha}$

总体方差的检验

如果 $\mu$ 已知，用 $\mathcal X^2$ 检验

$\mathcal X^2=\frac{\sum(X_i-\mu)^2}{\sigma_0^2}\sim \mathcal X^2(n)$

比如说拒绝域是

$\mathcal X^2>\mathcal X_{1-\alpha}^2(n)$

如果 $\mu$ 未知，也是卡方

$\mathcal X^2=\frac{(n-1)S^2}{\sigma_0^2}\sim \mathcal X^2(n-1)$

然后也是

$\mathcal X^2>\mathcal X_{1-\alpha}^2(n-1)$

两个正态均值差的检验

如果 $\sigma_1,\sigma_2$ 已知

$U=\frac{\bar X-\bar Y-\delta}{\sqrt{\frac{\sigma_1^2}{n}+\frac{\sigma_2^2}{m}}}$

对于

$|U|>u_{1-\frac{\alpha}{2}};U>u_{1-\alpha}$

之类的。

如果 $\sigma_1,\sigma_2$ 未知，但 $\sigma_1=\sigma_2$

$U=\frac{\bar X-\bar Y-\delta}{\sqrt{\frac{1}{n}+\frac{1}{m}}S_w}\sim T(n+m-2)$

拒绝域还是

$|T|>t_{1-\alpha/2};T>t_{1-\alpha}$

其中

$S_w=\sqrt{\frac{(n-1)S_1^2+(m-1)S_2^2}{n+m-2}}$

两个正态方差比的检验

$\mu_1,\mu_2$ 未知

$F=\frac{S_1^2}{S_2^2}\sim F(n-1,m-1)$

取

$\sigma_1^2=\sigma_2^2$

拒绝域：（ $FF_{1-\alpha/2}(n-1,m-1)$ ）….

检验假设也算是区间估计，置信区间是可以算出来的，也就是接受域。

总体分布的假设检验

Pearson的卡方检验

$v=\sum\frac{(v_i-np_i)^2}{np_i} \to \mathcal X^2(k-r-1)$

其中 $r$ 是用最大似然估计的未知参数的个数。拒绝域为 $V>\mathcal X_{1-\alpha}^2(k-r-1)$

偏度/峰度检验法

$G_1=B_3/B_2^{3/2} \sim N(0,\sigma_1^2) \\ G_2=B_4/B_2^2\sim N(\mu_2,\sigma_2^2)$

其中

$\sigma_1^2=6(n-2)/(n+1)(n+3)\\ \mu_2=3-6/(n+1)\\ \sigma_2^2=24n(n-2)(n-3)/(n+1)^2(n+3)(n+5)$

拒绝域是除以二之后的。

方差分析

有 $m$ 个总体，每一个总体取一些样本，假定这些整体是正态整体且有相同的方差
$\epsilon_i = \mu_i-\mu$, $\mu$ 是平均值。
变成假设检验，$H_0:\mu_1=\mu_2=…\mu_m=\mu$

计算组内平均值距离数据总平均的平方，叫做 $S_T$

假设 $H_0$ 成立的话， $S_T/\sigma^2\sim \mathcal X(mk-1)$，事实上 $S_T=(mk-1)S^2$，$S^2$ 是总样本方差

组内平方和 $S_e$，组间平方和 $S_A$，总平方 $S_T$ 有，$S_T=S_A+S_e$

另一个直观是用

$F=\frac{S_A/(m-1)}{S_e/m(k-1)}\sim F(m-1,mk-m)$

统计量的分子在原假设不成立的情况下有偏大的倾向。

所以可以认为否定域是

$F_A>F_{1-\alpha}(m-1,mk-m)$

对于 $\alpha=0.05,0.01$ ，是显著影响和高度显著影响。

为方便计算

$T_i=\sum_j X_{ij};CT=n\bar X=\frac{1}{n}(\sum T_i)^2$ $S_T=\sum_{i=1}^m\sum_{j=1}^{n_i} x_{ij}^2 -CT$ $S_A=\sum _{i=1}^m (T_i^2/n_i)-CT\\ S_e=S_T-S_A$

$S_T=S_A+S_B+S_e$ $F_A=\frac{S_A/(n-1)}{S_e/(n-1)(m-1)}\\ F_B=\frac{S_B/(m-1)}{S_e/(n-1)(m-1)}$ $F_A\sim F(n-1,(n-1)(m-1))\\ F_B\sim F(m-1,(n-1)(m-1))$

回归分析：

描述+预测+控制

一元线性回归模型

样本点 $(x_i,y_i)$
$Y=a+bx+\epsilon$

最大似然估计

$Y_i\sim N(a+bx_i,\sigma^2)$

$S_{xx}=\sum_{i=1}^n(x_i-\bar x)^2$ $\hat b=\frac{S_{xy}}{S_{xx}}\\ \hat a=\frac{1}{n}\sum_{i=1}^n y_i-\left(\frac{1}{n}\sum_{i=1}^n x_i\right)\hat b$

或 最小二乘法

$\min Q=\sum (y_i-\hat y_i)^2$

显著性检验

样本相关系数

$r=\sqrt{1-\frac{Q}{S_{yy}}}$

其中

$t=\frac{\sqrt{n-2} r}{\sqrt {1-r^2}}\sim t(n-2)$

。另外，假设 $b=0$

$F=\frac{(n-2)U}{Q}\sim F(1,n-2)$

其中

$U=\sum_{i=1}^n(y_i-\bar y)^2=\frac{S_{xy}^2}{S_{xx}}$

所以如果

$F>F_{1-\alpha}$

则否定原假设，认为存在线性关系。

为方便计算可以让

$Q=S_{yy}-U$

用回归方程进行控制

$\delta(x)=t_{1-\alpha/2}(n-2)\hat \sigma \sqrt{1+1/n+(x-\bar x)^2/S_{xx}}$

多元回归分析

$Y=b_0+b_1x_1+b_2x_2+...+\epsilon$ $Q=\sum_t (y_t-\hat y)^2$

本文链接： http://emoairx.github.io/blog/2024/04/11/note on Probability and Statistics-zero/

版权声明： 本博客所有文章除特别声明外，均采用 CC BY 4.0 CN协议许可协议。转载请注明出处！

emoairxPKU,EECS

春天来了，冬天还会远吗~