概率统计-zero-notes

$\def\sube{\subseteq}$ \def\sube{\subseteq}

明天期中考试,一节课没上,妈的,我以为下周考试的。

还好是lds教授的,属于是极度easy模式,但还是有点寄。

概率论:从数量规律,统计规律角度对客观世界随机现象展开研究。
概率是随机事件出现可能性的度量。概率论是数理统计学的基础。

这门课有点不太行,没学到东西

概率论

随机事件与概率

加法原理,乘法原理,排列,组合

概率:统计定义(频率在某个附近摆动);主观定义(发生的可能性的个人主观信念);古典定义(古典概型中,A中基本事件个数除以样本空间基本事件个数);几何定义(样本空间为有限区域 $\Omega$ ,测度的比值)【概率为零不是不可能事件,概率为1不是必然事件】

Kolmogorov的定义

$\Omega$ 为非空集合,称为样本空间,$2^{\Omega}$ 是它的幂集,有 $\mathcal F \sube 2^{\Omega}$,如果 $\Omega \in \mathcal F$,任何 $A \in \mathcal F$ 满足补和无穷并都封闭,那么这个 $\mathcal F$ 称为 $\Omega$ 上的 $\sigma$ 代数。

其实值得好好想一想,目前大概理解成集合的集合就行了。

在 $\sigma$ 代数上定义测度(一个实值函数),满足非负性 $0\le P(A)\le 1$,归一性 $P(\Omega)=1$,完全可加性(互不相交的 $A_i$ 的函数值加起来就等于这些并起来的函数值)。

$P$ 为 $(\Omega,\mathcal F)$ 上的概率测度,简称概率; $A$ 为随机事件,简称事件;$(\Omega,\mathcal F,P)$ 为概率空间

对于有限/无穷可列的,通常取 $\mathcal F= 2^{\Omega}$,有限概率空间和可列概率空间叫做离散概率空间。

条件概率 : $P(A\mid B)=P(AB)/P(B)$,要求 $P(B)>0$

乘法公式:$P(AB)=P(A)P(B\mid A)$

全概率公式:$P(A)=\sum P(B_i) P(A \mid B_i)$ 对于一个划分

Bayes公式:$P(A\mid B)=\frac{P(A_k)P(B\mid A_k)}{P(B)}=\frac{P(A)P(B\mid A_k)}{\sum P(B \mid A_i) P(A_i)}$,条件是 $P(B)>0$

先验概率:$P(B)$

后验概率:$P(B \mid A_i)$

事件独立性: $P(AB)=P(A)P(B)$

相互独立: $P(ABC)=P(A)P(B)P(C)$ $P(AB)=P(A)P(B),P(AC)=P(A)P(C),P(BC)=P(B)P(C)$,一定是且的关系。

二项概率公式 $P_n(k)=C_n^k p^kq^{n-k}$,

在独立试验序列概型中,如果每次试验只有两种可能,则称为 Bernoulli 伯努利 试验,

在Bernoulli中,事件A首次 $Q(k)=q^{k-1}p, k=1,2,…$ 的概率称为几何分布

事件 $A$ 在第 $k$ 次试验时第 $r$ 次发生的概率 $S(k,r)=C_{k-1}^{r-1}p^rq^{k-r}$ 称为 Pascal*分布


随机变量及其概率分布

随机变量:概率空间 $(\Omega,\mathcal F,P)$ 中,定义单值函数 $X:\Omega \to R$,若 $\forall x \in R$,均有 $\set{\omega,\mid X(\omega) \le x} \in \mathcal F$,则称 $X$ 是随机变量。

其中随机事件 $\set{\omega \mid X(\omega) \le x}$ 是随机事件,常记作 $\set{X \le x}$

直观理解为一个单值函数,同样可以分为离散型随机变量和连续型随机变量

对随机变量 $X$ 概率特性的刻画包括:

分布函数 $F(x)=P(X \le x) , -\infty < x < +\infty$

  • 满足:单调不减,右连续,负无穷处极限为零,正无穷处极限为一

  • $P(X=a)=F(a)-F(a-0)$

离散型随机变量

概率分布/分布律(离散型随机变量)

  • $p_k=P(X=x_k),k=1,2…$
  • 其分布函数是分段阶梯函数。非负性,归一性,第一类跳跃间断点。

两点分布,伯努利分布,01分布

二项分布:多重Bernoulli试验中,$P_n(k)=C_n^kp^k(1-p)^{n-k}$ 称 $X$ 服从参数为 n,p 的二项分布 $X \sim B(n,p)$

  • 试验多次重复,结果与其他独立,只有两个可能

几何分布:$q^{k-1}p$

Pascal分布:事件 $A$ 第 $r$ 次发生时的试验次数 $X$, $P(X=k)=C_{k-1}^{r-1}p^rq^{k-r}$, $q=1-p$

超几何分布: 二项分布的不放回抽样,N很大时近似服从 $B(n,p)$,后者为前者极限分布。

泊松分布: $P(X=k)=e^{-\lambda} \frac{\lambda^k}{k!}$

​ $X \sim \pi (\lambda),X \sim P(\lambda)$

这个好像考得有点多

设 $X\sim B(n,p_n)$ $np_n=\lambda>0$,则可以得到

$\lim _{n \to \infty} C(n,k)p_n^k(1-p_n)^{n-k}=e^{-\lambda}\frac{\lambda^k}{k!}$,在 n 很大的时候 $\lambda$ 比较小。

所以叫做 稀有事件在大量重复试验中出现的次数

关于最大值取值是否讨论整数,ppt里有描述了,如果不是整数直接就是下取整!因为我算的是 $P(X=k)/P(X=k-1)$,是整数的有两个可能


连续型随机变量

对于随机变量 $X$,如果存在一个非负可积函数

则称 $X$ 是连续型随机变量,$f(x)$ 是它的概率密度函数,简称密度函数概率密度

讨论连续型随机变量落入区间的概率,不讨论区间的开闭性。

当然也存在不是连续的也不是离散的随机变量,连续型随机变量的概率密度也不唯一,但是无所谓就是有限个点可以任意改变,不加区别。

均匀分布

参数为 $a,b$ 的均匀分布,区间 $(a,b)$ 上的均匀分布,$X\sim U(a,b)$

指数分布

称 $X$ 服从参数为 $\lambda$ 的指数分布,$X\sim E(\lambda)$,$\lambda>0$ 为常数

分布函数为 $F(x)=\cases{1-e^{-\lambda x}&$x \ge 0$\0&x<0}$

这个一定要是负的,大概是因为不能到无穷远的地方,总之要收敛。

常作为各种寿命的 寿命 分布近似,元减寿命 $T$ 的分布 $P(T\le t+\Delta t \mid T>t)=\lambda \Delta t+o(\Delta t)$

满足无记忆性,$P(X>s+t \mid X>s)=P(X>t)$

  • 指数分布的无记忆性是其所独有的。

正态分布

服从两点分布的相互独立随机变量序列求和,一种近似

因为中心极限定理,生活中大量现象服从或服从正态分布。

天文观测误差,二项分布近似计算,鸟蛋直径

  • 在 $x=\mu\pm \sigma$ 的地方,函数凹凸性改变。

标准正态分布 $N(0,1)$,即 $\mu=0,\sigma^2=1$ 的正态分布,偶函数,其分布函数为

  • $\Phi(-x)=1-\Phi(x)$
  • 一般的正态分布函数 $F(x)=\Phi(\frac{x-\mu}{\sigma})$
  • $2\Phi(1)-1=0.6826,2\Phi(2)-1=0.9545,2\Phi(3)-1=0.9973$

$\Gamma$ 分布

当 $\alpha=1$ 时候,是指数分布 $\Gamma(1,\beta)=E(\beta)$

当 $\alpha=n/2,\beta=1/2$ 时,记作自由度为 $n$ 的 $\mathcal X^2$ 分布,$\Gamma(n/2,1/2)=\mathcal X^2(n)$


随机变量的函数及其分布
  • 如 $Y=\frac{1}{2} m X^2$ 也是一个随机变量

离散型随机变量的分布律法

​ $P(X=x_k)=p_k$

​ $P(Y=yi)=\sum{k,g(x_k)=y_i}p_k$

连续型随机变量函数的分布

  • 分布函数法
    • 例如 $P(Y\le y)=P(aX+b\le y)$
  • 公式法
    • 正态随机变量之线性变换仍服从正态分布

连续型随机变量函数的分布函数不一定是连续函数。

多维随机变量及其概率分布

概率空间 $(\Omega,\mathcal F,P)$ 上的 $n$ 个随机变量 $X_1,X_2…X_n$,看作一个整体,$X=(X_1,X_2,…X_n)$,为 n 维随机变量。

联合分布函数
  • $F(x_1,x_2,..x_n)=P(X_1\le x_1,X_2\le x_2,…X_n \le x_n)$
  • 对每个变量单调不减
边缘分布函数
  • 任意 $k$ 个分量

$F_X(x)=P(X\le x)=P(X\le x,Y<+\infty)=F(x,\infty)$

二维连续型随机变量及其概率特性

对于二维来说,分量 $X,Y$ 的概率分布 $(X,Y)$ 关于 $X$ 和 $Y$ 的 边缘概率分布/边缘分布律

二维均匀分布

二维正态分布 $(X,Y)\sim N(\mu_1,\sigma_1^2;\mu_2,\sigma_2^2;\rho)$

n维正态分布

若相互独立,则边缘分布完全确定联合分布。

独立判断方法

  1. 连续性二维联合密度,$f(x,y)=r(x)g(y)$,非负可积函数。

  2. $F(x,y)=R(x)G(y)$, $F_X(x)=R(x)/R(+\infty)$


条件概率分布

对于离散的

类似于乘法公式,全概率公式。

对于连续的

对于 $fY(y)>0$, $f{X|Y}(x\mid y)=\frac{f(x,y)}{f(y)}$

注意:条件变量变化范围 的写法 及出现位置 !

注意:联合 ( 密度 ) 各变量的 变化范围及其融合

正态随机变量,若 $(X,Y) \sim N(\mu_1,\sigma_1^2;\mu_2,\sigma_2^2;\rho)$, $X+Y \sim N(\mu_1+\mu_2,\sigma_1^2+2\rho\sigma_1\sigma_2+\sigma_2^2)$


一种作业出现的可能有用的估计要记住的得学的计算的方法,方法是构造新的二维随机变量Z,U,各分量随机变量均为X和Y的函数,先求联合密度函数,再求边缘密度 要求连续偏导数

$J$ 是雅可比行列式。注意要先把 $x=h(z,u)$ 写出来。因为这个是上面的。反函数不唯一时仍需要分布函数法。

对于商的分布Z=X/Y,值得一学

相互独立随机变量的最大值/最小值,最大值就是全部概率乘起来。

随机变量的数字特征

对于离散随机变量,如果无穷级数 $\sum_{k=1}^{+\infty} x_kp_k$ 绝对收敛,那么 $X$ 为其数学期望,简称期望。

指数分布 $X\sim P(\lambda)$,期望为 $\lambda$ ,可以算超几何分布 $nM/N$,几何分布 $1/p$。

一般的期望通过划分后对离散的取极限得到。

连续型随机变量的数学期望:如果广义积分绝对收敛。

  • 随机变量函数 $Y=g(X)$ 的数学期望 $\int_{-\infty}^{+\infty}g(x)f(x)\dd x$
  • $E(XY)=E(X)E(Y)$ 如果独立

用判别式法证明,但是这个东西是不是也应该理解成柯西不等式?

方差
  • 离散:$D(X)=\sum_{k=1}^{\infty}(x_k-E(X))^2p_k$,连续就是积分

对任意常数 $C$, $D(X) \le E(X-C)^2$

切比雪夫不等式

说实话,矩生成函数很漂亮。


偏度系数 $\alpha=E(X-E(X))/(\sqrt {D(X)})^3$ 刻画关于其对于数学期望的对称程度。

峰度系数,变异系数,中位数,分位数……

协方差,相关系数

协方差为零不代表相互独立。

随机变量标准化后

叫做相关系数。

  • 相关系数等于1说明线性关系的概率为1。
  • 等于零表示不相关(但不是独立)

但是如果满足二维正态分布,相互独立就是不相关。

随机变量的矩
  • k阶中心矩 $E((X-EX)^k)$
  • 二阶混合中心矩:协方差

协方差矩阵:非负定,对称,$\sigma_{ij}^2\le \sigma_i^2\sigma_j^2$

线性变换下的协方差矩阵 $Y=AX$, $\Sigma(Y)=A \Sigma(X) A^T$


概率极限理论

  • 真学不完了???
  1. 几乎处处收敛 $P(\lim_{n \to \infty} X_n=X)=1$ 【收敛的概率为1,这个最强】
  2. 依概率收敛 $\lim_{n \to \infty}P( |X_n-X|<\epsilon)=1$

  3. 依分布收敛,弱收敛:对于所有连续点 $x$, $\lim_{n \to \infty} F_n(x)=F(x)$

从上往下能推出。

[Bob] 其实只需要记住一个切比雪夫大数定律,伯努利大数定律就是针对两点分布的,辛钦是更严格的,强大数定律是几乎处处收敛,独立同分布中心极限定理针对标准化之后的正太分布

重要不等式

  • $P(|X| \ge \epsilon) \le E(|X|^k)/\epsilon^k$
  • $P(|X-EX| \ge \epsilon ) \le D(X)/\epsilon^2$

伯努利大数定律

  • $\lim _{n \to \infty}P(|n_A/n-p|\ge \epsilon)=0$
  • 算出E,算出D,用切比雪夫不等式证明
  • 这种稳定叫做:依概率稳定。

契比雪夫大数定律

  • $\lim{n \to \infty}P(|\frac{1}{n}\sum{i=1}^nX_k-\mu|\ge \epsilon)=0$
  • 具有相同数学期望和方差独立随机变量序列服从大数定律,即该序列之算术平均依概率收敛于其数学期望

  • 方差有上限也行。不独立只要和的方差不太大也行。

辛钦大数定律

  • 独立同分布的话,没有方差也行

柯尔莫哥洛夫强大数定律

  • 几乎处处收敛
  • 独立,期望和方差存在,$\sum \frac{D(X_n)}{n^2}$ 收敛的话, $\set{X_n}$ 服从强大数定律。
  • 独立同分布,期望存在,$\set{X_n}$ 服从强大数定律

中心极限定理

  • 随机变量序列 $Xk,E(X_k),D(X_k)$ 都存在,则 $\sum{k=1}^n X_k$ 的标准化变量依分布收敛极限服从正态分布。
  • 序列 $X_k$ 服从中心极限定理。

那么问题来了,怎么证明呢。

中心极限定理 - 维基百科,自由的百科全书 (wikipedia.org)

能拿来用就不错了。


数理统计 statisics

新概念有点多啊

研究分布未知或所知不完全的情况,以概率论为基础,对自然界随机现象进行观测检验。

  • 描述统计学/推断统计学

萌芽阶段:直方图,最小二乘法,$\mathcal X^2$ 分布,回归分析……

蓬勃到成熟阶段,二战结束后:大样本小样本同济路论,现代数理统计理论,置信区间,多元,时间序列分析。1946年Cramer名著《统计学的数学方法》

继续发展阶段:理论与应用;贝叶斯学派,非线性滤波理论……

主要内容包括:参数估计,非参数估计,假设检验,方差分析,回归分析,相关分析,多元分析,试验设计、正交试验设计,抽样调查方法。

总体:一般为某个随机变量;样本:从总体中抽取的部分个体$(X_1,X_2,…X_n)$。n 称为样本容量。在一次试验中样本的观测值 $(x_1,x_2…x_n)$ 称为样本的一个实现

简单随机样本为独立同分布,下简称样本。

统计量是指不含有位置参数的实值连续函数 $g(X_1,X_2…X_n)$。

观察值是指 $g(x_1,x_2..x_n)$

统计推断:包括统计估计,假设检验。

统计估计:根据样本对未知方面进行求取或界定。包括(参数估计,非参数估计),参数估计包括(点估计,区间估计)

假设检验:利用样本所提供的信息对所作假设进行检验,接受或者拒绝。

经验分布函数:等可能地取到每个离散的样本,

常用统计量
  • 样本均值

  • 样本方差

  • 样本 $k$ 阶原点矩

  • 样本 $k$ 阶中心矩

  • $B_2=\frac{n-1}{n}S^2\triangleq S_n^2$

  • 顺序统计量与极差:从小到大排序,排完序后的 $(X{(1)},X{(2)},..,X{(n)})$ 叫做顺序统计量,可以有第k个顺序统计量。$X{(n)}-X_{(1)}$ 为极差统计量,简称极差

卡方分布

  • 定义一种统计量叫卡方统计量

尽量背下来吧

众所周知 $\mathcal X^2(n)=\Gamma(n/2,1/2)$

而 $\Gamma(1,\beta )=E(\beta)$。

卡方分布的均值为 $n$,方差为 $2n$。(也就是说标准正态分布平方均值为1方差为2)

t分布

自由度为n的t统计量: X标准正态分布,Y卡方分布,两者独立,则统计量$T=\frac{X}{\sqrt {Y/n}}\sim t(n)$。

是偶函数,当n很大时,$t\alpha(n)$ 约为 $u\alpha$

F(n,m)分布

$X$ 和 $Y$ 从卡方分布中采样,自由度分别n和m,相互独立。

$F=\frac{X/n}{T/m}\sim F(n,m)$,第一自由度为n,第二自由度为m的F分布。

这有个例三听值得一看的:$t{1-\alpha/2}^n(n)=F\alpha(1,n)$


正态分布的一些结论
  • $\frac{(n-1)S^2}{\sigma^2}$ 与 $\overline X$ 相互独立。

然后可以写出 $\overline X-\overline Y$ 相关的 $t$ 分布,公式好复杂,可能之后还会提到。

参数估计

  • 点估计:未知参数的
  • 区间估计:未知参数的取值区间

点估计

  • 构造 $k$ 个统计量,$\hat \theta_i(X_1,X_2..X_n)$ 这些统计量叫做估计量。
  1. 频率替换法,根据伯努利大数定律。
  2. 矩估计法,以样本相应 $k$ 阶矩作为齐估计量,或对总体矩的连续函数,以样本的相应矩的相应连续函数作为其估计量。

具体步骤如下:

假设需要估计的参数为 $\theta=(\theta_1,\theta_2…\theta_k)^T$,设总体 $X$ 的 $r$ 阶矩存在,为 $E(X^r)=\mu_r(\theta)$

则是关于未知参数 $\hat \theta$ 的 $k$ 个方程组,解方程组得到

这个叫做未知参数的矩估计量

代入样本观测得到 $k$ 个数

叫做未知参数 $\theta_1,…\theta_k$ 的矩估计值。

辛钦定理(推广) 是矩估计的理论依据,因为有 $A_r \longrightarrow \mu_r$,依概率收敛。如果依概率收敛的序列就可以有 $g(A_1,A_2…A_k)\longrightarrow g(\mu_1,\mu_2,…\mu_k)$

极大似然估计

似然函数

联合密度函数是:$L(x_1,x_2…\theta)=\prod f(x_i,\theta)$

当观测值给定后,$L(\theta)$ 称为样本的似然函数

这时候取最大的值的 $\hat \theta$,带入后得到的就可以得到 极大似然估计值 ,带入如果随机变量就是 极大似然估计量。多个参数也一样。

后面大家都会了,就求个导就行,不能导就换点求极值的方法。

如果单值函数反函数(直观理解成一一映射)那就是估计不变的。


对于同一个未知参数,不同的估计方法可能不同

三个性质

无偏性:$E(\hat \theta) = \theta$;

  • 重点来了,为什么是 $S^2=\frac{1}{n-1}\sum _{i=1}^n (X_i-\overline X)^2$,因为这个是 $D(x)=\sigma^2$ 的无偏估计量。主要是n个的方差要除以n,所以就要减去1/n。

这里缺一点东西,关于 $S$ 不是 $\sqrt{DX}=\sigma$ 的无偏估计,先挖个坑

有效性:在都是无偏估计的情况下看总体方差更小的更有效。

一致性

  • 样本容量很大的时候依概率收敛,对于 $\epsilon$ 要一致。

【参数估计,区间估计】

假设检验

  • 假设阶段做 零假设 ,也叫 原假设,提出一个相对的假设叫做 备择假设。两者互不相交。假设包括 单边假设 双边假设。
  • 关键是小概率事件是否成立。

对于正态样本的均值的估计

核心是比较

如果这个发生,说明是在 $\mu_0$ 的情况下是小概率事件。

值得记住的是 $t$ 分布是一个关于零对称的,所以 $t{\alpha}=-t{1-\alpha}$

犯第一类错误(弃真)的概率是 $\alpha$,第二类(存伪)为 $\beta$。

暂时不会

假设检验的评价标准可以是功效函数,参数是总体待推理参数,函数值是样本落在拒绝域中的概率。

一致最优检验是说,功效函数一致地比其它所有检验都要好。

无偏检验是说,在 $H_0$ 不成立时拒绝 $H_0$ 地概率不小于 $H_0$ 成立时拒绝 $H_0$ 的概率。


正态总体的假设检验

总体均值的检验

对于 $\sigma^2$ 已知,拒绝域是

对于 $\sigma^2$ 未知,使用 $t$ 检验

拒绝域基本就是

总体方差的检验

如果 $\mu$ 已知,用 $\mathcal X^2$ 检验

比如说拒绝域是

如果 $\mu$ 未知,也是卡方

然后也是

两个正态均值差的检验

如果 $\sigma_1,\sigma_2$ 已知

对于

之类的。

如果 $\sigma_1,\sigma_2$ 未知,但 $\sigma_1=\sigma_2$

拒绝域还是

其中

两个正态方差比的检验

$\mu_1,\mu_2$ 未知

拒绝域:( $FF_{1-\alpha/2}(n-1,m-1)$ )….

检验假设也算是区间估计,置信区间是可以算出来的,也就是接受域。


总体分布的假设检验

Pearson的卡方检验

其中 $r$ 是用最大似然估计的未知参数的个数。拒绝域为 $V>\mathcal X_{1-\alpha}^2(k-r-1)$

偏度/峰度检验法

其中

拒绝域是除以二之后的。

方差分析

  • 有 $m$ 个总体,每一个总体取一些样本,假定这些整体是正态整体且有相同的方差
  • $\epsilon_i = \mu_i-\mu$, $\mu$ 是平均值。
  • 变成假设检验,$H_0:\mu_1=\mu_2=…\mu_m=\mu$

计算组内平均值距离数据总平均的平方,叫做 $S_T$

假设 $H_0$ 成立的话, $S_T/\sigma^2\sim \mathcal X(mk-1)$,事实上 $S_T=(mk-1)S^2$,$S^2$ 是总样本方差

组内平方和 $S_e$,组间平方和 $S_A$,总平方 $S_T$ 有,$S_T=S_A+S_e$

另一个直观是用

统计量的分子在原假设不成立的情况下有偏大的倾向。

所以可以认为否定域是

对于 $\alpha=0.05,0.01$ ,是显著影响和高度 显著影响。

为方便计算



回归分析

  • 描述+预测+控制

一元线性回归模型

  • 样本点 $(x_i,y_i)$
  • $Y=a+bx+\epsilon$

最大似然估计

  • $Y_i\sim N(a+bx_i,\sigma^2)$

最小二乘法

显著性检验

样本相关系数

其中

。另外,假设 $b=0$

其中

所以如果

则否定原假设,认为存在线性关系。

为方便计算可以让

用回归方程进行控制

多元回归分析