$\def\sube{\subseteq}$ \def\sube{\subseteq}
明天期中考试,一节课没上,妈的,我以为下周考试的。
还好是lds教授的,属于是极度easy模式,但还是有点寄。
概率论:从数量规律,统计规律角度对客观世界随机现象展开研究。
概率是随机事件出现可能性的度量。概率论是数理统计学的基础。
这门课有点不太行,没学到东西
概率论
随机事件与概率
加法原理,乘法原理,排列,组合
概率:统计定义(频率在某个附近摆动);主观定义(发生的可能性的个人主观信念);古典定义(古典概型中,A中基本事件个数除以样本空间基本事件个数);几何定义(样本空间为有限区域 $\Omega$ ,测度的比值)【概率为零不是不可能事件,概率为1不是必然事件】
Kolmogorov的定义
$\Omega$ 为非空集合,称为样本空间,$2^{\Omega}$ 是它的幂集,有 $\mathcal F \sube 2^{\Omega}$,如果 $\Omega \in \mathcal F$,任何 $A \in \mathcal F$ 满足补和无穷并都封闭,那么这个 $\mathcal F$ 称为 $\Omega$ 上的 $\sigma$ 代数。
其实值得好好想一想,目前大概理解成集合的集合就行了。
在 $\sigma$ 代数上定义测度(一个实值函数),满足非负性 $0\le P(A)\le 1$,归一性 $P(\Omega)=1$,完全可加性(互不相交的 $A_i$ 的函数值加起来就等于这些并起来的函数值)。
$P$ 为 $(\Omega,\mathcal F)$ 上的概率测度,简称概率; $A$ 为随机事件,简称事件;$(\Omega,\mathcal F,P)$ 为概率空间。
对于有限/无穷可列的,通常取 $\mathcal F= 2^{\Omega}$,有限概率空间和可列概率空间叫做离散概率空间。
条件概率 : $P(A\mid B)=P(AB)/P(B)$,要求 $P(B)>0$
乘法公式:$P(AB)=P(A)P(B\mid A)$
全概率公式:$P(A)=\sum P(B_i) P(A \mid B_i)$ 对于一个划分
Bayes公式:$P(A\mid B)=\frac{P(A_k)P(B\mid A_k)}{P(B)}=\frac{P(A)P(B\mid A_k)}{\sum P(B \mid A_i) P(A_i)}$,条件是 $P(B)>0$
先验概率:$P(B)$
后验概率:$P(B \mid A_i)$
事件独立性: $P(AB)=P(A)P(B)$
相互独立: $P(ABC)=P(A)P(B)P(C)$ 且 $P(AB)=P(A)P(B),P(AC)=P(A)P(C),P(BC)=P(B)P(C)$,一定是且的关系。
二项概率公式 $P_n(k)=C_n^k p^kq^{n-k}$,
在独立试验序列概型中,如果每次试验只有两种可能,则称为 Bernoulli 伯努利 试验,
在Bernoulli中,事件A首次 $Q(k)=q^{k-1}p, k=1,2,…$ 的概率称为几何分布
事件 $A$ 在第 $k$ 次试验时第 $r$ 次发生的概率 $S(k,r)=C_{k-1}^{r-1}p^rq^{k-r}$ 称为 Pascal*分布
随机变量及其概率分布
随机变量:概率空间 $(\Omega,\mathcal F,P)$ 中,定义单值函数 $X:\Omega \to R$,若 $\forall x \in R$,均有 $\set{\omega,\mid X(\omega) \le x} \in \mathcal F$,则称 $X$ 是随机变量。
其中随机事件 $\set{\omega \mid X(\omega) \le x}$ 是随机事件,常记作 $\set{X \le x}$
直观理解为一个单值函数,同样可以分为离散型随机变量和连续型随机变量
对随机变量 $X$ 概率特性的刻画包括:
分布函数 $F(x)=P(X \le x) , -\infty < x < +\infty$
满足:单调不减,右连续,负无穷处极限为零,正无穷处极限为一
$P(X=a)=F(a)-F(a-0)$
离散型随机变量
概率分布/分布律(离散型随机变量)
- $p_k=P(X=x_k),k=1,2…$
- 其分布函数是分段阶梯函数。非负性,归一性,第一类跳跃间断点。
两点分布,伯努利分布,01分布
二项分布:多重Bernoulli试验中,$P_n(k)=C_n^kp^k(1-p)^{n-k}$ 称 $X$ 服从参数为 n,p 的二项分布 $X \sim B(n,p)$
试验多次重复,结果与其他独立,只有两个可能
几何分布:$q^{k-1}p$
Pascal分布:事件 $A$ 第 $r$ 次发生时的试验次数 $X$, $P(X=k)=C_{k-1}^{r-1}p^rq^{k-r}$, $q=1-p$
超几何分布: 二项分布的不放回抽样,N很大时近似服从 $B(n,p)$,后者为前者极限分布。
泊松分布: $P(X=k)=e^{-\lambda} \frac{\lambda^k}{k!}$
$X \sim \pi (\lambda),X \sim P(\lambda)$
这个好像考得有点多
设 $X\sim B(n,p_n)$ $np_n=\lambda>0$,则可以得到
$\lim _{n \to \infty} C(n,k)p_n^k(1-p_n)^{n-k}=e^{-\lambda}\frac{\lambda^k}{k!}$,在 n 很大的时候 $\lambda$ 比较小。
所以叫做 稀有事件在大量重复试验中出现的次数。
关于最大值取值是否讨论整数,ppt里有描述了,如果不是整数直接就是下取整!因为我算的是 $P(X=k)/P(X=k-1)$,是整数的有两个可能
连续型随机变量
对于随机变量 $X$,如果存在一个非负可积函数
则称 $X$ 是连续型随机变量,$f(x)$ 是它的概率密度函数,简称密度函数,概率密度
讨论连续型随机变量落入区间的概率,不讨论区间的开闭性。
当然也存在不是连续的也不是离散的随机变量,连续型随机变量的概率密度也不唯一,但是无所谓就是有限个点可以任意改变,不加区别。
均匀分布
参数为 $a,b$ 的均匀分布,区间 $(a,b)$ 上的均匀分布,$X\sim U(a,b)$
指数分布
称 $X$ 服从参数为 $\lambda$ 的指数分布,$X\sim E(\lambda)$,$\lambda>0$ 为常数
分布函数为 $F(x)=\cases{1-e^{-\lambda x}&$x \ge 0$\0&x<0}$
这个一定要是负的,大概是因为不能到无穷远的地方,总之要收敛。
常作为各种寿命的 寿命 分布近似,元减寿命 $T$ 的分布 $P(T\le t+\Delta t \mid T>t)=\lambda \Delta t+o(\Delta t)$
满足无记忆性,$P(X>s+t \mid X>s)=P(X>t)$
- 指数分布的无记忆性是其所独有的。
正态分布
服从两点分布的相互独立随机变量序列求和,一种近似
因为中心极限定理,生活中大量现象服从或服从正态分布。
天文观测误差,二项分布近似计算,鸟蛋直径
- 在 $x=\mu\pm \sigma$ 的地方,函数凹凸性改变。
标准正态分布 $N(0,1)$,即 $\mu=0,\sigma^2=1$ 的正态分布,偶函数,其分布函数为
- $\Phi(-x)=1-\Phi(x)$
- 一般的正态分布函数 $F(x)=\Phi(\frac{x-\mu}{\sigma})$
- $2\Phi(1)-1=0.6826,2\Phi(2)-1=0.9545,2\Phi(3)-1=0.9973$
$\Gamma$ 分布
当 $\alpha=1$ 时候,是指数分布 $\Gamma(1,\beta)=E(\beta)$
当 $\alpha=n/2,\beta=1/2$ 时,记作自由度为 $n$ 的 $\mathcal X^2$ 分布,$\Gamma(n/2,1/2)=\mathcal X^2(n)$
随机变量的函数及其分布
- 如 $Y=\frac{1}{2} m X^2$ 也是一个随机变量
离散型随机变量的分布律法
$P(X=x_k)=p_k$
$P(Y=yi)=\sum{k,g(x_k)=y_i}p_k$
连续型随机变量函数的分布
- 分布函数法
- 例如 $P(Y\le y)=P(aX+b\le y)$
- 公式法
- 正态随机变量之线性变换仍服从正态分布
连续型随机变量函数的分布函数不一定是连续函数。
多维随机变量及其概率分布
概率空间 $(\Omega,\mathcal F,P)$ 上的 $n$ 个随机变量 $X_1,X_2…X_n$,看作一个整体,$X=(X_1,X_2,…X_n)$,为 n 维随机变量。
联合分布函数
- $F(x_1,x_2,..x_n)=P(X_1\le x_1,X_2\le x_2,…X_n \le x_n)$
- 对每个变量单调不减
边缘分布函数
- 任意 $k$ 个分量
$F_X(x)=P(X\le x)=P(X\le x,Y<+\infty)=F(x,\infty)$
二维连续型随机变量及其概率特性
对于二维来说,分量 $X,Y$ 的概率分布 $(X,Y)$ 关于 $X$ 和 $Y$ 的 边缘概率分布/边缘分布律
二维均匀分布
二维正态分布 $(X,Y)\sim N(\mu_1,\sigma_1^2;\mu_2,\sigma_2^2;\rho)$
n维正态分布
若相互独立,则边缘分布完全确定联合分布。
独立判断方法:
连续性二维联合密度,$f(x,y)=r(x)g(y)$,非负可积函数。
$F(x,y)=R(x)G(y)$, $F_X(x)=R(x)/R(+\infty)$
条件概率分布
对于离散的
类似于乘法公式,全概率公式。
对于连续的
对于 $fY(y)>0$, $f{X|Y}(x\mid y)=\frac{f(x,y)}{f(y)}$
注意:条件变量变化范围 的写法 及出现位置 !
注意:联合 ( 密度 ) 各变量的 变化范围及其融合
正态随机变量,若 $(X,Y) \sim N(\mu_1,\sigma_1^2;\mu_2,\sigma_2^2;\rho)$, $X+Y \sim N(\mu_1+\mu_2,\sigma_1^2+2\rho\sigma_1\sigma_2+\sigma_2^2)$
一种作业出现的可能有用的估计要记住的得学的计算的方法,方法是构造新的二维随机变量Z,U,各分量随机变量均为X和Y的函数,先求联合密度函数,再求边缘密度 要求连续偏导数
$J$ 是雅可比行列式。注意要先把 $x=h(z,u)$ 写出来。因为这个是上面的。反函数不唯一时仍需要分布函数法。
对于商的分布Z=X/Y,值得一学
相互独立随机变量的最大值/最小值,最大值就是全部概率乘起来。
随机变量的数字特征
对于离散随机变量,如果无穷级数 $\sum_{k=1}^{+\infty} x_kp_k$ 绝对收敛,那么 $X$ 为其数学期望,简称期望。
指数分布 $X\sim P(\lambda)$,期望为 $\lambda$ ,可以算超几何分布 $nM/N$,几何分布 $1/p$。
一般的期望通过划分后对离散的取极限得到。
连续型随机变量的数学期望:如果广义积分绝对收敛。
- 随机变量函数 $Y=g(X)$ 的数学期望 $\int_{-\infty}^{+\infty}g(x)f(x)\dd x$
$E(XY)=E(X)E(Y)$ 如果独立
用判别式法证明,但是这个东西是不是也应该理解成柯西不等式?
方差
- 离散:$D(X)=\sum_{k=1}^{\infty}(x_k-E(X))^2p_k$,连续就是积分
对任意常数 $C$, $D(X) \le E(X-C)^2$
切比雪夫不等式
说实话,矩生成函数很漂亮。
偏度系数 $\alpha=E(X-E(X))/(\sqrt {D(X)})^3$ 刻画关于其对于数学期望的对称程度。
峰度系数,变异系数,中位数,分位数……
协方差,相关系数
协方差为零不代表相互独立。
随机变量标准化后
叫做相关系数。
- 相关系数等于1说明线性关系的概率为1。
- 等于零表示不相关(但不是独立)
但是如果满足二维正态分布,相互独立就是不相关。
随机变量的矩
- k阶中心矩 $E((X-EX)^k)$
- 二阶混合中心矩:协方差
协方差矩阵:非负定,对称,$\sigma_{ij}^2\le \sigma_i^2\sigma_j^2$
线性变换下的协方差矩阵 $Y=AX$, $\Sigma(Y)=A \Sigma(X) A^T$
概率极限理论
- 真学不完了???
- 几乎处处收敛 $P(\lim_{n \to \infty} X_n=X)=1$ 【收敛的概率为1,这个最强】
依概率收敛 $\lim_{n \to \infty}P( |X_n-X|<\epsilon)=1$
依分布收敛,弱收敛:对于所有连续点 $x$, $\lim_{n \to \infty} F_n(x)=F(x)$
从上往下能推出。
[Bob] 其实只需要记住一个切比雪夫大数定律,伯努利大数定律就是针对两点分布的,辛钦是更严格的,强大数定律是几乎处处收敛,独立同分布中心极限定理针对标准化之后的正太分布
重要不等式
- $P(|X| \ge \epsilon) \le E(|X|^k)/\epsilon^k$
- $P(|X-EX| \ge \epsilon ) \le D(X)/\epsilon^2$
伯努利大数定律
- $\lim _{n \to \infty}P(|n_A/n-p|\ge \epsilon)=0$
- 算出E,算出D,用切比雪夫不等式证明
- 这种稳定叫做:依概率稳定。
契比雪夫大数定律
- $\lim{n \to \infty}P(|\frac{1}{n}\sum{i=1}^nX_k-\mu|\ge \epsilon)=0$
具有相同数学期望和方差的独立随机变量序列服从大数定律,即该序列之算术平均依概率收敛于其数学期望
方差有上限也行。不独立只要和的方差不太大也行。
辛钦大数定律
- 独立同分布的话,没有方差也行
柯尔莫哥洛夫强大数定律
- 几乎处处收敛
- 独立,期望和方差存在,$\sum \frac{D(X_n)}{n^2}$ 收敛的话, $\set{X_n}$ 服从强大数定律。
- 独立同分布,期望存在,$\set{X_n}$ 服从强大数定律
中心极限定理
- 随机变量序列 $Xk,E(X_k),D(X_k)$ 都存在,则 $\sum{k=1}^n X_k$ 的标准化变量依分布收敛极限服从正态分布。
- 序列 $X_k$ 服从中心极限定理。
那么问题来了,怎么证明呢。
中心极限定理 - 维基百科,自由的百科全书 (wikipedia.org)
能拿来用就不错了。
数理统计 statisics
新概念有点多啊
研究分布未知或所知不完全的情况,以概率论为基础,对自然界随机现象进行观测检验。
- 描述统计学/推断统计学
萌芽阶段:直方图,最小二乘法,$\mathcal X^2$ 分布,回归分析……
蓬勃到成熟阶段,二战结束后:大样本小样本同济路论,现代数理统计理论,置信区间,多元,时间序列分析。1946年Cramer名著《统计学的数学方法》
继续发展阶段:理论与应用;贝叶斯学派,非线性滤波理论……
主要内容包括:参数估计,非参数估计,假设检验,方差分析,回归分析,相关分析,多元分析,试验设计、正交试验设计,抽样调查方法。
总体:一般为某个随机变量;样本:从总体中抽取的部分个体$(X_1,X_2,…X_n)$。n 称为样本容量。在一次试验中样本的观测值 $(x_1,x_2…x_n)$ 称为样本的一个实现。
简单随机样本为独立同分布,下简称样本。
统计量是指不含有位置参数的实值连续函数 $g(X_1,X_2…X_n)$。
观察值是指 $g(x_1,x_2..x_n)$
统计推断:包括统计估计,假设检验。
统计估计:根据样本对未知方面进行求取或界定。包括(参数估计,非参数估计),参数估计包括(点估计,区间估计)
假设检验:利用样本所提供的信息对所作假设进行检验,接受或者拒绝。
经验分布函数:等可能地取到每个离散的样本,
常用统计量
样本均值
样本方差
样本 $k$ 阶原点矩
样本 $k$ 阶中心矩
$B_2=\frac{n-1}{n}S^2\triangleq S_n^2$
顺序统计量与极差:从小到大排序,排完序后的 $(X{(1)},X{(2)},..,X{(n)})$ 叫做顺序统计量,可以有第k个顺序统计量。$X{(n)}-X_{(1)}$ 为极差统计量,简称极差
卡方分布
- 定义一种统计量叫卡方统计量,
尽量背下来吧
众所周知 $\mathcal X^2(n)=\Gamma(n/2,1/2)$
而 $\Gamma(1,\beta )=E(\beta)$。
卡方分布的均值为 $n$,方差为 $2n$。(也就是说标准正态分布平方均值为1方差为2)
t分布
自由度为n的t统计量: X标准正态分布,Y卡方分布,两者独立,则统计量$T=\frac{X}{\sqrt {Y/n}}\sim t(n)$。
:是偶函数,当n很大时,$t\alpha(n)$ 约为 $u\alpha$
F(n,m)分布
$X$ 和 $Y$ 从卡方分布中采样,自由度分别n和m,相互独立。
$F=\frac{X/n}{T/m}\sim F(n,m)$,第一自由度为n,第二自由度为m的F分布。
这有个例三听值得一看的:$t{1-\alpha/2}^n(n)=F\alpha(1,n)$
正态分布的一些结论
- $\frac{(n-1)S^2}{\sigma^2}$ 与 $\overline X$ 相互独立。
然后可以写出 $\overline X-\overline Y$ 相关的 $t$ 分布,公式好复杂,可能之后还会提到。
参数估计
- 点估计:未知参数的值
- 区间估计:未知参数的取值区间
点估计:
- 构造 $k$ 个统计量,$\hat \theta_i(X_1,X_2..X_n)$ 这些统计量叫做估计量。
- 频率替换法,根据伯努利大数定律。
- 矩估计法,以样本相应 $k$ 阶矩作为齐估计量,或对总体矩的连续函数,以样本的相应矩的相应连续函数作为其估计量。
具体步骤如下:
假设需要估计的参数为 $\theta=(\theta_1,\theta_2…\theta_k)^T$,设总体 $X$ 的 $r$ 阶矩存在,为 $E(X^r)=\mu_r(\theta)$
则是关于未知参数 $\hat \theta$ 的 $k$ 个方程组,解方程组得到
这个叫做未知参数的矩估计量
代入样本观测得到 $k$ 个数
叫做未知参数 $\theta_1,…\theta_k$ 的矩估计值。
辛钦定理(推广) 是矩估计的理论依据,因为有 $A_r \longrightarrow \mu_r$,依概率收敛。如果依概率收敛的序列就可以有 $g(A_1,A_2…A_k)\longrightarrow g(\mu_1,\mu_2,…\mu_k)$
极大似然估计
似然函数:
联合密度函数是:$L(x_1,x_2…\theta)=\prod f(x_i,\theta)$
当观测值给定后,$L(\theta)$ 称为样本的似然函数。
这时候取最大的值的 $\hat \theta$,带入后得到的就可以得到 极大似然估计值 ,带入如果随机变量就是 极大似然估计量。多个参数也一样。
后面大家都会了,就求个导就行,不能导就换点求极值的方法。
如果单值函数反函数(直观理解成一一映射)那就是估计不变的。
对于同一个未知参数,不同的估计方法可能不同
三个性质
无偏性:$E(\hat \theta) = \theta$;
- 重点来了,为什么是 $S^2=\frac{1}{n-1}\sum _{i=1}^n (X_i-\overline X)^2$,因为这个是 $D(x)=\sigma^2$ 的无偏估计量。主要是n个的方差要除以n,所以就要减去1/n。
这里缺一点东西,关于 $S$ 不是 $\sqrt{DX}=\sigma$ 的无偏估计,先挖个坑。
有效性:在都是无偏估计的情况下看总体方差更小的更有效。
一致性
- 样本容量很大的时候依概率收敛,对于 $\epsilon$ 要一致。
【参数估计,区间估计】
假设检验
- 假设阶段做 零假设 ,也叫 原假设,提出一个相对的假设叫做 备择假设。两者互不相交。假设包括 单边假设 双边假设。
- 关键是小概率事件是否成立。
对于正态样本的均值的估计
核心是比较
如果这个发生,说明是在 $\mu_0$ 的情况下是小概率事件。
值得记住的是 $t$ 分布是一个关于零对称的,所以 $t{\alpha}=-t{1-\alpha}$
犯第一类错误(弃真)的概率是 $\alpha$,第二类(存伪)为 $\beta$。
暂时不会
假设检验的评价标准可以是功效函数,参数是总体待推理参数,函数值是样本落在拒绝域中的概率。
一致最优检验是说,功效函数一致地比其它所有检验都要好。
无偏检验是说,在 $H_0$ 不成立时拒绝 $H_0$ 地概率不小于 $H_0$ 成立时拒绝 $H_0$ 的概率。
正态总体的假设检验
总体均值的检验
对于 $\sigma^2$ 已知,拒绝域是
对于 $\sigma^2$ 未知,使用 $t$ 检验
拒绝域基本就是
总体方差的检验
如果 $\mu$ 已知,用 $\mathcal X^2$ 检验
比如说拒绝域是
如果 $\mu$ 未知,也是卡方
然后也是
两个正态均值差的检验
如果 $\sigma_1,\sigma_2$ 已知
对于
之类的。
如果 $\sigma_1,\sigma_2$ 未知,但 $\sigma_1=\sigma_2$
拒绝域还是
其中
两个正态方差比的检验
$\mu_1,\mu_2$ 未知
取
拒绝域:( $F
检验假设也算是区间估计,置信区间是可以算出来的,也就是接受域。
总体分布的假设检验
Pearson的卡方检验
其中 $r$ 是用最大似然估计的未知参数的个数。拒绝域为 $V>\mathcal X_{1-\alpha}^2(k-r-1)$
偏度/峰度检验法
其中
拒绝域是除以二之后的。
方差分析
- 有 $m$ 个总体,每一个总体取一些样本,假定这些整体是正态整体且有相同的方差
- $\epsilon_i = \mu_i-\mu$, $\mu$ 是平均值。
- 变成假设检验,$H_0:\mu_1=\mu_2=…\mu_m=\mu$
计算组内平均值距离数据总平均的平方,叫做 $S_T$
假设 $H_0$ 成立的话, $S_T/\sigma^2\sim \mathcal X(mk-1)$,事实上 $S_T=(mk-1)S^2$,$S^2$ 是总样本方差
组内平方和 $S_e$,组间平方和 $S_A$,总平方 $S_T$ 有,$S_T=S_A+S_e$
另一个直观是用
统计量的分子在原假设不成立的情况下有偏大的倾向。
所以可以认为否定域是
对于 $\alpha=0.05,0.01$ ,是显著影响和高度 显著影响。
为方便计算
回归分析:
- 描述+预测+控制
一元线性回归模型
- 样本点 $(x_i,y_i)$
- $Y=a+bx+\epsilon$
最大似然估计
- $Y_i\sim N(a+bx_i,\sigma^2)$
或 最小二乘法
显著性检验
样本相关系数
其中
。另外,假设 $b=0$
其中
所以如果
则否定原假设,认为存在线性关系。
为方便计算可以让
用回归方程进行控制
多元回归分析