模式识别与机器学习 笔记

根均方误差

贝叶斯定理右侧的量 $p(\mathcal D\mid w)$ 是观测数据集 $D$ 估计,可以看作是参数向量 $w$ 的函数,叫做似然函数。

似然(likelihood) 函数,损失函数

所谓的最大似然就是让 $p(\mathcal D\mid w)$ 最大的 $w$,似然函数的负对数叫做误差函数。最大化似然函数等价于最小化误差函数。

贝叶斯方法

执行完整的贝叶斯步骤很困难,需要再整个参数空间求积分。所以不如马尔科夫链蒙特卡洛等(但是计算复杂,主要用于小规模问题。

variational Bayes和expectation propagation等方法是可选的采样方法,让贝叶斯方法能应用于大规模应用中。

最大似然方法系统性地低估了分布的方差(?)

最大似然:最小化分类错误率,最小化期望损失

三种方法

1、显示地或者隐式地对输入以及输出进行建模的方式叫做生成模型。(比如 $p(x,C_k)$ 或者 $p(x\mid C_k)$

这对于检测模型中具有低概率的新数据点很有用,但是需要大量训练数据

2、首先解决后验 类密度 $p(C_k\mid x)$ 这样的 推断问题 ,接下来使用决策论对输入 $x$ 进行分类的方法叫做 判别模型

3、找到一个判别函数,根据函数得到分类。(概率不起作用)

缺少先验概率非常不好


$\theta$ 的后验均值,在产生数据集的整个平面上做平均,等于 $\theta$ 的先验均值。

有点类似于RL里面的 V 是所有 Q 的期望。

image-20240805220837076

后验方差会变化,均值的方差越大后验方差的平均来说越小。


Robbins-Monro算法

最大似然解是负对数似然估计函数的驻点

所以就有

  • 对于指数族分布来说,把共轭先验看成有效假想数 据点是⼀个很通用的思想

高斯分布与学生t分布

共轭先验

如果后验分布先验分布属于同类,则先验分布与后验分布被称为共轭分布,而先验分布被称为似然函数的共轭先验

学生 t 分布可以这样通过将无限多个同均值不同精度的高斯分布相加的方式得到。这可以表示为无限的高斯混合模型。更长尾,更鲁棒。少量的离群点对于t分布的影响要远远小于高斯分布。

对于周期变量,可能用极坐标会更方便。可以考虑高斯分布对周期变量的推广, von Mises 分布。有两个参数,一个是均值 $\theta_0$ ,一个是 concentration参数 $m$,类似于高斯分布的方差的倒数(精度)。

1、off-policy / on-policy

2、RL,robotic control

3、DPO(RLHF)数据有限 (DPO不一定有scaling law)500万。

高斯分布的贝叶斯推断

Scaling laws for single-agent reinforcement learning

Cooperative Inverse Reinforcement Learning