找不到工作的底层码农视角下的最优传输(1)

OT的目的不过就是想要知道概率分布到另一个概率分布的最优方法,就好像把一些地方的土木从一个地方运到另一个地方来造长城,怎么搬运最短,遗憾的是中国的古人没有总结出一套完整的数学理论。但是蒙日提出来了这个问题


蒙日问题(MP):是定义了 作为一个传输的映射,最优传输就是这个映射的解

这里的 就是两个点的传输距离。然而这个问题是非常难的,主要在于所有这个传输映射的全集甚至可能是太奇异了。于是Kantorovich把这个问题换成了下面这个更容易解的问题(KP)

其中

这个问题会更容易解,因为这个 是凸集,而这个优化问题对 来说其实是一个线性的。可能不存在最有传输映射,但是最优传输方案一定存在。

KP解存在性

可以跳过这一步,数学上的严密性罢了,但是能进一步理解对偶

这里面核心的定理是说,如果 度量空间,在上面定义的两个概率函数,以及一个连续代价函数 ,那么KP问题存在一个解。

核心是Weierstrass定理,说一个函数 如果是下半连续,并且 是紧的,那么就存在点 满足

我们先考虑代价函数 连续性,不过由于正无穷等原因,我们尝试把函数的收敛定义的更广义(我不清楚是不是这个原因),我们得考虑这个测度空间的对偶,从而引出weak*收敛。

弱收敛是是指,对于固定的对偶空间中的元素,他们的内积收敛。弱*收敛则定义在其对偶空间的弱收敛。

测度:有限带符号测度的定义是说度量空间 上的一个映射 ,对任何 Borel集 ,给出一个实数,对于任意可数不交并 ,满足 并且 。这样能给出 上有限带符号测度的集合 ,一个正的有限标量测度 定义是 ,所有可能的分割。一个正测度满足 ,那么这个测度叫概率测度

Borel集是从开集开始的一种sigma代数,对补集,可数并,可数交封闭。

连续函数空间:对于度量空间 ,可以定义 作为无穷远处为零的连续函数空间,方法是首先要 ,并且对于任何 都可以对任何 ,满足存在紧集 ,且 都满足 。如果我们定义 的上确界范数定义为 ,则能得到 在上确界范数下是一个 Banach 空间。类似我们定义 ,这个叫有界连续函数。这里 的闭子集,两者都可以作为 的对偶空间。

Banach空间是一个完备的赋范向量空间,完备性意味着任何柯西列在空间中收敛到极限。

有界连续函数的紧性:一个有界连续函数空间 在上确界范数下是一个紧的度量空间。证明则是考虑任何一个柯西列 ,利用 可以很小,推出任何 中的柯西列,由 的紧性,从而定义一个新的函数 。而对于充分大的 ,可知有界,同时对于 ,从而连续。所以是紧的,且紧性只依赖于 的紧性。

对偶性:Riesz表示定理在这里是说,对于可分局部紧的度量空间 ,若 ,对于其对偶 ,存在唯一的 ,满足 对于每一个 都成立。进一步有 同构于 中范数定义为 。这说明测度空间和连续函数空间 是对偶的。同样也对 成立。

是度量空间, 是其上面的连续函数集合, 是对偶,是一个连续线性泛函的集合, 是一个测度,于是这里说一个连续线性泛函的这个空间,也就是函数的对偶空间和测度的空间是同构的,每个线性泛函对应唯一的一个测度。

如果在微分几何中考虑,连续函数是一个标量函数,测度是一个作用在标量函数上的东西,标量函数是(0,0),测度作用在标量函数上,所以是(0,1)型张量。左边内积部分 是一个(0,1)张量作用在函数上, 是一个 (0,0) 张量。泛函作用在函数上输出标量,测度对函数的积分输出标量。

于是一个测度的范数定义成在全空间上的全变差。

此处我不知道证明

连续性条件证明

到这里我们就可以定义测度序列的弱收敛了,也就是 中测度序列 下弱收敛。如果 紧集则 ,而我们要证明的存在性里面是紧的,所以因为任何一个概率测度弱收敛,则

\begin{align}
\intX \varphi \, d\mu &= \int{X \times Y} \varphi(x) \, d\gamma(x, y) \
\intY \psi \, d\nu &= \int{X \times Y} \psi(y) \, d\gamma(x, y)
\end{align
}

\sup{\varphi,\psi}\int_X \varphi \, d\mu + \int_Y \psi \, d\nu - \int{X \times Y} (\varphi(x) + \psi(y)) \, d\gamma(x, y)=\cases{0,\gamma\in\Pi(\mu,\nu)\+\infty,\text{others}}

\begin{align}
\min\gamma \int{X \times Y} c \, d\gamma + \sup{\varphi, \psi} \left( \int_X \varphi \, d\mu + \int_Y \psi \, d\nu - \int{X \times Y} (\varphi + \psi) \, d\gamma \right)
\end{align
}

\begin{align}
\sup{\varphi, \psi} \left( \int_X \varphi \, d\mu + \int_Y \psi \, d\nu + \inf\gamma \int_{X \times Y} (c(x,y) - (\varphi(x) + \psi(y))) \, d\gamma \right)
\end{align
}

\inf{\gamma \geq 0} \int{X \times Y} (c - \varphi \oplus \psi) \, d\gamma =
\begin{cases}
\text{something}, & \varphi \oplus \psi \leq c \text{ 在 } X \times Y \text{ 上}, \
-\infty, & \varphi \oplus \psi > c,
\end{cases}

\max { \int_X\varphi d\mu+\int_Y\psi d\nu:\varphi\oplus\psi\le c}

\bar f(y)=\sup_x\left-f(x)

f^c(y)=\sup_xc(x,y)-f(x)

\varphi^c(y)=\inf _{y} c(x,y)-\varphi(x)

\nabla c(x,y)-\nabla \varphi(x)=0

x-y=(\nabla h)^{-1}\nabla \varphi(x)

Brenier formulation,Theorem:

  1. 设定:考虑,假设都是有限二阶矩的概率测度,且不将质量赋予小集(Hausdorff维数至多为(d-1)的集合)。成本函数为

  2. 最优传输映射

    • 对于每个在上最小化,存在一个在上最小化,使得
    • 对于每个上最小化当且仅当,其中是某个适当的下半连续凸函数,且
  3. 唯一性

    • 上存在一个唯一的(-几乎处处)的最小化器。

在最优传输问题中,Brenier定理指出,对于在欧几里得空间上的两个概率测度(一个是绝对连续的),存在一个唯一的(几乎处处)梯度映射,该映射可以通过一个凸函数的梯度来实现。这个凸函数就是所谓的Brenier势。最优传输映射是Brenier势的梯度。

也可以看成三个方向:

\pi:={\rho(\vec x) \vec x\mid \rho(\vec x)=\frac{h}{\left<\vec{x},{\vec y}\right>} }

\rho^(y)=\sup{x\in S^2} \rho(x)\left<\vec x,\vec y \right>\
\rho(x)=\inf
{y\in S^2} \frac{\rho^
(y)}{\left}

-\log \frac{1}{\rho(x)}+\log \frac{1}{\rho^*(y)}=\log \frac{1}{\left}

\cases{\frac{d}{dt} \gamma_x(t)=v_t(\gamma_x(t))\\gamma_x(0)=x}

物质导数,考虑 ,关于位置和时间,,这个是链式法则的推论。

牛顿第二定律,不考虑粘性效应,只考虑表面力(如压强)和体作用力(如重力)

那么

点点成立,运用stokes定理,于是有(流体动量演化的Euler方程)

如果考虑粘性之后会得到NS方程,

所谓的欧拉方程是就是在 中不可压缩无粘性流体的牛顿第二定律方程加上无散度性质,我们考虑证明其能量守恒,在最简单的版本无外力。

直接考虑对时间的导数,由于 对时间是不变的(但是不严格似乎)

一方面就是对于标量场 ,矢量场

从而(考虑特殊的边界条件,在 的边缘我们一定有 边界相切)

另一方面

最后一步是因为这个 是一个标量函数,所以适用于之前的

所以合起来

这一项我大致的理解是说,如果我去看整体的变化,那么一部分是流动导致的,沿着方向有一些进来有一些出去,一部分是散度导致的,有一些扩张和收缩。

Hodge 分解说 形式的 z。

可压缩流体的连续性方程

大概是 。他是质量守恒的微分表示,密度变化率和动量的散度有关。

这个方程有经典解,分布解,弱解……

如果由 诱导的微分自同胚群 把初始测度 传输到 ,那么 是连续性方程的唯一解。(为什么是唯一的?)

【流体力学】连续性方程 - 知乎

Arnold几何化理论

不可压缩流体力学中,Euler方程视为保体积微分同胚群中的测地线方程。用 表示一个微分同胚族。它是保体积的。

暂时不知道怎么推,但是假装是对的的话那么这个映射就是保体积的。

求两次偏导,只考虑压强的话,

表示一般情况下所有保持体积的微分同胚群,则 是黎曼流形上的一条路径。我们说其实只有压力场的话,是一条测地线。

首先它定义在哪里,定义在所有保体积的微分同胚群上,,我有两个点一个是 ,一个是 ,那么这个 就是一个曲线。之前说到 是保体积的要求速度场无散,,也就是 ,就是说 ,其中 是一个无散的,换言之和切空间垂直的就要求旋度为零,是一个梯度场,不妨设 ,测地线要求加速度永远和这个切线垂直,惊奇地发现这个就是之前的不可压缩流体Euler发成中的Lagrange公式。

我数学不好,不知道什么同调,就先这么写着。我也不知道测地线为什么这么要求的,我也不知道这样为什么这个分解就是对的,我也还不知道为什么可以继承平方可积函数的黎曼度量来定义。

因为是用过程中的速度平方来定义距离 ,这个理解成速度场决定的动能随时间的积分,所以在某些条件下(似乎得首先让压力场关于时间一致有界,取一些特殊的比较短程)我们觉得这里的能量是最小的。


依赖时间的最优传输

就是把时间积分起来,把所有可能的点积分起来,最开始是一个恒同映射。如果轨迹可微,就是把路径的代价和速度代价构建一个联系。如果对于所有 满足 ,那么可以把和时间有关的代价和与实践无关的代价联系在一起。

凸函数最优轨迹

对于 中最优传输映射,如果传输代价是严格凸函数,利用jensen不等式取等条件来看,其最优传输中 是常数,也就是

是的,这段话非常不清晰,不知道这样的笔记怎么看都是不对的。

定理 11.1(依赖时间的最优传输)

考虑在 上的传输代价函数 ,其中 严格凸,。设 是在 中的概率测度,相对于 Lebesgue 测度绝对连续,令

-几乎处处) 唯一的 -凹函数,其梯度 满足

那么依赖时间的最优传输问题 (11.2) 的解由下式给出:

他说在最优传输中激波不会出现。对于可压缩流体确实会出现激波在有限时间之内出现(两个轨道并在一起了,不再是微分同胚)但是在最优传输中不会出现。如果交叉的话看一下三角形不等式,违背了最优性。

测地线轨迹的Euler表示

最优传输映射的流体力学方程,一个是质量守恒,一个是加速度为零

对于不同的传输代价得到的方程是同一个方程,传输代价隐藏在初始条件的速度场里。

初始速度场是 ,数值上,似乎还是要用蒙日安培方程,依然要有势能函数。

McCann平移

就是 的一个线性插值,实质上给出了 Wasserstein空间上的测地线。

保体积的微分同胚群定义了测地线

概率测度构成的空间给出了测地线

于是Wasserstein Distance看起来还是

问题是,如何用物理的方法求出这个最优传输的解?这还是不知道

在Wasserstein空间的两个点 之间有一个路径,因为 ,所以这两点之间的最短路径的一种看法就是利用 McCann平移,定义中间的过程为 。这是一个作用在概率测度上,得到一个概率测度的算子。

这种观点定义的Wasserstein距离如上述所提,在保体积微分同胚群的空间里去看,是一个最优传输。

Wasserstein空间

第二种观点看Wasserstein空间,可以从最小作用量来看

实际上,Wasserstein上,研究两个测度之间所有的流场,使得流场的总动能达到全局最小,最小的总动能被定义为两个测度之间的Wasserstein距离。

另一种看这条路径的方法是,我们走的是一个平移变化。根据质量守恒的连续性方程 ,很自然地要求在路径上某一点的切向量要形如 的标量场,是某个概率密度。但也就是实际上是一个 定义了一个矢量,不过满足这样条件的矢量 实际上是有无限多的,假设 是某个特殊的满足条件的速度矢量场,那么 对于任何无散向量场 都成立。

一种不知道自不自然的方法是定义切向量的范数为(但是奇妙的是这种定义方法能和上面等价)

也就是在所有可能的从一个概率密度到另一个微小改变的概率密度的变化,这些所有变化里面那个动能最小的。

我们断言这个最小动能的 其实也是个梯度场,因为它动能最小,所以必然有 ,取变分得到 ,在 L2 意义下和任何无散向量场正交。

我的Wasserstein Distance在这种观点下有(Benamou-Brenier定理,证明略)

不过至少现在我们有Riemann度量结构了,毕竟如果你切空间的模长按这个定义,我两个切向量的标量积就应该是

原始你看最优传输你是在所有保体积的微分同胚群下看的,当时的切向量是个无散场导出的东西,现在在Wasserstein空间看切向量反而是一个梯度场导出的东西了。

看着很对偶,毕竟一个是在看映射,一个是在看概率。

好,接下来应该就可以尝试看看Villani的Introduction了。希望能从中理解梯度流的概念。