World Embedding-关于符号落地的一些碎碎念

2023-10-16 随笔 0 Comments

World Embedding: Embedding the World Into Vector

这是一个外行人的碎碎念，仅代表没有认真了解过NLP/推荐系统的非专业人士对未来的随机猜想

：本文更多的是臆想
我上大学第一节人工智能课的时候，我们的朱松纯院长就说啊， 符号落地 和 常识获取 是笼罩在人工智能之上的两朵乌云。

但似乎一切都变了，从 chatgpt 的出圈。

我们似乎找到了一种符号落地的方法。
所有的符号，有一种表示，叫做向量表示。这个世界或许也有一个表达。

前言

几个月前我和朋友在校园里闲逛，看到北京数学国际研究中心门口贴着一张海报，大概是什么时间有哪个领域的讲座能听。

……
我和当时一个朋友说了这件事，从这之后发生了许许多多故事，但我这里略去。总之又是许许多多的机缘巧合，又是莫名其妙的push，然后有了一个奇怪的网页 PKU Info (lcpu.dev)。虽然代码是无比屎山的。

然后我想，诶这不就是搞了一个搜索引擎嘛，私人化部署的搜索引擎？
但再想想，好像不止。
当我们拥有了上下文的语境之后，又是一个世界了。

朋友的演出	一些被提取出来的信息

是的，互联网的网页固然有上下文，但拥有更多上下文的可能还是我们自己。
明天上午十点开会
倘若你看到了这一句话，怎么把它扔到数据库里呢？你还需要更多信息。
“老板在群里说”，”公司长期使用腾讯会议某固定链接作为会议链接”，“今天是2023年10月16日”，”明天上午十点开会”……
我们在生活中自然的拥有了许多的上下文，如何结合这些上下文来实现数据规格化的整理提取使用？
什么是常识，什么是语境，什么又是知识？
给了我们一个答案，一个对我们来说最轻松的答案。
所以，是什么样的答案？

原则

暑假的时候听一门哲学的讲座，说认知科学，神经科学，心理学，哲学，语言学，脑科学等多学科，研究着语言，心智，大脑的一部分。很抱歉我忘记了具体的陈述，所以会有一些偏差。但或许认知科学和神经科学更关注心智和大脑，哲学和语言学会讨论语言和心智。
说到这里大家就明白了，基于语言模型的人工智能关心什么？关心语言和心智。但最近的一些前沿告诉我们，我们可以用神经科学的方法研究大语言模型，譬如可以抑制其中说谎的神经元，找到相应的空间记忆的神经元。
语言、心智、大脑是三位一体的。
我是从什么时候相信这一点的？十二月份使用 chatgpt 的时候对此并没有太多印象，固然顾及不到后来有那么多靠着倒卖赚了大钱的人。但让我坚信我们对 LLM 知之甚少是 GPT4 解决了矩阵乘法优化的问题。
故事是说，Deepmind 在 nature 上发表的 AlphaTensor 利用强化学习的方法，优化了矩阵乘法算法，提出了一个几十年来没有改进的算法。但而后一个教授把优化问题扔给了 GPT4，GPT4也给出了优化方法，同样是优于人类过去的解法。
一个登上 Nature 封面的工作，竟然被 AI 如此轻易地化解了？我们实在是对大语言模型知之甚少。
语言或许并不是直接与大脑相连的，语言蕴含着知识。就像隐马尔可夫模型中能够用动态规划推理出隐藏变量，大语言模型从语言中学到了知识。知识构成了心智。而模型学到的知识，就是向量。
我们或许可以说，向量表示知识，知识蕴含心智，心智理解世界。世界就是无数的向量。这似乎也符合人们对物理的理解，每一个波函数似乎也就是一个向量。但也许相比于 word-embedding，我们也可以提一嘴 world-embedding。

知识的载体

我大学第一节计算机课是胡俊峰老师上的，老师会掏出那些传统 NLP 的论文让我们去看看，说多么神奇，多么优美，线性的对抗式语法(语义)树构建，语义提取和困惑度。
在那里，知识怎么被存储起来？是以树的形式。
过去的故事，主角名字叫做“知识图谱”。Who Do What，形形色色的关系错综复杂，这就是知识图谱，准确，高效。知识是必要的，图谱也就必要了。
我上大学第一节人工智能课的时候，我们的朱松纯院长就说啊， 符号落地 和 常识获取 是笼罩在人工智能之上的两朵乌云。
但似乎一切都变了，从 chatgpt 的出圈开始。至少对我说，当我重新审视 嵌入 这一说法，我总觉得好像自己发现了什么。
知识本来就有，现在更有，一种载体，我们称之为向量。

Embedding

前几天翻了徐老师关于意图识别的概述，分布式表述确实是一个好的方法。稀疏向量的低维稠密表征。从NNLM，RNNLM的神经网络方法开始，到重量级的CBOW和Skip-gram两种模型，embedding。
利用上下文预测中间的词，顺便求一个向量表征。
Embedding最早被用在推荐系统里，推荐系统多么懂人类啊，懂你想要什么，懂你会沉迷什么，懂你会一直刷抖音刷下去。
好，词嵌入了，成了向量，那你怎么说，不就是一个本来一个地方为一的其它地方为零的你给压缩了一下嘛？那也就word可以embedding嘛。你说一篇文章怎么embedding？
把每个向量加起来？或许是一种方法，类似Bag of Words，但失去了更多的语义，比如上下文关系云云。在Transformer架构里的Position Embedding，或许就是人们尝试手动重新加上语义。
嘛，别那么麻烦，直接在段落中预测整句话，就像在句子中预测一个单词一样吧。（或许是，但作为一个尚未认真接触自然语言处理的人来说，还是不敢妄加断言）
paragraph_vector.pdf (stanford.edu)
总之你看，你句子也可以embedding，断落也可以embedding。嘛然后后来 graph也可以embedding。
后来大家说 KGE 知识图谱也能嵌入，将实体和关系嵌入到低维向量空间中，同时保留KG的结构和语义信息。
万物皆可embedding，embedding之后呢？
我们说 北京 - 中国 和 纽约 - 美国 差不多，着确实是很有意思。
嵌入了，好，那你 embedding 得到的是什么，分布式表示？向量相似代表着语义相似，除此之外呢？你说语义的差分代表着实体的关系。好，除此之外呢？
物体的点云被嵌入成向量，关系实体都被嵌入成向量，而向量又被人类所有的语言所囊括。嵌入的向量蕴含着的，有关系，有随机鹦鹉模样的前后文模糊匹配概率分布，有图片和文字的交互，有这个世界的爱恨情仇。
这可不止是简简单单的SVD分解降维度，这可是这么大的一个万亿参数的神经网络。

向量之后的故事

于是我们又要说，纵然向量里有爱恨情仇，那又有什么用。
正如人类的思考从不会凭空想象，我们在我们的认知符号表里不断行走，进行高低层次的切换，就像行走在艾舍尔的画中。我现在想的，我之后想的，总是与我未来想的多少有点关系。
让我们回到有限状态自动机的故事吧，或许再增加一点混合策略的随机，或许再多一些表带，多几个表头，有限状态自动机就可以一刻不停地运作直到停机了。
让我们回到随机游走的故事吧，从图的顶点出发，选一条边，再选一条边。或者再来点故事，正如向量检索的 HNSW，在可导航小世界图上因为贪心四处碰壁，但兜兜转转好像也能找到一条路。
发现了吗？图是离散的，有限状态自动机是离散的。向量是连续的
连续代表着什么？哦可多了，连续代表着智能的希望。哦，为什么就不就此打住，相信世界就是一个又一个向量的叠加呢？不妨就此相信向量就是世界呢。

符号落地

你看，符号成为了向量，知识成为了向量，世界成为了向量。
而向量数据库帮助我们找到了思维发散的方式。
从一个向量，联想到另一个向量，而它们之间确实可以被联想。
定义:c-ANN/c-k-ANN

假设 $\mathcal D$ 为数据集，有 $n$ 个点，$d$ 个维度，有一个询问的点 $q$，c-ANN search 的目的是返回一个点 $o \in \mathcal D$，使得 $dist(o,q) \le c\times dist(o^,q)$。同样的c-k-ANN是返回 top-k 满足 $dist(o_i,q) \le dist(o_i^,q) , 1\le i\le k$。
最无脑的方法，大概莫过于通过调包的方式，给PKU活动资讯的每一条一个高维空间的坐标，通过检索的方式，进行知识增强了。
但符号落地不限于此，向量化带给了符号新的希望。
但符号落地除了向量必然也是有路的。

朱老师想必很早就对符号和符号落地有了极其深刻的见解，只是如今的确没有认真了解过朱老师的工作。

矩阵

所以矩阵是什么。

应用

当硬件被操作系统封装，当网络被协议封装，当自然语言处理被一个API封装。一切变得清晰简单，落地也就不远了。当几个手无寸铁的本科生可以自己写一个（假装可以）自然交互搜索引擎的时候，也就会发现 AI 落地不远了。企业助手，个人助理，这些似乎都毫无技术难度，如今没有见到推广，却也不远了。前沿的AI技术很多，但没有人推广。妙鸭相机的技术一年前就成熟，但却没有人试图做成产品。世界还是太缺人了，到处缺人，各种人。
但总之，我说服我自己向量是一个很有意思的东西了。最近想很学基于LSH的向量检索，希望能多少看一点。

本文链接： http://emoairx.github.io/blog/2023/10/16/onPKUINFO/

版权声明： 本博客所有文章除特别声明外，均采用 CC BY 4.0 CN协议许可协议。转载请注明出处！

emoairxPKU,EECS

春天来了，冬天还会远吗~