智谱Z计划-垂类大模型技术技术分享

2024-06-26 技术分享 0 Comments

感觉交流的内容很水，但分享人作为聆心智能CTO水平还是很高的。

CharacterGLM 拟人大模型

Emohaa 国内首个心理大模型

为什么？：和通用模型存在冲突（如需要幻觉），专业性要求高（expert），降本。

什么任务？：prompt工程不能满足要求，任务清晰和评价，任务所需的全部信息都可以由文本来进行输入输出。

明确目标，评估方式；根据预期的模型表现，确定数据体现形式；指定数据收集Guideline，明确数据收集方式，多样性保证；数据质量评估与优化。

在收集和使用过程中，如果强弱改写结果的对比数据对，会比较好。

微调小技巧 DPO，可以采五个，然后取最好的和最坏的来搞强弱数据对。

DPO+RM，用上reward model。

数据并行

deepseed自带的，一张卡放一个模型，7.5B的模型显存15G，但是训起来要120G，主要是Optimizer States的占用比较多。切分之后需要卡间的通信量。

Stage0	不采用任何内存优化方案，也就是普通 DDP；120GB显存
Stage1	Partitioning optimizer state；
Stage2	Partitioning optimizer state 、Partitioning gradients；50GB显存
Stage3	Partitioning optimizer state 、Partitioning gradients、Partitioning model parameters；10GB现存

Stage3会增加卡间通讯的成本，比较慢。

张量并行

把MLP和Self-Attention的训练过程拆开来。

3D并行

模型并行，流水线并行，张良并行。具体参数和卡有关。

通讯

多卡的时候，计算时间并不是完全的主导，卡间通讯和节点间通讯反而是数据提升的瓶颈。

为什么国外限制A800不砍计算速度，砍卡间通讯速度就能限制在超大规模集群上的速度。

人工评测（交互，打分）

模型用户模拟

自动化评测

RAG框架

黄反（安全检查）-> 指代消解 -> FAQ -> RAG -> 生成模型 -> 黄反。
RAG在闲聊场景下，【这个呢，那个呢，刚才那个东西】逻辑上来说不能问上一轮的结果，当前这一轮的输入很难做。为什么指代消解？因为当前的向量匹配模型没有距离权重的概念。花费的时间在0.5s内，1s以内的时间。
工程上能做一些并行的东西。
要做一个上下文记忆管理，长期记忆管理（常驻prompt）。

AI乌托邦PRO（广告）

数据分析有一个指标不太准：轮次（轮次不是主要的决定因素）

主要聊多少轮的原因，基本就是模型回复的速度。如果增加了用户推荐的回复，

DPO要几千个pair基本就能产生效果。（比如回的挺好就是有点短，人工标完之后如果长比较好，就可以直观地评判一下，DPO能做）

预料都会有吗？

本文链接： http://emoairx.github.io/blog/2024/06/26/cldmxdjhldjsfx/

版权声明： 本博客所有文章除特别声明外，均采用 CC BY 4.0 CN协议许可协议。转载请注明出处！

春天来了，冬天还会远吗~