智谱Z计划-垂类大模型技术技术分享

感觉交流的内容很水,但分享人作为聆心智能CTO水平还是很高的。

引言

CharacterGLM 拟人大模型

  • 拟人的大模型,运行出现一定程度上的”幻觉”的能力是合理的。

Emohaa 国内首个心理大模型

  • 疫情期间的心理疏导方面的推广,特点是在训练过程中显示或者隐式输入了大量心理方面的知识。

为什么?:和通用模型存在冲突(如需要幻觉),专业性要求高(expert),降本。

什么任务?:prompt工程不能满足要求,任务清晰和评价,任务所需的全部信息都可以由文本来进行输入输出。

数据

明确目标,评估方式;根据预期的模型表现,确定数据体现形式;指定数据收集Guideline,明确数据收集方式,多样性保证;数据质量评估与优化。

在收集和使用过程中,如果强弱改写结果的对比数据对,会比较好。

微调小技巧 DPO,可以采五个,然后取最好的和最坏的来搞强弱数据对。

DPO+RM,用上reward model。

数据并行

deepseed自带的,一张卡放一个模型,7.5B的模型显存15G,但是训起来要120G,主要是Optimizer States的占用比较多。切分之后需要卡间的通信量。

Stage0 不采用任何内存优化方案,也就是普通 DDP;120GB显存
Stage1 Partitioning optimizer state;
Stage2 Partitioning optimizer state 、Partitioning gradients;50GB显存
Stage3 Partitioning optimizer state 、Partitioning gradients、Partitioning model parameters;10GB现存

Stage3会增加卡间通讯的成本,比较慢。

张量并行

把MLP和Self-Attention的训练过程拆开来。

3D并行

模型并行,流水线并行,张良并行。具体参数和卡有关。

通讯

多卡的时候,计算时间并不是完全的主导, 卡间通讯和节点间通讯反而是数据提升的瓶颈。

为什么国外限制A800不砍计算速度,砍卡间通讯速度就能限制在超大规模集群上的速度。

评测

人工评测(交互,打分)

  • 静态测试:固定上下文,评估不同模型的回复
  • 交互-单轮打分:每轮选一个最佳的结果进入上下文。
  • 交互-session级别打分,每个模型完成session后进行整体打分。

模型用户模拟

  • 随机低质输入攻击(嗯,啊,哦,?,……)
  • 大模型+prompt
  • 用户侧数据微调

自动化评测

  • RM,多模态基座
  • 大模型+prompt:一致性评估
    • 自家模型对自家偏好更高。

RAG框架

  • 黄反(安全检查)-> 指代消解 -> FAQ -> RAG -> 生成模型 -> 黄反。
  • RAG在闲聊场景下,【这个呢,那个呢,刚才那个东西】逻辑上来说不能问上一轮的结果,当前这一轮的输入很难做。为什么指代消解?因为当前的向量匹配模型没有距离权重的概念。花费的时间在0.5s内,1s以内的时间。
  • 工程上能做一些并行的东西。
  • 要做一个上下文记忆管理,长期记忆管理(常驻prompt)。

AI乌托邦PRO(广告)

  • 基于聆心超拟人大模型构建个性化和场景化AI服务,我们给你管上下文,知识库,角色配置。
  • 带常见人设和人设补充(额外知识),还有RAG的文档。

数据分析有一个指标不太准:轮次(轮次不是主要的决定因素)

主要聊多少轮的原因,基本就是模型回复的速度。如果增加了用户推荐的回复,

DPO要几千个pair基本就能产生效果。(比如回的挺好就是有点短,人工标完之后如果长比较好,就可以直观地评判一下,DPO能做)

预料都会有吗?