多模态大模型读书笔记

多模态大模型——新一代人工智能技术范式

刘阳 林倞 著

1956——1976 符号主义(逻辑主义)发展

1976——2006 联结主义发展

2006——至今,深度神经网络

2012开始 人脸识别为代表的计算机视觉发展

2022开始 ChatGPT为代表的大语言模型发展

多模态大模型的技术分支

  • 自然语言处理
  • 计算机视觉
  • 机器人和具身智能

大模型全家桶

预训练语言模型(Pretrained Language Model,PLM),通过在大规模数据库上训练获得了解决各类自然语言处理(Natural Language Processing,NLP)任务的能力

当参数规模超过一定水平,更大的语言模型获得了显著的性能提升,涌现出小模型不具备的能力,如上下文学习。为了与PLM区分,这类模型被称为大语言模型(Large LAnguage Model,LLM)。

BERT 的成功催生了 CV 社区的SimCLR、MoCo、BEiT、MAE。

多模态基础模型旨在解决三个代表性问题:

  • 视觉理解任务
  • 视觉生成任务
  • 语言理解和生成相结合的通用接口

由于大规模的图像文本数据的出现,基础图像生成模型得以构建。其中的关键技术包括矢量量化 VAE 方法、扩散模型和自回归模型。

BERT

2018年提出

基于 Transformer

采用了随机掩码技术,将输入 Token 序列的一部分随即替换成一个特殊的标记 [Mask]

🍧下一句预测:一种与训练任务,旨在训练模型预测两个句子之间的关系。(模型输入一对句子,预测是否相邻)

下游应用

文本分类:情感、垃圾邮件

问答系统

语言推理:如阅读理解

语义匹配:相似度匹配

命名实体识别:识别人名地名

自然语言生成:文本摘要、机器翻译、对话生成

推荐系统:学习用户和物品的关系,推荐商品、新闻、音乐

ViT

预训练阶段使用大数据集,自监督训练(不需要人工标注的情况下进行训练)。预训练任务包括使用图像块的位置信息预测原始图像的类别标签、在随机图像块的干扰下预测原始图像的类别标签。

2021 何恺明 掩码自编码器

GPT 系列

与 BERT 不同,GPT 是一个单向语言模型,只能根据上文生成文本。

下游任务:

文本分类任务:加一个线性层

文本蕴含任务:根据一个文本的内容推断另一个文本的真实性或合理性。对于该任务,将前提和假设文本序列拼接在一起,并在中间添加分隔符$

文本相似任务

多项选择任务

ChatGPT

沿用了 InstructGPT

InstructGPT

让语言模型变得更大并不会从本质上使它们更善于遵循用户意图。

InstructGPT 使用了一种通过人类反馈微调的语言模型,目的是在广泛任务中使其与用户意图对其。

三个步骤:

  • 监督微调
  • 奖励模型训练
  • 在该奖励模型上进行近端策略优化(Proximal Policy Optimization,PPO)的强化学习

主流的模型压缩方法:

  • 量化(降低参数精度)
  • 剪枝(合理的利用策略删除神经网络的部分参数)
  • 蒸馏(用小模型学习较大的模型)
  • 稀疏化(去除大量的冗余变量)

中英双语对话机器人 ChatGLM

ChatGLM 是由智谱AI(Zhipu AI)开发的一系列大语言模型(Large Language Models, LLMs),主要用于中文语境下的对话理解和生成任务。

智谱AI(Zhipu AI)是一家中国领先的人工智能公司,专注于大模型(Large Models)的基础研究和行业应用。公司成立于2019年,源自清华大学知识工程实验室(KEG),核心团队由清华大学教授唐杰领衔,汇聚了来自清华、北大、MIT、斯坦福等顶尖高校的科研人才。

多模态大模型核心技术