多模态大模型读书笔记

多模态大模型——新一代人工智能技术范式

刘阳林倞著

序

1956——1976 符号主义（逻辑主义）发展

1976——2006 联结主义发展

2006——至今，深度神经网络

2012开始人脸识别为代表的计算机视觉发展

2022开始 ChatGPT为代表的大语言模型发展

多模态大模型的技术分支

自然语言处理
计算机视觉
机器人和具身智能

大模型全家桶

预训练语言模型（Pretrained Language Model，PLM），通过在大规模数据库上训练获得了解决各类自然语言处理（Natural Language Processing，NLP）任务的能力

当参数规模超过一定水平，更大的语言模型获得了显著的性能提升，涌现出小模型不具备的能力，如上下文学习。为了与PLM区分，这类模型被称为大语言模型（Large LAnguage Model，LLM）。

BERT 的成功催生了 CV 社区的SimCLR、MoCo、BEiT、MAE。

多模态基础模型旨在解决三个代表性问题：

视觉理解任务
视觉生成任务
语言理解和生成相结合的通用接口

由于大规模的图像文本数据的出现，基础图像生成模型得以构建。其中的关键技术包括矢量量化 VAE 方法、扩散模型和自回归模型。

BERT

2018年提出

基于 Transformer

采用了随机掩码技术，将输入 Token 序列的一部分随即替换成一个特殊的标记 [Mask]

🍧下一句预测：一种与训练任务，旨在训练模型预测两个句子之间的关系。（模型输入一对句子，预测是否相邻）

下游应用

文本分类：情感、垃圾邮件

问答系统

语言推理：如阅读理解

语义匹配：相似度匹配

命名实体识别：识别人名地名

自然语言生成：文本摘要、机器翻译、对话生成

推荐系统：学习用户和物品的关系，推荐商品、新闻、音乐

ViT

预训练阶段使用大数据集，自监督训练（不需要人工标注的情况下进行训练）。预训练任务包括使用图像块的位置信息预测原始图像的类别标签、在随机图像块的干扰下预测原始图像的类别标签。

2021 何恺明掩码自编码器

GPT 系列

与 BERT 不同，GPT 是一个单向语言模型，只能根据上文生成文本。

下游任务：

文本分类任务：加一个线性层

文本蕴含任务：根据一个文本的内容推断另一个文本的真实性或合理性。对于该任务，将前提和假设文本序列拼接在一起，并在中间添加分隔符$

文本相似任务

多项选择任务

ChatGPT

沿用了 InstructGPT

InstructGPT

让语言模型变得更大并不会从本质上使它们更善于遵循用户意图。

InstructGPT　使用了一种通过人类反馈微调的语言模型，目的是在广泛任务中使其与用户意图对其。

三个步骤：

监督微调
奖励模型训练
在该奖励模型上进行近端策略优化（Proximal Policy Optimization，PPO）的强化学习

主流的模型压缩方法：

量化（降低参数精度）
剪枝（合理的利用策略删除神经网络的部分参数）
蒸馏（用小模型学习较大的模型）
稀疏化（去除大量的冗余变量）

中英双语对话机器人 ChatGLM

ChatGLM 是由智谱AI（Zhipu AI）开发的一系列大语言模型（Large Language Models, LLMs），主要用于中文语境下的对话理解和生成任务。

智谱AI（Zhipu AI）是一家中国领先的人工智能公司，专注于大模型（Large Models）的基础研究和行业应用。公司成立于2019年，源自清华大学知识工程实验室（KEG），核心团队由清华大学教授唐杰领衔，汇聚了来自清华、北大、MIT、斯坦福等顶尖高校的科研人才。