多模态大模型读书笔记
多模态大模型读书笔记
多模态大模型——新一代人工智能技术范式
刘阳 林倞 著
序
1956——1976 符号主义(逻辑主义)发展
1976——2006 联结主义发展
2006——至今,深度神经网络
2012开始 人脸识别为代表的计算机视觉发展
2022开始 ChatGPT为代表的大语言模型发展
多模态大模型的技术分支
- 自然语言处理
- 计算机视觉
- 机器人和具身智能
大模型全家桶
预训练语言模型(Pretrained Language Model,PLM),通过在大规模数据库上训练获得了解决各类自然语言处理(Natural Language Processing,NLP)任务的能力
当参数规模超过一定水平,更大的语言模型获得了显著的性能提升,涌现出小模型不具备的能力,如上下文学习。为了与PLM区分,这类模型被称为大语言模型(Large LAnguage Model,LLM)。
BERT 的成功催生了 CV 社区的SimCLR、MoCo、BEiT、MAE。
多模态基础模型旨在解决三个代表性问题:
- 视觉理解任务
- 视觉生成任务
- 语言理解和生成相结合的通用接口
由于大规模的图像文本数据的出现,基础图像生成模型得以构建。其中的关键技术包括矢量量化 VAE 方法、扩散模型和自回归模型。
BERT
2018年提出
基于 Transformer
采用了随机掩码技术,将输入 Token 序列的一部分随即替换成一个特殊的标记 [Mask]
🍧下一句预测:一种与训练任务,旨在训练模型预测两个句子之间的关系。(模型输入一对句子,预测是否相邻)
下游应用
文本分类:情感、垃圾邮件
问答系统
语言推理:如阅读理解
语义匹配:相似度匹配
命名实体识别:识别人名地名
自然语言生成:文本摘要、机器翻译、对话生成
推荐系统:学习用户和物品的关系,推荐商品、新闻、音乐
ViT
预训练阶段使用大数据集,自监督训练(不需要人工标注的情况下进行训练)。预训练任务包括使用图像块的位置信息预测原始图像的类别标签、在随机图像块的干扰下预测原始图像的类别标签。
2021 何恺明 掩码自编码器
GPT 系列
与 BERT 不同,GPT 是一个单向语言模型,只能根据上文生成文本。
下游任务:
文本分类任务:加一个线性层
文本蕴含任务:根据一个文本的内容推断另一个文本的真实性或合理性。对于该任务,将前提和假设文本序列拼接在一起,并在中间添加分隔符$
文本相似任务
多项选择任务
ChatGPT
沿用了 InstructGPT
InstructGPT
让语言模型变得更大并不会从本质上使它们更善于遵循用户意图。
InstructGPT 使用了一种通过人类反馈微调的语言模型,目的是在广泛任务中使其与用户意图对其。
三个步骤:
- 监督微调
- 奖励模型训练
- 在该奖励模型上进行近端策略优化(Proximal Policy Optimization,PPO)的强化学习
主流的模型压缩方法:
- 量化(降低参数精度)
- 剪枝(合理的利用策略删除神经网络的部分参数)
- 蒸馏(用小模型学习较大的模型)
- 稀疏化(去除大量的冗余变量)
中英双语对话机器人 ChatGLM
ChatGLM 是由智谱AI(Zhipu AI)开发的一系列大语言模型(Large Language Models, LLMs),主要用于中文语境下的对话理解和生成任务。
智谱AI(Zhipu AI)是一家中国领先的人工智能公司,专注于大模型(Large Models)的基础研究和行业应用。公司成立于2019年,源自清华大学知识工程实验室(KEG),核心团队由清华大学教授唐杰领衔,汇聚了来自清华、北大、MIT、斯坦福等顶尖高校的科研人才。





