人工智能基础阅读笔记
人工智能基础杨杰 黄晓霖 高岳 乔宇 屠恩美
绪论AlphaGo 的核心是两种不同的深度神经网络,即值网络(Value Network)和策略网络(Policy Network)。
值网络负责减少搜索的深度
策略网络负责减少搜索的宽度
布尔、哥德尔、图灵、莫克利、冯·诺依曼、麦卡锡
1956 人工智能一词正式提出
1969 第一届国际人工智能联合会议(International Joint Conference on AI,IJCAI)召开,此后两年一次。
1970 年《人工智能》国际杂志(International Journal of AI)创刊。
1980 XCON,一种专家系统。可以简单理解为“知识库+推理机”的组合。
20 世纪 90 年代以来,专家系统,机器翻译,机器视觉和问题求解等方面的研究已经开始应用。
学派
符号学派(逻辑学派、心理学派、计算机学派),认为人对世界的认知基元是符号,认知过程即符号操作过程。研究内容是基于逻辑的知识表示和推理机制。
联结学派(仿生学派、生理学派)认为人工智能源于仿生学,特别是人脑模型的研究。该学派的原理主要为神经网络及神经网络间的连接机制 ...
多模态大模型读书笔记
多模态大模型读书笔记多模态大模型——新一代人工智能技术范式
刘阳 林倞 著
序1956——1976 符号主义(逻辑主义)发展
1976——2006 联结主义发展
2006——至今,深度神经网络
2012开始 人脸识别为代表的计算机视觉发展
2022开始 ChatGPT为代表的大语言模型发展
多模态大模型的技术分支
自然语言处理
计算机视觉
机器人和具身智能
大模型全家桶预训练语言模型(Pretrained Language Model,PLM),通过在大规模数据库上训练获得了解决各类自然语言处理(Natural Language Processing,NLP)任务的能力
当参数规模超过一定水平,更大的语言模型获得了显著的性能提升,涌现出小模型不具备的能力,如上下文学习。为了与PLM区分,这类模型被称为大语言模型(Large LAnguage Model,LLM)。
BERT 的成功催生了 CV 社区的SimCLR、MoCo、BEiT、MAE。
多模态基础模型旨在解决三个代表性问题:
视觉理解任务
视觉生成任务
语言理解和生成相结合的通用接口
由于大规模的图像文本数据的出现 ...
动画编导与制作
《网络动画 Animate 制作与表现》讲了网络动画的发展,Animate 的使用和动画制作的步骤。挺有趣的,这里对最后一章做下笔记。
Animate 动画基本制作流程前期:剧本创作,角色设计、场景设计,分镜头设计;
中期:制作元件、编辑动画;
后期:合成、配音、生成影片。
前期制作一、剧本创作首先,要有一个基本的包含浓缩的完整故事的构思,并且标明故事的主角,包括构成故事的冲突——发展——结局。然后,将上述提到的基本故事构成扩展成一个叙事大纲,其中含有大量的细节,并且有明确的故事发展情节。接下来,分场提纲,即影片逐场所叙事提纲,它允许作者控制节奏和速度,最后,是剧本初稿,接着是第二稿,直到最后定稿。大约每分钟一张。
二、角色设计和场景设计动画片不但需要紧凑的节奏、丰富的表现力,还必须有自己的影片风格。因此角色和场景造型设计就显得尤为重要。以经典二维动画片《千与千寻》为例,片中的角色设计与场景设计均根据剧情需要进行设计,贪婪且自私的汤婆婆是人与鹰的结合体、锅炉爷爷的六只手臂能够自由伸缩、无脸男戴着面具显得非常神秘、“汤屋”中客人们的形态不一等,这一切构成了影片光怪陆离的奇妙幻境,深深吸引 ...
计算机科学导论
计算机科学导论课程链接 https://www.bilibili.com/video/BV1Hr421F7VC/
0-Scratch事件通常是指在计算机程序中发生的图形化或交互式的操作
好快乐的课
1-Ccreepy 毛骨悚然的
“终端窗口实际上就是你访问云端服务器的命令行界面。专业术语叫做”容器“,你们每个人在云端都有自己的容器,就像你们自己的电脑一样,运行在互联网上的某个地方,你有你自己的用户名和密码,可以访问你自己的“硬盘”(也就是你的主文件夹),里面存放着你上课的所有文件。除非你开启实时共享,否则只有你能访问。”
ls 命令是 list 的缩写。
mv 代表 move,可以用来重命名。
cd, change into?
2-Arraysclang -o hello hello.c
clang -o hello hello.c -lcs50
C 语言中,以 # 开头的部分称为预处理指令(pre processor directive)
spooky /ˈspuːki/,诡异的,阴森的,瘆人的
preprocessing
compiling
assemblin ...
人性的弱点
人性的弱点不做点笔记总觉得少了点什么(
如何消除忧虑🍖揭开忧虑之谜🧁亚里士多德:
查清忧虑的真相
分析这些真相
做出决断后立即付诸行动
第一步是最重要的,很多事情完成了第一步就不会忧虑了
🍖不畏将来,不念过去🧁 关注脚下,向自己发问:
我是否在为将来的日子而忧虑,或者在向往远方的玫瑰园?
我是否会时常把往事追悔,把昨天的重负放在今日?
早晨起床时,我是否决心“把握住今日”?
生活在“今天独立的隔舱”里,我的生活是否会更加丰富多彩?
何时执行这个忠告?明天,下周,还是就在今天?
🍖 消除忧虑的万能公式
设想一下最坏的结局是什么?
做出最坏打算后,做好勇敢接受这个结局的准备。
内心保持平静,集中精力,改变那最坏的结果。
🍖忧虑是健康的大敌“不知道怎样消除忧虑的人容易过早地去世”
忧虑可能导致胃溃疡?
🍖驱逐思想中的忧虑让自己忙起来
“你最容易受到忧虑伤害的时候,不是在你的一天的工作行动的时候,而是在工作做完了之后。因为那时,你的思想会混乱起来,容易让你胡思乱想,会把你曾经出现过的每一个小错误都加以夸大。在这个时候,你的思想就像一部空载的车子,会不顾一切地乱冲乱撞,甚至自 ...
算法岗在要求什么?
今天看了看招聘信息记录一下各类算法岗到底要求什么东西
字节跳动视频生成算法工程师-Seed
1、参与视频生成基础模型相关结构的研究和开发,包括:VAE,MOE,Dynamic Attention,Streaming Multimodal Model;
2、参与视频生成全流程的研究和开发,包括:Data,Scaling Recipe,SFT,RLHF。
正式岗位似乎只收博士
1)图片/视频生成扩散模型;
2)视觉自监督学习/表示学习/生成理解统一;
3)动态模型结构设计;
4)大规模训练经验、SFT或RLHF经验;
多模态世界模型算法专家-Top Seed
只收博士
ACM/ICPC、NOI/IOI、Top Coder、Kaggle等比赛获奖者优先;
在CVPR、ECCV、ICCV、NeurIPS、ICLR、SIGGRAPH或SIGGRAPH Asia等顶级会议上发表论文者优先;
在多模态、大模型、基础模型、世界模型、RL、渲染生成领域,主导过大影响力项目者优先。
图片生成算法工程师-Seed
2、在计算机视觉一个或多个领域的研究 ...
RAG笔记
概览📖 RAG 是什么?Retrieval-Augmented Generation,检索增强生成。顾名思义,用检索到的信息增强大模型生成的内容,可能是增强准确性,也可能为了增强多样性,总之就是在增强这个大模型的回答。
这项技术可以帮你构建一个更专业的“智能客服”,“知识助手”。
⚙️ 原理
检索 (Retrieval)
在大模型生成答案前,先从外部知识库(例如数据库、文档集合、向量库、甚至互联网)里检索和问题相关的资料。
增强 (Augmented)
把这些检索到的资料作为上下文信息,拼接到用户输入里,提供给大模型。
生成 (Generation)
大模型再基于用户问题 + 外部资料,生成更准确、知识更新的回答。
🌟 为什么需要 RAG?
解决 LLM “知识过时” 的问题:大模型的知识是训练时固化的,RAG 可以实时接入外部数据。
**减少幻觉 (hallucination)**:模型少“瞎编”,因为它有真实的参考资料。
灵活可控:你可以决定接入什么知识库,比如企业文档、论文库、代码库等。
📌 应用场景
智能问答系统(比如企业知识库问答、学术论文助手)
法律& ...
VOICEVOX
VOICEVOX 是一个高质量的语音合成平台,它使用了最新的人工智能技术来生成自然而流畅的语音。
SoVITS自学
论文翻译Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech用于端到端语音合成的条件变分自编码器与对抗学习摘要近年来,已有多种端到端的文本到语音(TTS)模型被提出,它们支持单阶段训练和并行采样,但其生成的语音质量仍不及传统的两阶段TTS系统。在本研究中,我们提出了一种并行的端到端TTS方法,其生成的语音比现有的两阶段模型更自然。我们的方法采用了结合正规化流(normalizing flows)的变分推断,并引入了对抗训练过程,从而提升了生成模型的表达能力。我们还提出了一种随机时长预测器(stochastic duration predictor),可以从输入文本中合成出节奏多样的语音。通过对潜在变量的不确定性建模以及随机时长预测器,我们的方法能够体现自然存在的“一对多”关系——即同一段文本可以以不同的语调和节奏被表达。我们在单说话人数据集LJ Speech上进行了主观人类评价(平均意见评分,MOS),结果显示我们的方法优于目前公开可用的最佳TTS系统,并且 ...
可解释性分析
https://www.bilibili.com/video/BV1PD4y1B77q/
CAM类激活热力图,缺点:
必须有 GAP 层(全局平均池化)才可以应用该算法
只能分析最后一层卷积层输出,无法分析中间层
GradCAMpytorch-grad-cam ,GitHub上的一个仓库,可以参考
优点:
不需要重新训练网络了(不需要加上 GAP 层)
可以分析任意中间层
数学上是原生 CAM 的推广
细粒度图像分类,Machine teaching
缺点:
图像上有多个同类物体时,只能画出一张热力图
不同位置的梯度值,GAP 平均之后,影响是相同的(中心的像素应该比边缘更重要才对)
梯度饱和,梯度消失,梯度噪声
权重大的 channel,不一定对类别预测分数贡献大
只考虑从后往前反向传播梯度,没考虑前向预测的影响
深层生成的粗粒度热力图和浅层生成的细粒度热力图都不够精准
LIME超像素分割成多个块,分别做分类,看看哪个块影响大








