人性的弱点
人性的弱点不做点笔记总觉得少了点什么(
如何消除忧虑🍖揭开忧虑之谜🧁亚里士多德:
查清忧虑的真相
分析这些真相
做出决断后立即付诸行动
第一步是最重要的,很多事情完成了第一步就不会忧虑了
🍖不畏将来,不念过去🧁 关注脚下,向自己发问:
我是否在为将来的日子而忧虑,或者在向往远方的玫瑰园?
我是否会时常把往事追悔,把昨天的重负放在今日?
早晨起床时,我是否决心“把握住今日”?
生活在“今天独立的隔舱”里,我的生活是否会更加丰富多彩?
何时执行这个忠告?明天,下周,还是就在今天?
🍖 消除忧虑的万能公式
设想一下最坏的结局是什么?
做出最坏打算后,做好勇敢接受这个结局的准备。
内心保持平静,集中精力,改变那最坏的结果。
🍖忧虑是健康的大敌“不知道怎样消除忧虑的人容易过早地去世”
忧虑可能导致胃溃疡?
🍖驱逐思想中的忧虑让自己忙起来
“你最容易受到忧虑伤害的时候,不是在你的一天的工作行动的时候,而是在工作做完了之后。因为那时,你的思想会混乱起来,容易让你胡思乱想,会把你曾经出现过的每一个小错误都加以夸大。在这个时候,你的思想就像一部空载的车子,会不顾一切地乱冲乱撞,甚至自 ...
算法岗在要求什么?
今天看了看招聘信息记录一下各类算法岗到底要求什么东西
字节跳动视频生成算法工程师-Seed
1、参与视频生成基础模型相关结构的研究和开发,包括:VAE,MOE,Dynamic Attention,Streaming Multimodal Model;
2、参与视频生成全流程的研究和开发,包括:Data,Scaling Recipe,SFT,RLHF。
正式岗位似乎只收博士
1)图片/视频生成扩散模型;
2)视觉自监督学习/表示学习/生成理解统一;
3)动态模型结构设计;
4)大规模训练经验、SFT或RLHF经验;
多模态世界模型算法专家-Top Seed
只收博士
ACM/ICPC、NOI/IOI、Top Coder、Kaggle等比赛获奖者优先;
在CVPR、ECCV、ICCV、NeurIPS、ICLR、SIGGRAPH或SIGGRAPH Asia等顶级会议上发表论文者优先;
在多模态、大模型、基础模型、世界模型、RL、渲染生成领域,主导过大影响力项目者优先。
图片生成算法工程师-Seed
2、在计算机视觉一个或多个领域的研究 ...
RAG笔记
概览📖 RAG 是什么?Retrieval-Augmented Generation,检索增强生成。顾名思义,用检索到的信息增强大模型生成的内容,可能是增强准确性,也可能为了增强多样性,总之就是在增强这个大模型的回答。
这项技术可以帮你构建一个更专业的“智能客服”,“知识助手”。
⚙️ 原理
检索 (Retrieval)
在大模型生成答案前,先从外部知识库(例如数据库、文档集合、向量库、甚至互联网)里检索和问题相关的资料。
增强 (Augmented)
把这些检索到的资料作为上下文信息,拼接到用户输入里,提供给大模型。
生成 (Generation)
大模型再基于用户问题 + 外部资料,生成更准确、知识更新的回答。
🌟 为什么需要 RAG?
解决 LLM “知识过时” 的问题:大模型的知识是训练时固化的,RAG 可以实时接入外部数据。
**减少幻觉 (hallucination)**:模型少“瞎编”,因为它有真实的参考资料。
灵活可控:你可以决定接入什么知识库,比如企业文档、论文库、代码库等。
📌 应用场景
智能问答系统(比如企业知识库问答、学术论文助手)
法律& ...
VOICEVOX
VOICEVOX 是一个高质量的语音合成平台,它使用了最新的人工智能技术来生成自然而流畅的语音。
SoVITS自学
论文翻译Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech用于端到端语音合成的条件变分自编码器与对抗学习摘要近年来,已有多种端到端的文本到语音(TTS)模型被提出,它们支持单阶段训练和并行采样,但其生成的语音质量仍不及传统的两阶段TTS系统。在本研究中,我们提出了一种并行的端到端TTS方法,其生成的语音比现有的两阶段模型更自然。我们的方法采用了结合正规化流(normalizing flows)的变分推断,并引入了对抗训练过程,从而提升了生成模型的表达能力。我们还提出了一种随机时长预测器(stochastic duration predictor),可以从输入文本中合成出节奏多样的语音。通过对潜在变量的不确定性建模以及随机时长预测器,我们的方法能够体现自然存在的“一对多”关系——即同一段文本可以以不同的语调和节奏被表达。我们在单说话人数据集LJ Speech上进行了主观人类评价(平均意见评分,MOS),结果显示我们的方法优于目前公开可用的最佳TTS系统,并且 ...
可解释性分析
https://www.bilibili.com/video/BV1PD4y1B77q/
CAM类激活热力图,缺点:
必须有 GAP 层(全局平均池化)才可以应用该算法
只能分析最后一层卷积层输出,无法分析中间层
GradCAMpytorch-grad-cam ,GitHub上的一个仓库,可以参考
优点:
不需要重新训练网络了(不需要加上 GAP 层)
可以分析任意中间层
数学上是原生 CAM 的推广
细粒度图像分类,Machine teaching
缺点:
图像上有多个同类物体时,只能画出一张热力图
不同位置的梯度值,GAP 平均之后,影响是相同的(中心的像素应该比边缘更重要才对)
梯度饱和,梯度消失,梯度噪声
权重大的 channel,不一定对类别预测分数贡献大
只考虑从后往前反向传播梯度,没考虑前向预测的影响
深层生成的粗粒度热力图和浅层生成的细粒度热力图都不够精准
LIME超像素分割成多个块,分别做分类,看看哪个块影响大
基于注意力机制的无监督域自适应问题研究论文笔记
引言选题背景与意义高质量的标注数据不足 → 迁移学习
迁移学习的主要目标是利用在源任务中获取的知识和经验,以提升在关联的目标任务上的性能。
域自适应问题(Domain Adaption,DA)是迁移学 习中一个被广泛关注的子领域。
如果目标域具有标签,那么微调预训练模型是一种可行的解决方法;本文专注于解决目标域没有标签的情况,这被称为无监督领域自适应 (Unsupervised Domain Adaption,UDA) 问题。目标是通 过具有丰富标签的源域数据和无标签的目标域数据来提升模型在目标域上的性能。
本文以图像分类问题为例,基于经典的对抗学习方法 DANN, 探究 Transformer 模型中的注意力机制在无监督领域自适应问题上的应用。
文献综述无监督域自适应注意力机制文章结构背景知识迁移学习
领域自适应和域转移
特征对齐
对抗训练和 DANN 模型
图像分类模型
本章总结
基于注意力图对齐的无监督领域自适应方法
问题描述
注意力图与动机
注意力图
动机
模型结构
特征提取器和分类器
域鉴别器和注意力图鉴别器
损失函数
实验
数据集
评价指标与实验细节
实验结果
本章小结
...
pytorch笔记
简介PyTorch是一个开源的深度学习框架,它由Facebook的人工智能研究实验室(Facebook AI Research, FAIR)开发和维护。该框架提供了灵活的张量计算和动态计算图的功能,使得在深度学习任务中定义和训练神经网络变得更加直观和灵活。
下图是 scikit-learn 官方给的帮助选择算法的图
两个函数dir():帮助查看某个包里面的内容
help():查看某个函数的用法
数据加载Dataset 和 DataloderDataset 是一个抽象类,子类需要实现 __getitem__ 方法和 __len__ 方法
path = os.path.join(root_dir, label)
os.path.join 用来拼接两个目录,接收两个字符串,字符串开头和末尾不需要 “\“
1234567891011121314151617181920212223242526272829303132from torch.utils.data import Datasetfrom PIL import Imageimport osclass MyData(Datase ...
强化学习
参考资料:
什么是强化学习?
简介于监督学习或无监督学习不同,强化学习不是从静态数据集中学习知识,而是与动态环境交互;目标也不是对数据进行分类或标记,而是找到能够产生最优结果的最佳动作序列。从这个意义上说,”最优“意味着获得最多的奖励。
上大学(Action),得到一份工作(Observation/state),得到工资(Reward)
过马路前看了两边(Action),到了马路另一边(State),没有被撞到(Reward)
在智能体内部有一个大脑,它接受状态观测量(输入),并将它们映射到动作(输出)中。在 RL 术语中,这种映射被称“策略”(policy)。如果提供一组观测量,策略便会确定要采取的动作。
强化学习算法则会根据以上三者,更新策略(因为环境可能在变化,策略也可能还不够好)
强化学习也是一种优化问题,需要区分两个概念:
Value:从当前状态到未来,所能获得激励的总和。
Reward:当前状态的即时的激励。
强化学习的目标是最大化 Value。
像金融市场一样,对未来的预测总是不可靠的。强化学习会通过一些设计,对未来的收益进行“折扣”,让自己更目光短浅一点。
...
弥散加权成像
弥散加权成像概念磁共振弥散加权成像 是利用磁共振成像观察活体组织中水分子的微观扩散运动的一种成像方法。水分子扩散快慢可用表观扩散系数(apparent diffusion coefficient,ADC)和DWI两种方式表示。ADC图是直接反映组织扩散快慢的指标,如组织中水分子扩散速度慢,ADC值低,图像呈黑色,反之亦然。DWI反映扩散信号强弱,如果扩散速度慢,去相位时信号丢失少,信号高,图像呈白色。如脑梗死的早期,由于细胞毒性水肿,扩散速度减低,ADC值低,在ADC图上呈黑色,但这时DWI信号是高的。
特点病灶会比较亮。脑脊液等液体比较多的区域会是黑色的,水分子运动受限的区域会更亮。
B值
DWI 中的 B 值(b-value)是一个重要的参数,又名弥散敏感因子,是对弥散运动表现的敏感度。
用于控制梯度强度和梯度持续时间,从而影响扫描中水分子的散射效应。
B 值的概念涉及到梯度强度、梯度脉宽(持续时间)和间隔时间。B 值的计算公式为:$$B = γ² * G² * δ * (Δ - δ/3)$$其中:
γ 是核磁共振常数(gyromagnetic ratio)。 ...








