SoVITS自学
论文翻译Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech用于端到端语音合成的条件变分自编码器与对抗学习摘要近年来,已有多种端到端的文本到语音(TTS)模型被提出,它们支持单阶段训练和并行采样,但其生成的语音质量仍不及传统的两阶段TTS系统。在本研究中,我们提出了一种并行的端到端TTS方法,其生成的语音比现有的两阶段模型更自然。我们的方法采用了结合正规化流(normalizing flows)的变分推断,并引入了对抗训练过程,从而提升了生成模型的表达能力。我们还提出了一种随机时长预测器(stochastic duration predictor),可以从输入文本中合成出节奏多样的语音。通过对潜在变量的不确定性建模以及随机时长预测器,我们的方法能够体现自然存在的“一对多”关系——即同一段文本可以以不同的语调和节奏被表达。我们在单说话人数据集LJ Speech上进行了主观人类评价(平均意见评分,MOS),结果显示我们的方法优于目前公开可用的最佳TTS系统,并且 ...
可解释性分析
https://www.bilibili.com/video/BV1PD4y1B77q/
CAM类激活热力图,缺点:
必须有 GAP 层(全局平均池化)才可以应用该算法
只能分析最后一层卷积层输出,无法分析中间层
GradCAMpytorch-grad-cam ,GitHub上的一个仓库,可以参考
优点:
不需要重新训练网络了(不需要加上 GAP 层)
可以分析任意中间层
数学上是原生 CAM 的推广
细粒度图像分类,Machine teaching
缺点:
图像上有多个同类物体时,只能画出一张热力图
不同位置的梯度值,GAP 平均之后,影响是相同的(中心的像素应该比边缘更重要才对)
梯度饱和,梯度消失,梯度噪声
权重大的 channel,不一定对类别预测分数贡献大
只考虑从后往前反向传播梯度,没考虑前向预测的影响
深层生成的粗粒度热力图和浅层生成的细粒度热力图都不够精准
LIME超像素分割成多个块,分别做分类,看看哪个块影响大
基于注意力机制的无监督域自适应问题研究论文笔记
引言选题背景与意义高质量的标注数据不足 → 迁移学习
迁移学习的主要目标是利用在源任务中获取的知识和经验,以提升在关联的目标任务上的性能。
域自适应问题(Domain Adaption,DA)是迁移学 习中一个被广泛关注的子领域。
如果目标域具有标签,那么微调预训练模型是一种可行的解决方法;本文专注于解决目标域没有标签的情况,这被称为无监督领域自适应 (Unsupervised Domain Adaption,UDA) 问题。目标是通 过具有丰富标签的源域数据和无标签的目标域数据来提升模型在目标域上的性能。
本文以图像分类问题为例,基于经典的对抗学习方法 DANN, 探究 Transformer 模型中的注意力机制在无监督领域自适应问题上的应用。
文献综述无监督域自适应注意力机制文章结构背景知识迁移学习
领域自适应和域转移
特征对齐
对抗训练和 DANN 模型
图像分类模型
本章总结
基于注意力图对齐的无监督领域自适应方法
问题描述
注意力图与动机
注意力图
动机
模型结构
特征提取器和分类器
域鉴别器和注意力图鉴别器
损失函数
实验
数据集
评价指标与实验细节
实验结果
本章小结
...
pytorch笔记
简介PyTorch是一个开源的深度学习框架,它由Facebook的人工智能研究实验室(Facebook AI Research, FAIR)开发和维护。该框架提供了灵活的张量计算和动态计算图的功能,使得在深度学习任务中定义和训练神经网络变得更加直观和灵活。
下图是 scikit-learn 官方给的帮助选择算法的图
两个函数dir():帮助查看某个包里面的内容
help():查看某个函数的用法
数据加载Dataset 和 DataloderDataset 是一个抽象类,子类需要实现 __getitem__ 方法和 __len__ 方法
path = os.path.join(root_dir, label)
os.path.join 用来拼接两个目录,接收两个字符串,字符串开头和末尾不需要 “\“
1234567891011121314151617181920212223242526272829303132from torch.utils.data import Datasetfrom PIL import Imageimport osclass MyData(Datase ...
强化学习
参考资料:
什么是强化学习?
简介于监督学习或无监督学习不同,强化学习不是从静态数据集中学习知识,而是与动态环境交互;目标也不是对数据进行分类或标记,而是找到能够产生最优结果的最佳动作序列。从这个意义上说,”最优“意味着获得最多的奖励。
上大学(Action),得到一份工作(Observation/state),得到工资(Reward)
过马路前看了两边(Action),到了马路另一边(State),没有被撞到(Reward)
在智能体内部有一个大脑,它接受状态观测量(输入),并将它们映射到动作(输出)中。在 RL 术语中,这种映射被称“策略”(policy)。如果提供一组观测量,策略便会确定要采取的动作。
强化学习算法则会根据以上三者,更新策略(因为环境可能在变化,策略也可能还不够好)
强化学习也是一种优化问题,需要区分两个概念:
Value:从当前状态到未来,所能获得激励的总和。
Reward:当前状态的即时的激励。
强化学习的目标是最大化 Value。
像金融市场一样,对未来的预测总是不可靠的。强化学习会通过一些设计,对未来的收益进行“折扣”,让自己更目光短浅一点。
...
弥散加权成像
弥散加权成像概念磁共振弥散加权成像 是利用磁共振成像观察活体组织中水分子的微观扩散运动的一种成像方法。水分子扩散快慢可用表观扩散系数(apparent diffusion coefficient,ADC)和DWI两种方式表示。ADC图是直接反映组织扩散快慢的指标,如组织中水分子扩散速度慢,ADC值低,图像呈黑色,反之亦然。DWI反映扩散信号强弱,如果扩散速度慢,去相位时信号丢失少,信号高,图像呈白色。如脑梗死的早期,由于细胞毒性水肿,扩散速度减低,ADC值低,在ADC图上呈黑色,但这时DWI信号是高的。
特点病灶会比较亮。脑脊液等液体比较多的区域会是黑色的,水分子运动受限的区域会更亮。
B值
DWI 中的 B 值(b-value)是一个重要的参数,又名弥散敏感因子,是对弥散运动表现的敏感度。
用于控制梯度强度和梯度持续时间,从而影响扫描中水分子的散射效应。
B 值的概念涉及到梯度强度、梯度脉宽(持续时间)和间隔时间。B 值的计算公式为:$$B = γ² * G² * δ * (Δ - δ/3)$$其中:
γ 是核磁共振常数(gyromagnetic ratio)。 ...
Stable_Diffusion论文阅读
重点它们的构造允许通过制导机制来控制图像生成过程而无需重新训练
强大的预训练自动编码器的潜在空间
部分原文翻译Abstract通过将图像形成过程分解为分步应用去噪自动编码器,扩散模型(DMs)在图像数据及其他领域上实现了最先进的合成结果。此外,它们的构造允许通过制导机制来控制图像生成过程而无需重新训练。然而,由于这些模型通常直接在像素空间中运行,优化强大的DMs通常会消耗数百个GPU天,并且由于顺序评估的原因推理是昂贵的。为了在有限的计算资源上进行DM训练并保持其质量和灵活性,我们将它们应用于强大的预训练自动编码器的潜在空间。与以前的工作相比,对这种表示进行扩散模型的训练首次实现了在复杂性减少和细节保留之间达到接近最优点,极大地提升了视觉保真度。通过将交叉注意力层引入模型架构中,我们将扩散模型转变为强大而灵活的生成器,用于一般调节输入(例如文本或边界框),并且以卷积方式使高分辨率合成成为可能。我们的潜在扩散模型(LDMs)在图像修复和类条件图像合成方面实现了新的最先进得分,并在各种任务上具有极具竞争力的性能,包括无条件图像生成、文本图像合成和超分辨率,在与基于像素的DM相比,显著降低了 ...
生成网络笔记
参考资料:
What are Diffusion Models? | Lil’Log (lilianweng.github.io)
https://www.bilibili.com/video/BV1s44y1f7VM/
https://www.bilibili.com/video/BV1p24y1X7Ah/
变分自编码器(一):原来是这么一回事 - 科学空间|Scientific Spaces
https://blog.csdn.net/weixin_42437114/article/details/125090943
GAN(生成对抗网络)的系统全面介绍
一文看懂生成对抗网络 — GANs?(基本原理+10种典型算法+13种应用) | by easyAI-人工智能知识库 | Medium
AI作画如此简单(10)
【学习笔记】生成模型——变分自编码器 (gwylab.com)
Diffusion 和Stable Diffusion的数学和工作原理详细解释
https://parti.research.google
https://en.wikipedia.org/wiki/Vari ...
图像翻译
简介“Image-to-image translation”(图像到图像翻译)是指一种计算机视觉任务,其中模型接受一种图像作为输入,并生成另一种图像作为输出。这种任务通常涉及将输入图像从一个领域(比如彩色照片)转换为输出图像,使其看起来属于另一个领域(比如黑白素描)。
这项任务在计算机视觉和深度学习领域中得到了广泛关注,它可以应用于多种应用场景,例如:
图像去噪: 将带有噪声的图像转换为清晰的版本。
图像着色: 将黑白图像着色,为灰度图像添加颜色信息。
风格迁移: 将图像的风格从一个图像应用到另一个图像上。
图像超分辨率: 将低分辨率图像转换为高分辨率图像。
图像修复: 修复受损或缺失的图像部分。
语义分割到图像: 将语义分割地图转换为真实图像。
在深度学习中,图像到图像翻译通常使用生成对抗网络(GANs)或条件生成对抗网络(cGANs)等结构来实现。这些网络能够学习输入图像和输出图像之间的映射关系,从而生成具有高质量的输出图像。这项技术在计算机图形学、图像处理、计算机辅助设计等领域具有广泛的应用前景。
计算机视觉笔记(一)
课程介绍目前为止的参考课程:
斯坦福李飞飞 cs231n 计算机视觉课程:https://www.bilibili.com/video/BV1nJ411z7fe/
可能要用到的编程知识:Python Numpy Tutorial (with Jupyter and Colab) (cs231n.github.io)
作业:
Assignment 1 (cs231n.github.io)
CS231n Convolutional Neural Networks for Visual Recognition
计算机视觉概述每秒钟 Youtube 上会被上传 5 个小时的视频。所以要理解视频的内容,做标记,然后推广给用户,就不可能依赖员工来完成。
生物学家也在研究视觉的机理,五六十年代休伯尔和威泽尔的电生理学研究启发了计算机视觉的研究。他们将电机插进猫的后脑上的初级视觉皮层,然后观察何种刺激会引起视觉皮层神经的激烈反应。他们发现猫的大脑的初级视觉皮层有各种各样的细胞,其中最重要的细胞是当它们朝着某个特定的方向运动时,对面向边缘产生回应的细胞。此外也有其他复杂的细胞,但人们发现了——视觉处 ...