生成网络笔记
参考资料:
What are Diffusion Models? | Lil’Log (lilianweng.github.io)
https://www.bilibili.com/video/BV1s44y1f7VM/
https://www.bilibili.com/video/BV1p24y1X7Ah/
变分自编码器(一):原来是这么一回事 - 科学空间|Scientific Spaces
https://blog.csdn.net/weixin_42437114/article/details/125090943
GAN(生成对抗网络)的系统全面介绍
一文看懂生成对抗网络 — GANs?(基本原理+10种典型算法+13种应用) | by easyAI-人工智能知识库 | Medium
生成网络简史需要预备一些无监督学习的基础知识:
聚类,降维(例如 PC),特征学习,密度估计
生成模型:给定训练集,产生与训练集同分布的新样本。希望学到一个模型 $$ p_{model}(x)$$,其与训练样本的分布 $$ p_{data}(x)$$相近。
🍀:无监督学习的一个核心问题——密度估 ...
图像翻译
简介“Image-to-image translation”(图像到图像翻译)是指一种计算机视觉任务,其中模型接受一种图像作为输入,并生成另一种图像作为输出。这种任务通常涉及将输入图像从一个领域(比如彩色照片)转换为输出图像,使其看起来属于另一个领域(比如黑白素描)。
这项任务在计算机视觉和深度学习领域中得到了广泛关注,它可以应用于多种应用场景,例如:
图像去噪: 将带有噪声的图像转换为清晰的版本。
图像着色: 将黑白图像着色,为灰度图像添加颜色信息。
风格迁移: 将图像的风格从一个图像应用到另一个图像上。
图像超分辨率: 将低分辨率图像转换为高分辨率图像。
图像修复: 修复受损或缺失的图像部分。
语义分割到图像: 将语义分割地图转换为真实图像。
在深度学习中,图像到图像翻译通常使用生成对抗网络(GANs)或条件生成对抗网络(cGANs)等结构来实现。这些网络能够学习输入图像和输出图像之间的映射关系,从而生成具有高质量的输出图像。这项技术在计算机图形学、图像处理、计算机辅助设计等领域具有广泛的应用前景。
计算机视觉笔记(一)
课程介绍目前为止的参考课程:
斯坦福李飞飞 cs231n 计算机视觉课程:https://www.bilibili.com/video/BV1nJ411z7fe/
可能要用到的编程知识:Python Numpy Tutorial (with Jupyter and Colab) (cs231n.github.io)
作业:
Assignment 1 (cs231n.github.io)
CS231n Convolutional Neural Networks for Visual Recognition
计算机视觉概述每秒钟 Youtube 上会被上传 5 个小时的视频。所以要理解视频的内容,做标记,然后推广给用户,就不可能依赖员工来完成。
生物学家也在研究视觉的机理,五六十年代休伯尔和威泽尔的电生理学研究启发了计算机视觉的研究。他们将电机插进猫的后脑上的初级视觉皮层,然后观察何种刺激会引起视觉皮层神经的激烈反应。他们发现猫的大脑的初级视觉皮层有各种各样的细胞,其中最重要的细胞是当它们朝着某个特定的方向运动时,对面向边缘产生回应的细胞。此外也有其他复杂的细胞,但人们发现了——视觉处 ...
FgSegNet
论文:Foreground Segmentation Using a Triplet Convolutional Neural Network for Multiscale Feature Encoding
CCF C
SCI 3
2018年
摘要
场景中移动对象分割的常见方法是执行背景减法。在这个领域已经提出了几种方法。然而,它们缺乏处理各种困难场景的能力,例如照明变化、背景或相机运动、伪装效果、阴影等。为了解决这些问题,我们提出了一种基于编码器-解码器类型神经网络的方法。我们在编码器部分的三元组框架下采用预训练的卷积网络,即 VGG-16 Net,将多个尺度的图像嵌入到特征空间中,并在解码器部分使用转置卷积网络来学习特征映射空间到图像空间。我们仅使用少量训练样本来端到端训练该网络。我们的网络采用三种不同尺度的 RGB 图像,并为相应图像生成前景分割概率掩模。为了评估我们的模型,我们参加了 2014 年变更检测挑战赛 (changedetection.net),我们的方法的平均 F 测量值为 0.9770,优于所有现有的最先进方法。我们的源代码将在 https://github.co ...
YOLOv5
概述任务类型:
定位,找到单个目标
检测,找到所有目标
常用数据集
PASCAL VOC,有20个分类
PASCAL VOC 2007:9963张图像,24640个标注;
PASCAL VOC 2012:11530张图像,27450个标注;
网址:http://host.robots.ox.ac.uk/pascal/VOC/voc2012
MS COCO,在 ImageNet 停办之后,COCO竞赛成为当前目标识别、检测领域的一个最权威,最重要的标杆。众多公司与顶尖高校都在参与。
COCO(Common Objects in Context)数据集包含80个类别,50多万个标注。
20万个图像,11.5万多张训练集图像,5千张验证集图像,2万多张测试集图像。
网址:http://cocodataset.org
目标检测性能指标检测精度
Precision 精度(查准率)
Recall 召回率(查全率)
F1 score
IOU(Intersection over Union) 交并比,衡量物体“框”得准不准
比如我们选定一个阈值,IOU>0.5作为真正类, ...
计算图
目前为止参考的材料:
https://www.bilibili.com/video/BV1sf4y137gP/
什么是计算图节点表示操作,数据在图上流动。这就是 TensorFlow(“张量流”)的由来。这种图的结构使得 TensorFlow 能够高效地在多个CPU或GPU上运行。在数据流图中,节点(nodes)表示操作(operations),边(edges)表示操作之间的数据传递,这些操作和数据传递描述了计算模型的结构。
分为静态图和动态图两个流派。
动态图与静态图写模型≈画DAG(有向无环图)
了解AIGC
简单了解AIGC目前为止的参考资料:
https://www.bilibili.com/video/BV1yW4y197af/
目前提到 AIGC,我们先想到的一般只有 ChatGPT 和 midjourney, stable diffusion 这三个。然而广义上来说,只要是由 AI 技术来生成内容都可以算作 AIGC 。比如 AI动作捕捉, AI通过识别人体的骨骼,映射为一些便于处理的数据;比如游戏里的一些新类型的人机,类似 alpha go(作者列举了王者荣耀“觉悟”?这是什么?);比如三维重建,包括人体,场景(小房间),甚至是城市;再比如 AI音效,常见的有微信的语音转文字,还有最近火起来的文字转语音)
历史GAN、CLIP、Transformer、Diffusion、预训练模型、多模态技术、生成算法等技术的累积融合,催生了AIGC的爆发。
概念的关系
人工智能
机器学习
监督学习
非监督学习
强化学习
🍪实现人工智能不一定需要机器学习,也可以采用行为树等方法。
深度学习是机器学习的一种,与上述三个黑色小方块均有交叉。与它们三个不同,深度学习只是机器学习实现的一 ...
入门StableDiffusion
🥗开始学学Stable DiffusionChatGPT3.5 还没听说过什么是Stable Diffusion,现在只会顾左右而言他
参考的内容:
Stable Diffusion简介 - 知乎 (zhihu.com)
Stable Diffusion - 维基百科,自由的百科全书 (wikipedia.org)
https://www.bilibili.com/read/cv22159609/
🍕以前我们常说的生成对抗网络 GAN 逐渐被扩散模型 Diffusion Model 取代
🍣什么是Stable Diffusion?
Stable Diffusion是2022年发布的深度学习文本到图像生成模型,它主要用于根据文本的描述产生详细图像,尽管它也可以应用于其他任务,如内补绘制、外补绘制,以及在提示词(英语)指导下产生图生图的翻译。
它是一种潜在变量模型的扩散模型,由慕尼黑大学的CompVis研究团体开发的各种生成性人工神经网络之一。[3]它是由初创公司StabilityAI、CompVis与Runway合作开发,并得到EleutherAI和LAION(英语)的支持。
...
旋转等变卷积讲座观后感
我人生的第一篇会议记录🍍以下是 Fourier Series Expansion Based Filter Parametrization for Equivariant Convolutions 这场汇报的观后感。真的挺难的,会议结束后我又看了很久论文,现在还是有不理解的地方。但解答剩下的疑惑,可能要在我未来看懂了代码之后了。
等变卷积🍵要理解这场报告,首先就要理解什么是等变卷积。
我理解的等变卷积,就是说这样的一类卷积,当输入图像中物体发生了平移或者旋转等变化时,输出的特征图也会在对应位置发生对应的变化,或者说只有输出的位置会变化,值基本不变。后续的全连接层会学到这种性质——比如训练数据里,有时候车在左上角,有时候在右下角,有时候在中间…… 但是测试数据里,出现了一辆车在左下角,但网络仍能分类正确。换句话说,神经网络发现了,这个分类任务和对象的位置无关。
☕有时候,我们还希望分类任务和对象的旋转或对称无关,这就引出了新的卷积,如旋转等变卷积。
权值共享我的理解是,因为一个卷积核是在整个输入图像上滑动,所以可以认为每个像素“共享”了卷积核的权值。这种共享大幅减少了参数的数量,否则 ...
我要成为python高手!
目前为止我的学习材料:
https://www.bilibili.com/video/BV1JZ4y1G7KG
https://docs.python.org/zh-cn/3/
Python教程 - 廖雪峰的官方网站 (liaoxuefeng.com)
前言
对于初学者和完成普通任务,Python语言是非常简单易用的。连Google都在大规模使用Python,你就不用担心学了会没用。
用Python可以做什么?可以做日常任务,比如自动备份你的MP3;可以做网站,很多著名的网站包括YouTube就是Python写的;可以做网络游戏的后台,很多在线游戏的后台都是Python开发的。
Python当然也有不能干的事情,比如写操作系统,这个只能用C语言写;写手机应用,只能用Swift/Objective-C(针对iPhone)和Java(针对Android);写3D游戏,最好用C或C++。
Python适合开发哪些类型的应用呢?
首选是网络应用,包括网站、后台服务等等;
其次是许多日常需要的小工具,包括系统管理员需要的脚本任务等等;
另外就是把其他语言开发的程序再包装起 ...