Peanut🥜

发表于2023-11-01|更新于2023-11-01

简介“Image-to-image translation”（图像到图像翻译）是指一种计算机视觉任务，其中模型接受一种图像作为输入，并生成另一种图像作为输出。这种任务通常涉及将输入图像从一个领域（比如彩色照片）转换为输出图像，使其看起来属于另一个领域（比如黑白素描）。这项任务在计算机视觉和深度学习领域中得到了广泛关注，它可以应用于多种应用场景，例如：图像去噪：将带有噪声的图像转换为清晰的版本。图像着色：将黑白图像着色，为灰度图像添加颜色信息。风格迁移：将图像的风格从一个图像应用到另一个图像上。图像超分辨率：将低分辨率图像转换为高分辨率图像。图像修复：修复受损或缺失的图像部分。语义分割到图像：将语义分割地图转换为真实图像。在深度学习中，图像到图像翻译通常使用生成对抗网络（GANs）或条件生成对抗网络（cGANs）等结构来实现。这些网络能够学习输入图像和输出图像之间的映射关系，从而生成具有高质量的输出图像。这项技术在计算机图形学、图像处理、计算机辅助设计等领域具有广泛的应用前景。

计算机视觉笔记（一）

发表于2023-10-28|更新于2023-11-02

课程介绍目前为止的参考课程：斯坦福李飞飞 cs231n 计算机视觉课程：https://www.bilibili.com/video/BV1nJ411z7fe/ 可能要用到的编程知识：Python Numpy Tutorial (with Jupyter and Colab) (cs231n.github.io) 作业： Assignment 1 (cs231n.github.io) CS231n Convolutional Neural Networks for Visual Recognition 计算机视觉概述每秒钟 Youtube 上会被上传 5 个小时的视频。所以要理解视频的内容，做标记，然后推广给用户，就不可能依赖员工来完成。生物学家也在研究视觉的机理，五六十年代休伯尔和威泽尔的电生理学研究启发了计算机视觉的研究。他们将电机插进猫的后脑上的初级视觉皮层，然后观察何种刺激会引起视觉皮层神经的激烈反应。他们发现猫的大脑的初级视觉皮层有各种各样的细胞，其中最重要的细胞是当它们朝着某个特定的方向运动时，对面向边缘产生回应的细胞。此外也有其他复杂的细胞，但人们发现了——视觉处 ...

YOLOv5

发表于2023-10-23|更新于2023-10-23|YOLOv5

概述任务类型：定位，找到单个目标检测，找到所有目标常用数据集 PASCAL VOC,有20个分类 PASCAL VOC 2007：9963张图像，24640个标注； PASCAL VOC 2012：11530张图像，27450个标注；网址：http://host.robots.ox.ac.uk/pascal/VOC/voc2012 MS COCO，在 ImageNet 停办之后，COCO竞赛成为当前目标识别、检测领域的一个最权威，最重要的标杆。众多公司与顶尖高校都在参与。 COCO(Common Objects in Context)数据集包含80个类别，50多万个标注。 20万个图像，11.5万多张训练集图像，5千张验证集图像，2万多张测试集图像。网址：http://cocodataset.org 目标检测性能指标检测精度 Precision 精度（查准率） Recall 召回率（查全率） F1 score IOU(Intersection over Union) 交并比，衡量物体“框”得准不准比如我们选定一个阈值，IOU>0.5作为真正类， ...

计算图

发表于2023-10-20|更新于2023-10-20

目前为止参考的材料： https://www.bilibili.com/video/BV1sf4y137gP/ 什么是计算图节点表示操作，数据在图上流动。这就是 TensorFlow（“张量流”）的由来。这种图的结构使得 TensorFlow 能够高效地在多个CPU或GPU上运行。在数据流图中，节点（nodes）表示操作（operations），边（edges）表示操作之间的数据传递，这些操作和数据传递描述了计算模型的结构。分为静态图和动态图两个流派。动态图与静态图写模型≈画DAG（有向无环图）

了解AIGC

发表于2023-10-14|更新于2023-10-26|AIGC

简单了解AIGC目前为止的参考资料： https://www.bilibili.com/video/BV1yW4y197af/ 目前提到 AIGC，我们先想到的一般只有 ChatGPT 和 midjourney, stable diffusion 这三个。然而广义上来说，只要是由 AI 技术来生成内容都可以算作 AIGC 。比如 AI动作捕捉， AI通过识别人体的骨骼，映射为一些便于处理的数据；比如游戏里的一些新类型的人机，类似 alpha go（作者列举了王者荣耀“觉悟”？这是什么？）；比如三维重建，包括人体，场景（小房间），甚至是城市；再比如 AI音效，常见的有微信的语音转文字，还有最近火起来的文字转语音）历史GAN、CLIP、Transformer、Diffusion、预训练模型、多模态技术、生成算法等技术的累积融合，催生了AIGC的爆发。概念的关系人工智能机器学习监督学习非监督学习强化学习 🍪实现人工智能不一定需要机器学习，也可以采用行为树等方法。深度学习是机器学习的一种，与上述三个黑色小方块均有交叉。与它们三个不同，深度学习只是机器学习实现的一 ...

入门StableDiffusion

发表于2023-10-13|更新于2023-10-18

🥗开始学学Stable DiffusionChatGPT3.5 还没听说过什么是Stable Diffusion，现在只会顾左右而言他参考的内容： Stable Diffusion简介 - 知乎 (zhihu.com) Stable Diffusion - 维基百科，自由的百科全书 (wikipedia.org) https://www.bilibili.com/read/cv22159609/ 🍕以前我们常说的生成对抗网络 GAN 逐渐被扩散模型 Diffusion Model 取代 🍣什么是Stable Diffusion？ Stable Diffusion是2022年发布的深度学习文本到图像生成模型，它主要用于根据文本的描述产生详细图像，尽管它也可以应用于其他任务，如内补绘制、外补绘制，以及在提示词（英语）指导下产生图生图的翻译。它是一种潜在变量模型的扩散模型，由慕尼黑大学的CompVis研究团体开发的各种生成性人工神经网络之一。[3]它是由初创公司StabilityAI、CompVis与Runway合作开发，并得到EleutherAI和LAION（英语）的支持。 ...

旋转等变卷积讲座观后感

发表于2023-10-13|更新于2023-10-13

我人生的第一篇会议记录🍍以下是 Fourier Series Expansion Based Filter Parametrization for Equivariant Convolutions 这场汇报的观后感。真的挺难的，会议结束后我又看了很久论文，现在还是有不理解的地方。但解答剩下的疑惑，可能要在我未来看懂了代码之后了。等变卷积🍵要理解这场报告，首先就要理解什么是等变卷积。我理解的等变卷积，就是说这样的一类卷积，当输入图像中物体发生了平移或者旋转等变化时，输出的特征图也会在对应位置发生对应的变化，或者说只有输出的位置会变化，值基本不变。后续的全连接层会学到这种性质——比如训练数据里，有时候车在左上角，有时候在右下角，有时候在中间…… 但是测试数据里，出现了一辆车在左下角，但网络仍能分类正确。换句话说，神经网络发现了，这个分类任务和对象的位置无关。 ☕有时候，我们还希望分类任务和对象的旋转或对称无关，这就引出了新的卷积，如旋转等变卷积。权值共享我的理解是，因为一个卷积核是在整个输入图像上滑动，所以可以认为每个像素“共享”了卷积核的权值。这种共享大幅减少了参数的数量，否则 ...

我要成为python高手!

发表于2023-09-29|更新于2023-11-15|python

目前为止我的学习材料： https://www.bilibili.com/video/BV1JZ4y1G7KG https://docs.python.org/zh-cn/3/ Python教程 - 廖雪峰的官方网站 (liaoxuefeng.com) 前言对于初学者和完成普通任务，Python语言是非常简单易用的。连Google都在大规模使用Python，你就不用担心学了会没用。用Python可以做什么？可以做日常任务，比如自动备份你的MP3；可以做网站，很多著名的网站包括YouTube就是Python写的；可以做网络游戏的后台，很多在线游戏的后台都是Python开发的。 Python当然也有不能干的事情，比如写操作系统，这个只能用C语言写；写手机应用，只能用Swift/Objective-C（针对iPhone）和Java（针对Android）；写3D游戏，最好用C或C++。 Python适合开发哪些类型的应用呢？首选是网络应用，包括网站、后台服务等等；其次是许多日常需要的小工具，包括系统管理员需要的脚本任务等等；另外就是把其他语言开发的程序再包装起 ...

Hello World

发表于2023-09-23|更新于2023-09-23

Welcome to Hexo! This is your very first post. Check documentation for more info. If you get any problems when using Hexo, you can find the answer in troubleshooting or you can ask me on GitHub. Quick StartCreate a new post1$ hexo new "My New Post" More info: Writing Run server1$ hexo server More info: Server Generate static files1$ hexo generate More info: Generating Deploy to remote sites1$ hexo deploy More info: Deployment