YOLOv5
概述任务类型:
定位,找到单个目标
检测,找到所有目标
常用数据集
PASCAL VOC,有20个分类
PASCAL VOC 2007:9963张图像,24640个标注;
PASCAL VOC 2012:11530张图像,27450个标注;
网址:http://host.robots.ox.ac.uk/pascal/VOC/voc2012
MS COCO,在 ImageNet 停办之后,COCO竞赛成为当前目标识别、检测领域的一个最权威,最重要的标杆。众多公司与顶尖高校都在参与。
COCO(Common Objects in Context)数据集包含80个类别,50多万个标注。
20万个图像,11.5万多张训练集图像,5千张验证集图像,2万多张测试集图像。
网址:http://cocodataset.org
目标检测性能指标检测精度
Precision 精度(查准率)
Recall 召回率(查全率)
F1 score
IOU(Intersection over Union) 交并比,衡量物体“框”得准不准
比如我们选定一个阈值,IOU>0.5作为真正类, ...
计算图
目前为止参考的材料:
https://www.bilibili.com/video/BV1sf4y137gP/
什么是计算图节点表示操作,数据在图上流动。这就是 TensorFlow(“张量流”)的由来。这种图的结构使得 TensorFlow 能够高效地在多个CPU或GPU上运行。在数据流图中,节点(nodes)表示操作(operations),边(edges)表示操作之间的数据传递,这些操作和数据传递描述了计算模型的结构。
分为静态图和动态图两个流派。
动态图与静态图写模型≈画DAG(有向无环图)
了解AIGC
简单了解AIGC目前为止的参考资料:
https://www.bilibili.com/video/BV1yW4y197af/
目前提到 AIGC,我们先想到的一般只有 ChatGPT 和 midjourney, stable diffusion 这三个。然而广义上来说,只要是由 AI 技术来生成内容都可以算作 AIGC 。比如 AI动作捕捉, AI通过识别人体的骨骼,映射为一些便于处理的数据;比如游戏里的一些新类型的人机,类似 alpha go(作者列举了王者荣耀“觉悟”?这是什么?);比如三维重建,包括人体,场景(小房间),甚至是城市;再比如 AI音效,常见的有微信的语音转文字,还有最近火起来的文字转语音)
历史GAN、CLIP、Transformer、Diffusion、预训练模型、多模态技术、生成算法等技术的累积融合,催生了AIGC的爆发。
概念的关系
人工智能
机器学习
监督学习
非监督学习
强化学习
🍪实现人工智能不一定需要机器学习,也可以采用行为树等方法。
深度学习是机器学习的一种,与上述三个黑色小方块均有交叉。与它们三个不同,深度学习只是机器学习实现的一 ...
入门StableDiffusion
🥗开始学学Stable DiffusionChatGPT3.5 还没听说过什么是Stable Diffusion,现在只会顾左右而言他
参考的内容:
Stable Diffusion简介 - 知乎 (zhihu.com)
Stable Diffusion - 维基百科,自由的百科全书 (wikipedia.org)
https://www.bilibili.com/read/cv22159609/
🍕以前我们常说的生成对抗网络 GAN 逐渐被扩散模型 Diffusion Model 取代
🍣什么是Stable Diffusion?
Stable Diffusion是2022年发布的深度学习文本到图像生成模型,它主要用于根据文本的描述产生详细图像,尽管它也可以应用于其他任务,如内补绘制、外补绘制,以及在提示词(英语)指导下产生图生图的翻译。
它是一种潜在变量模型的扩散模型,由慕尼黑大学的CompVis研究团体开发的各种生成性人工神经网络之一。[3]它是由初创公司StabilityAI、CompVis与Runway合作开发,并得到EleutherAI和LAION(英语)的支持。
...
旋转等变卷积讲座观后感
我人生的第一篇会议记录🍍以下是 Fourier Series Expansion Based Filter Parametrization for Equivariant Convolutions 这场汇报的观后感。真的挺难的,会议结束后我又看了很久论文,现在还是有不理解的地方。但解答剩下的疑惑,可能要在我未来看懂了代码之后了。
等变卷积🍵要理解这场报告,首先就要理解什么是等变卷积。
我理解的等变卷积,就是说这样的一类卷积,当输入图像中物体发生了平移或者旋转等变化时,输出的特征图也会在对应位置发生对应的变化,或者说只有输出的位置会变化,值基本不变。后续的全连接层会学到这种性质——比如训练数据里,有时候车在左上角,有时候在右下角,有时候在中间…… 但是测试数据里,出现了一辆车在左下角,但网络仍能分类正确。换句话说,神经网络发现了,这个分类任务和对象的位置无关。
☕有时候,我们还希望分类任务和对象的旋转或对称无关,这就引出了新的卷积,如旋转等变卷积。
权值共享我的理解是,因为一个卷积核是在整个输入图像上滑动,所以可以认为每个像素“共享”了卷积核的权值。这种共享大幅减少了参数的数量,否则 ...
我要成为python高手!
目前为止我的学习材料:
https://www.bilibili.com/video/BV1JZ4y1G7KG
https://docs.python.org/zh-cn/3/
Python教程 - 廖雪峰的官方网站 (liaoxuefeng.com)
前言
对于初学者和完成普通任务,Python语言是非常简单易用的。连Google都在大规模使用Python,你就不用担心学了会没用。
用Python可以做什么?可以做日常任务,比如自动备份你的MP3;可以做网站,很多著名的网站包括YouTube就是Python写的;可以做网络游戏的后台,很多在线游戏的后台都是Python开发的。
Python当然也有不能干的事情,比如写操作系统,这个只能用C语言写;写手机应用,只能用Swift/Objective-C(针对iPhone)和Java(针对Android);写3D游戏,最好用C或C++。
Python适合开发哪些类型的应用呢?
首选是网络应用,包括网站、后台服务等等;
其次是许多日常需要的小工具,包括系统管理员需要的脚本任务等等;
另外就是把其他语言开发的程序再包装起 ...
Hello World
Welcome to Hexo! This is your very first post. Check documentation for more info. If you get any problems when using Hexo, you can find the answer in troubleshooting or you can ask me on GitHub.
Quick StartCreate a new post1$ hexo new "My New Post"
More info: Writing
Run server1$ hexo server
More info: Server
Generate static files1$ hexo generate
More info: Generating
Deploy to remote sites1$ hexo deploy
More info: Deployment