计算机视觉
2023-05-07 23:57:12
登录查看完整内容
机器视觉初学者的方向
举报
猜你喜欢
大纲/内容
人工智能路线图
目前最流行的深度学习框架都是基于python的,所以python基础很重要。
学习途径:菜鸟编程,B站,网易云课堂等平台;
WHY?
python编程基础
高数
线性代数
概率论
数学知识
https://blog.csdn.net/HG0724/article/details/116290698
像素坐标系
读取图像:cv.imread()
显示图像:cv.imshow()
BGR->Gray(灰度图)BGR->HSV(有些算法会使用)
色彩空间转换
图像的加法
缩放
平移
旋转
仿射变换:是对图像的缩放、旋转、翻转和平移等的组合操作。
用于特征提取,可能不仅对原始输入进行特征提取,还对每一层金字塔进行特征提取,每一层的特征提取可能是不一样的,最后再将每一层的结果总结在一起
图像金字塔
腐蚀
膨胀
开运算与闭运算
顶帽与黑帽
形态学操作
图像的几何变换
图像基础操作
传统图像算法(opencv)
pytorch(偏学术)
tensorflow(工业界主流框架)
BHWC
子主题
两者的一些区别
保持学习:多看论文(计算机视觉相关的)
深度学习框架
什么是神经网络?
神经网络的工作原理?
全连接网络
卷积网络
循环网络
AE、VAE与GAN
网络结构
梯度下降
函数的方式
网络层的方式
卷积
局部连接
权值共享
多卷积核
池化(下采样)
填充
特点
sigmoid
tanh
softmax
relu
leaky-relu
激活函数
均方误差损失函数(Mean Squared Error Loss,MSE Loss):适用于回归问题,在预测值和真实值之间计算差距的平方和,
MSE
适用于多分类问题,测量模型输出的概率分布与真实标签分布之间的差异
交叉熵损失函数(Cross-Entropy Loss)
损失函数
理论知识
LeNet-5:是最早被广泛应用的CNN,适用于手写数字识别。
AlexNet:是在ImageNet 大规模视觉识别竞赛(ILSVRC)上大获全胜的CNN,以及在计算机视觉领域中最成功的模型之一。
VGGNet:是在ImageNet 竞赛中获得前三甲的深度CNN模型,拥有更深的网络结构设计,提高了分类准确率。
GoogleNet/InceptionNet:是Google提出的一个模型,其在ImageNet 竞赛上取得了冠军。
ResNet:属于残差神经网络(Residual Neural Network),通过引入“shortcut”和“skip connection”机制来解决深度神经网络训练时的梯度问题,获得了更好的分类性能。
图像分类是将一张图片归类到事先定义好的几个类别中的一种。图像分类在计算机视觉、图像搜索、自动驾驶等领域得到广泛应用。
图像分类
0.7.。。
iou表示两个框重叠的比例,iou越大,表示两个框重叠部分越多,越有可能框的是同一个物体
IOU
NMS
Convert2Square(Numpy实现)
用到的关键技术
iDetection
One stage 目标检测算法不用RP,直接在网络中提取特征来预测物体分类和位置。任务:特征提取->分类/定位回归。常见的one stage目标检测算法有:OverFeat、YOLOv1、YOLOv3、SSD和RetinaNet等。
目标检测是计算机视觉领域中的一个重要问题,旨在自动化地检测出图像或视频中的物体,并给出它们的位置和类别。目标检测可以广泛应用于智能监控、自动驾驶、人脸识别、无人机、机器人等众多领域。
目标检测
常见的语义分割模型有FCN、SegNet、U-Net、DeepLab等。
语义分割是计算机视觉中的一个重要任务,旨在对图像中的每个像素进行分类,将同一类别的像素划分为同一个区域,从而获得像素级别的图像语义分割结果。简单来说就是抠图
语义分割
基础任务
应用
卷积神经网络
深度学习
0 条评论
回复 删除
下一页