目标检测&语义分割(CNN)

RocheL
May 1, 2022
Last edited: 2022-8-28
type
Post
status
Published
date
May 1, 2022
slug
detection
summary
目标检测算法:R-CNN,SSD,YOLO
tags
Course
category
学习思考
icon
password
Property
Aug 2, 2022 02:15 AM
URL
传统CNN的目标检测&语义分割算法:R-CNN,SSD,YOLO,DETR(挖坑),ViT-FRCNN(挖坑),SERT(分割,挖坑)

RCNN系列

RCNN

参照李沐的思路,最早介绍RCNN(region),
notion image
传统计算机视觉的思路得到了较多保留,一开始用启发式搜索筛出候选框,再对候选区域用ML(包括回归和SVM),线性回归是预测原始候选框和GT的位置差。模型对输入尺寸其实比较敏感,所以希望能用池化约束尺寸(Region of Interest polling)
notion image

FAST R-CNN

notion image
相当于全局过CNN后在feature map上搜锚框,selective search采用启发式搜索,但会把原始图中的待定锚框映射到特征图上

FASTER R-CNN

notion image
同一个外挂的小网络(region proposal network)代替启发式搜索,更快。

效果

notion image
毕竟是一个two-stage的网络,精度可以但是很慢
R-CNN原始使用MATLAB做的,而且带了cv的传统方法,实现起来比较复杂

MASK R-CNN

notion image
mask rcnn要做像素级别的分割,严格意义上应该不算目标检测,目标检测只用锚框就行,可能应该叫语义分割(注:实例分割是在语义分割基础上给同类或不同类物体标号)
像素级的精度要求,所以改用ROI align,即对图像超分之后来均匀池化
 

SSD

single shot detection,即one-stage,在不同分辨率的feature map上对每个像素做锚框
notion image
notion image
notion image
快,精度一般
 

YOLO

notion image
原始版本主要靠的就是少量均分的锚框和对应的边缘狂策略直接做one-stage的检测。说白了就是学习边缘框的生成策略去fit数据集。
notion image
用的多是有原因的。
MAI(一):比赛环境北邮计算机视觉4