北邮计算机视觉4

type

Post

status

Published

date

Apr 26, 2022

slug

BUPT-cv4

summary

北邮计算机视觉课程视频笔记（四），主要内容是图像分割、识别(词袋模型)、目标检测

CH8.Segmentation(分割)

之前讲的都是基于像素的局部特征，分割是一种中层的图像处理和特征提取操作。认知上，人眼的分割是自顶向下、自底向上同时发生的。图像处理中分割是一种自底向上无监督的图像处理方法，我们希望其能得到像素之上(“superpixels”)的特征

聚类（参数空间）

单纯从特征空间考虑聚类进行分割，则会将大熊猫头和肚子上的白毛分割为一类，并不理想，所以一般会在RGB之外引入XY，像素位置也作为特征进行聚类，但这样参数也不好做，细长物体还是有可能分为两部分。

k-means优缺点

优点： - 简单；对小误差鲁棒

缺点： - Memory-intensive；需要指定聚类参数K - 初始敏感（优化可解决）；只能找到类似圆的聚类

Mean shift

规定搜索框，每次迭代中搜索框当前中心向当前质心偏移（mean shift），直到中心与质心重合（局部极值），实际过程中，搜索大圆中包含一个人为规定大小的小圆，小圆会对在其内的点进行标记，在不断迭代中标记移动到局部极值路径上的所有点，最后，将所有通往同一处极值的点整合为一类。

优点： - 相比于聚类，不再受限于圆形物体；仅一个参数（搜索窗大小）； - 可以发现数量可变的区域（相对于聚类需要指定k）；鲁棒

缺点： - 结果对搜索窗大小敏感；计算密集；维度高时不适用（点稀疏）

图割（graph partitioning）

这一部分与上课所讲略不同，快速过一遍。

想要类似图割，删除不相似两像素间的边。任务主要分两部分：1）度量相似性；2）删除边的决策策略（指标/函数）度量相似性：，距离可以用各种方法了，最后通过这个公式可以标准化到0~1之间如果单纯看相似性做决策，取分割完后两子集的连接边权值最小，会导致边缘点本身连接不多易被割开形成碎片。

所以通常用这个

其中是指A和其他所有点形成的连接边权值和。对孤立点，该值（分母）增大，不易被切。该公式算起来比较麻烦，用图论相关知识可以简化。只需要算出邻接关系矩阵，值改为两点相似度。是一个对角阵，每个元素是矩阵对应行的累加和。最后：

多少个点y就是多少维向量，值不同就代表不同类。使得表达式最小的值即为所求。求导得推得是矩阵第二小的特征值对应的特征向量（最小的特征值为）。最初求解出来的还需要通过门限得到图割方案。

CH9.Classification & Bag of word

图像识别是图像层面的任务。有分类问题、检测问题（是否存在且所在位置、图像中包含哪些东西各自在哪、同时需求目标的属性语义等）、像素级别分割（语义目标包含哪些像素）…

类别识别和单实例识别。事件和行为识别。

任务有：1）如何将图像表示成向量特征，如何设计分类策略；2）给定训练数据，如何学习得到分类器；3）分类器应用于新数据

深度学习以前，分类基于区域特征。分类器分为产生式、判别式。形象地说，产生式侧重描述特征，判别式注重分类面差异。从公式上说，产生式侧重先验概率（已有知识）和似然（样本得到），即下面的公式。判别式通过各种方法得到后验，直接给出结果。举了挺多例子可以看一下。

词袋模型是将图像转化为向量特征的方法，提供给后续如SVM等进一步操作。

将图像划分为类拼图的区域

纹理检测中，将图像划分后画出直方图，与词袋库直接进行比较可以判别纹理。

将图像使用SIFT提取区域特征（规则网格法等其他方法都可以）得到各个区域的描述符。进一步构建词典，对特征聚类，指定类数（单词数），聚类中心称为码本（codebook或visual vocabulary 视觉词汇），可以称为一号特征、二号特征等等，每个中心对应的多维特征向量称为codevector或visual word。之后就可以判别图像中一号特征、二号特征、三号特征等等分别出现了多少次进行匹配即可。 - 单词数需要指定，太多太少都不好 - kmeans聚类计算密集 - 实际中对图片可能先进行四等分，分别做词带匹配（空间金字塔）

CH10.Object Detection

目标检测需要在给定图中找出目标位置。对人脸检测而言，分为detection找出人脸，recognition确认是谁的脸。一般采用先滑窗再缩放的方法。接下来用的AdaBoost，不再介绍了。