北邮计算机视觉4

RocheL
Apr 26, 2022
Last edited: 2022-8-11
type
Post
status
Published
date
Apr 26, 2022
slug
BUPT-cv4
summary
北邮计算机视觉课程视频笔记(四),主要内容是图像分割、识别(词袋模型)、目标检测
tags
engineer
Course
category
技术分享
icon
password
Property
Aug 7, 2022 01:06 AM
URL
北邮计算机视觉课程视频笔记(四),主要内容是图像分割、识别(词袋模型)、目标检测

CH8.Segmentation(分割)

之前讲的都是基于像素的局部特征,分割是一种中层的图像处理和特征提取操作。 认知上,人眼的分割是自顶向下、自底向上同时发生的。图像处理中分割是一种自底向上无监督的图像处理方法,我们希望其能得到像素之上(“superpixels”)的特征
notion image

聚类(参数空间)

notion image
单纯从特征空间考虑聚类进行分割,则会将大熊猫头和肚子上的白毛分割为一类,并不理想,所以一般会在RGB之外引入XY,像素位置也作为特征进行聚类,但这样参数也不好做,细长物体还是有可能分为两部分。

k-means优缺点

  • 优点: - 简单;对小误差鲁棒
  • 缺点: - Memory-intensive; 需要指定聚类参数K - 初始敏感(优化可解决); 只能找到类似圆的聚类

Mean shift

notion image
规定搜索框,每次迭代中搜索框当前中心向当前质心偏移(mean shift),直到中心与质心重合(局部极值),实际过程中,搜索大圆中包含一个人为规定大小的小圆,小圆会对在其内的点进行标记,在不断迭代中标记移动到局部极值路径上的所有点,最后,将所有通往同一处极值的点整合为一类。
notion image
优点: - 相比于聚类,不再受限于圆形物体;仅一个参数(搜索窗大小); - 可以发现数量可变的区域(相对于聚类需要指定k);鲁棒
缺点: - 结果对搜索窗大小敏感;计算密集;维度高时不适用(点稀疏)

图割(graph partitioning)

这一部分与上课所讲略不同,快速过一遍。
notion image
想要类似图割,删除不相似两像素间的边。任务主要分两部分:1)度量相似性;2)删除边的决策策略(指标/函数) 度量相似性:,距离可以用各种方法了,最后通过这个公式可以标准化到0~1之间 如果单纯看相似性做决策,取分割完后两子集的连接边权值最小,会导致边缘点本身连接不多易被割开形成碎片。
notion image
所以通常用这个
notion image
其中是指A和其他所有点形成的连接边权值和。对孤立点,该值(分母)增大,不易被切。 该公式算起来比较麻烦,用图论相关知识可以简化。只需要算出邻接关系矩阵,值改为两点相似度。是一个对角阵,每个元素是矩阵对应行的累加和。最后:
notion image
多少个点y就是多少维向量,值不同就代表不同类。 使得表达式最小的值即为所求。求导得推得矩阵第二小的特征值对应的特征向量(最小的特征值为)。最初求解出来的还需要通过门限得到图割方案。

CH9.Classification & Bag of word

图像识别是图像层面的任务。有分类问题、检测问题(是否存在且所在位置、图像中包含哪些东西各自在哪、同时需求目标的属性语义等)、像素级别分割(语义目标包含哪些像素)…
类别识别和单实例识别。事件和行为识别。
任务有:1)如何将图像表示成向量特征,如何设计分类策略;2)给定训练数据,如何学习得到分类器;3)分类器应用于新数据
深度学习以前,分类基于区域特征。分类器分为产生式、判别式。形象地说,产生式侧重描述特征,判别式注重分类面差异。 从公式上说,产生式侧重先验概率(已有知识)和似然(样本得到),即下面的公式。判别式通过各种方法得到后验,直接给出结果。 举了挺多例子可以看一下。
notion image
词袋模型是将图像转化为向量特征的方法,提供给后续如SVM等进一步操作。
notion image
将图像划分为类拼图的区域
notion image
纹理检测中,将图像划分后画出直方图,与词袋库直接进行比较可以判别纹理。
notion image
将图像使用SIFT提取区域特征(规则网格法等其他方法都可以)得到各个区域的描述符。进一步构建词典,对特征聚类,指定类数(单词数),聚类中心称为码本(codebook或visual vocabulary 视觉词汇),可以称为一号特征、二号特征等等,每个中心对应的多维特征向量称为codevector或visual word。之后就可以判别图像中一号特征、二号特征、三号特征等等分别出现了多少次进行匹配即可。 - 单词数需要指定,太多太少都不好 - kmeans聚类计算密集 - 实际中对图片可能先进行四等分,分别做词带匹配(空间金字塔)

CH10.Object Detection

目标检测需要在给定图中找出目标位置。 对人脸检测而言,分为detection找出人脸,recognition确认是谁的脸。一般采用先滑窗再缩放的方法。 接下来用的AdaBoost,不再介绍了。
目标检测&语义分割(CNN)北邮计算机视觉3