Computer Vision (AI3619)

线性代数知识补充

CV 中的矩阵求解通常有两种形式：

物体和相机镜头的距离称为深度（depth）
消失点坐标计算：
- 设空间中一组平行线的方向向量为，则其在图像平面上的消失点坐标为
景深（Depth of Field, DoF）：在聚焦的物体前后，被认为清晰的距离范围。i.e., Range of object distances (𝑜 − 𝑜′) over which the image is “sufficiently well” focused. i.e., Range (𝑜 − 𝑜′) for which blur 𝑏 is less than pixel size.
模糊圈直径与透镜直径成正比，景深与光圈直径成反比，与成反比
暗角：边缘能穿过多个凸透镜的光更少，亮度更低
色差：不同波长的光折射率不同
畸变：镜头缺陷

特征的特点：repeatability, saliency（显著性）, compactness and efficiency, locality（能表示一块局部区域，对干扰鲁棒性强）
满足上述条件的特征点：团状区域（Blobs as Interest Points）
边缘检测模块：
- 求导检测，在离散的图像中通过差分检测
- 元素之和为0（一阶和二阶都是）
- 小模块定位准，大模块对噪声鲁棒性强
高斯滤波器：
- 用于去噪，也可以写成卷积形式，因此可以和求差分写成一个算子，一阶算子称为 Derivative of Gaussian，二阶算子称为 Laplacian of Gaussian，表示为或
- 高斯滤波器对应极值点出现的称为本征尺度（the 𝜎 at which 2nd Derivative attains its extreme value），它和块的大小成正比
- 为了使对应极值是全局极值（在所有中也是最大），可以在 Laplacian 上乘一个（归一化），避免 Laplacian response 随着增大而减小
- 越大，图像越模糊
用不同的高斯对图像做卷积，构成尺度空间（Scale Space）
Scale-invariant Feature Transform (SIFT)：通过数学建模找出 interesting points 的方法
- 方向匹配：选出八个方向中梯度最大的一个作为主方向，通过减小主方向夹角进行匹配
- SIFT Descriptor: Invariant to Scale, Lighting, Brightness

前者是值域变换，后者是定义域变换
两个齐次坐标（homogeneous coordinates）（通常写成三元组）表示同一点，当且仅当其中一个齐次坐标可由另一个齐次坐标乘上一相同非零常数得取得。齐次坐标的相等用表示。表示无穷远点。原点表示为
- Any transformation with last row [ 0 0 1 ] we call an affine transformation （仿射变换）
- Any transformation with last row [ g h 1 ] we call an projective transformation, or homography（射影变换）
照片存在射影变换关系的情况：
- 从不同角度拍平面
- 相机沿固定轴心旋转拍非平面
注意各种几何变换的自由度 DOF
射影变换一张图像：对离散的目标像素点求逆变换，在原图像上计算插值（例如 bilinear），保证每个目标点都能被映射到
RANSAC（Random Sample Consensus⭐）：随机选一对匹配（s samples），对 inliers 计数，选 inliers 最多的模型

视差（disparity）
深度，其中是基线长度（两个相机中心的距离）
立体匹配（stereo matching）：在左右图像中找到对应点
- 基于特征的方法：SIFT, Harris corners
- 基于区域的方法（preferred，特征不是每个点都有）：SSD, SAD, NCC

关于立体矫正与三角测量 from Gemini

基本假设：
- 亮度一致（Brightness Constancy）：同一物体点在不同帧的亮度不变
- 微小运动（Small Motion）：相邻帧之间的位移较小
- 空间一致性（Spatial Coherence）：相邻像素点的运动是相似的
光流方程（Optical Flow Equation）：
Lucas-Kanade 方法：在一个小窗口内假设光流不变，利用窗口内所有像素点的光流方程构建超定方程组，通过最小二乘法求解

构建视觉词典（codebook, or visual vocabulary）的方法：
- 提取特征描述子（如 SIFT）
- 使用聚类算法（如 K-means）对描述子进行聚类，聚类中心作为视觉词典中的“词”
大规模图像检索优化方法：
- 词频-逆文档频率（TF-IDF）加权：提高稀有视觉词的权重，降低常见视觉词的权重
- Inverted file index：为每个视觉词建立一个倒排索引，记录包含该词的图像列表，提高检索效率
  1
  2
  3
  视觉词1: 图像A, 图像C
  视觉词2: 图像B, 图像C, 图像D
  ...

评估指标：IoU, mAP
Fast R-CNN：使用选择性搜索（Selective Search）生成候选区域（Region Proposals），然后对每个候选区域进行分类和边界框回归
Faster R-CNN：引入区域建议网络（Region Proposal Network, RPN），实现端到端的目标检测
RoI feature extraction：通过 RoI Pooling 或 RoI Align 从特征图中提取固定大小的区域特征