- 检测与分割任务概述:
- 检测任务:给定输入数据,在其中框出物体位置并确定物体类别,需预测物体中心点坐标、框的长和宽以及类别等信息。
- 分割任务:对图像中每个像素点的类别进行预测,如找到新房在图像中的位置,属于逐点预测。
- 任务共性:检测和分割都是基于提好的特征,对每个区域进行预测,中间提特征的过程相同,只是输出头不同。
- Transformer 解决问题逻辑:
- 注意力机制:通过 Transformer 的注意力机制,让模型知道哪些特征重要,大项和小项框都要与输入图像每个区域算关系和权重。
- 查询向量:使用查询向量(q)去找特征,假设检测两个物体就需要两个查询向量,查询向量有实际含义,代表要找的东西。
- 特征计算:q 与输入中每个点的 key(k)计算得到权重,根据权重分配到 v 中更新 q,使 q 具备实际特征,用于后续预测。
- DTR 模型整体架构:
- 编码器(encoder):输入图像经卷积展开成输入序列,加上位置编码得到每个区域初始化特征,再经过 encoder 得到实际特征。
- 解码器(decoder):原始 DTR 论文中使用 100 个查询向量(Q1 - Q100),先随机初始化,训练过程中可调整。通过 cross attention 从原始输入取特征,self attention 让查询向量之间 “商量” 检测任务,避免重叠。
- 端到端问题: