当前位置: 首页 > news >正文

DETR 下 Transformer 应用探讨

  • 检测与分割任务概述
    • 检测任务:给定输入数据,在其中框出物体位置并确定物体类别,需预测物体中心点坐标、框的长和宽以及类别等信息。
    • 分割任务:对图像中每个像素点的类别进行预测,如找到新房在图像中的位置,属于逐点预测。
    • 任务共性:检测和分割都是基于提好的特征,对每个区域进行预测,中间提特征的过程相同,只是输出头不同。
  • Transformer 解决问题逻辑
    • 注意力机制:通过 Transformer 的注意力机制,让模型知道哪些特征重要,大项和小项框都要与输入图像每个区域算关系和权重。
    • 查询向量:使用查询向量(q)去找特征,假设检测两个物体就需要两个查询向量,查询向量有实际含义,代表要找的东西。
    • 特征计算:q 与输入中每个点的 key(k)计算得到权重,根据权重分配到 v 中更新 q,使 q 具备实际特征,用于后续预测。
  • DTR 模型整体架构
    • 编码器(encoder):输入图像经卷积展开成输入序列,加上位置编码得到每个区域初始化特征,再经过 encoder 得到实际特征。
    • 解码器(decoder):原始 DTR 论文中使用 100 个查询向量(Q1 - Q100),先随机初始化,训练过程中可调整。通过 cross attention 从原始输入取特征,self attention 让查询向量之间 “商量” 检测任务,避免重叠。
  • 端到端问题
    • YOLO 非端到
http://www.lryc.cn/news/603774.html

相关文章:

  • 准大一GIS专业新生,如何挑选电脑?
  • 站点到站点-主模式
  • Java 11 新特性详解与代码示例
  • JAVA中集合的遍历方式
  • 【C++】1. C++基础知识
  • 编辑距离:理论基础、算法演进与跨领域应用
  • taro+react重新给userInfo赋值后,获取的用户信息还是老用户信息
  • ERROR c.a.c.n.c.NacosPropertySourceBuilder
  • react 的 useTransition 、useDeferredValue
  • react中暴露事件useImperativeHandle
  • 【C++】判断语句
  • 多目标粒子群优化(MOPSO)解决ZDT1问题
  • 一区Top期刊 Acceptance Rate: 5%,接受率为5%
  • python的进程、线程、锁
  • StackingClassifier参数详解与示例
  • c++之链表
  • 【面试场景题】阿里云子账号设计
  • 2025年7月技术问答第4期
  • Python高效历史记录管理:保存最后N个元素的完整指南
  • Dify 从入门到精通(2/100 篇):Dify 的核心组件 —— 从节点到 RAG 管道
  • Apple: A Legendary Journey of Innovation, Business, and Global Influence
  • Apache Ignite 的分布式锁Distributed Locks的介绍
  • windows电脑截图工具怎么选 windows电脑截图工具合集整理
  • DeepSeek MoE 技术解析:模型架构、通信优化与负载均衡
  • Python与Spark
  • Linux_库制作与原理浅理解
  • vim的`:q!` 与 `ZQ` 笔记250729
  • grep常用指令
  • 【lucene】SegmentCoreReaders
  • 【lucene】currentFrame与staticFrame