当前位置: 首页 > news >正文

Transformer模型 | 用于目标检测的视觉Transformers训练策略

基于视觉的Transformer在预测准确的3D边界盒方面在自动驾驶感知模块中显示出巨大的应用,因为它具有强大的建模视觉特征之间远程依赖关系的能力。然而,最初为语言模型设计的变形金刚主要关注的是性能准确性,而不是推理时间预算。对于像自动驾驶这样的安全关键系统,车载计算机的实时推理是绝对必要的。这使得我们的目标检测算法在非常紧张的运行时间预算下。在本文中,我们评估了各种策略来优化基于视觉变换的物体检测方法的推理时间,并密切关注任何性能变化。我们为这些策略选择的度量是准确性-运行时联合优化。此外,对于实际的推理时间分析,我们使用TensorRT模块对float32和float16精度的策略进行了分析。这是业界在边缘设备上部署机器学习网络最常用的格式。我们表明,对于第3节中定义的问题陈述,我们的策略能够将推理时间提高63%,而性能下降仅为3%。这些策略降低了Vision transformer检测器的推理时间,甚至比传统的基于单图像的CNN检测器(如FCOS)还要短。我们建议从业者使用这些技术在预算受限的机器人平台上部署基于大型多视图网络的transformer。

  1. 介绍

在过去的十年中,卷积神经网络(cnn)是由计算机视觉领域的模型架构更新驱动的。此外,已经提出了大量的技术来改进这些CNN模型的训练策略。最近,视觉变形器,首先由ViT提出,并通过基于dert的方法迭代重新制定,已经成为使用图像进行目标检测的更好的替代架构。然而,transformer的目标检测社区的文献和排行榜更倾向于关注这些庞大模型的架构影响。当这些方法用于实际的机器人平台时,运行时精度的关节优化是最重要的,因为任何边缘设备都有有限的计算预算。此外,这些机器学习算法必须以高频率运行,因为自动驾驶汽车行驶速度相当快,需要以至少10hz(每秒10次)的速度更新其道路和动态代理的理解。在检测排行榜上,任何表

http://www.lryc.cn/news/208391.html

相关文章:

  • 贪心区间类题目
  • npm改变npm缓存路径和改变环境变量
  • string到QString出现中文乱码
  • 【Linux精讲系列】——yum软件包管理
  • 浅谈一下Vue3的TreeShaking特性
  • 【牛牛送书 | 第二期】《ChatGPT 驱动软件开发:AI 在软件研发全流程中的革新与实践》
  • Qt基础之三十九:Qt Creator调试技巧
  • Docker Nginx安装使用以及踩坑点总结
  • 单位建数字档案室的意义和作用
  • JavaWeb——关于servlet种mapping地址映射的一些问题
  • NTRU 加密方案
  • 第一章前端开发ES6基础
  • 【算法练习Day30】无重叠区间 划分字母区间合并区间
  • Linux部署Redis哨兵集群 一主两从三哨兵(这里使用Redis6,其它版本类似)
  • VR结合|山海鲸虚拟展厅解决方案
  • 记一次企业微信的(CorpID)和密钥(Secret)泄漏的利用案例
  • 使用Selenium和Java编写爬虫程序
  • 【Java】PAT Basic Level 1023 组个最小数
  • Redis中设置Hash数据类型的过期时间
  • 你真的了解CPU和GPU?
  • HarmonyOS开发:NodeJs脚本实现组件化动态切换
  • 基于springboot实现就业信息管理系统项目【项目源码+论文说明】计算机毕业设计
  • Vue组件的本质和手写通过render渲染函数渲染组件
  • 【优选算法系列】第一节.双指针(283. 移动零和1089. 复写零)
  • Vue(uniapp)父组件方法和子组件方法执行优先顺序
  • 怎么突破反爬虫机制
  • CSP-J2023入门组第二轮T4:旅游巴士
  • OS的Alarm定时器调度机制
  • I2C协议
  • 全栈经验总结(不间断更新)