当前位置: 首页 > news >正文

SAM 2:分割图像和视频中的任何内容

文章目录

  • 摘要
  • 1 引言
  • 2 相关工作
  • 3 任务:可提示视觉分割
  • 4 模型
  • 5 数据
    • 5.1 数据引擎
    • 5.2 SA-V数据集
  • 6 零样本实验
    • 6.1 视频任务
      • 6.1.1 提示视频分割
      • 6.1.2 半监督视频对象分割
      • 6.1.3 公平性评估
    • 6.2 图像任务
  • 7 与半监督VOS的最新技术的比较
  • 8 数据和模型消融
    • 8.1 数据消融
    • 8.2 模型架构消融
      • 8.2.1 容量消融
      • 8.2.2 相对位置编码
      • 8.2.3 记忆架构消融
  • 9 结论
  • 10 致谢
  • 附录
    • A PVS任务的细节
    • B 局限性
    • C SAM 2细节
      • C. 1 架构
      • C. 2 训练
        • C.2.1 预训练
        • C.2.2 全面训练
      • C. 3 速度基准测试
    • D 数据细节
      • D. 1 SA-V数据集细节
      • D.2 数据引擎细节
        • D.2.1 注释协议
        • D.2.2 数据引擎阶段比较
    • E 关于零样本转移实验的更多细节
    • E.1 零样本视频任务
        • E.1.1 视频数据集细节
        • E.1.2 交互式离线和在线评估细节
      • E.1.3 半监督VOS评估细节
        • E.1.4 SAM+XMem++和SAM+Cutie基线细节
      • E.2 DAVIS交互式基准测试
      • E.3 零样本图像任务
        • E.3.1 数据集细节
        • E.3.2 详细的零样本实验
    • F 在半监督VOS中与最新技术的比较的更多细节
    • G 模型、数据和注释卡片
      • G. 1 模型卡片
      • G. 2 SA-V数据集卡片
      • G.3 数据注释卡片

摘要

我们提出了“Segment Anything Model 2”(SAM 2),这是一种基础模型,旨在解决图像和视频中的可提示视觉分割问题。我们构建了一个数据引擎,该引擎通过用户交互改进模型和数据,以收集迄今为止最大的视频分割数据集。我们的模型采用带有流式内存的简单变换器架构,适用于实时视频处理。使用我们的数据进行训练的SAM 2在广泛的任务中表现出色。在视频分割方面,我们观察到比先前方法更高的准确性,同时所需的交互次数减少了 3 3 3倍。在图像分割方面,我们的模型比“Segment Anything Model”(SAM)更准确,速度快了

http://www.lryc.cn/news/435968.html

相关文章:

  • 【免越狱】iOS任意版本号APP下载
  • 告别植物神经紊乱,这5种运动让你身心平衡,活力满满!‍♀️✨
  • 又一个iPhone时代开始
  • 在 CentOS 中永久关闭防火墙的步骤
  • 【数据库】详解基本SQL语句用法
  • R语言地理加权回归、主成份分析、判别分析等空间异质性数据分析
  • 数学建模笔记—— 非线性规划
  • JavaScript中的控制流语句:break、continue、return、throw
  • 移动通信为啥要用双极化天线?
  • C语言从头学59——学习头文件math.h(二)
  • Leetcode 3283. Maximum Number of Moves to Kill All Pawns
  • 智能物流新“黑神话”:各位“天命人”,这份行业应用锦集请收下!
  • SpringSecurity原理解析(五):HttpSecurity 类处理流程
  • C++系列-匿名对象
  • tofixed和math.round什么区别
  • OPENAIGC开发者大赛高校组金奖 | 基于混合大语言模型与多模态的全过程通用AI Agent
  • MySql批量迁移数据库
  • 一、selenium自动化简介selenium工具集
  • CCF推荐B类会议和期刊总结:(计算机网络领域)
  • [Web安全 网络安全]-文件包含漏洞
  • 使用soui4实现一个拾色器
  • Thinkphp5 + Swoole实现邮箱异步通知
  • LLM - 理解 多模态大语言模型 (MLLM) 的预训练与相关技术 (三)
  • 工具篇之Joda-Time
  • 架构师应该懂得东西,软考应该具备的
  • 图论篇--代码随想录算法训练营第五十一天打卡| 99. 岛屿数量(深搜版),99. 岛屿数量(广搜版),100. 岛屿的最大面积
  • 什么是API网关(API Gateway)?
  • 对话:LLC磁集成能否成为充电桩模块电源常态产品?
  • 基于SSM的二手物品交易管理系统的设计与实现 (含源码+sql+视频导入教程+文档+PPT)
  • 视觉语言模型中的人脸社会感知