当前位置: 首页 > article >正文

MMAction2重要的几个配置参数

embed_dims(全称 embedding dimensions)是指每个 patch(块)或特征的通道数/维度,是 Transformer 或 Swin Transformer 等模型中最核心的特征表示维度。
embed_dims 必须能被 num_heads 整除
具体解释

  • 在 Swin Transformer、ViT 等模型中,输入视频/图片会被切分成小块(patch),每个 patch 会被投影(线性变换)到一个高维空间,这个空间的维度就是 embed_dims。
  • 后续所有的注意力、MLP 等操作,都是基于这个维度进行的。

举例

  • 如果 embed_dims=96,每个 patch 会被编码成 96 维的特征向量。
  • 如果 embed_dims=32,每个 patch 会被编码成 32 维的特征向量。

影响

  • embed_dims 越大,模型表达能力越强,但参数量和计算量也越大。
  • embed_dims 越小,模型更轻量,但表达能力会下降。
http://www.lryc.cn/news/2386626.html

相关文章:

  • Windows系统如何查看ssh公钥
  • UniApp+Vue3微信小程序二维码生成、转图片、截图保存整页
  • 8.2 线性变换的矩阵
  • 【2025】嵌入式软考中级部分试题
  • Antd中Upload组件封装及使用:
  • Linux环境基础开发工具->vim
  • 跳板问题(贪心算法+细节思考)
  • RuoYi前后端分离框架集成UEditorPlus富文本编辑器
  • IPD流程落地:项目任务书Charter开发
  • Vue 2 混入 (Mixins) 的详细使用指南
  • day020-sed和find
  • OpenGL Chan视频学习-4 Vertex Buffers and Drawing a Triangle in OpenGL
  • 数据库事务的四大特性(ACID)
  • 网络安全全知识图谱:威胁、防护、管理与发展趋势详解
  • FreeRTOS 在物联网传感器节点的应用:低功耗实时数据采集与传输方案
  • 解决 iTerm2 中 nvm 不生效的问题(Mac 环境)
  • Linux环境下基于Docker安装 PostgreSQL数据库并配置 pgvector
  • (9)-java+ selenium->元素定位之By name
  • 深浅拷贝?
  • Beckhoff PLC 功能块 FB_CTRL_ACTUAL_VALUE_FILTER (模拟量滤波)
  • Mysql在SQL层面的优化
  • JVM规范之栈帧
  • 【C++指南】string(四):编码
  • 深度学习之序列建模的核心技术:LSTM架构深度解析与优化策略
  • AI量化交易是什么?它是如何重塑金融世界的?
  • 分布式事务处理方案
  • CVE-2024-36467 Zabbix权限提升
  • Dify中的自定义模型插件开发例子:以xinference为例
  • crud方法命名示例
  • 尚硅谷redis7 33-36 redis持久化之RDB优缺点及数据丢失案例