当前位置: 首页 > news >正文

TransUnet医学图像分割模型

TransUNet: Transformers Make Strong Encoders for Medical Image Segmentation

菜鸡申明

如果我有内容理解有误或不够清晰请随时告诉我,我随时会对文章进行调整。

1. 总体介绍

论文链接
TransUnet是首个基于Transformer的医学图像分割模型。整体结构主要为Transformer结构,并使用CNN模型提取特征。

2. 重点分析

2.1 将Transformer与CNN结合在一起

在文中指出,直接应用Transformer存在以下两个问题。

  1. Transformer会将所有的输入全部视为一维序列,而导致忽略空间之间的关系。
  2. Transformer专注于上下文之间的语义,而导致局部特征提取能力的欠缺。

故直接使用Transformer对图像进行处理时并不能取得理想的效果。所以我们在使用Transformer的基础上引入CNN来提取低级的视觉特征(或者理解为来着重提取局部的特征)。
在实际中,将CNN用作特征提取器来生成输入特征图,再使用Transformer进行处理。将CNN-Transformer的混合模型作为编码器。

2.2 Transformer层的结构

设输入的向量长宽分别为H、W,将特征分解为P*P大小的小块,故共有N=HW/P2个小块
再对于每一个小块进行线性投影(注意这里将特定位置嵌入和补丁嵌入结合在了一起),再经过多头自注意力模块(MSA)和多层感知机模块(MLP)。
具体的结构处理可以参考An Image is Worth 16x16 Words

2.3 级联式上采样结构

通过级联多个上采样模块实现级联式上采样,从而将分辨率从H/P×W/P提升至H×W,每个模块依次包含2×倍上采样算子、3×3卷积层和ReLU激活层。
可以学习下这种将分辨率放大的方式,避免直接上采样而丢失关键信息。

碎碎念

未来需要补充浏览下 An Image is Worth 16x16 Words 算法,最好是对应的比较一下 Swin Transformer
后续继续完善

http://www.lryc.cn/news/585136.html

相关文章:

  • 如何设置直播间的观看门槛,让直播间安全有效地运行?
  • 解锁48V USB-C供电潜力,慧能泰重磅推出PD3.2 DRP芯片HUSB253
  • Flutter优缺点
  • Koa+Puppeteer爬虫教程页面设计
  • 【java17】使用 Word 模板导出带替换符、动态表格和二维码的文档
  • 格式规范公文处理助手:一键排版 标题 / 正文 / 页码一键调,Word 脚本自定义
  • 专题:2025云计算与AI技术研究趋势报告|附200+份报告PDF、原数据表汇总下载
  • 关闭 GitLab 升级提示的详细方法
  • 基于gitlab 构建CICD发布到K8S 平台
  • Tomcat问题:启动脚本startup.bat中文乱码问题解决
  • 信号肽预测工具PrediSi本地化
  • 【flutter】flutter网易云信令 + im + 声网rtm从0实现通话视频文字聊天的踩坑
  • CentOS 安装 JDK+ NGINX+ Tomcat + Redis + MySQL搭建项目环境
  • 『 C++ 入门到放弃 』- 多态
  • MyBatis-Plus通用中等、大量数据分批查询和处理
  • c语言中的数组IV
  • 卸载软件总留一堆“垃圾”?这款免费神器,一键扫清注册表和文件残留!
  • Python shutil模块详解
  • GPT3/chatGPT/T5/PaLM/LLaMA/GLM主流大语言模型的原理和差异
  • 从零实现一个GPT 【React + Express】--- 【3】解析markdown,处理模型记忆
  • 【LeetCode 热题 100】146. LRU 缓存——哈希表+双向链表
  • 0102基础补充_交易演示-区块链-web3
  • Django母婴商城项目实践(二)
  • 机器学习数据集划分全指南:train_test_split详解与实践
  • 基于相似性引导的多视角功能性脑网络融合|文献速递-最新论文分享
  • 【科研绘图系列】R语言绘制系统发育树和柱状图
  • 思维链革命:让大模型突破“机器思考”的边界
  • UniHttp中HttpApiProcessor生命周期钩子介绍以及公共参数填充-以百度天气接口为例
  • Grid网格布局完整功能介绍和示例演示
  • hive/spark sql中unix_timestamp 函数的坑以及时间戳相关的转换