当前位置: 首页 > news >正文

当AR遇上深度学习:实时超声肾脏分割与测量技术全解析

【导读】

本研究旨在解决超声(US) 用于肾脏体积测量时面临的操作复杂(学习曲线陡)和需要频繁在患者与屏幕间切换视线(效率低、易疲劳)的难题。为此,我们提出了一套整合方案:利用深度学习实现肾脏的实时自动分割与体积测量,解放医生双手;同时,借助增强现实 (基于HoloLens-2)将关键信息直接投射到医生视野中,消除视线切换,提升易用性和人机工效。我们开发了两条处理管道(无线直连与通用视频输入)以确保兼容性,并在开放数据集上使用多种模型评估了实时性和准确性。核心贡献在于通过 AR + DL 的融合,为临床提供了一种更高效、自动化的肾脏超声测量解决方案。>>更多资讯可加入CV技术群获取了解哦


screenshot_2025-07-02_14-45-00.png

论文标题:

Deep Learning-Based Semantic Segmentation for Real- Time Kidney Imaging and Measurements with Aug- mented Reality-Assisted Ultrasound

论文链接:

https://arxiv.org/pdf/2506.23721

本文使用OpenUS肾脏数据集训练了四个分割模型:nnU-Net用于最佳分割,Segmenter用于实时执行,以及一个级联系统,其中YOLOv11检测肾脏区域并提供边界框作为输入,供MedSAM和LiteMedSAM进行精细分割。这种混合方法通过结合快速目标检测与专业分割模型,提升了准确性。

开发了两个AR-DL管道:一个基于GE LOGIQ E10的直接API无线流式传输,另一个兼容任何具有视频输出的超声设备。两者均由Unity 2022中的AR应用程序支持,确保与多种头戴式显示器兼容,并在研究和医疗领域实现更广泛的可访问性。通过使用公开可用的模型和数据集,我们的工作促进了可访问性和可重复性。本研究旨在回答:如何通过AR和DL基于的RT分割实现测量自动化、克服焦点切换问题并提升诊断性肾脏超声的培训效果?

在Coovally平台已全面集成YOLO系列、R-CNN系列等主流视觉算法,覆盖分割、目标检测等多种应用场景。无需繁琐配置,一键选择模型即刻训练,彻底告别“找模型、配环境、改代码”的繁琐流程。

screenshot_2025-06-30_15-11-56.png


一、研究方法

  • 总体框架

所提框架(图1)包含两个顺序阶段,每个阶段均采用肾脏的不同解剖视图进行体积估算。第一阶段获取冠状面视图以测量长度,第二阶段则获取横断面视图以确定宽度和厚度。这些图像通过有线或无线流媒体传输至个人计算机,并在其中进行分割处理。基于深度学习的模型对两个关键解剖结构进行分割:肾皮质和中央复合体。通过肾囊分割提取计算体积所需的肾脏尺寸。这些尺寸随后通过定制开发的AR应用程序,与超声图像的图形投影一同在头戴式显示器上显示。该实时叠加层使临床医生能在最终肾脏体积计算并显示于用户界面前,对测量结果进行精细调整。

图片1.png

  • 超声设备与PC之间的数据流传输

该框架支持两种实时超声处理的数据流传输管道:

  • 无线流传输:第一条管道通过选定GE超声系统的API实现实时流传输。为确保低延迟和可靠传输,使用高速路由器(最高1 Gbps)建立了专用5 GHz私有网络。一个Python脚本和组件对象模型接口以原始字节数据形式获取帧,将其转换为矩阵进行处理。

  • 有线流式传输:第二个管道利用Elgato HD60X有线视频抓取器捕获超声监视器输出。一个Python脚本处理视频输入,确保与实时分割管道兼容。

  • 基于深度学习的肾脏分割

接收的超声图像通过深度学习模型进行实时肾脏分割。通过5折交叉验证评估了四种最先进模型:nnU-Net、Segmenter,以及YOLOv11与MedSAM或LiteMedSAM的级联结构。

nnU-Net:选择v2版本因其在广泛的医学图像分割任务中表现出持续的高性能。基于原始框架的成功,nnU-Net v2引入了新的残差编码器、改进的归一化策略,以及通过指纹提取自动适应数据集特征的增强训练管道。这种自适应配置能力消除了手动调优的必要性,使其特别适合需要快速部署和可靠分割的应用场景。

Segmenter:一种专为语义分割任务设计的纯变压器架构编码器-解码器模型。它利用Vision Transformer(ViT) backbone处理输入图像为补丁嵌入序列,从最早层开始实现全局上下文建模。与传统基于卷积的模型不同,后者本质上在局部感受野上操作,Segmenter 将分割视为序列到序列任务,其中上下文化补丁令牌直接解码为类别分数。这种设计使 Segmenter 能利用自注意力捕获的长程依赖关系,这在超声成像中尤为有用,因为解剖结构可能具有模糊或低对比度的边界。

在我们的实现中,我们采用了Segmenter的Small变体,该变体在推理速度与分割性能之间实现了平衡。该模型在ImageNet上预训练,并使用默认设置进行微调,未进行额外的架构修改。

YOLOv11 搭配 MedSAM 或 LiteMedSAM:基于目标检测后进行类别无关精化的两阶段级联方法。第一阶段使用 YOLOv11 在超声图像中定位肾脏区域。该模型输出包围肾脏的边界框,从而限制后续分割步骤的空间兴趣区域。YOLOv11在OpenUS肾脏数据集上从头开始训练。在第二阶段,检测到的区域被裁剪并传递给MedSAM,这是一个基于提示的变压器架构,专为医学影像中的零样本分割设计。MedSAM利用边界框形式的提示,生成细粒度分割掩码,无需进行领域特定的微调。与依赖监督学习的经典分割网络不同,MedSAM 通过大规模预训练阶段实现泛化,可适应未见数据分布,因此特别适合内部或分布外测试。

  • AR应用程序,支持自动体积测量

该AR应用程序基于Unity 2022开发,采用混合现实工具包3(Microsoft Corporation, Redmond, USA),可作为简单可视化工具显示原始超声图像,或作为交互式测量工具,通过叠加分割结果辅助测量。

服务器:服务器负责在Python脚本与HoloLens 2之间建立通信桥梁。Python脚本获取(原始)超声图像并进行分割,通过两条管道将数据传输至基于C#的后端:一条用于实时传输原始图像数据,另一条用于传输分割结果及其对应图像。

该架构甚至支持异步模型,确保分割结果与源图像保持同步。PC(服务器)与HMD(客户端)之间的无线通信依赖于Unity Transport v2,该协议支持与多个客户端同时通信,实现多用户交互。为优化带宽并最小化延迟,采用用户数据报协议(UDP)传输灰度图像和分割结果,这些数据以紧凑的2D字节矩阵形式存储。

在Coovally上你还可以使用自己熟悉的开发工具(如VS Code、Cursor、WindTerm等),通过SSH协议直接连接Coovally云端算力,享受如同本地一样的实时开发、调试体验,还能调用强大的GPU环境加速实验。

SSH.GIF

不仅如此,若对模型效果不满意?Coovally还有大模型智能调参能力,针对你的数据集与任务目标,自动推荐超参数优化方案,让模型迭代事半功倍!

图片


二、实验与结果

本节描述了框架的实现细节,并评估了整个分割管道(包括任何预处理和后处理操作)的分割精度、测量精度以及推理时间。分割性能通过平均精度(mAP)、DICE分数和交并比(IoU)进行评估。

  • 分割评估

表1展示了分割模型的定量比较。Segmenter实现实时推理(23.4±2.5毫秒),同时达到第二高的准确性。然而,其在横断面视图中的准确性有所降低。nnU-Net 展现出最高的分割准确性,在冠状面和横断面视图中均表现优异(图 2a, b),但代价是实时推理时间较长(338.0±45.8 毫秒)YOLOv11搭配MedSAM或LiteMedSAM的分割精度较低,其中LiteMedSAM虽实现近实时推理(76.8±38.5 毫秒),但分割精度最低。

图片2.png

图片3.png

视觉检查显示 nnU-Net 最为稳健,能有效缓解由肋骨引起的后方阴影严重伪影(图 2c)。相比之下,其他模型在处理严重伪影时表现不佳,但对轻微伪影的处理效果良好(图 2d)。这些发现凸显了权衡关系:nnU-Net 在准确性方面表现优异,但计算成本高昂,而 Segmenter 在性能与实时可行性之间实现了平衡。

  • 测量评估

表 2 展示了各模型基于分割的测量误差与基于医生获取的地面 truth(标注分割结果)在内部数据集上的对比。医生的测量结果直接在超声设备上获取,也一并纳入。

图片4.png

自动算法会引入系统性误差,即使使用地面 truth 分割数据也是如此。这可能是由于超声设备上手动床边测量与后续处理的分割结果之间存在对齐误差,而后者可在更宽松的条件下进行更精确的处理。

分割性能直接影响测量精度,因为边界框是基于分割掩膜计算的。这体现在模型较高的标准差上。此外,如表3所示,nnU-Net和Segmenter在冠状面图像上的准确性高于冠状面图像。相比之下,MedSAM和LiteMedSAM在横断面图像上的表现更佳。然而,自动测量方法的误差范围仅为几毫米,与观察者间变异性相当,且允许医师在数秒内快速调整,从而释放时间和精力用于超声图像评估。

图片5.png

尽管规模有限,内部数据集仍为评估泛化能力提供了宝贵测试平台,因参与者的人口统计特征与OpenUS肾脏数据集存在显著差异。特别是,我们的研究对象平均BMI较低(22.3±2.3 vs. 27.0±5.4)且年龄显著更年轻(29.0±4.1 vs. 53.2 ±14.7岁),这使我们能够在分布偏移情境下评估模型性能。这些结果支持该系统超越训练域的泛化能力。

然而某些患者群体,尤其是严重肥胖患者,可能仍处于分布之外。在这种情况下(例如BMI>35),超声图像质量因声学衰减和反射增加而下降,这给基于超声的成像带来了固有的物理限制,无论算法性能如何。因此,在这些情况下,基于AR-DL的自动化技术的适用性可能受到限制或不可行,需要进一步研究。


结论

本研究提出了一种基于深度学习的超声框架,该框架将实时语义分割与AR技术相结合,用于半自动肾脏体积测量。所提出的两个管道与基于Unity的AR应用程序相结合,确保了与各种头戴式显示器和超声设备在有线或无线设置下的广泛兼容性。

与AR的集成可缓解焦点切换问题,有望提升人体工程学设计和工作流程效率。AR的潜力不仅限于实时可视化,还可用于多屏幕虚拟环境、交互式教育以及基于分割的自动化学习工具,这些领域值得进一步研究。我们的框架完全可重复且可在其他临床环境中部署,因其利用了公开可用的Open Kidney Dataset和开源分割模型(nnU-Net、Segmenter及YOLOv11搭配MedSAM或LiteMedSAM)。

结果显示,nnU-Net实现最高分割准确率,展现出对伪影的鲁棒性,而Segmenter则在实时可行性方面表现出竞争性性能。值得注意的是,MedSAM和LiteMedSAM在横断面肾脏图像上的表现优于Segmenter,这可能与数据集规模较小且偏向冠状面视图有关。

鉴于超声作为一线诊断工具的广泛应用,自动化或辅助测量可减轻认知负荷并释放更多时间用于图像解读。我们的实时分割管道可轻松优化自动体积测量,使AR引导的超声评估对初学者而言更直观且可行。值得注意的是,尽管训练数据有限,我们的自动测量管道在内部数据集(完全脱离训练分布)上的错误率仍接近临床观察者间变异性。

未来研究应聚焦于:

(1)扩展公共肾脏超声数据集;

(2)开展大规模临床验证;

(3)通过集成无线视频抓取设备或将分割任务卸载至迷你电脑提升临床采用率;

(4)通过从基于图像到基于视频的方法转变,提升分割模型的时间一致性;

(5)将深度学习增强现实辅助分割和自动化测量扩展至其他解剖或病理结构,以实现更广泛的诊断应用。

此外,尽管本研究已证明技术可行性,但仍需在临床环境中开展涉及终端用户的全面验证研究,以评估其实际应用影响。评估可用性、用户体验及与现有工作流程的集成将对确保临床采用和优化AR辅助诊断工具设计至关重要。

http://www.lryc.cn/news/579207.html

相关文章:

  • FastAPI 安装使用教程
  • 人脸活体识别3:C/C++实现人脸眨眼 张嘴 点头 摇头识别(可实时检测)
  • 回顾JAVA中的锁机制
  • 重塑智能体决策路径:深入理解 ReAct 框架
  • WPF路由事件:冒泡、隧道与直接全解析
  • 嵌入式软件面经(四)Q:请说明在 ILP32、LP64 与 LLP64 三种数据模型下,常见基本类型及指针的 sizeof 值差异,并简要解释其原因
  • 软件开发早期阶段,使用存储过程的优势探讨:敏捷开发下的利器
  • 【C++】--入门
  • 欧拉角、四元数和旋转矩阵的变换关系以及无人机的坐标变换
  • 如何在Excel中每隔几行取一行
  • sqlmap学习笔记ing(3.[MoeCTF 2022]Sqlmap_boy,cookie的作用)
  • LeetCode Hot 100 滑动窗口 【Java和Golang解法】
  • 鸿蒙开发技巧---去除字符串两端的空格
  • AI大模型如何重塑软件开发流程?从自动化革命到人机共生范式
  • 怎样理解:source ~/.bash_profile
  • 深入Flink核心概念:解锁大数据流处理的奥秘
  • SAP WM LT10 TO创建增强
  • Android Auto即将带来变革
  • Agno(一)
  • 机器学习在智能制造业中的应用:质量检测与设备故障预测
  • Vue + RuoYi 前后端分离入门手册
  • Ubuntu云服务器上部署发布Vite项目
  • Redis基础(1):NoSQL认识
  • 端到端自动驾驶系统关键技术
  • 开发自动驾驶系统所需工具
  • 2025美国券商交易系统综合开发及解决方案报告:低延迟、全球化与代币化技术赋能机构业务新生态
  • “山河”应急指挥决策AI智能体 - 全生命周期构建实施说明
  • 轻松上手:使用Nginx实现高效负载均衡
  • python中的pydantic是什么?
  • 逆向入门(25、26)程序逆向篇-KeygenMe,MexeliteCRK1