当前位置: 首页 > news >正文

CV每日论文--2024.7.8

1、DisCo-Diff: Enhancing Continuous Diffusion Models with Discrete Latents

中文标题:DisCo-Diff:利用离散潜伏增强连续扩散模型

简介:这篇文章提出了一种新型的离散-连续潜变量扩散模型(DisCo-Diff),旨在改善传统扩散模型(DMs)存在的问题。

传统的DMs将复杂的、可能是多峰的数据分布编码为单一的连续高斯分布,这可能是一个不必要的困难学习问题。为了简化这个问题,DisCo-Diff引入了互补的离散潜变量。

具体来说,DisCo-Diff使用可学习的离散潜变量来扩充DMs,这些变量由编码器推断,并对DM和编码器进行端到端的训练。离散潜变量通过减少DM生成ODE的曲率,显著简化了学习DM的复杂噪声-数据映射。同时,一个自回归变换器模型用于离散潜变量的分布,这是一个相对简单的步骤,因为DisCo-Diff只需要少量离散变量和小型码本。

实验结果表明,在玩具数据、图像合成任务以及分子对接等方面,DisCo-Diff都能显著提高模型性能。比如在ImageNet-64/128数据集上,DisCo-Diff在ODE采样器上实现了最先进的FID分数。

总之,DisCo-Diff通过引入离散潜变量,有效地简化了DMs的学习问题,展现了良好的效果和广泛的应用前景。

2、Biomechanics-informed Non-rigid Medical Image Registration and its Inverse Material Property Estimation with Linear and Nonlinear Elasticity

中文标题:基于生物力学的非刚性医学图像配准及其线性和非线性弹性逆材料特性估计

简介:这篇论文使用物理知识引导神经网络(PINNs)来解决两个关键问题:非刚性医学图像配准和软组织材料属性的准确识别。

首先,作者正式建立了表示生物力学约束物理定律的偏微分方程(PDEs),将配准任务视为前向问题(即PDE的数据驱动解决方案),将识别任务视为反向问题(即参数估计)。在PINNs框架下,作者比较了两种不同的网络配置(Cfg1和Cfg2)在线性和非线性物理模型下的表现。

在实验部分,作者使用前列腺癌活检的未变形和变形MR图像对进行了两组实验。主要贡献如下:

1. 开发了一种基于PINNs的生物力学约束非刚性配准算法,将线性弹性推广到非线性版本。

2. 发现非线性弹性模型在计算点位位移向量方面与线性模型没有统计学意义差异,但二者的优势可能取决于特定患者及有限元(FE)计算的基础真实值。

3. 利用PINNs提出并解决了反向参数估计问题,在配准和参数识别的联合优化方案下,其解可以通过定位鞍点来准确找到。

总之,这项工作展示了PINNs在处理生物力学约束非刚性配准和软组织参数识别问题方面的有效性和潜力。

3、VCHAR:Variance-Driven Complex Human Activity Recognition framework with Generative Representation

中文标题:VCHAR:具有生成表示的方差驱动的复杂人类活动识别框架

简介:复杂人类活动识别(CHAR)仍然是普适计算中的一个重要挑战,特别是在智能环境中。现有研究通常需要对原子活动和复杂活动进行仔细标记,这是一项劳动密集且容易出错的任务,因为可用数据集的稀缺性和不准确性。大多数先前的研究集中在精确标记原子活动或它们的序列方法上,这在实际环境中通常是不切实际的。

为此,作者提出了一种新颖的框架VCHAR(基于方差的复杂人类活动识别)。VCHAR将原子活动的输出视为指定时间间隔内的分布,使用生成方法通过基于视频的解释阐明复杂活动分类的推理过程,这些解释对没有机器学习经验的用户也是可访问的。

作者在三个公开数据集上评估了VCHAR,结果表明:VCHAR提高了复杂活动识别的准确性,而无需对原子活动进行精确的时间或序列标记。此外,用户研究证实,与现有方法相比,VCHAR的解释更易于理解,有助于非专家更广泛地理解复杂活动识别。

总之,VCHAR为解决CHAR问题提供了一种创新性的方法,不需要精确标记原子活动,同时提供可解释的复杂活动识别结果。这对于推动复杂人类活动识别技术在智能环境中的应用具有重要意义。

http://www.lryc.cn/news/395362.html

相关文章:

  • 【AI大模型】赋能儿童安全:楼层与室内定位实践与未来发展
  • 云服务器linux系统安装配置docker
  • 泰勒雷达图2
  • 数据库容灾 | MySQL MGR与阿里云PolarDB-X Paxos的深度对比
  • react根据后端返回数据动态添加路由
  • 机器学习中的可解释性
  • 上海慕尼黑电子展开展,启明智显携物联网前沿方案亮相
  • Centos7离线安装ElasticSearch7.4.2
  • 深入理解sklearn中的模型参数优化技术
  • 【Elasticsearch】开源搜索技术的演进与选择:Elasticsearch 与 OpenSearch
  • 欧拉openEuler 22.03 LTS-部署k8sv1.03.1
  • 老年生活照护实训室:为养老服务业输送专业人才
  • go语言中使用WaitGroup和channel实现处理多线程问题
  • Open3D 计算点云的平均密度
  • C语言之数据在内存中的存储(1),整形与大小端字节序
  • B端全局导航:左侧还是顶部?不是随随便便,有依据在。
  • 什么是海外仓管理自动化?策略及落地实施步骤指南
  • 自定义控件三部曲之绘图篇(六)Paint之函数大汇总、ColorMatrix与滤镜效果、setColorFilter
  • 请写sql满足业务:找到连续登录3天以上的用户
  • fatal error: apriltag/apriltag.h: No such file or directory 的 参考解决方法
  • C++继承(一文说懂)
  • 卷积神经网络可视化的探索
  • RxJava学习记录
  • Spring Boot Vue 毕设系统讲解 3
  • Spring Boot对接大模型:实战价值与技巧
  • 完美解决NameError: name ‘file‘ is not defined的正确解决方法,亲测有效!!!
  • Witness Table 的由来
  • Python 3 AI 编程助手
  • 【nginx】nginx的配置文件到底是什么结构,到底怎么写?
  • 基于React 实现井字棋