当前位置: 首页 > article >正文

ICASSP2025丨融合语音停顿信息与语言模型的阿尔兹海默病检测

阿尔兹海默病(Alzheimer's Disease, AD)是一种以认知能力下降和记忆丧失为特征的渐进性神经退行性疾病,及早发现对于其干预和治疗至关重要。近期,清华大学语音与音频技术实验室(SATLab)提出了一种将停顿信息进行编码,并与语言模型中的文本嵌入融合的方法,可以有效提升基于自发语音的AD检测效果。该论文已发表于ICASSP 2025。

图片

论文链接:https://arxiv.org/abs/2501.06727

背景介绍

阿尔兹海默病(Alzheimer's Disease, AD)是一种神经退行性疾病。患上阿尔兹海默病后,患者的大脑会发生病理变化,导致认知能力下降、表达能力退化等现象。临床研究表明,早期治疗可以有效延缓阿尔兹海默病的恶化。因此,AD检测方法的开发对于该疾病的及早诊治至关重要。

阿尔兹海默病对患者自发语音内容的影响促使人们探索自然语言处理技术,以实现可靠的AD检测。而AD检测中另一个关键指标是语音中的停顿,而通过语音停顿检测阿尔兹海默病在最近的文献中得到了广泛关注。

虽然目前已有一些将停顿信息与语言特征相结合的尝试,但还没有一种方法能将停顿信息深度融合到语言模型中。在本文中,我们提出了一种方法,在语言模型的编码阶段将停顿与文本内容相结合,以捕捉语音中的语义和副语言特征,从而提高 AD 检测的性能。

工作原理

在我们的方法中,我们利用预训练的 BERT 模型作为基础模型来捕捉语义信息。而停顿信息在被编码后与现有的词嵌入一起集成到 BERT 模型架构中。我们采用可学习的嵌入映射方法, 将每一个单词的持续时间和停顿时间分别编码为嵌入。然后,将这两个嵌入在特征维度上拼接起来,并将其添加到词嵌入中,从而在 BERT 模型的编码阶段将停顿信息与文本信息融合在一起。

在停顿信息的编码过程中,我们引入了一种将时间特征编码到嵌入中的新方法。使用WhisperX语音识别模型转录自发语音后,我们提取转录文本中每个单词的持续时间和停顿时间,将它们结合为一个停顿标记,并在一定区间内进行均匀量化,得到一个停顿标记的码本,之后对其进行可学习的嵌入映射。

图片

实验结果

在ADReSS数据集上,所提出的模型取得了81.2%的准确率,优于之前结合停顿与文本特征的模型BERT3p;在ADReSSo数据集上,所提出的模型展现了更好的泛化性,83.1%的准确率优于BERT3p及其他使用停顿特征的模型。该结果证明了所提出方法的有效性。

图片

图片

结 论

本文研究表明,将停顿信息融入语言模型能够有效提升阿尔兹海默病的检测性能。通过捕捉自发语音中的时间特征,模型在区分AD患者与健康个体方面表现出更强的判别能力,验证了停顿作为潜在生物标志物在AD早期检测中的应用价值。本研究为构建更精准、非侵入性、低成本的AD检测手段提供了新思路,对推动神经退行性疾病的早期诊断和治疗具有重要意义。

学生作者信息

图片

蒲钰,清华大学电子系二年级硕士生,研究方向为阿尔兹海默病检测和端到端语音交互。

点击下面【阅读原文】跳转arXiv获取全文:

http://www.lryc.cn/news/2397712.html

相关文章:

  • [蓝桥杯]春晚魔术【算法赛】
  • LeetCode - 965. 单值二叉树
  • LabVIEW杂草识别与精准喷洒
  • 分布式不同数据的一致性模型
  • “application/json“,“text/plain“ 分别表示什么
  • SQL: 窗口滑动(Sliding Window)
  • 学习日记-day20-6.1
  • 【音视频】 FFmpeg 解码H265
  • Linux 系统 Docker Compose 安装
  • 软件测试|FIT故障注入测试工具——ISO 26262合规下的智能汽车安全验证引擎
  • 3D拟合测量水杯半径
  • (21)量子计算对密码学的影响
  • Python训练打卡Day38
  • Selenium基础操作方法详解
  • Kali Linux从入门到实战:系统详解与工具指南
  • 【大模型】Bert变种
  • vue-09(使用自定义事件和作用域插槽构建可重用组件)
  • 简单三步FastAdmin 开源框架的安装
  • RISC-V 开发板 MUSE Pi Pro 搭建 Spacengine AI模型部署环境
  • C++面试5——对象存储区域详解
  • 【Unity】AudioSource超过MaxDistance还是能听见
  • 基于 51 单片机的智能饮水机控制系统设计与实现
  • Qt 读取和写入 INI 格式的配置文件
  • 互联网大厂Java求职面试:AI与云原生架构实战解析
  • Spring:从青铜到王者,你的Java修炼手册
  • React和原生事件的区别
  • Qt creator 设计页面控件认识与了解
  • 命象架构法 02|你的系统有“用神”吗?
  • NVIDIA Mellanox BlueField-2 DPU(Data Processing Unit)智能网卡的调试和使用
  • Tomcat- AJP协议文件读取/命令执行漏洞(幽灵猫复现)详细步骤