MDD-Net:通过相互Transformer进行多模态抑郁症检测
论文地址:https://arxiv.org/pdf/2508.08093
一、研究背景与意义
- 抑郁症现状
- 全球约3.22亿人受抑郁症影响,WHO预测其将在203年成为首要健康问题。
- 传统诊断依赖问卷和临床评估,易受参与者配合度和医生经验影响,存在效率低、误差大问题。
- 技术需求
- 亟需自动化系统实现快速、精准的抑郁症检测,利用非侵入式数据(如社交媒体中的音视频)。
二、现有研究局限
- 主流方法缺陷
- 单模态方法:依赖音频、视觉或文本单一特征,忽略跨模态关联(如面部表情与语音变化的协同性)。
- 多模态融合不足:现有模型(如Bi-LSTM、TAMFN)对特征交互建模不充分,难以处理噪声数据。
- 数据挑战
- 社交媒体数据存在标注主观性、样本不均衡问题(如D-Vlog数据集中正常/抑郁样本比例406:555)。
三、MDD-Net核心创新
1. 整体架构
- 输入:对齐的音频特征(25维低阶声学描述符)和视