当前位置: 首页 > news >正文

基于注意力机制的端到端合成语音检测

End-to-end Synthetic Speech Detection Based on Attention Mechanism
摘要:
·五种轻量级注意力模块改为适用于语音序列的 通道注意力机制一维空间注意力机制
·ASVspoof2019测试集的 等错误率最小串联检测代价函数都有所降低
·池化层之前嵌入CBAM、ECA的模型测试集EER最低且具有较强的泛化性(且统计性能较基线模型有显著提升)
结论:
·端到端合成语音检测系统 Inc-TSSDNet网络上引用 通道注意力机制和一维空间注意力机制。在 Inc-TSSDNet的合适位置(池化层前或后)嵌入注意力模块可以提升检测系统的性能
·ASVspoof2019测试集下的EER为3.28%,较基线模型降低了18.8%,且模型参数量增加较少,该模型还具有优秀的跨库性能,其最好结果在ASVspoof2015的验证集和测试集下的EER较基线模型分别降低了67.3%和36.8%;
·在池化层之前嵌入ECA模块的IncTSSDNet模型最好结果在ASVspoof2019测试集下的mint-DCF为0.0861,较基线模型降低了11.8%;
背景
·语音伪造技术——语音合成(TexttoSpeech,TTS)、语音转换(VoiceConversion,VC)、语音模仿(Impersonation)、重放攻击(ReplayAttack,RA)和对抗攻击(AdversarialAttack)
·随着深 度伪造技术的迅猛发展,合成语音的自然度越来越高
·合成语音检测系统一般由 前端特征提取器和后端二值分类器组成
· Xiao 等人研 究 了 高 维 幅 频 特 征 的 表 现 ,使 用 对 数 幅 度 谱(Log Magnitude Spectrum,LMS)与 残 差 对 数 幅 度 谱(Re⁃ sidual Log Magnitude Spectrum,RLMS)构 建 的 检 测 系 统 得 到 了 理 想 的 效 果;(XIAO Xiong,TIAN Xiaohai,DU S,et al. Spoofing speech detection using high dimensional magnitude and phase fea⁃ tures:The NTU approach for ASVspoof 2015 challenge [C]//Interspeech 2015. ISCA:ISCA,2015:2052-2056.)
·相 位 特 征 ,例 如 群 延 迟 (Group Delay,GD)、修 正 的 群 延 迟(Modified Group Delay,MGD)、相对相移(Relative Phase Shift,RPS)、 基带相位差(Baseband Phase Difference,BPD);
·倒谱系数特征,如线性频率倒谱系 数(Linear Frequency Cepstral Coefficients,LFCC)、梅 尔 频 率 倒 谱 系 数(Mel-Frequency Cepstral Coeffi⁃ cients,MFCC)、线 性 预 测 倒 谱 系 数(Linear Predic⁃ tion Cepstral Coefficients,LPCC)等;
·基于常数 Q 变换的倒谱特征 (Constant-Q Cepstral Coefficients,CQCC)常 被 用 作 竞赛中的基线特征
·基于深度神经网络模型的分类器
·注意力机制在计算机视觉越来越受到关注,然后调整 适用于语音序列的通道注意力和一维空间注意力
主要内容:
· 基于注意力机制的端到端合成语音检测网络 Inc-TSSDNet展开,详细介绍了注意力机制及其应用、五种常见轻量化注意力模块的原理和实现,以及改进后的 Inc-TSSDNet 网络结构设计。

1. 注意力机制概述

  • 核心思想:模拟人类对重要信息的关注方式,为模型提供选择性地聚焦于输入特征中关键部分的能力。
  • 分类
    • 软注意力:对输入不同部分赋予权重,适合神经网络的可微化需求。
    • 强注意力:硬性选择输入的某些部分。
  • 作用域
    • 通道域:强调特定特征通道的重要性。
    • 空间域:关注特定时间或空间位置。
    • 混合域:同时结合通道和空间信息。

2. 适用于一维语音序列的轻量级注意力模块

文中调整现有注意力模块,适配于一维语音数据,改进端到端语音检测性能:
2.1 SE模块(通道注意力机制)
  • 原理 :通过全局平均池化提取每个通道的全局特征,并用瓶颈结构建模通道间相关性。
  • 特点 :通过降维减少复杂度,权重控制每个通道对最终输出的贡献。
2.2 CBAM模块(通道+空间注意力)
  • 通道注意力 :结合全局平均池化和最大池化计算通道权重。
  • 空间注意力 :对每个时间点的特征分配权重。
2.3 scSE模块(通道和空间注意力并行)
  • 通道注意力 :与SE模块类似。
  • 空间注意力 :通过一维卷积生成权重矩阵,强调序列位置的重要性。
  • 创新点 :通道与空间注意力加权结果相加,综合考量两者作用。
2.4 ECA模块(轻量级通道注意力)
  • 特点 :利用一维卷积实现跨通道信息交互,避免降维,性能和效率兼顾。
  • 自适应卷积核大小 :根据通道数动态确定,提升适应性。
2.5 SA模块(结合分组和通道混洗的注意力)
  • 特点 :通过通道分组和混洗结合通道与空间注意力,结构轻量,适合高效计算。
  • 创新点 :通过ShuffleNet的通道混洗操作实现跨组信息交互。

3. 改进的 Inc-TSSDNet 网络

3.1 网络结构
  • 基于Inception模块,结合扩张卷积,提升感受野,控制复杂度。
  • 层级设计
    • 第一层:1×7卷积层。
    • 中间层:堆叠M个改进的Inception模块,每层后跟最大池化层。
    • 最后层:全局池化层+三层全连接层。
3.2 注意力模块嵌入
  • 在最大池化层前或后引入五种注意力模块(SE、CBAM、scSE、ECA、SA),优化特征提取。
  • 实验目的:验证不同注意力模块的检测性能与模型复杂度的平衡。

4. 优点与意义

  1. 针对性优化:模块设计考虑了一维语音序列的特点,使注意力机制适应语音检测任务。
  2. 性能提升:通过注意力机制增强特征表示能力,提高模型检测准确性。
  3. 轻量化设计:多个模块采用简化策略,降低模型复杂度,便于实际应用。
在 Inc-TSSDNet 的合适位 置嵌入注意力模块可以提升检测系统的性能,
在池化 层之前嵌入 CBAM 的 Inc-TSSDNet 模型最好结果在 ASVspoof2019 测试集下的 EER 为 3. 28%,较基线模型 降低了 18. 8%,且模型参数量增加较少,该模型还具 有优秀的跨库性能,其最好结果在ASVspoof2015 的验 证 集 和 测 试 集 下 的 EER 较 基 线 模 型 分 别 降 低 了 67. 3% 和 36. 8%;
在池化层之前嵌入ECA 模块的IncTSSDNet 模型最好结果在 ASVspoof2019 测试集下的 min t-DCF 为 0.0861,较基线模型降低了 11. 8%
贡献点:
调整并使用了五种注意力模块中的算法
http://www.lryc.cn/news/521990.html

相关文章:

  • MySQL NaviCat 安装及配置教程(Windows)【安装】
  • 微信小程序:播放音频
  • Ubuntu安装K8S
  • 独立同分布时,联合概率密度函数等于边缘概率密度函数乘积
  • 半导体数据分析: 玩转WM-811K Wafermap 数据集(三) AI 机器学习
  • 【.net core】【sqlsugar】时间查询示例
  • Kotlin 协程基础十 —— 协作、互斥锁与共享变量
  • Java中网络编程的学习
  • [计算机网络]一. 计算机网络概论第一部分
  • 【0393】Postgres内核 checkpointer process ③ 构建 WAL records 工作缓存区
  • 正则表达式基础知识及grep、sed、awk常用命令
  • redhat安装docker 24.0.7
  • 【excel】VBA简介(Visual Basic for Applications)
  • 【大厂面试AI算法题中的知识点】方向涉及:ML/DL/CV/NLP/大数据...本篇介绍为什么self-attention可以堆叠多层,这有什么作用?
  • NanoKVM简单开箱测评和拆解,让普通电脑实现BMC/IPMI远程管理功能
  • 【Idea】编译Spring源码 read timeout 问题
  • VSCode的配置与使用(C/C++)
  • SpringMVC (1)
  • 本地部署大模型—MiniCPM-V 2.0: 具备领先OCR和理解能力的高效端侧多模态大模型
  • 国产linux系统(银河麒麟,统信uos)使用 PageOffice 实现后台批量生成PDF文档
  • Python 扫描枪读取发票数据导入Excel
  • 电源自动测试系统中的ate定制化包含哪些内容?
  • 人工智能-机器学习之多分类分析(项目实战二-鸢尾花的多分类分析)
  • 多包单仓库(monorepo)实现形式
  • Java冒泡排序算法之:变种版
  • AAPM:基于大型语言模型代理的资产定价模型,夏普比率提高9.6%
  • Spring常见知识
  • 计算机网络的五层协议
  • Bluetooth LE Audio - 蓝牙无线音频新应用 (上)
  • 如何快速准备数学建模?