当前位置: 首页 > news >正文

【文献阅读】基于原型的自适应方法增强未见到的构音障碍者的语音识别

基于原型的自适应方法增强未见到的构音障碍者的语音识别

文献原文链接

https://www.isca-archive.org/interspeech_2024/wang24x_interspeech.pdf

引言

构音障碍是一种由神经系统疾病或肌肉异常引起的言语障碍,影响了个体清晰发音的能力。这种情况常伴随脑瘫、帕金森病和头部创伤等疾病。对于受影响的人来说,由于其有限的运动能力,语音是与设备互动的最方便手段。然而,传统的语音识别系统难以处理构音障碍者的语音,因为其显著偏离了典型的语音模式。

传统的说话人自适应方法涉及对每个说话人进行微调,但由于高成本和用户的不便,这些方法不可行。为了解决这个问题,作者提出了一种基于原型的方法,以在无需额外微调的情况下提升未见到的构音障碍者的语音识别性能。

HuBERT

HuBERT(Hidden-Unit BERT)是一个预训练的自监督语音模型,旨在从大量的无标签语音数据中学习有效的表达。它通过预测隐藏单元来学习语音特征,这些隐藏单元是通过对语音信

http://www.lryc.cn/news/443495.html

相关文章:

  • Kafka-Go学习
  • Nginx反向代理出现502 Bad Gateway问题的解决方案
  • 通信工程学习:什么是VLAN虚拟局域网
  • python qt5 常用
  • 漏洞复现_永恒之蓝
  • PyCharm的使用
  • 浅谈C#之AutoResetEvent和ManualResetEvent
  • 【网络安全 | 靶机搭建】修改镜像源、更新软件源、安装git、更改python版本等
  • VuePress搭建文档网站/个人博客(详细配置)主题配置
  • Go语言笔记
  • java缓存介绍
  • react中diff的选择性子树渲染
  • Git clone远程仓库没有其他分支的问题
  • 山东潍坊戴尔存储服务器维修 md3800f raid恢复
  • Hive企业级调优[6]——HQL语法优化之任务并行度
  • Excel 冻结多行多列
  • 基于微信小程序的智慧物业管理系统
  • 【论文笔记】BEVNeXt: Reviving Dense BEV Frameworks for 3D Object Detection
  • 基于open-gpu-kernel-modules的p2p vram映射bar1提高通信效率
  • java之斗地主部分功能的实现
  • 我的AI工具箱Tauri版-VideoIntroductionClipCut视频介绍混剪
  • 【鸿蒙OH-v5.0源码分析之 Linux Kernel 部分】011 - 第一个用户空间进程 init 进程 第一阶段初始化过程 源码分析
  • MyBatis 源码解析:Mapper 文件加载与解析
  • (11)(2.1.2) DShot ESCs(二)
  • yolov5/8/9模型在COCO分割数据集上的应用【代码+数据集+python环境+GUI系统】
  • 技术周总结 09.16~09.22 周日(架构 C# 数据库)
  • 【java实现json转化为CSV文件】
  • MySQL索引知识个人笔记总结(持续整理)
  • ReKep——李飞飞团队提出的让机器人具备空间智能:基于视觉语言模型GPT-4o和关系关键点约束
  • [Java并发编程] synchronized(含与ReentrantLock的区别)