当前位置: 首页 > news >正文

语音识别的预训练模型

语音识别的预训练模型

语音识别模型

大致分为两类:

  1. 连接时序分类(Connectionist Temporal Classification, CTC):仅编码器(encoder-only)的模型,顶部带有线性分类(CTC)头
  2. 序列到序列(Sequence-to-sequence, Seq2Seq):编码器-解码器(encoder-decoder)模型,编码器和解码器之间带有交叉注意力机制

在 2022 年之前,CTC 是这两种架构中更受欢迎的一种,以 encoder-only 模型为主,例如 Wav2Vec2HuBERTXLSR 在语音的预训练/微调范式中取得了突破。 大公司如 Meta 和 Microsoft 在大量无标签音频数据上对编码器进行了多天甚至数周的预训练。 用户采用一个预训练的检查点,并在少至 10 分钟的有标注的语音数据上进行微调,就可以在下游语音识别任务中取得强大的性能。

然而,CTC 模型也有其缺点。在编码器上附加一个简单的线性层可以得到一个小巧、快速

http://www.lryc.cn/news/522644.html

相关文章:

  • element-ui制作多颜色选择器
  • JVM体系结构
  • wandb使用遇到的一些问题
  • Java中的继承
  • Cadence笔记--原理图导入PCB
  • 从AI生成内容到虚拟现实:娱乐体验的新边界
  • 【Linux】gdb_进程概念
  • 安全类脚本:拒绝ssh暴力破解
  • Android15源码编译问题处理
  • 图解Git——分布式Git《Pro Git》
  • Linux内核编程(二十一)USB应用及驱动开发
  • 什么是数据仓库?
  • 计算机网络 (48)P2P应用
  • SK海力士(SK Hynix)是全球领先的半导体制造商之一,其在无锡的工厂主要生产DRAM和NAND闪存等存储器产品。
  • FunASR 在Linux/Unix 平台编译
  • git操作(Windows中GitHub)
  • 物联网网关Web服务器--Boa服务器移植与测试
  • vue3学习日记8 - 一级分类
  • 前端实习第二个月小结
  • 深入了解卷积神经网络(CNN):图像处理与深度学习的革命性技术
  • b站视频(网页加客户端)+本地视频 生成回链
  • 3.数据库系统
  • 红米k40s设备驱动设备驱动树
  • Linux-C/C++--文件 I/O 基础
  • HarmonyOS NEXT开发进阶(六):HarmonyOS NEXT实现嵌套 H5 及双向通信
  • 【Flink系列】4. Flink运行时架构
  • 动态主机配置协议 (DHCPv4)介绍,详细DHCP协议学习笔记
  • Vue.js组件开发-如何处理跨域请求
  • 【C++】构造函数与析构函数
  • Agent区别于MOE和RAG的核心; Agent(智能体)、RAG和MOE区别