当前位置: 首页 > news >正文

语音识别dolphin 学习笔记

目录

Dolphin简介

Dolphin 中共有 4 个模型,其中 2 个现在可用。

使用demo


Dolphin简介

Dolphin 是由 Dataocean AI 和清华大学合作开发的多语言、多任务语音识别模型。它支持东亚、南亚、东南亚和中东的 40 种东方语言,同时支持 22 种汉语方言。该模型在超过 210,000 小时的数据上进行训练,包括 DataoceanAI 的专有数据集和开源数据集。该模型可以执行语音识别、语音活动检测(VAD)、分割和语言识别(LID)。

small版本与Whisper large v3相比,平均WER降低54.1%,模型大小只有Whisper large v3的约1/4  除了语音识别,还能进行语音活动检测、音频分割以及语言识别  目前开源了两个基础版本,一个base版,一个small版

方法
Dolphin 主要遵循 Whisper 和 OWSM 的创新设计方法。采用基于 E-Branchformer 的编码器和基于标准 Transformer 的解码器的联合 CTC-Attention 架构。针对 ASR 的特定关注,引入了几个关键修改。Dolphin 不支持翻译任务,并消除了对先前文本及其相关标记的使用。

在 Dolphin 中,引入了二级语言标记系统,以更好地处理语言和区域多样性,尤其是在 Dataocean AI 数据集中。第一个标记指定语言(例如, <zh> , <ja> ),而第二个标记表示区域(例如, <CN> , <JP> )。详细信息请参阅论文。

https://github.com/DataoceanAI/Dolphin/blob/main/languages.md

Dolphin 中共有 4 个模型,其中 2 个现在可用。

Model

Parameters  参数

Average WER  平均词错误率

Publicly Available  公开可用

base  基础

140 M

33.3

small  小型

372 M

25.2

medium  中等

910 M  910 兆

23.1

large  大型

1679 M

21.6

没有开源微调 finetune

支持阿拉伯语,但是不支持

安装:

pip install -U dataoceanai-dolphin

使用demo

可以自动识别语言

import dolphinwaveform = dolphin.load_audio("audio.wav")
model = dolphin.load_model("small", "/data/models/dolphin", "cuda")
result = model(waveform)# Specify language
result = model(waveform, lang_sym="zh")# Specify language and region
result = model(waveform, lang_sym="zh", region_sym="CN")
print(result.text)

import dolphin
import os
# waveform = dolphin.load_audio("/nas/lbg/project/Whisper-Finetune/dataset/test_long.wav")waveform = dolphin.load_audio("/nas/ASR_DATA/cv-corpus-21.0-2025-03-14/ar/clips/common_voice_ar_24146339.mp3")os.makedirs("/nas/lbg/models/dolphin", exist_ok=True)
model = dolphin.load_model("base", "/nas/lbg/models/dolphin", "cuda")
result = model(waveform)# Specify language
# result = model(waveform, lang_sym="zh")# # Specify language and region
# result = model(waveform, lang_sym="zh", region_sym="CN")
# print(result.text)result = model(waveform)# Specify language and region
result = model(waveform)
print(result.text)

http://www.lryc.cn/news/604764.html

相关文章:

  • UE5多人MOBA+GAS 番外篇:将冷却缩减属性应用到技能冷却中
  • 设计模式十四:适配器模式(Adapter Pattern)
  • Linux ps -ef 命令解析
  • 基于成像空间转录组技术的肿瘤亚克隆CNV原位推断方法
  • composer 常用命令
  • 智慧城市SaaS平台|市政公用管理系统
  • 从单机到分布式:Redis如何成为架构升级的胜负手
  • 串口接收数据包(协议带帧头帧尾)的编程实现方法:1、数据包格式定义结构体2、使用队列进行数据接收、校验解包
  • 三十二、【Linux网站服务器】搭建httpd服务器演示虚拟主机配置、网页重定向功能
  • uni-app webview 的message无法触发的解决方案
  • MacTex+Vscode数学建模排版
  • 字节跳动“扣子”(Coze)开源:AI智能体生态的技术革命
  • AI Compass前沿速览:可灵创意工坊、字节Coze StudioCoze Loop、通义万相2.2 、智谱GLM-4.5、腾讯混元3D世界模型开源
  • 添加捕捉吸附标识(使用QT+OpenGL开发三维CAD)
  • 【翻译】Label Studio——开源标注工具README.md
  • 2025年DDoS攻防战:六层防护体系构建业务“数字免疫”
  • ADA4622-2ARMZ-R7 ADI双通道精密运算放大器 ±0.25μV超低失调+0.1μV/°C温漂
  • K8s 备份与恢复利器:Velero 实战指南
  • click和touch事件触发顺序 糊里糊涂解决的奇怪bug
  • VUE -- 基础知识讲解(三)
  • 前端安全防护:XSS、CSRF与SQL注入漏洞深度解析与防御
  • 50天50个小项目 (Vue3 + Tailwindcss V4) ✨ | 3dBackgroundBoxes(3D背景盒子组件)
  • 前端兼容性问题全面解决方案
  • Vue2-封装一个看起来像左右分布表格的表单组件
  • JetBrains Annotations:从入门到落地,彻底告别 NullPointerException
  • 2025年GEO服务商有哪些?——从技术到服务的专业分析
  • 2507C++,介绍名字对象
  • Java Stream核心:ReferencePipeline解析
  • 【WPS】邮件合并教程\Excel批量写入数据进Word模板
  • 滚珠导轨在电子制造中的流畅性优势