当前位置: 首页 > news >正文

【ASR技术】WhisperX安装使用

介绍

WhisperX 是一个开源的自动语音识别(ASR)项目,由 m-bain 开发。该项目基于 OpenAI 的 Whisper 模型,通过引入批量推理、强制音素对齐和语音活动检测等技术。提供快速自动语音识别(large-v2 为 70 倍实时),具有单词级时间戳和说话人分类。
WhisperX 的核心技术包括:
批量推理:利用 faster-whisper 后端,实现了高效的批量推理,大幅提升了转录速度。
强制音素对齐:通过 wav2vec2 对齐模型,提供了精确的单词级时间戳。
说话人识别:集成了 pyannote-audio 进行说话人分割,实现了多说话人 ASR。
语音活动检测(VAD):预处理阶段使用 VAD,减少了幻听现象,同时不影响转录准确性。

安装

官网:https://github.com/m-bain/whisperx?tab=readme-ov-file
参考安装:https://www.bilibili.com/opus/902027713218347033
上面介绍的比较详细了,下面只描述一下个人安装过程遇见的问题

  1. conda安装国内镜像源
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud//pytorch/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/pro/#设置搜索时显示通道地址
conda config --set show_channel_urls yes
  1. 直接运行whisperx会有Timeout连接错误,程序第一次运行会去下载镜像,需要使用HuggingFace镜像源,添加到环境变量中去
HF_ENDPOINT = "https://hf-mirror.com"
  1. 遇见报错:找不到cudnn_ops64_9.dll
    cudnn和cuda重新安装了一次,还是报错,最后还是手动添加到环境变量中去。
到安装目录中,手动搜索【cudnn_ops64_9.dll】,找到路径之后添加到环境变量中去
  1. 最好使用管理员身份运行【Anaconda Powershell Prompt】

使用

whisperx 1.mp3 --model large --language zh

在这里插入图片描述
精确到毫秒级的单词识别(json文件)
在这里插入图片描述

http://www.lryc.cn/news/486724.html

相关文章:

  • 【计算机网络】协议定制
  • 【SQL】mysql常用命令
  • 阿里云引领智算集群网络架构的新一轮变革
  • 几何合理的分片段感知的3D分子生成 FragGen - 评测
  • Python爬虫下载新闻,Flask展现新闻(2)
  • 监控易监测对象及指标之:全面监控华为FusionInsight服务
  • SQL面试题——蚂蚁SQL面试题 会话分组问题
  • nfs服务器--RHCE
  • React--》如何高效管理前端环境变量:开发与生产环境配置详解
  • Javascript高级—函数柯西化
  • Sql进阶:字段中包含CSV,如何通过Sql解析CSV成多行多列?
  • linux之调度管理(5)-实时调度器
  • mybatis-plus: mapper-locations: “classpath*:/mapper/**/*.xml“配置!!!解释
  • nacos-operator在k8s集群上部署nacos-server2.4.3版本踩坑实录
  • 面试篇-项目管理
  • 数仓建设之Oracle常见语法学习
  • 物联网智能技术的深入探讨与案例分析
  • python语言基础-5 进阶语法-5.2 装饰器-5.2.2 简单装饰器
  • TransFormer--解码器:带掩码的多头注意力层
  • 【ArcGIS微课1000例】0130:图层组详解与使用
  • Linux中配置ntp服务
  • 微服务day10-Redis面试篇
  • STL序列式容器之list
  • docker:基于Dockerfile镜像制作完整案例
  • 微信小程序自定义顶部导航栏(适配各种机型)
  • sslSocketFactory not supported on JDK 9+
  • [Codesys]常用功能块应用分享-BMOV功能块功能介绍及其使用实例说明
  • 大语言模型通用能力排行榜(2024年11月8日更新)
  • 信息技术引领未来:大数据治理的实践与挑战
  • Git 分⽀规范 Git Flow 模型