当前位置: 首页 > news >正文

whisper+whisperx ASR加对齐

忘了怎么安装了,这里记录一下整理出来的类,不过这个

from chj.comm.pic import *import json
import whisper
import whisperx
import gcclass Warp_whisper:def __init__(self, language="zh", device="cuda", compute_type="float32", model="large-v2" ):torch.backends.cudnn.enabled = Falseif not torch.cuda.is_available():device="cpu"dmodel="XXXXX/models/torch/whisper"self.asr_model=whisper.load_model(model, device, download_root=dmodel)self.txt_converter = Noneif model=="large-v2" and language=="zh":from opencc import OpenCCconverter = OpenCC('t2s')self.txt_converter = converterself.prompt=Noneelse:if language=="zh":self.prompt='以下是普通话的句子'else:self.prompt=Noneself.prompt=Noneself.language=languageself.device=deviceself.align_model, self.align_metadata = whisperx.load_align_model(language_code=language, device=device)def do_asr_algin(self, fjson, fwav):audio = whisper.load_audio(fwav)result = self.asr_model.transcribe(audio, language=self.language, initial_prompt=self.prompt)#assert result["language"] == self.languageresult_segments = result["segments"]if self.txt_converter:for e in result_segments:e['text'] = converter.convert( e['text'] )result = whisperx.align(result_segments, self.align_model, self.align_metadata, audio, self.device, return_char_alignments=False)result=result["segments"]with open(fjson, "w") as fout:json.dump(result, fout, indent=4, ensure_ascii=False)def f2_invoke():print("Doing... whisper align")basedir=sys.argv[1]din=f"{basedir}/audio_feats/wav16k"if not os.path.exists(din):print("no such dir", din)exit(1)dout=f"{basedir}/audio_feats/whisper_align"cls_asr=Warp_whisper()chj_file.mkdir(dout)for fwav in tqdm( glob.glob(f"{din}/*.wav") ):nm = chj_file.get_nm(fwav)fnm=f"{dout}/{nm}.json"if os.path.isfile(fnm): continuecls_asr.do_asr_algin(fnm,fwav)print("Finished whisper align")
http://www.lryc.cn/news/412279.html

相关文章:

  • 【已解决】YOLOv8加载模型报错:super().__init__(torch._C.PyTorchFileReader(name_or_buffer))
  • 中国象棋 纯网页前端 演示与下载
  • 学习大数据DAY29 python基础语法2
  • 自动化测试常用函数(Java方向)
  • 申瓯通信设备有限公司在线录音管理系统(复现过程)
  • 【C++进阶学习】第十一弹——C++11(上)——右值引用和移动语义
  • JavaScript 监听 localStorage 的变化
  • Java 中 HashMap 和 Hashtable 的联系
  • Web3 开发教程
  • 傻瓜式PHP-Webshell免杀学习手册,零基础小白也能看懂
  • 第十九次(安装nginx代理tomcat)
  • 小红书0510笔试-选择题
  • 3.Java面试题之AQS
  • redis的集群(高可用)
  • 随机森林的算法
  • 3.1、数据结构-线性表
  • 记一次对HTB:Carpediem的渗透测试
  • MATH2 数据集:AI辅助生成高挑战性的数学题目
  • 加密货币“蓄势待发”!美国松口降息!九月开始连续降息8次?2025年利率目标3.25-3.5%?
  • Vue.js 3.x 必修课|005|代码规范与 ESLint 入门
  • 【Linux】动态库|静态库|创建使用|动态库加载过程
  • WebSocket 协议与 HTTP 协议、定时轮询技术、长轮询技术
  • 二叉树节点问题
  • 公司里的IT是什么?
  • 【小程序爬虫入门实战】使用Python爬取易题库
  • 案例 —— 怪物出水
  • vue中使用print.js实现页面打印并增加水印
  • 计算机基础(Windows 10+Office 2016)教程 —— 第5章 文档编辑软件Word 2016(下)
  • 简单洗牌算法
  • JVM: 堆上的数据存储