当前位置: 首页 > news >正文

本地部署语音转文字(whisper,SpeechRecognition)

本地部署语音转文字

  • 1.whisper
    • 1.首先安装Chocolatey
    • 2.安装
    • 3.使用
  • 2.SpeechRecognition
    • 1.环境
    • 2.中文包
    • 3.格式转化
    • 4.运行
  • 3.效果

1.whisper

1.首先安装Chocolatey

https://github.com/openai/whisper
以管理员身份运行PowerShell

Set-ExecutionPolicy Bypass -Scope Process -Force; [System.Net.ServicePointManager]::SecurityProtocol = [System.Net.ServicePointManager]::SecurityProtocol -bor 3072; iex ((New-Object System.Net.WebClient).DownloadString('https://chocolatey.org/install.ps1'))
choco -v#查看版本确定安装成功
Set-ExecutionPolicy AllSigned
Set-ExecutionPolicy Bypass -Scope Process -Force; [System.Net.ServicePointManager]::SecurityProtocol = [System.Net.ServicePointManager]::SecurityProtocol -bor 3072; iex ((New-Object System.Net.WebClient).DownloadString('https://community.chocolatey.org/install.ps1'))

2.安装

choco install ffmpeg
pip install setuptools-rust
pip install -U openai-whisper

3.使用

whisper 1207.m4a --language Chinese --model medium --device cuda:0 

2.SpeechRecognition

1.环境

pip install SpeechRecognition
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pocketsphinx

2.中文包

在这个虚拟环境的\site-packages\speech_recognition\pocketsphinx-data目录下添加zh-CN中文包。

3.格式转化

因为这个离线只支持一下三种格式,所以利用ffmpeg将语音转换成wav格式,这个包在装whisper的时候已经装好了,所以直接用:

 ffmpeg -i 12072.m4a output.wav
  • 1.WAV
    2.AIFF/AIFF-C
    3.FLAC

4.运行

import speech_recognition as sr
audio_file = 'output.wav'
r = sr.Recognizer()
with sr.AudioFile(audio_file) as source:audio = r.record(source)
# 识别音频文件
result = r.recognize_sphinx(audio, language="zh-CN")
print(result)

3.效果

在这里插入图片描述

http://www.lryc.cn/news/260656.html

相关文章:

  • js new 原理
  • 智能优化算法应用:基于黏菌算法3D无线传感器网络(WSN)覆盖优化 - 附代码
  • LeetCode每日一题——2132.用邮票贴满网格图
  • PyQt6 表单布局Form Layout (QFormLayout)
  • Python: any()函数
  • 一些AG10K FPGA 调试的建议-Douglas
  • 【模型量化】神经网络量化基础及代码学习总结
  • 次模和K次模是多项式可解吗?
  • 网络安全——SQL注入实验
  • 【cocotb】【达坦科技DatenLord】Cocotb Workshop分享
  • Kafka系列之:统计kafka集群Topic的分区数和副本数,批量增加topic副本数
  • 开具实习证明:在线实习项目介绍
  • MFC逆向之CrackMe Level3 过反调试 + 写注册机
  • 【Centos】
  • 1+X大数据平台运维职业技能等级证书中级
  • 网络基础(五):网络层协议介绍
  • 浅显易懂 @JsonIgnore 的作用
  • 【计算机设计大赛作品】诗意千年—唐朝诗人群像的数字展现_附源码—信息可视化赛道获奖项目深入剖析【可视化项目案例-20】
  • 「Swift」Xcode多Target创建
  • Python文件命名规则:批量重命名与规则匹配的文件
  • 『npm』一条命令快速配置npm淘宝国内镜像
  • Java EE 多线程之线程安全的集合类
  • 明明随机数
  • 优思学院|如何建立公司运营指标体系?如何推行六西格玛改进运营指标?
  • vue2 echarts不同角色多个类型数据的柱状图
  • Mysql表的数据类型
  • c语言单向链表
  • 『番外篇三』Swift “乱弹”之带索引遍历异步序列(AsyncSequence)
  • 学习JVM
  • Oracle MongoDB