当前位置: 首页 > news >正文

语音识别开源框架 openAI-whisper

Whisper 是一种通用的语音识别模型。 它是OpenAI于2022年9月份开源的在各种音频的大型数据集上训练的语音识别模型,也是一个可以执行多语言语音识别、语音翻译和语言识别的多任务模型。

GitHub - yeyupiaoling/Whisper-Finetune: 微调Whisper语音识别模型和加速推理,支持Web部署和Android部署

Whisper Webui - a Hugging Face Space by aadnk

微调Whisper语音识别模型和加速推理_夜雨飘零1的博客-CSDN博客

Openai-Whisper识别生成语音/视频字幕文件(支持自动翻译) - 哔哩哔哩

Whisper OpenAI开源语音识别模型_开源语音识别算法_Sanfor的博客-CSDN博客

conda create -n whisper python=3.9

conda activate whisper

pip install git+https://github.com/openai/whisper.git

whisper audio.mp3 --model medium --language Chinese

解决输出繁体中文不输出简体中文问题:

whisper --language Chinese --model large audio.mp3 --initial_prompt "以下是 普通话句子"

就中文而言,Whisper各模型:

  • tiny 是没有做断句的,或者说,直接根据停顿断句
  • base 已经开始根据逻辑断句,但会出语法错误
  • small 已经很少语法错误,但断句水平却直线下降,很奇怪
  • medium 不仅能够完美的断句,还能判断语气

可以看出,飞书妙记给用户开放的转写能力大约在 tiny 到 base 之间(转写速度也在 tiny 左右,已经很快了)

值得指出的是,这里的对比,目的并不是比较二者的技术,否则对于飞书妙计相当的不公平,作为一款消费级应用,它不可能给用户跑medium等级的模型来做转写

对比的意义是,Whisper,作为一个开源模型,和消费级产品比起来怎么样?

答案是,完全可以替代,用 small 模型足以实现当下的免费体验了。

甚至,用 medium 以上的模型,可以用「时间」换「好得多的使用体验」

Whisper—通用的语音识别模型 - 知乎

https://www.bilibili.com/read/cv19254244

openai开源的whisper在huggingface中使用例子(语音转文字中文)_语音识别_qq_37401291-开发者创业生态社区

OpenAI 开源音频转文字模型 Whisper 尝鲜 - 少数派

Whisper—通用的语音识别模型 - 知乎

https://github.com/PaddlePaddle/PaddleSpeech/tree/develop/demos/speech_web

OpenAI 开源语音识别模型 Whisper - OSCHINA - 中文开源技术交流社区

OpenAI Whisper中文语音识别效果尝试和应用(一)_迷途的小朋友的博客-CSDN博客

GitHub - openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervision

OpenAI Whisper中文语音识别效果尝试和应用(一)_迷途的小朋友的博客-CSDN博客

http://www.lryc.cn/news/95010.html

相关文章:

  • php做的中秋博饼游戏之绘制骰子图案功能示例
  • erlang 虚拟机优化参数
  • 网络安全能力成熟度模型介绍
  • python爬虫试手
  • pandas 笔记:pivot_table 数据透视表
  • C#(六十)之Convert类 和 Parse方法的区别
  • 暑期代码每日一练Day3:874. 模拟行走机器人
  • 肖sir___环境相关的面试题
  • 代理IP、Socks5代理和SK5代理的前沿技术与未来发展趋势
  • VM(CentOS7安装和Linux连接工具以及换源)
  • 阿里云斩获 4 项年度云原生优秀案例丨阿里云云原生 6 月动态
  • dede图片集上传图片时出错显示FILEID的解决办法
  • 【亲测有效】 通过mysql指令 导出数据库中表名 和 表名的备注
  • 【Nginx08】Nginx学习:HTTP核心模块(五)长连接与连接处理
  • 第八十五天学习记录:C++核心:内存分区模型
  • Chrome远程调试webview
  • 爬虫与反爬虫的攻防对抗
  • 【机器学习】特征工程 - 字典特征提取
  • 用户交互----进入游戏
  • 排序算法 - 快速排序(4种方法实现)
  • C++入门知识点
  • 开眼界了,AI绘画商业化最强玩家是“淘宝商家”
  • 机器学习与深度学习——自定义函数进行线性回归模型
  • 大屏项目也不难
  • c#webclient请求中经常出现的几种异常
  • 设计模式-原型模式
  • sentinel介绍-分布式微服务流量控制
  • 基于Redisson的Redis结合布隆过滤器使用
  • BrowserRouter刷新404解决方案
  • 解决appium-doctor报opencv4nodejs cannot be found