当前位置: 首页 > news >正文

百度PaddleSpeech识别大音频文件报错

一、背景

公司前同事留下了一套语音识别项目,内部使用百度PaddleSpeech。在项目验收的时候发现无法识别大音频文件,但是可以识别小音频文件。

这套项目是通过python调用的百度PaddleSpeech,然后提供了restful接口,然后java项目可以通过接口来进行语音识别。

二、解决方案

我看了一下前同事留下的代码,发现报错信息来自百度PaddleSpeech内部,所以修改源代码这条路基本无解。

我通过互联网搜索到“根据百度AI开放平台的错误码汇总,如果音频时长超过60秒,将会导致错误。”

基于上述情况,我准备调用java代码操作ffmpeg工具将大音频文件进行分割,然后针对小音频逐个识别,最终拼接识别结果即可。

我切分的标准是50s一段,基本都是可以识别出来的。

拓展:

百度PaddleSpeech语音识别目前格式仅支持pcm、wav或amr,我们常见一点的是wav格式。由于不支持mp3格式,如果想识别mp3格式文件内容,也可以使用ffmpeg进行文件格式转换,转换完成之后就可以识别了

http://www.lryc.cn/news/512408.html

相关文章:

  • Lucene 漏洞历险记:修复损坏的索引异常
  • RabbitMQ基础篇之快速入门
  • 如何自定义 Kubernetes KubeSphere 默认 Logo:详细实现方案
  • 标准库以及HAL库——按键控制LED灯代码
  • Echarts+vue电商平台数据可视化——webSocket改造项目
  • Flink中并行度和slot的关系——任务和任务槽
  • 基于西湖大学强化学习课程的笔记
  • 瀚高数据库 问题: ERROR: operator does not exist: character varying = integer
  • 冷链温度记录仪蓝牙应用案例
  • LeetCode - Google 校招100题 第7天 序列(数据结构贪心) (15题)
  • 深入理解Redis:从理论到实践的Java之旅
  • LabVIEW故障诊断中的无故障数据怎么办
  • 基于DIODES AP43781+PI3USB31531+PI3DPX1207C的USB-C PD Video 之全功能显示器连接端口方案
  • MySQL配置my.ini文件
  • JVM常见排查问题的命令及可视化工具
  • 【python】matplotlib(moon cake)
  • Pytorch使用手册-空间变换网络指南(专题十五)
  • Vue 中el-table-column 进行循环,页面没渲染成功
  • 基于单片机的温湿度采集系统(论文+源码)
  • 使用envoyfilter添加请求头
  • kafka开机自启失败问题处理
  • 优化站群SEO:使用苹果CMS泛目录插件实现泛目录页面刷新不变
  • git clone 和 conda 换源
  • 人工智能及深度学习的一些题目(二)
  • 怎么在VMware Workstation上安装Win11虚拟机?
  • 协程原理 函数栈 有栈协程
  • SpringBoot整合springmvc、扩展springmvc
  • 免费部署本地AI大语言模型聊天系统:Chatbox AI + 马斯克grok2.0大模型(简单5步实现,免费且比GPT4.0更好用)
  • 音视频入门基础:MPEG2-TS专题(22)——FFmpeg源码中,获取TS流的音频信息的实现
  • 从零搭建SpringBoot3+Vue3前后端分离项目基座,中小项目可用