当前位置: 首页 > news >正文

funasr 麦克风实时流语音识别

参考:
https://github.com/alibaba-damo-academy/FunASR
在这里插入图片描述
chunk_size 是用于流式传输延迟的配置。[0,10,5] 表示实时显示的粒度为 1060=600 毫秒,并且预测的向前信息为 560=300 毫秒。每个推理输入为 600 毫秒(采样点为 16000*0.6=960),输出为相应的文本。对于最后一个语音片段的输入,需要将 is_final=True 设置为强制输出最后一个词语。

采样率和采样点之间的关系可以用以下公式表示:总样本数 = 采样率 * 采样时长 ( 16000 * 0.6 = 9600 )采样率是 16000 Hz,代表每秒钟采集 16000 个样本点。而每次推理输入的时间范围是 
http://www.lryc.cn/news/338170.html

相关文章:

  • 英语学习笔记-音节划分和字母发音对照表
  • 使用odbc链接dm8数据库
  • 开源项目one-api的k8s容器化部署(上)-- 制作镜像及部署准备
  • 面试-数据库基础以及MySql、ClickHost、Redis简介
  • MySQL分库分表的方式有哪些
  • 数据结构课程设计选做(一)---数字排序(哈希、排序)
  • Linux第90步_异步通知实验
  • elasticdump之python脚本
  • Hystrix应用:如何在Spring Boot中使用Hystrix?
  • js的常用方法
  • 基于SpringBoot实现的在线拍卖系统
  • React 组件生命周期对比:Class vs. 函数式
  • Ubuntu去除烦人的顶部【活动】按钮
  • Vue2(十五):replace属性、编程式路由导航、缓存路由组件、路由组件独有钩子、路由守卫、history与hash
  • 智慧污水井物联网远程监控案例
  • 程序员Java.vue,python前端后端爬虫开发资源分享
  • PCL:基于法线微分分割
  • 生产事故:线程管理不善诱发P0故障
  • WPF —— GDI画板
  • C++:基于范围的for循环
  • 引领智能互联时代,紫光展锐赋能百业创新发展
  • lv_micropython to download and building
  • 二叉树练习day.9
  • 2024年第十七届“认证杯”数学中国数学建模网络挑战赛B题思路
  • 【vue】slot 匿名插槽 / 具名插槽
  • FFmpeg: 自实现ijkplayer播放器-02环境搭建
  • Redis从入门到精通(十七)多级缓存(二)Lua语言入门、OpenResty集群的安装与使用
  • pytest常用钩子函数
  • .Net <% %>
  • 【C语言__编译和链接__复习篇2】