当前位置: 首页 > news >正文

我的AI工具箱Tauri版-通用音频转文本

本模块支持FunAsrFasterWhisper两种模式,可批量处理音频视频文件,自动生成txt文本srt字幕,满足多种应用场景需求。 工具内置FunAsr,无需额外参数调整,特别适用于中文语音的高质量转录,确保识别准确率与自然流畅度。而FasterWhisper作为Whisper的升级版本,不仅提升了处理速度,还支持多语言转录,用户可灵活调整参数,以适应更复杂的应用需求。

该工具支持批量处理模式,可快速转换整个目录下的多个音视频文件,大幅提升工作效率。简洁直观的界面配合强大的语音识别技术,使用户能够轻松完成转录任务,广泛适用于字幕制作、内容存档、语音笔记等场景,为多媒体创作信息处理提供便捷支持。

文章目录

  • 操作使用
    • 文件配置
    • 参数配置
  • 应用示例
  • 开发与应用

操作使用

进入软件后可以直接搜索 通用音频转文本 进入该模块。

在这里插入图片描述

文件配置

功能按钮功能类别功能描述
选择音频/视频目录目录选择选择需转换的文件目录,仅支持音频和视频类型文件,执行任务前自动校验路径有效性。
输出路径目录选择设置音频文件的保存位置,默认使用系统设定的统一输出路径,并自动校验路径有效性。
文本转语音方式模式选择选择转录模式(FunAsr或FasterWhisper)进行音频/视频转录。

在这里插入图片描述

参数配置

FunAsr音频转录参数设置

选项参数选择模式说明
damo模型目录默认配置需要按照 《我的AI工具箱Tauri+Django环境开发,支持局域网使用》 将模型下载到指定目录并解压缩
icc模型目录默认配置需要按照 《我的AI工具箱Tauri+Django环境开发,支持局域网使用》 将模型下载到指定目录并解压缩

在这里插入图片描述

FasterWhisper音频转录参数设置

🚨此转换模式需要有显卡能够进行进行操作,否则会很慢。🚨

选项参数选择模式说明
模型目录默认配置需要按照 《我的AI工具箱Tauri+Django环境开发,支持局域网使用》 将模型下载到指定目录并解压缩
计算方式下拉选择选择计算精度(如 16 位整数)
CPU 线程下拉选择设置用于计算的 CPU 线程数量(如 4 线程)
工作线程下拉选择设置后台工作的线程数量(如 8 个)
语言选择下拉选择选择识别语言(如中文 简体)
语音活动检测开关启用或禁用语音活动检测功能
语音检测强度滑动条设置语音活动检测的敏感度(如 3%)
前后填充时间滑动条设置语音处理的前后填充时间(如 56ms)
最短持续时间滑动条设置语音片段的最短持续时间(如 33ms)
最短静音时间滑动条设置识别过程中最短的静音间隔(如 78ms)

在这里插入图片描述

应用示例

这里以选择目录下有各种音频和视频文件,在选择目录后选择转录方式,这里选择FunAsr模型,在保证已经从网盘中下载好模型之后直接执行即可。

在这里插入图片描述

执行完成之后会在输入目录下看到生成的音频文件。

在这里插入图片描述

开发与应用

软件使用以及综合参考资料内容可以查阅

文章链接内容描述
《我的AI工具箱Tauri+Django环境开发,支持局域网使用》图形桌面工具使用教程,详细介绍 Tauri+Django 环境的开发方法,支持局域网部署与使用。
《我的AI工具箱Tauri+Django常见错误与解决办法》常见错误与解决办法,针对 Tauri+Django 环境下可能遇到的问题提供实用的解决方案。
《我的AI工具箱Tauri+Django内容生产介绍和使用》包含当前主流新媒体领域常用的音频、视频剪辑,以及内容一键生产功能。
《ComfyUI使用教程、开发指导、资源下载》工作流相关内容讲解,涵盖文件管理、文件汇总、软件使用教程及开发指导,附带模型下载资源。
http://www.lryc.cn/news/546075.html

相关文章:

  • Vue.js计算属性
  • 品佳诚邀您参加 3/12『英飞凌汽车方案引领智能座舱新纪元』在线研讨会
  • 科普|无人机专业术语
  • Tauri跨平台开发问题及解决方案深度解析(React版)
  • 基于单片机和Wifi技术的智能台灯设计
  • ds回答-开源llm应用开发平台
  • 【量化策略】均值回归策略
  • iterm2更新后主题报错
  • 深度学习架构Seq2Seq-添加并理解注意力机制(一)
  • Kafka底层结构
  • [BUUCTF]web--wp(持续更新中)
  • axios请求设置request umijopenai生产前端请求 ts状态全局 v-if v-else 与动态js变量
  • SparkSQL全之RDD、DF、DS ,UDF、架构、资源划分、sql执行计划、调优......
  • 深入理解Linux内存缓存:提升性能的关键
  • STM32-FOC-SDK包含以下关键知识点
  • sql调优:优化响应时间(优化sql) ; 优化吞吐量
  • 【Mybatis】如何简单使用mybatis-plus,以及MybatisGenerator自动生成或者实现SQL语句
  • Halcon 车牌识别-超精细教程
  • LeetCode 25 - K 个一组翻转链表
  • 一文读懂智能硬件定位:开启智能时代的精准导航
  • 夸父工具箱(安卓版) 手机超强工具箱
  • Html5学习教程,从入门到精通,HTML5 列表语法知识点及案例代码(11)
  • 内核进程调度队列(linux的真实调度算法) ─── linux第13课
  • 16.7 LangChain LCEL 极简入门:Prompt + LLM 的黄金组合
  • Spring线程池学习笔记
  • ArcGIS操作:08 计算shp面积并添加到属性表
  • 安卓音频框架混音器
  • 左值引用与指针的区别
  • Linux基础使用和程序部署
  • Linux驱动开发之串口驱动移植