当前位置: 首页 > news >正文

Whisper + NemoASR + ChatGPT 实现语言转文字、说话人识别、内容总结等功能

引言

2023年,IT领域的焦点无疑是ChatGPT,然而,同属OpenAI的开源产品Whisper似乎鲜少引起足够的注意。

Whisper是一款自动语音识别系统,可以识别来自99种不同语言的语音并将其转录为文字。

如果说ChatGPT为计算机赋予了大脑,那么Whisper则为其赋予了耳朵。

想象一下,在企业应用领域,我们能够利用Whisper将语音转化为文字,然后再借助ChatGPT来进行翻译或总结。

接下来,我们将以实际操作为出发点,逐步向您介绍如何利用AI实现音频、视频的内容总结。

前期准备

GPU

首先,我们需要解决硬件方面的问题。

虽然OpenAI提供了HTTP API来调用Whisper,但对于企业而言,将内部内容交给OpenAI始终存在一定的安全风险。

本地运行AI模型则需要大量的计算资源。

如果仅使用CPU进行计算,一个大约10分钟的语音转录任务可能需要花费4倍以上的时间。

因此,我们必须引入GPU进行计算加速。

考虑到Colab在国内无法访问,我们建议在Kaggle上运行演示。

请大家注册Kaggle账户,并完成手机号验证(Kaggle的GPU需要完成手机号验证后才能使用)。


Azure ChatGPT

ChatGPT是我们语音内容总结的核心工具。

我们建议使用Azure OpenAI服务。

您可以参考以下文章来申请:Azure OpenAI Service申请教程

kintone

kintone是我们用来存储记录的平台。我们需要创建一个名为“Reports”的应用程序(APP),并定义以下表单字段:

运行

您可以在这里找到演示代码:

GitHub - kintone-samples/SAMPLE-kintone-narrator-cn: Utilize AI to summarize video/audio content and upload it to Kintone.

点击“open in kaggle”。

00164f6dc8a7463221b0c1bb9b2d132

请按照以下步骤操作:

1.点击Edit,进入编辑状态

00164f6dd30805db352f635f6511303


 

2.在右侧的Notebook options中,我们需要将Acceleator选为GPU T4*2

00164f6de1cb8f79ede4e3cedd09de5

00164f6de75531264fadfc118551c7e

注:

  1. 没验证手机的账户不会显示Acceleator选项。

  2. GPU P100不支持当前默认float16运算,选择该显卡的用户请将“语音转录&对齐”中的compute_type设为float32。

  3. TPU尚未测试支持。

3.找到名为“Azure OpanAI ChatGPT 总结”和“将总结内容上传”的代码单元(cell),然后根据您自己的环境设置进行配置。

00164f6e1d975a5e44ae378895cf138

00164f6e294a2cedda5abe87c7d923b

4.点击页面上方的“Run All”按钮以开始运行演示。

00164f6e0f2c6d0a761f9e64df41428

等待程序运行结束即可。

下面我将对会每个代码单元的功能进行简要说明,感兴趣的可以继续往下研究:

Whisper + NemoASR + ChatGPT 实现语言转文字、说话人识别、内容总结等功能

http://www.lryc.cn/news/173405.html

相关文章:

  • 795. 区间子数组个数
  • Request method ‘GET‘ not supported,不支持GET形式访问
  • 数据结构与算法(C语言版)P2---线性表之顺序表
  • AI写文章软件-怎么选择不同的AI写文章软件
  • VSCode远程连接服务器报错:Could not establish connection to
  • openssl 用法整理 —— 筑梦之路
  • Mac安装SPSS 26(含安装包)
  • uniapp存值和取值方法
  • Apache Beam 2.50.0发布,该版本包括改进功能和新功能
  • 华为云云耀云服务器 L 实例评测|配置教程 + 用 Python 简单绘图
  • 栈的简单应用(利用Stack进行四则混合运算)(JAVA)
  • Python---异常
  • 视频编解码器H.264和H265有什么区别?
  • 网络安全进阶学习第十六课——业务逻辑漏洞介绍
  • 华为OD:跳房子I
  • C语言自定义类型详解(1)结构体知识汇总
  • 小程序中如何查看会员的访问记录
  • SpringCloud Alibaba - Sentinel
  • 内存泄漏,内存溢出,抽象类和接口,netstat、ping、ifconfig的区别
  • TensorFlow安装 ,在原本的虚拟环境下配置Tensorflow.
  • 如何使用HTML, CSS和JavaScript开发一个浏览器打字游戏:从零到一的详细步骤与完整代码教程
  • 安卓玩机搞机----不用刷第三方官改固件即可享受“高级设置”的操作 ChiMi安装使用步骤
  • 代码随想录|392.判断子序列,115.不同的子序列(需要二刷)
  • Linux——文件系统
  • 《动手学深度学习 Pytorch版》 7.3 网络中的网络(NiN)
  • 古代有没有电子元器件?
  • log4j2或者logback配置模版实现灵活输出服务名
  • 使用HTTP爬虫ip中的常见误区与解决方法
  • MySQL学习笔记3
  • 快速掌握ES6