当前位置: 首页 > news >正文

阿里达摩院:FunASR - onnxruntime 部署

阿里达摩院:FunASR - onnxruntime 部署

git clone https://github.com/alibaba/FunASR.git 

切换到 onnxruntime

 cd FunASR/runtime/onnxruntime

1下载 onnxruntime

wget https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/dep_libs/onnxruntime-linux-x64-1.14.0.tgz
tar -zxvf onnxruntime-linux-x64-1.14.0.tgz

/media/wmx/soft1/software/onnxruntime/onnxruntime-linux-x64-1.14.0

2下载 ffmpeg

wget https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/dep_libs/ffmpeg-master-latest-linux64-gpl-shared.tar.xz
tar -xvf ffmpeg-master-latest-linux64-gpl-shared.tar.xz

我这里用之前下载的 /media/wmx/ws1/ffmpeg-n6.0

3安装依赖

# openblas
sudo apt-get install libopenblas-dev #ubuntu
# sudo yum -y install openblas-devel #centos# openssl
apt-get install libssl-dev #ubuntu 
# yum install openssl-devel #centos

4编译 onnxruntime 工程:

#cd FunASR/runtime/onnxruntime
mkdir build && cd build
cmake  -DCMAKE_BUILD_TYPE=release .. -DONNXRUNTIME_DIR=/media/wmx/soft1/software/onnxruntime/onnxruntime-linux-x64-1.14.0  -DFFMPEG_DIR=/media/wmx/ws1/ffmpeg-n6.0
make -j 12

生成在 onnxruntime/build/bin/ 路径下:

5切换到websocket 工程:

#cd FunASR/runtime/websocket
mkdir build && cd build
cmake  -DCMAKE_BUILD_TYPE=release .. -DONNXRUNTIME_DIR=/media/wmx/soft1/software/onnxruntime/onnxruntime-linux-x64-1.14.0 -DFFMPEG_DIR=/media/wmx/ws1/ffmpeg-n6.0
make -j 12

生成在路径下 FunASR/runtime/websocket/build/bin/

6手动下载模型

因为自动下载模型需要 FunASR 的python 环境和相关依赖,这里是runtime ,没有安装这些,所以手动下载
modelscope : https://www.modelscope.cn/models
直接搜索模型名称,然后下载,我放在modelscope配置的路径下 /media/wmx/soft1/huggingface_cache/hub
模型名称:

iic/speech_fsmn_vad_zh-cn-16k-common-onnx 
iic/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorch  
iic/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-onnx
iic/punc_ct-transformer_cn-en-common-vocab471067-large-onnx 
iic/speech_ngram_lm_zh-cn-ai-wesp-fst 
thuduj12/fst_itn_zh 

修改 FunASR/runtime/run_server.sh
指定模型路径,其中 gpu 、cpu 推理 2选1

download_model_dir="/media/wmx/soft1/huggingface_cache/hub"# 这是 gpu 推理
model_dir="iic/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorch" # 这是 cpu 推理
#model_dir="iic/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-onnx"  vad_dir="iic/speech_fsmn_vad_zh-cn-16k-common-onnx"
punc_dir="iic/punc_ct-transformer_cn-en-common-vocab471067-large-onnx"
itn_dir="thuduj12/fst_itn_zh"
lm_dir="iic/speech_ngram_lm_zh-cn-ai-wesp-fst"

7 准备音频文件

 #cd FunASR/runtime/
wget https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/asr_example_zh.wav

8 运行server

 #cd FunASR/runtime/./run_server.sh 

9 运行client

#cd FunASR/runtime/
./websocket/build/bin/funasr-wss-client --server-ip 127.0.0.1 --port 10095 --wav-path ./asr_example_zh.wav

输出:

(base) wmx@wmx-ubuntu:/media/wmx/soft1/AI-model/FunASR/runtime$  ./websocket/build/bin/funasr-wss-client --server-ip 127.0.0.1 --port 10095 --wav-path /media/wmx/ws3/AI/data/audios/zh/asr_example.wavI20240912 23:57:06.561726 80170 funasr-wss-client.cpp:315] Thread: 127658211935744, sended data len=177572
I20240912 23:57:06.768560 80172 funasr-wss-client.cpp:101] Thread: 127658190964224, total_recv=1, on_message = {"is_final":false,"mode":"offline","stamp_sents":[{"end":5195,"punc":"。","start":880,"text_seg":"欢 迎 大 家 来 体 验 达 摩 院 推 出 的 语 音 识 别 模 型","ts_list":[[880,1120],[1120,1380],[1380,1540],[1540,1780],[1780,2020],[2020,2180],[2180,2480],[2480,2600],[2600,2780],[2780,3040],[3040,3240],[3240,3480],[3480,3699],[3699,3900],[3900,4180],[4180,4420],[4420,4620],[4620,4780],[4780,5195]]}],"text":"欢迎大家来体验达摩院推出的语音识别模型。","timestamp":"[[880,1120],[1120,1380],[1380,1540],[1540,1780],[1780,2020],[2020,2180],[2180,2480],[2480,2600],[2600,2780],[2780,3040],[3040,3240],[3240,3480],[3480,3699],[3699,3900],[3900,4180],[4180,4420],[4420,4620],[4620,4780],[4780,5195]]","wav_name":"wav_default_id"}
I20240912 23:57:06.768589 80172 funasr-wss-client.cpp:106] Thread: 127658190964224, close client thread

on_message 返回的就是 json :

{"is_final":false,"mode":"offline","stamp_sents":[{"end":5195,"punc":"。","start":880,"text_seg":"欢 迎 大 家 来 体 验 达 摩 院 推 出 的 语 音 识 别 模 型","ts_list":[[880,1120],[1120,1380],[1380,1540],[1540,1780],[1780,2020],[2020,2180],[2180,2480],[2480,2600],[2600,2780],[2780,3040],[3040,3240],[3240,3480],[3480,3699],[3699,3900],[3900,4180],[4180,4420],[4420,4620],[4620,4780],[4780,5195]]}],"text":"欢迎大家来体验达摩院推出的语音识别模型。","timestamp":"[[880,1120],[1120,1380],[1380,1540],[1540,1780],[1780,2020],[2020,2180],[2180,2480],[2480,2600],[2600,2780],[2780,3040],[3040,3240],[3240,3480],[3480,3699],[3699,3900],[3900,4180],[4180,4420],[4420,4620],[4620,4780],[4780,5195]]","wav_name":"wav_default_id"}

提取其中的 text 字段的值,就是解码结果 "欢迎大家来体验达摩院推出的语音识别模型。"

http://www.lryc.cn/news/436493.html

相关文章:

  • SpringMvc注解
  • 队列的基本概念及顺序实现
  • Leetcode 最长连续序列
  • linux网络编程——UDP编程
  • 第四部分:1---文件内核对象,文件描述符,输出重定向
  • 如何在开发与生产环境中应用 Flask 进行数据库管理:以 SQLAlchemy 和 Flask-Migrate 为例
  • 【Java零基础】Java核心知识点之:Map
  • 9.12日常记录
  • 光纤的两种模式
  • SpringMVC的初理解
  • Python 基本库用法:数学建模
  • Android Greendao的数据库复制到设备指定位置
  • Ajax 揭秘:异步 Web 交互的艺术
  • TitleBar:打造高效Android标题栏的新选择
  • Lua协同程序Coroutine
  • 【vue+帆软】帆软升级,从版本9升级到版本11,记录升级过程
  • linux从0到1 基础完整知识
  • “人大金仓”正式更名为“电科金仓”; TDSQL-C支持回收站/并行DDL等功能; BigQuery支持直接查询AlloyDB
  • 大模型微调 - 用PEFT来配置和应用 LoRA 微调
  • Ubuntu构建只读文件系统
  • 【黑金系】金融UI/UX体验设计师面试作品集 Figma源文件分享
  • Golang | Leetcode Golang题解之第392题判断子序列
  • Liunx常用指令
  • CSS基础:浮动(float)如何使用清楚以及代替方法
  • margin重叠该怎么解决?
  • Linux学习笔记(黑马程序员,前四章节)
  • tekton pipeline resources
  • 使用Python实现多个PDF文件的合并
  • 微擎忘记后台登录用户名和密码怎么办?解决方法
  • blender我的对称模型好像中点被我不小心移动了 我现在如果雕刻 两边修改的地方不是对称的 我该怎么办