当前位置: 首页 > news >正文

网易有道开源语音合成引擎“易魔声”

概述

11 月 10 日,网易有道正式上线“易魔声”开源语音合成(TTS)引擎,所有用户可免费在开源社区 GitHub 进行下载使用,通过其提供的 web 界面及批量生成结果的脚本接口,轻松实现音色的情感合成与应用。

据悉,“易魔声”是一款有道自研 TTS 引擎,目前支持中英文双语,包含 2000 多种不同的音色,更有特色的情感合成功能,支持合成包含快乐、兴奋、悲伤、愤怒等广泛情感的语音。只需简单通过在文本中加入情感的描述提示,就可以自由合成符合自己需求的带有情感的语音,比传统 TTS 更加自然逼真。

随着基于 GAN 等现代 AI 技术的语音能力越来越成熟,实现一个质量较高的 TTS 系统的门槛越来越低。但即使如此,中英双语的高质量、现代 TTS 模块还是不易找到,要在自己的应用与内容中加入高逼真度且高度可控的语音,特别是中英双语的语音,也依然比较麻烦。

网易有道 CEO 周枫表示,“目前该项目还处于初期阶段,现在将这个项目开源,也是希望能帮助到有需求的开发者与内容创作者,并不断扩大高质量 TTS 的应用范围,让产品及应用更好地落地。也期待大家试用后给我们提供更多反馈与建议。”

快速入门

EmotiVoice Docker镜像

尝试EmotiVoice最简单的方法是运行docker镜像。你需要一台带有NVidia GPU的机器。先按照Linux和Windows WSL2平台的说明安装NVidia容器工具包。然后可以直接运行EmotiVoice镜像:

docker run -dp 127.0.0.1:8501:8501 syq163/emoti-voice:latest

现在打开浏览器,导航到 http://localhost:8501 ,就可以体验EmotiVoice强大的TTS功能。

完整安装

conda create -n EmotiVoice python=3.8 -y
conda activate EmotiVoice
pip install torch torchaudio
pip install numpy numba scipy transformers==4.26.1 soundfile yacs g2p_en jieba pypinyin

准备模型文件

git lfs install
git lfs clone https://huggingface.co/WangZeJun/simbert-base-chinese WangZeJun/simbert-base-chinese

推理

1,下载预训练模型, 然后运行:

mkdir -p outputs/style_encoder/ckpt
mkdir -p outputs/prompt_tts_open_source_joint/ckpt

2,将g_*, do_*文件放到outputs/prompt_tts_open_source_joint/ckpt,将checkpoint_*放到outputs/style_encoder/ckpt中.

3,推理输入文本格式是:|<style_prompt/emotion_prompt/content>||.

例如: Maria_Kasper|非常开心|<sos/eos>  uo3 sp1 l ai2 sp0 d ao4 sp1 b ei3 sp0 j ing1 sp3 q ing1 sp0 h ua2 sp0 d a4 sp0 x ve2 <sos/eos>|我来到北京,清华大学.

4,其中的音素(phonemes)可以这样得到:python frontend.py data/my_text.txt > data/my_text_for_tts.txt.

5,然后运行:

TEXT=data/inference/text
python inference_am_vocoder_joint.py \
--logdir prompt_tts_open_source_joint \
--config_folder config/joint \
--checkpoint g_00140000 \
--test_file $TEXT

合成的语音结果在:outputs/prompt_tts_open_source_joint/test_audio.

6,或者你可以直接使用交互的网页界面:

pip install streamlit
streamlit run demo_page.py

参考链接:https://github.com/netease-youdao/EmotiVoice

http://www.lryc.cn/news/230008.html

相关文章:

  • [量子计算与量子信息] 2.1 线性代数
  • 【PG】PostgreSQL 目录结构
  • H5游戏源码分享-超级染色体小游戏
  • NOIP 2017 宝藏----Java题解
  • 数据结构和算法的重要性
  • 2023.11.10 信息学日志
  • 0基础学习VR全景平台篇第120篇:极坐标处理接缝 - PS教程
  • Python---综合案例:通讯录管理系统---涉及点:列表、字典、死循环
  • Vite探索:构建、启程、原理、CSS艺术与插件魔法
  • 网工内推 | 网工校招,金融、软件行业,HCIE认证优先,最高15薪
  • CVE-2023-25194 Kafka JNDI 注入分析
  • MySQL--主从复制和读写分离
  • JavaScript使用webcomponent的简单示例
  • LeetCode(10)跳跃游戏 II【数组/字符串】【中等】
  • 浅谈数据结构之递归
  • 在CentOS7环境下安装Mysql
  • 苍穹外卖-day10
  • 牛客网刷题笔记131111 Python实现LRU+二叉树先中后序打印+SQL并列排序
  • TCP网络编程
  • K8S知识点(九)
  • el-table实现单选和隐藏全选框和回显数据
  • 香港科技大学广州|智能制造学域机器人与自主系统学域博士招生宣讲会—中国科学技术大学专场
  • [P7885][Android13] 解决5G信号良好状态栏信号只有两格的问题
  • 老版本goland无法调试新版本go问题处理
  • Redis应用之二分布式锁2
  • 打印字符(C++)
  • React函数组件的使用(Hooks)
  • 一篇博客读懂队列——Queue
  • Effective C++ 系列和 C++ Core Guidelines 如何选择?
  • Sandbox: bash(5613) deny(1) file-write-create 错误解决