当前位置: 首页 > news >正文

【深度学习】CosyVoice,论文

CosyVoice_v1.pdf

文章目录

    • CosyVoice: A Scalable Multilingual Zero-shot Text-to-speech Synthesizer based on Supervised Semantic Tokens
    • 摘要
    • 1 引言
    • 2 CosyVoice: 使用监督语义标记的可扩展TTS模型
      • 2.1 用于语音的监督语义标记
      • 2.2 用于TTS的大型语言模型
      • 2.3 最优传输条件流匹配
        • 2.3.1 零样本上下文学习
      • 2.4 富生成与指令
    • 3 数据集
      • 3.1 小规模单语言数据集
      • 3.2 大规模多语言数据集
    • 4 实验设置
      • 4.1 S3标记器设置
      • 4.2 CosyVoice模型设置
    • 5 实验结果
      • 5.1 对S3标记器的评估
      • 5.2 与基线的比较
      • 5.3 对CosyVoice生成质量的评估
      • 5.4 CosyVoice的情感可控性
      • 5.5 CosyVoice作为数据生成器
    • 6 结论

https://github.com/FunAudioLLM/CosyVoice?tab=readme-ov-file

CosyVoice: A Scalable Multilingual Zero-shot Text-to-speech Synthesizer based on Supervised Semantic Tokens

Zhihao Du, Qian Chen, Shiliang Zhang, Kai Hu, Heng Lu, Yexin Yang, Hangrui Hu, Siqi Zheng, Yue Gu, Ziyang Ma, Zhijie Yan
Speech Lab, Alibaba Group, China
{neo.dzh,sly.zsl,h.lu}@alibaba-inc.com

摘要

近年来,基于大型语言模型(Large Language Model,LLM)的文本到语音(Text-to-Speech,TTS)技术由于其高度自然性和零样本能力,逐渐成为主流。在这一范式中,语音信号被离散化为标记序列,这些标记由LLM以文本为提示进行建模,并通过基于标记的声码器重建为波形。显然,语音标记在LLM基础的TTS模型中起着至关重要的作用。目前的语音标记是通过无监督方式学习的,缺乏明确的语义信息和与文本的对齐。在本文中,我们提出使用监

http://www.lryc.cn/news/411316.html

相关文章:

  • PHP8.3.9安装记录,Phpmyadmin访问提示缺少mysqli
  • [译] 深入浅出Rust基金会
  • Postman:API开发与测试的强大伴侣
  • Web应用的视界革命:WebKit支持屏幕方向API的深度解析
  • 【前端】一文带你了解 CSS
  • IT服务运营管理中的关键考核指标
  • 复习C语言从源文件.C到二进制.bin或可执行文件.exe文件的流程
  • 如何恢复硬盘里删除的数据?硬盘数据恢复真的可靠吗?2024最新解答!
  • Android Studio的新界面,怎么切换回老界面
  • 怎么用U盘重装系统
  • Spring事件快速上手
  • java算法递归算法练习-数组之和
  • 在kdevelop中运行程序并调试
  • MySQL数据库-SQL编程
  • TypeError: Components is not a function
  • GuLi商城-商品服务-API-平台属性-销售属性维护
  • 使用Leaflet GeoMan结合天地图进行自由标绘实战
  • Flutter自定义通用防抖的实现
  • C# Unity 面向对象补全计划 之 继承(字段与属性)
  • leetcode202. 快乐数,双指针法巧用
  • 基于Cobbler实现多版本系统批量部署
  • 一投就中不是梦,录取率>80%,最快1个月就见刊,计算机沾边就收,认可度还不低
  • 【课程系列06】某乎AI大模型全栈工程师-第6期
  • Prompt——3分钟掌握,润色论文的7条经典指令。帮助很大,一定要看!
  • ARM学习(31)编译器对overlay方式的支持
  • 【YashanDB知识库】yasdb jdbc驱动集成BeetISQL中间件,业务(java)报autoAssignKey failure异常
  • 软件测试——用例篇(上)
  • Flink中三种模式:YARN Session 模式、YARN Per-Job 模式和 YARN Application 模式提交任务命令
  • DBMS-1.2 关系运算
  • Python——继承