当前位置：首页 > news >正文

机器学习笔记 - 文字转语音技术路线简述以及相关工具不完全清单

news 2025/8/24 23:21:57

一、TTS技术简述

今天的文本到语音转换技术（TTS）的目标已经不仅仅是让机器说话，而是让它们听起来像不同年龄和性别的人类。通常，TTS 系统合成器的质量是从不同方面进行评估的，包括合成语音的清晰度、自然度和偏好，以及人类感知因素，例如可理解性。

拼接合成（Concatenative Synthesis）的方法就是将预先录制好的语音片段存储在数据库中，根据输入文本，选择并拼接相应的语音片段来合成语音。这种方式语音质量高，自然度好。但需要大量的语音数据，灵活性较差，难以适应新的发音或语调变化。

一些开源项目Festival:、 MaryTTS、Flite等。

参数合成(Parametric Synthesis)的方法是使用统计模型来学习语音的声学特征，并根据输入文本生成语音参数，最终合成语音。其背后的想法是，如果我们能够对构成语音的参数进行近似，我们就可以训练一个模型来生成各种语音。参数方法结合参数，包括基频、幅度谱等，并处理它们以生成语音。

第一步，处理文本以提取语言特征，例如音素或持续时间。第二步需要提取声码器特征，例如倒谱、频谱图、基频等，这些特征代表人类语音的一些固有特征