当前位置：首页 > news >正文

Kaldi语音识别技术(八) ----- 整合HCLG

news 2025/8/25 16:27:55

Kaldi语音识别技术(八) ----- 整合HCLG

文章目录

Kaldi语音识别技术(八) ----- 整合HCLG
- HCLG 概述
- 组合LG.fst
- - - 可视化 LG.fst
- 组合CLG.fst
- - - 可视化CLG.fst
- 生成H.fst
- 组合HCLG.fst
- - 生成HaCLG.fst
  - 生成HCLG.fst

HCLG 概述

HCLG= min(det(H o min(det(C o min(det(L o G）))))

将四者逐层合并，即可得到最后的图。其中， o表示组合，det表示确定化，min表示最小化。

WFST的融合一般是从大到小，即先将G与L进行融合，再一次融合C、H，每次融合都要进行确定化（determinisation）和最小化（minimisation），最小化是指将WFST转换为一个状态节点和边更少的等价WFST，提高搜索的效率。HCLG的组合可以参考 kaldi/wsj/s5/utils/mkgraph.sh

在这里插入图片描述

组合LG.fst

fsttablecompose

用法:

fsttablecompose 
Composition algorithm [between two FSTs of standard type, in tropical
semiring] that is more efficient for certain cases-- in particular,
where one of the FSTs (the left one, if --match-side=left) has large
out-degreeUsage:  fsttablecompose (fst1-rxfilename|fst1-rspecifier) (fst2-rxfilename|fst2-rspecifier) [(out-rxfilename|out-rspecifier)]

使用实列:

cd ~/kaldi && mkdir HCLG
fsttablecompose ~/kaldi/data/L/lang/L_disambig.fst ~/kaldi/data/G/normal/G.fst | fstdeterminizestar --use-log=true | fstminimizeencoded | fstpushspecial | fstarcsort --sort_type=ilabel > ~/kaldi/data/HCLG/LG.fst

在这里插入图片描述

fstisstochastic 这是一个诊断步骤，他打印出两个数字，最小权重和最大权重

fsttablecompose 将两个fst(L.fst、G.fst)合并成一个fst(LG.fst),将前端输出字符对应上后端输入即可，合并后前端输入作为合并后fst之输入，后端输出作为合并后输出；

fstdeterminizestar 做确定化(从一个状态接收同一个输入后只会跳转到一个状态)，消除空转移，降低图的冗余度；

fstminimizeencoded 将fst最小化，将权重尽量前推，尽量利用上语言模型的信息，避免重要路径被剪枝；

fstisstochastic 进行归一化，保证状态上各输出概率之合为1。

可视化 LG.fst

fstprint

cd ~/kaldi/data
fstprint --isymbols=./G/normal/phones.txt --osymbols=./G/normal/words.txt ./HCLG/LG.fst > ./HCLG/LG.txt

在这里插入图片描述

fstdraw

fstdraw --isymbols=./G/normal/phones.txt --osymbols=./G/normal/words.txt ./HCLG/LG.fst > ./HCLG/LG.dot  # 生成dot文件
dot -Tsvg ./HCLG/LG.dot > LG.svg # 转成svg矢量图(放大不会失真)

所需时间很长，不进行尝试。

组合CLG.fst

fstcomposecontext

用法：

fstcomposecontext 
Composes on the left with a dynamically created context FSTUsage:  fstcomposecontext <ilabels-output-file>  [<in.fst> [<out.fst>] ]
E.g:  fstcomposecontext ilabels.sym < LG.fst > CLG.fst

使用实列：

cd ~/kaldi/data/HCLG
fstcomposecontext --context-size=1 --central-position=0 --read-disambig-syms=/root/kaldi/data/G/normal/phones/disambig.int --write-disambig-syms=disambig_ilabels.int disambig_ilabels < LG.fst > CLG.fst

参数详解：
–context-size=1 单音素模型
–central-position=0 中间音素位置为0
–read-disambig-syms disambig.int来自生成的L或G过程中生成的phones文件夹中的文件，输入文件LdG-Ngram.fst来自于上一步合并的LdG-Ngram.fst模型。

在这里插入图片描述

在Kaldi中一般不会显式创建出单独的C.fst再和LG 组合，不用fsttablecompose命令，而是使用fstcomposecontext 工具根据LG.fst动态的生成CLG.fst。当然也可以先创建C.fst，然后使用fsttablecompose命令融合，但是这种方式相当耗时。这里构建出来disambig_ilabels.int和disambig_ilabels 2个文件，用于生成Ha.fst。

可视化CLG.fst

fstprint

fstprint fstprint --isymbols=../G/normal/phones.txt --osymbols=../G/normal/words.txt ./CLG.fst > CLG.txt

在这里插入图片描述

fstdraw

fstdraw --isymbols=./G/normal/phones.txt --osymbols=../G/normal/words.txt ../CLG.fst > CLG.dot # 再使用dot工具转为图片即可

生成H.fst

make-h-transducer

make-h-transducer是基于HMM拓扑结构构建不带自转移的声学模型Ha.fs

用法：

make-h-transducer 
Make H transducer from transition-ids to context-dependent phones, without self-loops [use add-self-loops to add them]
Usage:   make-h-transducer <ilabel-info-file> <tree-file> <transition-gmm/acoustic-model> [<H-fst-out>]
e.g.: make-h-transducer ilabel_info  1.tree 1.mdl > H.fst

使用实列：

make-h-transducer disambig_ilabels /root/kaldi/data/H/mono/tree /root/kaldi/data/H/mono/final.mdl > Ha.fst

参数详解：
第一个输入参数（disambig_ilabels ）为组合CLG.fst时生成的。
第二个输入参数为 GMM训练生成的决策树（tree）。
第三个输入参数为 GMM训练生成的最终模型。(Ha.fst中的a表示没有自环（self-loop）)。
在这里插入图片描述

组合HCLG.fst

生成HaCLG.fst

fsttablecompose

fstrmsymbols：去除HaCLG.fst模型中与消歧相关的转移。disambig_tid.int为组合CLG.fst时生成的。

用法：

fsttablecompose 
Composition algorithm [between two FSTs of standard type, in tropical
semiring] that is more efficient for certain cases-- in particular,
where one of the FSTs (the left one, if --match-side=left) has large
out-degree
Usage:  fsttablecompose (fst1-rxfilename|fst1-rspecifier) (fst2-rxfilename|fst2-rspecifier) [(out-rxfilename|out-rspecifier)]

使用实列：

fsttablecompose Ha.fst CLG.fst | fstdeterminizestar --use-log=true | fstrmsymbols disambig_tid.int | fstrmepslocal | fstminimizeencoded | fstpushspecial > HaCLG.fst

在这里插入图片描述

1、为HaCLG.fst模型添加自环

add-self-loops --self-loop-scale=0.1 --reorder=true /root/kaldi/data/H/mono/final.mdl < HaCLG.fst

生成HCLG.fst

2、将HaCLG转换为HCLG

fstconvert --fst_type=const HaCLG.fst >HCLG.fst

在这里插入图片描述

至此，HCLG.fst已经生成，整个kaldi语音识别系统的核心内容已经构建完成，只需要将其进行应用即可！

有问题欢迎私信或者留言探讨，完整的虚拟机克隆后面会放评论区，感谢支持！

推荐文章: Kaldi的HCLG构图过程可视化

查看全文

http://www.lryc.cn/news/15974.html

day17_异常

vue中把node-sass换成dart-sass方式（解决办法）

深入浅出深度学习Pytroch

CCNP350-401学习笔记（451-500题）

3年功能测试经验，面试想拿到15k很难吗？

【7/101】101次面试之测试技术面试题

【蓝桥杯每日一题】前缀和算法

【C#基础】C# 常用数据结构

MySql 及MyBatis数据的批量操作

无代码表格数据库——一个企业数字化新物种

第十三届蓝桥杯国赛 C++ C组 F 题、Python B组 E 题——近似GCD（AC）

分享5款小众良心软件，好用到让人惊艳

WAF是什么？一篇文章带你全面了解WAF

django项目实战八（django+bootstrap实现增删改查）进阶验证码

IP 协议

好用的SQL工具盘点：从学习到工作总有一款适合你

Memcache介绍

PTA：C课程设计（1）

第二十篇 ResNet——模型讲解

LeetCode经典算法题：矩阵中省份数量经典题目+三角形最大周长java多种解法详解

Vue3通透教程【一】Vue3现状—必然趋势？

打破数据孤岛，Apache Doris 助力纵腾集团快速构建流批一体数仓架构｜最佳实践

什么是真正的骨传导耳机，骨传导耳机原理

[MySQL]基本数据类型及表的基本操作

华为OD机试 - 好朋友（Python） | 机试题+算法思路+考点+代码解析【2023】

SAP ABAP用程序给用户增加SAP_ALL权限

stm32f407探索者开发板（二十）——独立看门狗实验

C语言进阶（五）—— 多维数组

06_MySQL多表查询

程序员赚钱指南，兼职社区招募

Kaldi语音识别技术(八) ----- 整合HCLG

文章目录

HCLG 概述

组合LG.fst

可视化 LG.fst

组合CLG.fst

可视化CLG.fst

生成H.fst

组合HCLG.fst

生成HaCLG.fst

生成HCLG.fst

相关文章：