当前位置：首页 > news >正文

LLM 中语音编码与文本embeding的本质区别

news 2025/8/15 12:43:53

直接使用语音编码，是什么形式，和文本的区别

直接使用语音编码的形式

语音编码是将模拟语音信号转换为数字信号的技术，其核心是对语音的声学特征进行数字化表征，直接承载语音的物理声学信息。其形式可分为以下几类：

1. 基于波形的编码（保留原始波形特征）

脉冲编码调制（PCM）：最基础的语音编码形式，通过“采样-量化-编码”三步将连续语音波形离散化为数字信号。例如电话系统早期使用的G.711编码（8kHz采样，8bit量化），直接保存语音波形的振幅、频率等物理参数。
自适应差分脉冲编码（ADPCM）：通过记录相邻采样点的差值（而非绝对值）实现压缩，减少数据量（如G.726编码），但仍以波形还原为核心。

2. 基于参数的编码（提取语音特征参数）

不直接保存波形，而是提取语音的关键声学参数（如基频、共振峰等），通过参数重建语音。例如：

线性预测编码（LPC）：通过预测器模拟 vocal tract（声道）的共振特性，提取线性预测系数（LPC系数），仅保存残差信号和基频（F0），适用于低比特率场景（如卫星通信）。
码激励线性预测（CELP）：结合L

http://www.lryc.cn/news/621178.html

相关文章：

[论文阅读] 人工智能 + 软件工程 | 从模糊到精准：模块化LLM agents（REQINONE）如何重塑SRS生成

OpenCV图像处理2：边界填充与平滑滤波实战

数据结构之顺序表相关算法题

latex 中破折号的输入

【PCB设计经验】3D模型在线预览！效率便捷！

【浅学】tflite-micro + ESP32S3 + VScode + ESP-IDF 基于例程快速实现自己的图像分类模型训练部署全流程

Python学习-----3.基础语法（2）

异步同步，阻塞非阻塞，reactor/proactor

spring boot配置es

CPP模板编程

Redis7学习--持久化机制 RDB与AOF

汽车生产线白皮书：稳联技术Profinet转Ethernet IP网关通信高效性

StarRocks优化统计分析

Redis入门到实战教程，深度透析redis

零信任架构（Zero Trust Architecture, ZTA）（通过动态验证和最小权限控制，实现对所有访问请求的严格授权和持续监控）

Java应用架构实战指南：主流模式解析与Spring落地实践

diffusers库学习--pipeline，模型，调度器的基础使用

Docker exec进入容器命令的入门教程

使用正则表达式 \s+ 作为分隔符处理字符串

【cmake】编译cpp文件，安装MinGW

Python 进阶详解：正则表达式与 JSON —— 文本处理与数据交换的核心技能

K8s-持久化存储

第1节：多模态大模型入门（多模态大模型基础教程）

Spring Boot + Redis + 布隆过滤器防止缓存穿透

UML函数原型中constraint的含义，有啥用？

读《精益数据分析》：移情（Empathy）—— 验证真实需求，避免伪需求陷阱

加密货币交易所开发：如何打造安全、高并发的数字资产交易平台？

7、C 语言数组进阶知识点总结

分布式事务、锁、链路追踪