当前位置: 首页 > news >正文

LLM 中 语音编码与文本embeding的本质区别

直接使用语音编码,是什么形式,和文本的区别

直接使用语音编码的形式

语音编码是将模拟语音信号转换为数字信号的技术,其核心是对语音的声学特征进行数字化表征,直接承载语音的物理声学信息。其形式可分为以下几类:

1. 基于波形的编码(保留原始波形特征)
  • 脉冲编码调制(PCM):最基础的语音编码形式,通过“采样-量化-编码”三步将连续语音波形离散化为数字信号。例如电话系统早期使用的G.711编码(8kHz采样,8bit量化),直接保存语音波形的振幅、频率等物理参数。
  • 自适应差分脉冲编码(ADPCM):通过记录相邻采样点的差值(而非绝对值)实现压缩,减少数据量(如G.726编码),但仍以波形还原为核心。
2. 基于参数的编码(提取语音特征参数)

不直接保存波形,而是提取语音的关键声学参数(如基频、共振峰等),通过参数重建语音。例如:

  • 线性预测编码(LPC):通过预测器模拟 vocal tract(声道)的共振特性,提取线性预测系数(LPC系数),仅保存残差信号和基频(F0),适用于低比特率场景(如卫星通信)。
  • 码激励线性预测(CELP):结合L
http://www.lryc.cn/news/621178.html

相关文章:

  • [论文阅读] 人工智能 + 软件工程 | 从模糊到精准:模块化LLM agents(REQINONE)如何重塑SRS生成
  • OpenCV图像处理2:边界填充与平滑滤波实战
  • 数据结构之顺序表相关算法题
  • latex 中破折号的输入
  • 【PCB设计经验】3D模型在线预览!效率便捷!
  • 【浅学】tflite-micro + ESP32S3 + VScode + ESP-IDF 基于例程快速实现自己的图像分类模型训练部署全流程
  • Python学习-----3.基础语法(2)
  • 异步同步,阻塞非阻塞,reactor/proactor
  • spring boot配置es
  • CPP模板编程
  • Redis7学习--持久化机制 RDB与AOF
  • 汽车生产线白皮书:稳联技术Profinet转Ethernet IP网关通信高效性
  • StarRocks优化统计分析
  • Redis入门到实战教程,深度透析redis
  • 零信任架构(Zero Trust Architecture, ZTA)(通过动态验证和最小权限控制,实现对所有访问请求的严格授权和持续监控)
  • Java应用架构实战指南:主流模式解析与Spring落地实践
  • diffusers库学习--pipeline,模型,调度器的基础使用
  • Docker exec进入容器命令的入门教程
  • 使用正则表达式 \s+ 作为分隔符处理字符串
  • 【cmake】编译cpp文件,安装MinGW
  • Python 进阶详解:正则表达式与 JSON —— 文本处理与数据交换的核心技能
  • K8s-持久化存储
  • 第1节:多模态大模型入门(多模态大模型基础教程)
  • 安装 Nginx
  • Spring Boot + Redis + 布隆过滤器防止缓存穿透
  • UML函数原型中constraint的含义,有啥用?
  • 读《精益数据分析》:移情(Empathy)—— 验证真实需求,避免伪需求陷阱
  • 加密货币交易所开发:如何打造安全、高并发的数字资产交易平台?
  • 7、C 语言数组进阶知识点总结
  • 分布式事务、锁、链路追踪