Day2 音频基础知识
1.1 DAC(数模转换器)
DAC(Digital - to - Analog Converter,数模转换器 ),功能是把数字信号还原为模拟信号 ,典型场景如音频播放:播放器输出数字信号,经 DAC 转化为模拟音频信号,驱动耳机、音箱发声。
补充概念解释:
- 信号:承载信息的物理形式,借由电、光等物理量变化传递消息,是信息的 “载体外衣” 。
- 数字信号:以离散的二进制(bit 位)表示信息,状态非连续,像音频文件里的 0 和 1 编码 。
- 模拟信号:以连续变化的物理量(如音频信号常用正弦波的振幅、频率变化)传递信息,如麦克风采集的原始声波电信号 。
1.2 ADC(模数转换器)
ADC(Analog - to - Digital Converter,模数转换器 ),作用与 DAC 相反,负责将连续的模拟信号(如麦克风采集的声波电信号)转换为离散的数字信号,便于设备存储、处理 。
1.3 采样(Sampling)
ADC 工作时,需先通过麦克风把声波的 “模拟振动” 转化为 “电压变化的电信号”,采样 就是按规律把连续电信号切割为离散数字信号的操作,核心是 “提取瞬时值,转化为离散点”。
- 采样原理:以固定时间间隔(由采样频率决定),“抓取” 模拟信号的瞬时电压值,生成离散的数字信号序列 。
- 采样频率:单位时间(1 秒)内对连续信号的 “抓取次数”,单位 Hz 。
根据奈奎斯特定理,采样频率需至少为原始信号最高频率的 2 倍,才能完整还原信号,避免 “混叠”。
- 人耳可感知 20Hz - 20000Hz 声音,因此音频采样频率常选 44100Hz(略高于 20000Hz×2 ),CD 标准即采用 44100Hz 采样频率 。
- 混叠:若采样频率<信号最高频率的 2 倍,高频信号会被错误采样为低频信号。比如原始高频信号(红色),因采样频率不足,实际采样点(蓝色实心点)连成线后,会 “伪装” 成低频信号,导致还原音频失真 。
1.4 量化
采样得到 “离散时间点的瞬时电压”,但电压值是连续的,量化 就是把这些连续电压值 “映射到固定等级”,让计算机能编码存储。
- 量化深度(位深):决定振幅的表示精度。比如 16bit 量化,振幅被划分为 216=65536 个等级(取值范围 0 - 65535 )。位深越大,振幅表示越精细,音频细节越丰富,但数据量也越大 。
- 动态范围:描述音频能表现的 “最大音量与最小可辨音量的差距”,16bit 量化的动态范围约为 6.02×16≈96d**B(公式:动态范围 ≈ 量化位数 dB ),可简单理解为 “能容纳的音量变化跨度” 。
1.6 码率
指 “每秒传输的二进制位数”(单位 bps,bit per second ),码率越高,每秒传递的数据越多,理论音质越好。
公式优化(补充单位逻辑):码率采样率量化深度(位深)声道数
- 示例:44100Hz 采样率、16bit 位深、2 声道(立体声),则码率为 44100×16×2=1411200 bps(即 1411.2 kbps )。
若按上述参数录制 1 分钟音频,数据大小(bits) = 码率 × 时间(秒) ,即 1411200×60=84672000 bits ,换算为字节(1 字节 = 8 bits )则是 84672000÷8=10584000 字节(约 10.1MB )。
1.7 帧
音频处理中,“帧” 是一段短时间内的连续采样数据集合,长度常由系统 “数据缓冲区(buffer)” 需求决定,可理解为 “音频数据的最小处理单元”。
以采样率 44100Hz、位深 16bit、2 声道,且一帧时长 20ms(0.02 秒)
例:
一帧数据量(bits) = 采样率 × 位深 × 声道数 × 帧时长(秒)/ 码率*帧时长
即 44100×16×2×0.02=28224 bits(或 3528 字节 )。
1.8 通道数(声道数)
指音频录制时的 “音源数量” 或播放时的 “扬声器发声数量”,直接影响听感的 “空间感”:
- 单声道(1 通道):仅 1 路音频信号,听感 “单薄、无空间感”,适合语音类内容。
- 立体声(2 通道):左右声道独立信号,能营造 “方位感”,是音乐、影视的基础格式。
- 多声道(如 5.1、7.1 等):增加环绕声、低音通道,强化 “沉浸式空间感”,常见于影院、高端音响系统 。