音视频学习(四十六):声音的三要素
声音是人类感知世界的重要途径之一。在自然界中,声波本质上是介质中传播的机械振动,而人类对声音的主观感受主要通过三种属性来认知和描述,即音调(音高)、响度(强弱)、音色(音质)。这三者被称为声音的三要素,它们共同构成了声音的整体特征。
音调(音高,Pitch)
定义与感知
音调是人耳对声音频率高低的主观感受。当声波频率较高时,人们会感觉声音“尖锐”“高亢”;频率较低时,声音“低沉”“浑厚”。正常人耳可感知的频率范围为 20 Hz 至 20,000 Hz(20 kHz),这一区间称为可听声频带。
- 男性说话声频率范围多为 85–180 Hz,女性多为 165–255 Hz。
- 乐器中,小提琴可达几千 Hz,低音提琴则在几百 Hz 以下。
物理基础
音调直接对应声波的频率(f),单位为赫兹(Hz)。振动越快,单位时间内完成周期越多,频率越高,音调越高。声波频率由声源振动的固有频率决定。例如:
- 吉他弦越细、张力越大、长度越短,音高越高;
- 气柱类乐器如笛子,通过开闭孔改变有效振动长度改变音调;
人耳感知的复杂性
虽然频率决定音调,但人耳感知并不线性。例如,在 1000 Hz 以下,人耳对频率变化较不敏感,而在 1000–4000 Hz 的中频段最敏感。这种特性决定了为什么人声和大多数乐器集中于这个频段,便于传播和识别。
此外,基频与谐波(泛音)的结构也会影响音高感受。某些复合波,即使缺失基频,人脑仍能推测出音高,这一现象称为错觉音高或“虚基音”。
响度(Loudness)
定义与感知
响度是人耳对声音强弱程度的感知,是对声压大小的主观描述。响度不仅取决于声波的振幅(物理量),还受听觉敏感度、频率分布与持续时间影响。
例如:
- 相同声压的低频声听起来往往比中高频“更轻”,这源于耳朵对不同频率响度的敏感程度不同;
- 一段 1000 Hz 的声音声压级为 60 dB SPL,在响度主观感受上等于 60 方(phon);
- 响度在单位上常用phon(响度级)与sone(响度值)表示。
物理基础
响度主要由声波的振幅和声压级决定。振幅越大,压缩与膨胀越剧烈,空气分子运动范围越大,声压越高。
- 声压级 SPL = 20log₁₀(p/p₀),p 为声压,p₀ 通常为 20μPa(人耳最小可感知声压)
- 日常例子:
- 轻声细语:约 30–40 dB
- 正常对话:约 60 dB
- 汽车喇叭:约 90 dB
- 飞机起飞:超过 120 dB(接近痛阈)
响度曲线与人耳特性
响度感知受频率影响,这体现在著名的弗莱彻-曼森等响曲线(Fletcher-Munson curve)。它表明:
- 人耳对中频(1000–5000 Hz)最敏感;
- 在极低频和极高频,人耳需要更大的声压才能听得清楚。
因此,广播或音频工程中需进行“响度均衡”,确保在不同设备和环境下都能被良好感知。
音色(Timbre)
定义与感知
音色是声音的“品质”或“个性”,是人耳分辨不同声音来源的关键。例如,同一音高与响度的钢琴声与小提琴声依然可以轻松区分,正是因为它们的音色不同。
物理基础
音色取决于声音的频谱结构——即基频之上叠加了哪些谐波(泛音),以及它们的频率、强度分布和包络特性。
- 基频决定音高;
- 谐波数量与分布决定音色的“亮”或“暗”;
- 包络曲线(ADSR):声音的起音、延音、衰减、释放阶段的幅度变化,也塑造音色特征。
例如:
- 管风琴音色圆润、泛音少;
- 小提琴音色明亮、富有高次泛音;
- 键盘打击乐如钢片琴,谐波结构不规则,音色独特。
音色分析工具
现代音频技术广泛使用傅里叶变换与频谱分析来识别音色特征。数字音频合成常通过采样、加法合成、频谱建模来模拟自然音色。
总结
要素 | 主要对应物理量 | 感知作用 | 影响因素 |
---|---|---|---|
音调 | 频率 | 判断高低 | 基频、谐波结构 |
响度 | 振幅、声压级 | 判断强弱 | 能量、频率响应、人耳敏感度 |
音色 | 频谱分布 | 判断“是谁”发声 | 谐波结构、波形包络、声源材料 |