当前位置：首页 > news >正文

AI小智源码分析——音频部分（一）

news 2025/7/28 21:50:59

一、源码跳转

这里采用了函数重载来进行代码复用，当需要对I2S接口的数据进行配置，比如左右音道切换，可以使用第二个构造函数，这里小智使用的是第一个构造函数，即只传递I2S相关的引脚参数（不带slot mask），适用于常规的I2S单工音频通信场景。

二、音频模块函数的具体实现

1、构造函数

NoAudioCodecSimplex::NoAudioCodecSimplex(int input_sample_rate, int output_sample_rate,gpio_num_t spk_bclk, gpio_num_t spk_ws, gpio_num_t spk_dout,gpio_num_t mic_sck, gpio_num_t mic_ws, gpio_num_t mic_din)
{duplex_ = false; // 标记为单工模式input_sample_rate_ = input_sample_rate;output_sample_rate_ = output_sample_rate;// 1. 创建扬声器（Speaker）I2S通道（TX）i2s_chan_config_t chan_cfg = {.id = (i2s_port_t)0,                // 通道ID 0，代表TX（发送/播放）.role = I2S_ROLE_MASTER,            // 主模式.dma_desc_num = AUDIO_CODEC_DMA_DESC_NUM, // DMA描述符数量.dma_frame_num = AUDIO_CODEC_DMA_FRAME_NUM, // DMA帧数量.auto_clear_after_cb = true,        // 回调后自动清除.auto_clear_before_cb = false,      // 回调前不清除.intr_priority = 0,                 // 中断优先级};ESP_ERROR_CHECK(i2s_new_channel(&chan_cfg, &tx_handle_, nullptr)); // 创建TX通道（播放）// 2. 配置扬声器I2S标准参数i2s_std_config_t std_cfg = {.clk_cfg = {.sample_rate_hz = (uint32_t)output_sample_rate_, // 扬声器采样率.clk_src = I2S_CLK_SRC_DEFAULT,                  // 时钟源.mclk_multiple = I2S_MCLK_MULTIPLE_256,          // 主时钟倍频#ifdef   I2S_HW_VERSION_2.ext_clk_freq_hz = 0,#endif},.slot_cfg = {.data_bit_width = I2S_DATA_BIT_WIDTH_32BIT,      // 数据位宽32bit.slot_bit_width = I2S_SLOT_BIT_WIDTH_AUTO,       // 自动槽位宽度.slot_mode = I2S_SLOT_MODE_MONO,                 // 单声道.slot_mask = I2S_STD_SLOT_LEFT,                  // 只用左声道.ws_width = I2S_DATA_BIT_WIDTH_32BIT,            // WS宽度.ws_pol = false,                                 // WS极性.bit_shift = true,                               // 位移#ifdef   I2S_HW_VERSION_2.left_align = true,.big_endian = false,.bit_order_lsb = false#endif},.gpio_cfg = {.mclk = I2S_GPIO_UNUSED,         // 不用MCLK.bclk = spk_bclk,                // BCLK引脚（扬声器）.ws = spk_ws,                    // WS引脚（扬声器）.dout = spk_dout,                // DOUT数据输出（扬声器）.din = I2S_GPIO_UNUSED,          // 不用数据输入.invert_flags = {.mclk_inv = false,.bclk_inv = false,.ws_inv = false}}};ESP_ERROR_CHECK(i2s_channel_init_std_mode(tx_handle_, &std_cfg)); // 初始化TX通道// 3. 创建麦克风（MIC）I2S通道（RX）chan_cfg.id = (i2s_port_t)1; // 通道ID 1，代表RX（接收/录音）ESP_ERROR_CHECK(i2s_new_channel(&chan_cfg, nullptr, &rx_handle_)); // 创建RX通道（录音）// 4. 配置麦克风I2S参数std_cfg.clk_cfg.sample_rate_hz = (uint32_t)input_sample_rate_; // 麦克风采样率std_cfg.gpio_cfg.bclk = mic_sck;   // BCLK引脚（麦克风）std_cfg.gpio_cfg.ws = mic_ws;      // WS引脚（麦克风）std_cfg.gpio_cfg.dout = I2S_GPIO_UNUSED; // 不用数据输出std_cfg.gpio_cfg.din = mic_din;    // DIN数据输入（麦克风）ESP_ERROR_CHECK(i2s_channel_init_std_mode(rx_handle_, &std_cfg)); // 初始化RX通道ESP_LOGI(TAG, "Simplex channels created"); // 日志输出，表示单工通道创建完成
}

2、Write函数（播放）

int NoAudioCodec::Write(const int16_t* data, int samples) {std::vector<int32_t> buffer(samples);// output_volume_: 0-100// volume_factor_: 0-65536
1int32_t volume_factor = pow(double(output_volume_) / 100.0, 2) * 65536;for (int i = 0; i < samples; i++) {
2int64_t temp = int64_t(data[i]) * volume_factor; // 使用 int64_t 进行乘法运算if (temp > INT32_MAX) {buffer[i] = INT32_MAX;} else if (temp < INT32_MIN) {buffer[i] = INT32_MIN;} else {buffer[i] = static_cast<int32_t>(temp);}}
3size_t bytes_written;ESP_ERROR_CHECK(i2s_channel_write(tx_handle_, buffer.data(), samples * sizeof(int32_t), &bytes_written, portMAX_DELAY));return bytes_written / sizeof(int32_t);
}

3、Read（录音）

int NoAudioCodec::Read(int16_t* dest, int samples) {size_t bytes_read;写入到这个bit32_buffer中std::vector<int32_t> bit32_buffer(samples);i2s_channel_read是乐鑫官方的驱动库函数if (i2s_channel_read(rx_handle_, bit32_buffer.data(), samples * sizeof(int32_t), &bytes_read, portMAX_DELAY) != ESP_OK) {ESP_LOGE(TAG, "Read Failed!");return 0;}samples = bytes_read / sizeof(int32_t);for (int i = 0; i < samples; i++) {int32_t value = bit32_buffer[i] >> 12;dest[i] = (value > INT16_MAX) ? INT16_MAX : (value < -INT16_MAX) ? -INT16_MAX : (int16_t)value;}return samples;
}

4、音频总结

Write：16位音频数据 → 音量缩放 → 转32位 → 写入I2S（播放）。

Read：从I2S读32位数据 → 右移还原16位 → 裁剪 → 输出（录音）。

这两个函数实现了音频数据与I2S硬件之间的格式转换和音量控制，是AI小智音频输入输出的核心桥梁。

为什么要来回裁剪？

1. I2S硬件与软件的数据位宽不同
I2S硬件接口（特别是ESP32/ESP-IDF的I2S驱动）通常以32位（int32_t）为一个采样点进行数据传输。
音频算法/文件/协议常用16位（int16_t）作为音频采样的标准格式（比如WAV、PCM等）。
举例
你录音时，I2S硬件会给你32位的数据，但实际有效音频信息只有16位，剩下的高位/低位是补零或对齐。
你播放时，算法/文件给你16位数据，但I2S要求你送32位数据。

2. 音量缩放需要更高精度
音量缩放时，为了避免精度损失，通常会把16位数据先提升到32位甚至64位，做乘法后再裁剪回目标位宽。
这样可以保证音量调整后不会出现溢出或失真。

3. 数据对齐与移位
I2S驱动通常要求数据左对齐（高位有效），而16位音频是右对齐的。
所以录音时要右移（比如 >> 12），播放时要左移或补零，保证数据在I2S总线上的格式正确。

4. 防止溢出
在缩放和转换过程中，可能会出现超出目标类型范围的数值（比如乘以音量后超出int16_t范围）。
所以要做裁剪（clamp），防止溢出导致杂音或硬件异常。

5. 总结
来回裁剪是为了在不同的数据格式（16位/32位）、不同的处理需求（音量缩放、I2S对齐）之间安全、准确地转换数据。
这样既能保证音频质量，又能兼容硬件和软件的不同要求。

三、采用的单工通讯，那为什么在小智说话的时候，我可以使用唤醒词打断AI小智？

你的问题非常好，涉及到“单工通信”与“唤醒词打断”之间的实际工程实现。

虽然AI小智大多数板卡采用的是I2S单工（Simplex）音频通信，但你依然可以在AI小智说话时用唤醒词打断它，原因如下：

1. “单工”是指I2S硬件通道的物理能力，不等于软件不能“同时”处理

单工I2S：指的是I2S硬件在同一时刻只能“录音”或“播放”其中之一，不能同时进行。

但在实际应用中，软件可以通过“快速切换”或“分时复用”来实现“看起来同时”的效果。

2. 唤醒词检测通常是“软件VAD/AFE”模块，和TTS播放分离

AI小智的唤醒词检测（如AFE/ESP/Custom Wake Word）并不一定依赖I2S实时采集，而是可以在TTS播放的间隙、或者通过软件算法在播放数据流中“偷听”。

很多板卡的麦克风和扬声器虽然共用I2S，但软件可以在TTS播放的每一帧之间，短暂切换到录音模式，采集一小段音频用于唤醒词检测，再切回播放。

这种“分时复用”在人耳听觉上几乎无感，但足以让唤醒词检测模块及时响应。

3. 代码层面的支持

在 application.cc 的 SetDeviceState(kDeviceStateSpeaking) 里有如下逻辑：
cpp
Apply to no_audio_cod...
  if (listening_mode_ != kListeningModeRealtime) {
      audio_service_.EnableVoiceProcessing(false);
      // 只有AFE唤醒词可以在说话时检测
  #if CONFIG_USE_AFE_WAKE_WORD
      audio_service_.EnableWakeWordDetection(true);
  #else
      audio_service_.EnableWakeWordDetection(false);
  #endif
  }

也就是说，如果你用的是AFE唤醒词（硬件算法或高性能算法），在AI说话时依然可以检测唤醒词，从而实现“说话时打断”。

这也是为什么有些板卡/算法支持说话时打断，有些则不支持（取决于唤醒词算法和I2S复用能力）。

4. 实际体验

当AI小智在说话时，软件会周期性地切换到录音模式，采集一小段音频，进行唤醒词检测。

一旦检测到唤醒词，主流程会立刻中断TTS播放，切换到“监听”或“待机”状态，实现“打断”效果。

总结

单工I2S ≠ 不能“边说边听”，而是“不能物理上同时说和听”，但可以“分时复用”实现“几乎同时”。

唤醒词打断AI说话，靠的是软件的巧妙调度和高效的唤醒词检测算法（如AFE）。

这也是AI小智工程设计的一个亮点

四、音频模块继承体系

AudioCodec 是抽象基类，只定义接口，不实现。

NoAudioCodec 是具体实现类，实现了 Read 和 Write，可以被实例化。

NoAudioCodecSimplex 等是更具体的实现，可以继承和扩展 NoAudioCodec 的功能。

1. 基类 AudioCodec

cpp

Apply to no_audio_cod...class AudioCodec {public:virtual int Read(int16_t* dest, int samples) = 0;   // 纯虚函数，必须由子类实现virtual int Write(const int16_t* data, int samples) = 0; // 纯虚函数，必须由子类实现// ... 其他接口};

作用：定义了音频编解码器的统一接口。

纯虚函数：= 0 表示没有实现，所有子类都必须实现，否则子类也会变成抽象类，不能实例化。

2. 派生类 NoAudioCodec

cpp

Apply to no_audio_cod...class NoAudioCodec : public AudioCodec {private:virtual int Write(const int16_t* data, int samples) override; // 实现父类的纯虚函数virtual int Read(int16_t* dest, int samples) override;        // 实现父类的纯虚函数// ... 其他成员};

作用：继承自 AudioCodec，实现了 Read 和 Write 的具体逻辑（比如“无编解码器”方案）。

override：明确告诉编译器“我在重写父类的虚函数”。

实现了纯虚函数：所以 NoAudioCodec 变成了“可实例化的具体类”。

3. 进一步的子类（如 NoAudioCodecSimplex）

cpp

Apply to no_audio_cod...class NoAudioCodecSimplex : public NoAudioCodec {public:NoAudioCodecSimplex(...); // 构造函数// 可以选择重写Read/Write，也可以直接用NoAudioCodec的实现};