当前位置: 首页 > news >正文

AI小智源码分析——音频部分(一)

 一、源码跳转

这里采用了函数重载来进行代码复用,当需要对I2S接口的数据进行配置,比如左右音道切换,可以使用第二个构造函数,这里小智使用的是第一个构造函数,即只传递I2S相关的引脚参数(不带slot mask),适用于常规的I2S单工音频通信场景

 二、音频模块函数的具体实现

1、构造函数

NoAudioCodecSimplex::NoAudioCodecSimplex(int input_sample_rate, int output_sample_rate,gpio_num_t spk_bclk, gpio_num_t spk_ws, gpio_num_t spk_dout,gpio_num_t mic_sck, gpio_num_t mic_ws, gpio_num_t mic_din)
{duplex_ = false; // 标记为单工模式input_sample_rate_ = input_sample_rate;output_sample_rate_ = output_sample_rate;// 1. 创建扬声器(Speaker)I2S通道(TX)i2s_chan_config_t chan_cfg = {.id = (i2s_port_t)0,                // 通道ID 0,代表TX(发送/播放).role = I2S_ROLE_MASTER,            // 主模式.dma_desc_num = AUDIO_CODEC_DMA_DESC_NUM, // DMA描述符数量.dma_frame_num = AUDIO_CODEC_DMA_FRAME_NUM, // DMA帧数量.auto_clear_after_cb = true,        // 回调后自动清除.auto_clear_before_cb = false,      // 回调前不清除.intr_priority = 0,                 // 中断优先级};ESP_ERROR_CHECK(i2s_new_channel(&chan_cfg, &tx_handle_, nullptr)); // 创建TX通道(播放)// 2. 配置扬声器I2S标准参数i2s_std_config_t std_cfg = {.clk_cfg = {.sample_rate_hz = (uint32_t)output_sample_rate_, // 扬声器采样率.clk_src = I2S_CLK_SRC_DEFAULT,                  // 时钟源.mclk_multiple = I2S_MCLK_MULTIPLE_256,          // 主时钟倍频#ifdef   I2S_HW_VERSION_2.ext_clk_freq_hz = 0,#endif},.slot_cfg = {.data_bit_width = I2S_DATA_BIT_WIDTH_32BIT,      // 数据位宽32bit.slot_bit_width = I2S_SLOT_BIT_WIDTH_AUTO,       // 自动槽位宽度.slot_mode = I2S_SLOT_MODE_MONO,                 // 单声道.slot_mask = I2S_STD_SLOT_LEFT,                  // 只用左声道.ws_width = I2S_DATA_BIT_WIDTH_32BIT,            // WS宽度.ws_pol = false,                                 // WS极性.bit_shift = true,                               // 位移#ifdef   I2S_HW_VERSION_2.left_align = true,.big_endian = false,.bit_order_lsb = false#endif},.gpio_cfg = {.mclk = I2S_GPIO_UNUSED,         // 不用MCLK.bclk = spk_bclk,                // BCLK引脚(扬声器).ws = spk_ws,                    // WS引脚(扬声器).dout = spk_dout,                // DOUT数据输出(扬声器).din = I2S_GPIO_UNUSED,          // 不用数据输入.invert_flags = {.mclk_inv = false,.bclk_inv = false,.ws_inv = false}}};ESP_ERROR_CHECK(i2s_channel_init_std_mode(tx_handle_, &std_cfg)); // 初始化TX通道// 3. 创建麦克风(MIC)I2S通道(RX)chan_cfg.id = (i2s_port_t)1; // 通道ID 1,代表RX(接收/录音)ESP_ERROR_CHECK(i2s_new_channel(&chan_cfg, nullptr, &rx_handle_)); // 创建RX通道(录音)// 4. 配置麦克风I2S参数std_cfg.clk_cfg.sample_rate_hz = (uint32_t)input_sample_rate_; // 麦克风采样率std_cfg.gpio_cfg.bclk = mic_sck;   // BCLK引脚(麦克风)std_cfg.gpio_cfg.ws = mic_ws;      // WS引脚(麦克风)std_cfg.gpio_cfg.dout = I2S_GPIO_UNUSED; // 不用数据输出std_cfg.gpio_cfg.din = mic_din;    // DIN数据输入(麦克风)ESP_ERROR_CHECK(i2s_channel_init_std_mode(rx_handle_, &std_cfg)); // 初始化RX通道ESP_LOGI(TAG, "Simplex channels created"); // 日志输出,表示单工通道创建完成
}

 2、Write函数(播放)

int NoAudioCodec::Write(const int16_t* data, int samples) {std::vector<int32_t> buffer(samples);// output_volume_: 0-100// volume_factor_: 0-65536
1int32_t volume_factor = pow(double(output_volume_) / 100.0, 2) * 65536;for (int i = 0; i < samples; i++) {
2int64_t temp = int64_t(data[i]) * volume_factor; // 使用 int64_t 进行乘法运算if (temp > INT32_MAX) {buffer[i] = INT32_MAX;} else if (temp < INT32_MIN) {buffer[i] = INT32_MIN;} else {buffer[i] = static_cast<int32_t>(temp);}}
3size_t bytes_written;ESP_ERROR_CHECK(i2s_channel_write(tx_handle_, buffer.data(), samples * sizeof(int32_t), &bytes_written, portMAX_DELAY));return bytes_written / sizeof(int32_t);
}

3、Read(录音)

int NoAudioCodec::Read(int16_t* dest, int samples) {size_t bytes_read;写入到这个bit32_buffer中std::vector<int32_t> bit32_buffer(samples);i2s_channel_read是乐鑫官方的驱动库函数if (i2s_channel_read(rx_handle_, bit32_buffer.data(), samples * sizeof(int32_t), &bytes_read, portMAX_DELAY) != ESP_OK) {ESP_LOGE(TAG, "Read Failed!");return 0;}samples = bytes_read / sizeof(int32_t);for (int i = 0; i < samples; i++) {int32_t value = bit32_buffer[i] >> 12;dest[i] = (value > INT16_MAX) ? INT16_MAX : (value < -INT16_MAX) ? -INT16_MAX : (int16_t)value;}return samples;
}

 4、音频总结

  • Write:16位音频数据 → 音量缩放 → 转32位 → 写入I2S(播放)。
  • Read:从I2S读32位数据 → 右移还原16位 → 裁剪 → 输出(录音)。

这两个函数实现了音频数据与I2S硬件之间的格式转换和音量控制,是AI小智音频输入输出的核心桥梁。

为什么要来回裁剪?

1. I2S硬件与软件的数据位宽不同

  • I2S硬件接口(特别是ESP32/ESP-IDF的I2S驱动)通常以32位(int32_t)为一个采样点进行数据传输。
  • 音频算法/文件/协议常用16位(int16_t)作为音频采样的标准格式(比如WAV、PCM等)。

举例

  • 你录音时,I2S硬件会给你32位的数据,但实际有效音频信息只有16位,剩下的高位/低位是补零或对齐。
  • 你播放时,算法/文件给你16位数据,但I2S要求你送32位数据。

2. 音量缩放需要更高精度

  • 音量缩放时,为了避免精度损失,通常会把16位数据先提升到32位甚至64位,做乘法后再裁剪回目标位宽。
  • 这样可以保证音量调整后不会出现溢出或失真。

3. 数据对齐与移位

  • I2S驱动通常要求数据左对齐(高位有效),而16位音频是右对齐的。
  • 所以录音时要右移(比如 >> 12),播放时要左移或补零,保证数据在I2S总线上的格式正确。

4. 防止溢出

  • 在缩放和转换过程中,可能会出现超出目标类型范围的数值(比如乘以音量后超出int16_t范围)。
  • 所以要做裁剪(clamp),防止溢出导致杂音或硬件异常。

5. 总结

  • 来回裁剪是为了在不同的数据格式(16位/32位)、不同的处理需求(音量缩放、I2S对齐)之间安全、准确地转换数据。
  • 这样既能保证音频质量,又能兼容硬件和软件的不同要求。

三、采用的单工通讯,那为什么在小智说话的时候,我可以使用唤醒词打断AI小智?

你的问题非常好,涉及到“单工通信”与“唤醒词打断”之间的实际工程实现。

虽然AI小智大多数板卡采用的是I2S单工(Simplex)音频通信,但你依然可以在AI小智说话时用唤醒词打断它,原因如下:


1. “单工”是指I2S硬件通道的物理能力,不等于软件不能“同时”处理

  • 单工I2S:指的是I2S硬件在同一时刻只能“录音”或“播放”其中之一,不能同时进行。
  • 但在实际应用中,软件可以通过“快速切换”或“分时复用”来实现“看起来同时”的效果。

2. 唤醒词检测通常是“软件VAD/AFE”模块,和TTS播放分离

  • AI小智的唤醒词检测(如AFE/ESP/Custom Wake Word)并不一定依赖I2S实时采集,而是可以在TTS播放的间隙、或者通过软件算法在播放数据流中“偷听”。
  • 很多板卡的麦克风和扬声器虽然共用I2S,但软件可以在TTS播放的每一帧之间,短暂切换到录音模式,采集一小段音频用于唤醒词检测,再切回播放。
  • 这种“分时复用”在人耳听觉上几乎无感,但足以让唤醒词检测模块及时响应。

3. 代码层面的支持

  • 在 application.cc 的 SetDeviceState(kDeviceStateSpeaking) 里有如下逻辑:

    cpp

    Apply to no_audio_cod...

      if (listening_mode_ != kListeningModeRealtime) {

          audio_service_.EnableVoiceProcessing(false);

          // 只有AFE唤醒词可以在说话时检测

      #if CONFIG_USE_AFE_WAKE_WORD

          audio_service_.EnableWakeWordDetection(true);

      #else

          audio_service_.EnableWakeWordDetection(false);

      #endif

      }

  • 也就是说,如果你用的是AFE唤醒词(硬件算法或高性能算法),在AI说话时依然可以检测唤醒词,从而实现“说话时打断”。
  • 这也是为什么有些板卡/算法支持说话时打断,有些则不支持(取决于唤醒词算法和I2S复用能力)。

4. 实际体验

  • 当AI小智在说话时,软件会周期性地切换到录音模式,采集一小段音频,进行唤醒词检测。
  • 一旦检测到唤醒词,主流程会立刻中断TTS播放,切换到“监听”或“待机”状态,实现“打断”效果。

总结

  • 单工I2S ≠ 不能“边说边听”,而是“不能物理上同时说和听”,但可以“分时复用”实现“几乎同时”。
  • 唤醒词打断AI说话,靠的是软件的巧妙调度和高效的唤醒词检测算法(如AFE)。
  • 这也是AI小智工程设计的一个亮点

 

四、音频模块继承体系

  • AudioCodec 是抽象基类,只定义接口,不实现。
  • NoAudioCodec 是具体实现类,实现了 Read 和 Write,可以被实例化。
  • NoAudioCodecSimplex 等是更具体的实现,可以继承和扩展 NoAudioCodec 的功能。

1. 基类 AudioCodec

cpp

Apply to no_audio_cod...class AudioCodec {public:virtual int Read(int16_t* dest, int samples) = 0;   // 纯虚函数,必须由子类实现virtual int Write(const int16_t* data, int samples) = 0; // 纯虚函数,必须由子类实现// ... 其他接口};
  • 作用:定义了音频编解码器的统一接口。
  • 纯虚函数:= 0 表示没有实现,所有子类都必须实现,否则子类也会变成抽象类,不能实例化。

2. 派生类 NoAudioCodec

cpp

Apply to no_audio_cod...class NoAudioCodec : public AudioCodec {private:virtual int Write(const int16_t* data, int samples) override; // 实现父类的纯虚函数virtual int Read(int16_t* dest, int samples) override;        // 实现父类的纯虚函数// ... 其他成员};
  • 作用:继承自 AudioCodec,实现了 Read 和 Write 的具体逻辑(比如“无编解码器”方案)。
  • override:明确告诉编译器“我在重写父类的虚函数”。
  • 实现了纯虚函数:所以 NoAudioCodec 变成了“可实例化的具体类”。

3. 进一步的子类(如 NoAudioCodecSimplex)

cpp

Apply to no_audio_cod...class NoAudioCodecSimplex : public NoAudioCodec {public:NoAudioCodecSimplex(...); // 构造函数// 可以选择重写Read/Write,也可以直接用NoAudioCodec的实现};
  • 作用:针对不同硬件场景(如单工I2S)做进一步适配。
  • 继承链:NoAudioCodecSimplex → NoAudioCodec → AudioCodec
  • Read/Write:如果没有重写,会直接用 NoAudioCodec 的实现。

 

http://www.lryc.cn/news/599113.html

相关文章:

  • 医疗数据挖掘Python机器学习案例
  • 【办公类-107-03】20250725通义万相2.1“动物拟人化”视频,优化关键词(图片转视频MP4转gif))
  • 【Qt】QProcess启动第三方程序或脚本失败
  • SQLite Insert 语句详解
  • 深入解析Hadoop高频面试题:HDFS读/写流程的RPC调用链
  • 传输层协议TCP
  • IT领域需要“落霞归雁”思维框架的好处
  • Cacti 前台命令注入漏洞(CVE-2022-46169)
  • 金仓数据库:融合与智能驱动下的革新与未来
  • Qt XML 与 JSON 数据处理方法
  • InfluxDB Line Protocol 协议深度剖析(二)
  • Qt 拔网线等情况下收不到disconnected()信号
  • 安卓上的迷之K_1171477665
  • Android悬浮窗导致其它应用黑屏问题解决办法
  • 【HarmonyOS】鸿蒙应用开发中常用的三方库介绍和使用示例
  • SpringBoot与ApacheSpark、MyBatis实战整合
  • [python][flask]flask静态资源
  • Spring Boot License 认证系统
  • 从零开始的云计算生活——番外6,使用zabbix对中间件监控
  • [SAP ABAP] 请求释放及传输
  • 二开---01
  • 基于多种主题分析、关键词提取算法的设计与实现【TF-IDF算法、LDA、NMF分解、BERT主题模型】
  • 【vue vapor jsx 未雨绸缪】
  • 篇五 网络通信硬件之PHY,MAC, RJ45
  • 统一调度与编排:构建自动化数据驱动平台
  • 【Java、C、C++、Python】飞机订票系统---文件版本
  • Fluent自动化仿真(TUI命令脚本教程)
  • RCE真实漏洞初体验
  • 制造业低代码平台实战评测:简道云、钉钉宜搭、华为云Astro、金蝶云·苍穹、斑斑低代码,谁更值得选?
  • NBIOT模块 BC28通过MQTT协议连接到EMQX