当前位置: 首页 > news >正文

pydub、ffmpeg 音频文件声道选择转换、采样率更改

快速查看音频通道数和每个通道能力判断具体哪个通道说话;一般能量大的那个算是说话

import wave
from pydub import AudioSegment
import numpy as npdef read_wav_file(file_path):with wave.open(file_path, 'rb') as wav_file:params = wav_file.getparams()num_channels = params.nchannelssample_width = params.sampwidthframe_rate = params.frameratenum_frames = params.nframesprint(f"Number of channels: {num_channels}")print(f"Sample width: {sample_width}")print(f"Frame rate: {frame_rate}")print(f"Number of frames: {num_frames}")frames = wav_file.readframes(num_frames)audio_data = np.frombuffer(frames, dtype=np.int16)if num_channels > 1:audio_data = audio_data.reshape(-1, num_channels)return audio_data, frame_rate, num_channelsdef analyze_channels(audio_data, frame_rate, num_channels):for channel in range(num_channels):channel_data = audio_data[:, channel] if num_channels > 1 else audio_data# 计算通道的能量energy = np.sum(np.abs(channel_data))print(f"Channel {channel} energy: {energy}")# 你可以在这里添加更多的分析逻辑,比如使用语音活动检测(VAD)来判断说话声if __name__ == "__main__":file_path = r"E:\allchat\output.wav"audio_data, frame_rate, num_channels = read_wav_file(file_path)analyze_channels(audio_data, frame_rate, num_channels)

这里 channel0 的声音算说话的
在这里插入图片描述

1、转换mono单声道,选择人声的那个通道

mp3格式

from pydub import AudioSegmentdef extract_and_save_channel(input_file, output_file, channel_index):# 读取 MP3 文件audio = AudioSegment.from_mp3(input_file)# 提取特定通道if audio.channels > 1:channel_data = audio.split_to_mono()[channel_index]else:channel_data = audio# 保存提取的通道为新的 MP3 文件channel_data.export(output_file, format="mp3")if __name__ == "__main__":input_file = "your_audio_file.mp3"output_file = "channel_0.mp3"channel_index = 0  # 选择 Channel 0extract_and_save_channel(input_file, output_file, channel_index)

wav格式

from pydub import AudioSegment# 加载WAV文件
wav_file_path = r"E:\allchat\output_16000.wav"
audio_segment = AudioSegment.from_wav(wav_file_path)# 提取Channel 0
if audio_segment.channels > 1:channel_0 = audio_segment.split_to_mono()[0]
else:channel_0 = audio_segment# 导出为单声道WAV文件
mono_wav_file_path = r"E:\allchat\output_16000_channel_0.wav"
channel_0.export(mono_wav_file_path, format="wav")

在这里插入图片描述

2、采样率更改为16000

from pydub import AudioSegmentdef resample_wav_with_pydub(input_file, output_file, new_rate):# 读取原始WAV文件audio = AudioSegment.from_wav(input_file)# 设置新的采样率audio = audio.set_frame_rate(new_rate)# 导出重采样后的WAV文件audio.export(output_file, format='wav')# 使用示例
resample_wav_with_pydub('input.wav', 'output_16000.wav', 16000)

在这里插入图片描述

http://www.lryc.cn/news/393254.html

相关文章:

  • 0803实操-Windows Server系统管理
  • 使用Java构建物联网应用的最佳实践
  • 价格预言机的使用总结(一):Chainlink篇
  • 【Pyhton】读取寄存器数据到MySQL数据库
  • jmeter-beanshell学习3-beanshell获取请求报文和响应报文
  • 【C++】B树及其实现
  • C++(Qt)-GIS开发-QGraphicsView显示瓦片地图简单示例
  • CTFShow的RE题(三)
  • WordPress主题开发进群付费主题v1.1.2 多种引流方式
  • SAP中的 UPDATA TASK 和 BACKGROUND TASK
  • UDP协议:独特之处及其在网络通信中的应用
  • 支持向量机(Support Vector Machine,SVM)及Python和MATLAB实现
  • 【RT-thread studio 下使用STM32F103-学习sem-信号量-初步使用-线程之间控制-基础样例】
  • 使用nodejs输出著作权申请所需的word版源码
  • [Vite]vite-plugin-react和vite-plugin-react-swc插件原理了解
  • 记一次使用“try-with-resources“的语法导致的BUG
  • 用Excel处理数据图像,出现交叉怎么办?
  • SpringBoot | 大新闻项目后端(redis优化登录)
  • ESP32——物联网小项目汇总
  • flutter:监听路由的变化
  • Linux多进程和多线程(六)进程间通信-共享内存
  • ruoyi后台修改
  • macOS查看系统日志的方法
  • 数字信号处理及MATLAB仿真(3)——采样与量化
  • 云端AI大模型群体智慧后台架构思考
  • 算法系列--分治排序|再谈快速排序|快速排序的优化|快速选择算法
  • 强化学习编程实战-1-一个及其简单的强化学习实例(多臂赌博机)
  • Golang语法规范和风格指南(一)——简单指南
  • 数据机构记录顺序表-笔记1
  • 考研必备~总结严蔚敏教授《数据结构》课程的重要知识点及考点