当前位置：首页 > news >正文

基于3D-Speaker进行区分说话人项目搭建过程报错记录 | 通话录音说话人区分以及语音识别 | 声纹识别以及语音识别 | pyannote-audio

news 2025/7/7 23:52:15

0. 研究背景

在外呼系统中，我们的后台管理系统通常要对电话录音的内容进行提取和分析。那么说到分析，我们就要对录音中的两个人的对话进行分离，然后分别分析，比如分析客户是否有合作的意愿，分析客服讲的话术是否合理，分析客户情绪等等。那么这里就需要首先做说话人的分离。目前市面上有众多的说话人分离开源项目，其它国内比较知名的是阿里巴巴旗下的3D-Speaker。

为了测试3D-Speaker看看能否对电话录音中的说话人分离情况，自己租了一台服务器，然后进行搭建，下面是我的搭建过程，本篇文章主要记录我搭建过程中遇到的一些问题，以及最后测试的情况。

1. 环境介绍

OS: Ubuntu Server 22.04

Python: 3.11

2. 开始搭建

创建环境

conda create -n spk python=3.11
conda activate spk

克隆源码

git clone https://github.com/modelscope/3D-Speaker.git
cd 3D-Speaker

安装依赖

pip install -r requirements.txt

注意：我实际在安装过程中修改了这个文件，把scikit-learn删除了，因为不删除，在安装过程中会报错，需要通过conda命令安装。

conda install scikit-learn

此外还需要安装下面依赖

cd egs/3dspeaker/speaker-diarization
pip install requirements.txt

注意：我实际在执行之前删掉了里面的一些依赖，有些依赖安装过程中报没有找到。打开这个文件，我删除了pyannote的依赖，然后手动安装了pyannote-audio。还有，在实际安装过程中会报numba问题，是因为这个文件中规定了版本，所以需要把文件中的版本号删掉。

pip install pyannote-audio

此外还有一些依赖需要手动安装

pip install onnx simplejson datasets==2.20.0 pydub onnxconverter_common

3. 测试

运行下面代码来测试

from speakerlab.bin.infer_diarization import Diarization3Dspeaker
wav_path = "audio.wav"
pipeline = Diarization3Dspeaker()
print(pipeline(wav_path, wav_fs=None, speaker_num=None)) # can also accept WAV data as input