当前位置：首页 > news >正文

腾讯云录音文件快速识别实战教程

news 2025/7/8 6:56:53

文章目录

前言
接口简介
前置条件
实战
- 添加 Maven 依赖
- 核心代码示例
参数说明
个人简介

前言

本文介绍如何基于腾讯云语音识别 快速识别接口，实现通过 HTTPS POST 方式上传音频并快速识别同步返回识别结果的实战流程。

接口简介

腾讯云语音识别 快速识别接口 支持上传音频文件并同步返回识别结果，适合以下场景：

- 视频字幕自动生成
- 呼叫中心/质检实时转写
- 会议记录转写

前置条件

开通腾讯云语音识别服务。
在 API 密钥管理新建密钥，获取：
- AppID
- SecretID
- SecretKey

实战

添加 Maven 依赖

在项目 pom.xml 中引入腾讯云语音识别 SDK：

<dependency><groupId>com.tencentcloudapi</groupId><artifactId>tencentcloud-speech-sdk-java</artifactId><version>1.0.52</version>
</dependency>

核心代码示例

@Component
@Slf4j
public class FlashRecognizerService {private static final String SECRET_KEY = "你的SecretKey";private static final String SECRET_ID = "你的SecretId";private static final String APP_ID = "你的AppId";private final Credential credential = Credential.builder().secretId(SECRET_ID).secretKey(SECRET_KEY).build();public String recognizer(File file) {log.info("开始解析音频文件：{}", file);FlashRecognizer recognizer = SpeechClient.newFlashRecognizer(APP_ID, credential);byte[] data = ByteUtils.inputStream2ByteArray(file);// 初始化识别请求FlashRecognitionRequest recognitionRequest = FlashRecognitionRequest.initialize();recognitionRequest.setEngineType("16k_zh"); // 中文普通话recognitionRequest.setFirstChannelOnly(1);  // 仅识别第一声道recognitionRequest.setVoiceFormat(getFileExtension(file));recognitionRequest.setSpeakerDiarization(0); // 不做说话人分离recognitionRequest.setFilterDirty(0); // 不过滤脏词recognitionRequest.setFilterModal(0); // 不过滤语气词recognitionRequest.setFilterPunc(0);  // 保留标点recognitionRequest.setConvertNumMode(1); // 开启数字转换recognitionRequest.setWordInfo(1); // 返回词级信息// 同步识别FlashRecognitionResponse response = recognizer.recognize(recognitionRequest, data);log.info("音频文件解析完成：{} {}", file, JSONObject.toJSONString(response));return response.getFlashResult().get(0).getText();}/*** 获取文件扩展名*/public static String getFileExtension(File file) {String name = file.getName();int lastIndex = name.lastIndexOf(".");if (lastIndex == -1 || lastIndex == name.length() - 1) {return "";}return name.substring(lastIndex + 1);}
}

参数说明

参数	说明	默认值
EngineType	引擎类型（如 16k_zh 中文普通话）
FirstChannelOnly	是否仅识别第一个声道（1 是，0 否）	1
VoiceFormat	音频格式，如 mp3、wav、m4a
SpeakerDiarization	是否进行说话人分离（0 否，1 是）	0
FilterDirty	过滤脏词（0 不过滤，1 过滤）	0
FilterModal	过滤语气词（0 不过滤，1 过滤）	0
FilterPunc	过滤标点（0 不过滤，1 过滤）	0
ConvertNumMode	数字转换（0 关闭，1 开启）	1
WordInfo	是否返回词级信息（0 否，1 是）	1