当前位置：首页 > news >正文

数据推荐丨海天瑞声7月数据集上新啦！

news 2025/7/25 11:08:29

海天瑞声本月重磅上新多项高质量数据集，涵盖语音识别、语音合成与多模态领域，持续扩充模型训练数据源。通过丰富、真实、多样化的数据支持，有效提升模型的泛化能力，为构建更强大的AI系统注入核心数据动能。

5000小时中文双工数据集

该数据集面向语音识别、语音合成、语音理解及多轮人机交互系统设计，打造真实、高质量的中文普通话双工对话语音资源，适用于各类语音模型训练与评估。

中文普通话双工对话数据集（桌面）

产品编号：King-ASR-956-1
产品特色：数据集包含约2000名发音人，总时长约1000小时，覆盖不同年龄层，发音人性别平均，麦克风录制，字准率97%。
数据内容：涵盖日常闲聊、家庭生活、朋友交流、商务会议（工作、周会、例会等）场景。

中文普通话双工对话数据集（手机）

产品编号：King-ASR-193
产品特色：数据集包含4000名发音人，总时长超4000小时，覆盖不同年龄层，发音人性别平均，手机录制，字准率97%。
数据内容：涵盖日常闲聊、AI、新能源场景。

中文普通话老人朗读数据集

该数据集精准覆盖老年群体语音特征，通过大规模、多维度的老年语音采集与专业标注，这批数据可针对性提升面向老年人的语音交互系统准确性，比如智能养老设备、老年教育APP等场景。

产品特色：数据集包含约900名发音人，总时长约500小时，发音人性别分布均衡，覆盖中国七大方言区，还原日常生活中真实的语音场景，体现老年群体的语音语调、发音习惯，具有老年群体独特性语言特征。
数据内容：涵盖电话查询，命令，导航，新闻等多种日常场景。

重庆老人对话数据集

数据集具有鲜明的地域特色、独特的语言风格、和丰富的生活场景对话逻辑，非常适合开发地域化养老服务系统、社区智能交互设备等，让语音模型更懂本地老人的沟通方式。

产品特色：数据集包含约400名发音人，年龄均为60岁以上，总时长约300小时。发音人性别平均，专门为重庆本地老人打造，全面覆盖重庆老人语言表达特征。
话题内容：涵盖日常生活，金融，旅行，社会热点，教育，娱乐等。

中文/中英混儿童数据集

数据集是针对全年龄段儿童相关场景构建的，包含中文及中英混儿童日常生活内容，覆盖儿童从学龄前到小学阶段的语音变化，以及儿童中英双语切换的自然表达，助力开发儿童双语教育机器人、语言学习APP等。

产品特色：数据集包含约5000名发音人，总时长约2500小时，年龄跨度从4岁到12岁，覆盖了整个儿童时期的语言特征。
话题内容：涵盖故事书，教育读本，日常对话等，适配家庭、校园等不同环境。

外语儿童语音数据集

外语儿童语音数据集涵盖了不同儿童年龄段在语音特征和语言内容上的显著差异，能为多语种儿童教育产品、跨境儿童智能玩具等提供坚实的语音训练基础，助力产品快速适配全球不同地区的儿童用户。

产品特色：数据集涵盖英、法、意、德、西、韩语、俄语共7种语言，包含约7000名发音人，总时长3000小时，发音人的性别均衡，符合不同年龄段的儿童朗读发音特征。
话题内容：涵盖日常闲聊和教育读本。

多音色多情感TTS数据集

该数据集面向情感语音合成与个性化TTS系统开发，覆盖了多年龄段音色、多情感维度、多类型副语言的高质量语音资源，助力打造富有表现力与感染力的智能语音系统。

中文多人合成库-小说音色(11角色)&语气词

产品编号：King-TTS-276

中文多人合成库-小说音色(10角色)&语气词

产品编号：King-TTS-277
产品特色：每个角色录制时长 5~13小时，音色覆盖老年、中年、少年，支持不同年龄层角色的语音合成。语料均围绕虚拟角色设定，采用片段式、有上下文关联的录制方式。King-TTS-276包含11个角色，King-TTS-277包含10个角色，覆盖多种具有情绪色彩的表达形式，真实还原自然语音中的情绪细节。
情感细节：精选 9类核心情感：中性、喜、怒、哀、惧、不屑、关切、严肃、心理活动；副语言丰富，包含哭泣、结巴、笑、冷哼、叹气、吧唧嘴、咳嗽、呼吸声等常见副语言元素，让细节表达更真实；并精选“啧、咳、嘶”等带情绪色彩的语气词。
角色介绍：King-TTS-276包含卑微老头、幽默小伙、自卑小伙、慈蔼婆婆、地痞无赖、机灵侍童、刻薄老头、蛮横少女、甜心小妹、猥琐大叔等。King-TTS-277包含调皮公主、歹毒大妈、温柔父亲、猥琐小伙、威严夫人、泼辣女汉子、懦弱大叔、灵巧婢女、唠叨奶奶等。

标准阿拉伯语TTS数据集

阿拉伯语是全球4亿多人的母语，为了满足阿拉伯语语音合成在多行业、多风格场景中的高质量训练需求，此次推出多套标准阿拉伯语数据集，内容覆盖广泛、风格多元，助力构建更自然、更具表达力的TTS系统。

标准阿拉伯语男声合成库-自然风格

产品编号：King-TTS-173-1

标准阿拉伯语女声合成库-自然风格

产品编号：King-TTS-174-1
产品特色：多场景通用语料包，涵盖日常对话、新闻播报、旅游导览、表格说明、使用简介、混英，适用于多场景多领域语音合成。

标准阿语男声合成库

产品编号：King-TTS-321
产品特色：结构化场景内容，覆盖新闻、对话、百科知识、时间/日期播报、菜单、酒店预订、英文缩略词读法等，满足多行业多场景语音合成。

标准阿语女声合成库-Free Talk

产品编号：King-TTS-318

标准阿语男声合成库-Free Talk

产品编号：King-TTS-319

标准阿拉伯语平均音色库-Free Talk

产品编号：King-TTS-374
产品特色：King-TTS-374 采集12人录制，播客风格语音素材，单人播讲，节奏舒适、语调自然、语义完整，体现连贯性与表达张力，可用于个性化播报、数字人语音生成、有声内容创作平台等。

中文女声自由对话TTS数据集

是一套聚焦“情感自由对话”场景的高质量中文女声语音合成数据集，采用双角色设定1女生+1陪聊一组，专为打造更具互动性和情绪表达能力的语音Agent设计。

中文女声精品发音人合成库（3人）

产品编号：King-TTS-373
产品特色：3位精品女声发音人 + 3位陪聊人员，主发音人扮演Agent角色，与陪聊在日常场景下进行多轮对话。支持 28类情感标注，情感标注精确到子句级别。主发音人标注笑声、哭声、拖音、重音、咳嗽声、嘘声、嘶声等18种副语言信息，一句话有一个或多个副语言信息，语音更具表现力与亲和力。
话题内容：涵盖情感陪伴、日常问答、心理交流等真实应用语境。

AIGC图像数据集

该数据集适用于风格迁移、跨域人像生成等多种AIGC训练任务。

产品编号：King-IM-103
产品特色：AIGC人像生成数据覆盖4种风格，3D卡通、水彩、漫画、素描，每种风格均涵盖4类人种（黑、白、黄、棕）。4种风格的人像原始图片共用，每种风格下每位人物生成约10张，均为成年人，男女比例均衡。
️ 产品规模：超140000张，采集超3000人，每种风格生成超35000张，分辨率1080P及以上。

多肤色人脸采集数据集

该数据集适用于面向复杂光照和人种多样性的高精度人脸识别、对比学习、活体检测与身份认证（如手机解锁）等任务。

产品编号：King-IM-005
产品特色：采用2023 年后上市的安卓手机前置摄像头，模特注视镜头，拍摄距离为20-50cm，涵盖 6 种光照条件：正常光、侧光、逆光、顺光、暗光和暖光。覆盖黑、白、黄、棕四类人种，同时包含 25 组双胞胎或高相似度人群，均为成年人。
️ 产品规模：1100人，分辨率1080P及以上。

会议视频动作采集数据集

该数据集适用于会议场景下的多视角人脸识别、跨时间/跨设备身份验证、姿态与表情鲁棒性研究等任务。

产品编号：King-VD-001
产品特色：采集会议场景，需要采集者全程保持中性脸，缓慢在房间中绕行，过程中无侧视、无抬头或低头动作。每人采集1–2组站立或坐姿视频，由四类会议摄像头同步拍摄。同时采集两类静态图像，覆盖黑、白、黄、棕四类人种，包含各年龄段人群，性别比例均衡。
️ 产品规模：160人，视频分辨率1080P及以上，照片分辨率720P，视频约1min。

海外人像会议视频数据集

该数据集包含的会议场景多样化，适用于会议场景下的语音识别、跨语种音视频对齐、人脸识别与情绪识别等多模态AI应用开发与训练。

产品编号：King-VD-052
产品特色：采集会议场景，全部由手机拍摄，每位采集者采集3段视频：一段朗读、一段Free Talk、一段静默。采集涵盖室内与室外环境，支持多语种录制，采集者使用其日常使用语言进行表达。覆盖白人及黄种人群，均为成年人，性别比例均衡。
️ 产品规模：1500人，视频分辨率4k，视频约1min。

单人动作视频数据集

该数据集所录动作连贯自然，具备较高视觉质量，适用于动作识别、视频生成、行为分析等视觉任务的训练与评估。

产品编号：King-VD-058
产品特色：采集内容包括模仿热门网站视频中的单人动作，涵盖全身舞蹈、半身手势舞、高清写真展示、日常行为动作等多种类型。每位模特平均采集约50段视频，动作丰富多样，共采集约150名中国成年人，男女比例均衡。
️ 产品规模：约6000段，视频分辨率1080P及以上，以竖屏为主，每段约5S。