当前位置: 首页 > news >正文

高质量数据集|建设三大难点

25年3月国家数据局发文“建设高质量数据集,让人工智能更聪明”,提到“高质量数据集构建是一项复杂而关键的任务,需要了解模型应用场景和需求,进而开发、构建和维护数据资源,提供持续有效的高质量数据集”。5月中国信息通信研究院人工智能研究所发文 “从“经验驱动”到“标准驱动” 推动人工智能高质量数据集建设”,提出高质量数据集建设的 “三大难点” ,本质上揭示了当前数据工程从 “量的积累” 转向 “质的提升” 过程中,在目标对齐、流程管理、技术支撑三个核心维度存在的系统性障碍。这三个难点相互关联、相互影响,共同制约着数据集从 “可用” 到 “高质量可用” 的跨越。以下结合具体场景说明:

1、目标定位模糊化:“数据生产” 与 “业务需求” 的脱节

我们常常提到“场景驱动",而在落地时就存在目标、做法不明确,数据人员干完发现无法满足业务团队要求的数据质量要求。目标定位模糊的核心问题是数据集建设缺乏明确的价值导向,陷入 “重数量轻质量、重采集轻应用” 的误区。

具体表现

企业或团队往往将 “数据量” 作为核心指标(如 “收集 100 万条样本”),却未明确这些数据要服务于哪些具体的智能场景(如 “用这些数据训练的模型要解决什么业务问题?提升哪些核心指标?”)。例如,某制造业企业为训练设备故障预测模型,收集了大量设备运行日志,但未聚焦 “故障前 24 小时的关键参数波动” 这一核心需求,反而纳入了大量无关的环境数据(如车间温湿度的非异常记录),导致数据集看似庞大,却无法有效提升模型的故障预警精度。

深层原因

数据工程团队与业务团队的割裂。数据团队可能更关注 “技术可行性”(如能否采集到数据),而业务团队未清晰传递 “场景必要性”(如模型需要识别哪些关键特征才能支撑决策),导致数

http://www.lryc.cn/news/608769.html

相关文章:

  • 01.MySQL 安装
  • 服务器中切换盘的操作指南
  • Android 之 MVVM架构
  • 使用 Docker 部署 Golang 程序
  • 第四章:OSPF 协议
  • Dify中自定义工具类的类型
  • WebMvc自动配置流程讲解
  • MySQL 索引失效的场景与原因
  • 嵌入式开发学习———Linux环境下IO进程线程学习(二)
  • 04.Redis 的多实例
  • 笔试——Day27
  • 前端面试手撕题目全解析
  • 【数据迁移】Windows11 下将 Ubuntu 从 C 盘迁移到 D 盘
  • Redis——常用指令汇总指南(三)(哈希类型)
  • Odoo OWL前端框架全面学习指南 (后端开发者视角)
  • 三角洲行动ACE反作弊VT-d报错?CPU虚拟化如何开启!
  • GitOps:云原生时代的革命性基础设施管理范式
  • Ubuntu20.04 Carla安装与和Ros联合仿真
  • Ubuntu22.4部署大模型前置安装
  • AI + 云原生:正在引爆下一代应用的技术革命
  • LabVIEW小波变换检测信号断点
  • HCIP笔记(第四章)
  • 悬挂的绳子,它的函数方程是什么样子的?
  • Python Dash 全面讲解
  • 大屏项目展示
  • 基于Springboot+UniApp+Ai实现模拟面试小工具八:管理端基础功能实现
  • RAG与智能体技术全景解析:架构革新、场景落地与未来趋势
  • linux2.6 和 unix-v6 源码实验
  • uni-app学习笔记01-项目初始化及相关文件
  • Java小红书源码1:1还原uniapp_仿小红书源码