当前位置: 首页 > news >正文

数据驱动(Data-Driven)和以数据为中心(Data-Centric)的区别

一、什么是数据驱动?

数据驱动(Data-Driven)是在管理科学领域经常提到的名词。数据驱动决策(Data-Driven Decision Making,简称DDD)是一种方法论,即在决策过程中主要依赖于数据分析和解释,而不是依赖于直觉或个人经验。它是相对于传统的经验驱动、直觉驱动或者偏见驱动的决策来讲的。

Case1:数据驱动的案例

Netflix公司通过收集和分析用户的观看习惯,评分,搜索和其他行为数据,开发出高度个性化的推荐算法,以提高用户体验并增加用户观看时间。这种数据驱动的方法也被应用于决定哪些电影和电视节目应该被购买或制作。例如,它的原创剧集"纸牌屋"(House of Cards)就是基于大量用户数据分析的结果决定制作的。

我们拿到数据,经过数据预处理,然后用来训练模型,利用模型进行决策,这就是数据驱动的决策。可以说,目前的机器学习方法和深度学习方法大都是这个形式。但是早期的机器学习方法就是经验驱动的偏多了。经验驱动模型的设计和开发基于专家的经验知识,目的是将特定领域的专家知识和推理过程编码到计算机程序中。这些系统利用了人工智能中的知识表示和知识推理技术,特别是规则基础的推理,来模仿人类专家的决策过程。如早期的专家系统:

Case2:经验驱动的下象棋模型

比如我们想创建一个会下象棋的模型,这个模型就需要在博弈中决策每一步的棋子走法。经验驱动的模型是这样设计的,首先把每个棋子的规则写进模型,如“马走日,象飞田”等,然后找几个下象棋的高手,然后把这些高手的下棋套路写进模型,如对方“当头炮”,那模型就要“把马跳”,把高手的每一步应对策略当做规则写进模型里。

 同样的案例,数据驱动的决策模型就不依赖专家规则:

Case3:数据驱动的下象棋模型

我收集大量的博弈数据,构建象棋数据集,比如根据几百年来的棋谱和高手博弈的数百万场棋局中的每一步走法创建一个如下的数据集:

Xy
兵1兵2...
(4,5)(4,5)(4,5)(-1,-1)兵1向右移动1格
(4,6)(4,5)(4,5)(-1,-1).....

不需要告诉模型“马走日,象飞田”这些基本规则,只需要把数据输入到模型(如逻辑回归,当然这个模型很垃圾)中进行训练,就可以得到一个会下象棋的决策模型。

二、什么是以数据为中心?

在上面的Case3中提到,我们得到数据后,使用逻辑回归来拟合这个分类模型,由于逻辑回归的算法很简单,效果很差,所以大家就会琢磨更多更复杂更厉害的算法来拟合这些数据,比如深度学习算法,慢慢的,随着技术的发展,模型能力越来越好。直到2017年,谷歌提出Attention is All you Need,从此来到了Transformer一统天下的地步,直到现在(2024.05),还没有产生可以挑战Transformer模型架构的新架构出现,尤其是大语言模型诞生后,Transformer架构的能力给予人们巨大的震撼。

由此可见,随着技术的发展,算法的复杂性已经不再是限制模型能力的瓶颈。之前人们卷算法、卷模型的时代,可以称作“Model-Centric”,人们的重点关注对象是模型。而现在,模型已经不是限制人工智能的主要方面,所以有人提出了“Data-Centric”以数据为中心的人工智能,Data-Centric的意思不是说不关注模型,而是说把模型和数据看的一样重要,毕竟AI领域有句俗语“Garbage in garbage out”——垃圾进,垃圾出。意思是垃圾的数据进去,无论模型多NB,出来的还是垃圾的模型,大不了是个过拟合的垃圾模型。

尤其是ChatGPT的训练路径,可以看出在数据集上的大量人力标注和筛选,保证高质量的数据。

数据降噪、数据去偏、数据增强、数据平衡、数据配比、数据课程这些方法都属于Data-Centric的范畴,目前发展还处于初步阶段。


参考文献

什么是数据驱动?到底如何驱动?数据驱动的内涵、方法、案例、优势和特征分析

专家系统简要介绍 - 乔胤博的文章 - 知乎
https://zhuanlan.zhihu.com/p/381896056

目前以数据为中心(Data-centric)的人工智能发展如何? - 知乎
https://www.zhihu.com/question/521096166

Data-Centric AI思考和实践 - 北冥有歌的文章 - 知乎
https://zhuanlan.zhihu.com/p/593692636

2023年后,AI 还有什么研究方向有前景? - 一堆废纸的回答 - 知乎
https://www.zhihu.com/question/591140366/answer/2961915932

http://www.lryc.cn/news/353489.html

相关文章:

  • aosp14的分屏接口ISplitScreen接口获取方式更新-学员疑问答疑
  • 定积分求解过程是否变限问题 以及当换元时注意事项
  • 保研机试算法训练个人记录笔记(七)
  • 【MySQL精通之路】SQL优化(1)-查询优化(23)-避免全表扫描
  • 【Linux】写时拷贝技术COW (copy-on-write)
  • 用python使用主成分分析数据
  • 用WPS将多张图片生成一个pdf文档,注意参数设置
  • virtual box ubuntu20 全屏展示
  • react中的数据驱动视图,useState()的使用
  • 金融数据库,实时行情,股票财务数据在线查询
  • 开源模型应用落地-LangSmith试炼-入门初体验-数据集评估(三)
  • 设计模式 15 Decorator Pattern 装饰器模式
  • cuda11.8安装torch2.0.1
  • 新手困 ViewModel与Activting的databinding2个对象 区别
  • Cocos Creator 声音播放与管理详解
  • 今日早报 每日精选15条新闻简报 每天一分钟 知晓天下事 5月26日,星期日
  • IDEA快速生成类注释和方法注释的方法
  • [集群聊天服务器]----(七)业务模块之一对一聊天、添加好友函数、好友类以及离线消息类
  • java中使用jedis连接redis
  • 【多线程开发 2】从代码到实战TransmittableThreadLocal
  • 【车载以太网测试从入门到精通】——SOME/IP协议测试
  • 作业39 sqrt应用
  • springboot 实现跨域的几种方式
  • springmvc Web上下文初始化
  • Verilog实战学习到RiscV - 2 : wire 和 reg 的区别
  • OpenGL给定直线起点和终点不同的颜色,使用中点Bresenham画线
  • IT行业的现状与未来发展趋势:从云计算到量子计算的技术变革
  • 电脑远程控制另一台电脑怎么弄?
  • 软件设计师备考 | 案例专题之面向对象设计 概念与例题
  • UniApp 2.0可视化开发工具:引领前端开发新纪元