当前位置: 首页 > article >正文

数据湖 (特点+与数据仓库和数据沼泽的对比讲解)

数据湖就像一个“数据水库”,把企业所有原始数据(结构化的表格、半结构化的日志、非结构化的图片/视频)原样存储,供后续按需分析。
对比传统数据仓库

数据仓库数据湖
数据清洗后的结构化数据(如Excel表格)原始数据(日志、图片、CSV、JSON)
模式先定义结构再存数据(Schema-on-Write)先存数据再按需定义结构(Schema-on-Read)
用途固定报表、BI分析机器学习、探索性分析、灵活挖掘

数据湖的3大核心特点

  1. 存一切原始数据
    • 例子:电商公司把用户点击日志、客服录音、商品图片都丢进数据湖。
  2. 低成本存储
    • 技术:用Hadoop HDFS、Amazon S3、阿里云OSS等分布式存储,1TB月费仅5美元。
  3. 按需分析
    • 工具:SQL查询(Hive、Presto)、机器学习(Spark ML)、可视化(Tableau)。

数据湖典型架构(3层设计)

  1. 存储层:原始数据直接存储(如AWS S3)。
  2. 处理层:清洗、转换数据(用Spark、Flink)。
  3. 服务层:供分析师、数据科学家按需使用(如用Jupyter Notebook分析)。

数据湖 vs 数据沼泽

  • 成功的数据湖:有元数据管理(知道存了什么)、访问权限控制、数据目录。
  • 失败的数据沼泽:数据乱堆不放标签,找数据像“大海捞针”。
    关键工具
  • 元数据管理:Apache Atlas、AWS Glue Data Catalog。
  • 数据治理:Collibra、Alation。

数据湖的3个实际应用

  1. 用户行为分析
    • 案例:抖音把每个用户的点击、播放、停留时间存入数据湖,训练推荐算法。
  2. 物联网(IoT)
    • 案例:特斯拉将车辆传感器数据实时写入数据湖,分析电池健康状态。
  3. 金融风控
    • 案例:支付宝用数据湖存储交易记录、地理位置、设备信息,实时检测欺诈交易。

一句话总结

数据湖 = “原始数据仓库”,存一切数据,不预设用途,需配合治理工具避免成“数据垃圾场”。

http://www.lryc.cn/news/2393044.html

相关文章:

  • 深入链表剖析:从原理到 C 语言实现,涵盖单向、双向及循环链表全解析
  • 编码总结如下
  • 《算力觉醒!ONNX Runtime + DirectML如何点燃Windows ARM设备的AI引擎》
  • [9-1] USART串口协议 江协科技学习笔记(13个知识点)
  • Oracle基础知识(五)——ROWID ROWNUM
  • 简述synchronized和java.util.concurrent.locks.Lock的异同 ?
  • OpenCV CUDA模块直方图计算------在 GPU 上计算图像直方图的函数calcHist()
  • EMS只是快递那个EMS吗?它跟能源有什么关系?
  • 日志技术-LogBack、Logback快速入门、Logback配置文件、Logback日志级别
  • 修改Cinnamon主题
  • 91.评论日记
  • HTML5实现简洁的端午节节日网站源码
  • Window10+ 安装 go环境
  • AWS WebRTC:获取ICE服务地址(part 2): ICE Agent的作用
  • 一、Sqoop历史发展及原理
  • React 编译器 RC
  • PyTorch 中mm和bmm函数的使用详解
  • 关于表连接
  • 【计算机网络】fork()+exec()创建新进程(僵尸进程及孤儿进程)
  • QPS 和 TPS 详解
  • Word表格怎样插入自动序号或编号
  • 数据结构:导论
  • 青少年编程与数学 02-020 C#程序设计基础 13课题、数据访问
  • 无人机仿真环境(3维)附项目git链接
  • 湖北理元理律师事务所:债务优化中的“生活锚点”设计
  • Python 训练营打卡 Day 30-模块和库的导入
  • 前端实现图片压缩:基于 HTML5 File API 与 Canvas 的完整方案
  • 【Docker管理工具】部署Docker管理面板DweebUI
  • 【后端高阶面经:架构篇】50、数据存储架构:如何改善系统的数据存储能力?
  • 编程之巅:语言的较量