当前位置: 首页 > news >正文

数据湖的概念(包含数据中台、数据湖、数据仓库、数据集市的区别)--了解数据湖,这一篇就够了

文章目录

  • 一、数据湖概念
    • 1、企业对数据的困扰
    • 2、什么是数据湖
    • 3、数据中台、数据湖、数据仓库、数据集市的区别


网上看了好多有关数据湖的帖子,还有数据中台、数据湖、数据仓库、数据集市的区别的帖子,发现帖子写的都很多,而且专业名词很多,不是一般人还真的看不懂。

下面我以简单的语言总结概括一下:

一、数据湖概念

1、企业对数据的困扰

数据孤岛:数据分散度过高,无法集中利用(解决方案:可以通过ETL等程序将各个数据孤岛的数据抽取到数仓,进行集中分析)

数据价值的提升:数据增长太快,导致原本遗忘在角落中的数据慢慢有了价值

非结构化数据分析:数仓只适合处理结构化数据,不适合处理非结构化数据

想要海量保留原始数据:由于大规模存储的成本以及大数据技术尚未发展起来的原因,造成企业对于数据的存储都是精简的,无法大量长期保存原始数据

企业的要求:
1、数据的集中存储,可以解决数据孤岛
2、成本可控、维护简单
3、可以存储任意结构的数据
4、能够支持大多数框架(比如:spark,flink等)

而为了迎合这种需求,提出了数据湖的概念

2、什么是数据湖

一句话总结:一种能够满足海量存储和海量分析的系统架构方案(不是数据库,也不是技术架构,是一种概念、一种方案和思路)
切记!!!!!数据湖不是框架,也不是技术的实现,只是一种思想,一种方案!!!!

3、数据中台、数据湖、数据仓库、数据集市的区别

具体区别,看下面一张图即可:
在这里插入图片描述

写时模式:数据写入前已经定义好Schema,更改Schema成本高

读时模式:数据在利用的时候再定义Schema,灵活方便(比如:SparkSQL)

所以在数据湖的实现方案中,SparkSQL占了很大份额

以AWS(亚马逊旗下的一个平台)为例,简单说明一下数据中台和数据仓库的区别:
在这里插入图片描述

http://www.lryc.cn/news/495105.html

相关文章:

  • EDKII之安全启动详细介绍
  • 原生js上传图片
  • 使用torch==2.5.1版本用的清华源遇到的坑
  • 泷羽Sec-星河飞雪-BurpSuite之解码、日志、对比模块基础使用
  • 对拍详细使用方法
  • Python面向对象编程与模块化设计练习
  • Linux系统硬件老化测试脚本:自动化负载与监控
  • 搭建一个基于Web的文档管理系统,用于存储、共享和协作编辑文档
  • 排序学习整理(1)
  • 《深入探究 Java 中的 boolean 类型》
  • 智享 AI 自动无人直播系统:打破地域与时间枷锁中小微企业的营销破局利器
  • 接口测试工具:reqable
  • 同时多平台git配置:GitHub和Gitee生成不同的SSH Key
  • 刷题计划day24 回溯(三)【复原 IP 地址】【子集】【子集 II】
  • 从“找三角形”讲“等腰三角形”
  • Java中的泛型方法和泛型类
  • springboot学习-spring-boot-data-jdbc分页/排序/多表查询的例子
  • 通信与网络基础
  • 【3.存储系统】综合大题
  • 【Linux】【字符设备驱动】深入解析
  • 【JavaEE】多线程(2)
  • mac下Gpt Chrome升级成GptBrowser书签和保存的密码恢复
  • 使用Grafana K6来测测你的系统负载能力
  • 【论文复现】基于BERT的语义分析实现
  • CTF-RE: STL逆向 [NewStarCTF 2023 公开赛道 STL] WP
  • 实习冲刺第三十六天
  • 【Zemax光学设计实训三】---激光缩束镜的设计优化
  • TCP/IP协议簇自学笔记
  • Spring Boot教程之十一:获取Request 请求 和 Put请求
  • 计算机网络(二)