当前位置: 首页 > news >正文

数据仓库的流程

数据仓库完全用统计分析框架实现:Spark,MR
但是因为实际生产环境中,需求量非常大,
如果每个需求都采用独立c代码开发方式,重复计算会很多.
提高性能的方法: 1.减少数据量 2. 减少重复计算
例如RDD
cache 可以减少重复计算,但是不安全,都在缓存中,
persist 都放内存中,但是慢

而数仓是通过表来保存数据,从而达到减少重复计算的操作.

1.数据仓库的模块流程

1.数据源ODS(Operate Data Store)

1.作用: 汇总数据,为统计分析做准备

2.特点(能不改就不改)

1.行式存储

不需要进行统计分析,所以尽量不改变存储格式,因为修改数据格式需要消耗大量资源.,

2.数据格式

尽量不改变数据格式,消耗资源,影响性能.
JSON,TSV
但是如果必须要修改,就是异构数据的融合,

2.数据加工(Data Warehouse detail)

1.作用

为统计分析做准备

2.什么意思?

对数据的加工如过滤,无效数据筛选,

3.统计(DWS ->Data Warehouse Summary)

1.作用

对加工后的数据进行统计

4.分析(ADS->Application Data Service)

应用程序数据服务

1.作用

分析后的结构是整个数仓的最终结果,最后需要对外提供服务,例如:可视化界面图像.

5.DIM层(Common)

1.什么是维度(Dimension)

看事物的角度

2.层级之间的思考?

每一层执行完,再执行下一层,确保不会出现回环

2.如何控制SQL的执行

通过SQL和任务调度器,由任务调度器来完成调度工作.

http://www.lryc.cn/news/154290.html

相关文章:

  • MyBatis-Plus深入 —— 条件构造器与插件管理
  • C语言结构体的初始化方式
  • Vue生成多文件pdf准考证
  • Rust的derive思考
  • Python常用模块
  • Java“牵手”京东商品评论数据接口方法,京东商品评论接口,京东商品评价接口,行业数据监测,京东API实现批量商品评论内容数据抓取示例
  • 算法leetcode|75. 颜色分类(rust重拳出击)
  • 网络安全(黑客)自学笔记学习路线
  • NoSQL:非关系型数据库分类
  • 【Eclipse】Project interpreter not specified 新建项目时,错误提示,已解决
  • OPENCV实现图像查找
  • vue仿企微文档给页面加水印(水印内容可自定义,超简单)
  • “金融级”数字底座:从时代的“源启”,到“源启”的时代
  • zabbix自动发现linux系统挂载的nas盘,并实现读写故障的监控告警
  • 无涯教程-JavaScript - DAYS函数
  • 48、springboot 的国际化之让用户在程序界面上弄个下拉框,进行动态选择语言
  • FPGA可重配置原理及实现(1)——导论
  • Ubuntu系统下使用宝塔面板实现一键搭建Z-Blog个人博客的方法和流程
  • 数据结构 | 第一章 绪论
  • python爬虫入门教程(非常详细):如何快速入门Python爬虫?
  • ElementUI浅尝辄止21:Tree 树形控件
  • 插入排序,选择排序,交换排序,归并排序和非比较排序(C语言版)
  • 【每日一题】1041. 困于环中的机器人
  • C# 采用3DES-MAC进行签名 base64解码与编码
  • AI绘画:StableDiffusion实操教程-完美世界-魔女(附高清图下载)
  • python excel 读取及写入固定格式
  • SQL Server进阶教程读书笔记
  • DHTMLX Gantt 8.0.5 Crack -甘特图
  • RHCA之路---EX280(5)
  • ”轻舟已过万重山“-----我回归更新了-----