当前位置: 首页 > news >正文

00Hadoop数据仓库平台

在这里是学习大数据的第一站

  • 什么是数据仓库
  • 常见大数据平台组件及介绍

什么是数据仓库

在计算领域,数据仓库(DW 或 DWH)也称为企业数据仓库(EDW),是一种用于报告和数据分析的系统,被认为是商业智能的核心组件。 数据仓库是来自一个或多个不同来源的集成数据的中央存储库。 它们将当前和历史数据存储在一个位置,用于为整个企业的员工创建分析报告。这对公司来说是有益的,因为它使他们能够询问数据并从数据中汲取见解并做出决策。

数据仓库概览

Extract, transform, load (ETL)是用于构建数据仓库系统的两种主要方法。

数据仓库的输入通常包括:业务数据、用户行为数据和爬虫数据等。

业务数据: 各行业在处理事务过程中产生的数据。比如用户在电商网站的登录、下单、支付等过程,和业务数据库进行的增删改查交互数据,这些产生的数据就是业务数据。业务数据通常存储在MySQL和Oracle中。

用户行为数据: 用户在使用产品的过程中,通过客户端交互的数据和业务埋点数据将发往服务器保存,例如页面浏览、点击、停留、评论、点赞、收藏等。用户行为数据往往存储在日志文件中。

常见大数据平台组件及介绍

技术选型主要考虑因素:数据量大小、业务需求、行业内经验、技术成熟度、开发维护成本、总成本预算,常见的数据仓库平台选型如下:
在这里插入图片描述

  • 数据采集传输:Flume、Kafka、DataX、Maxwell,Sqoop,Logstash
  • 数据存储:MySQL,HDFS\ Hadoop,HBase,Redis,MongoDB
  • 数据计算:Hive,Spark,Flink,Storm,Tez
  • 即席查询:Presto,Kylin,Impala,Druid,ClickHouse,Doris
  • 数据可视化:Superset,Echarts,Sugar,QuickBI,DataV
  • 任务调度:DolphinScheduler,Azkaban,NIFI,Airflow
  • 集群监控:Zabbix,Prometheus
  • 元数据管理:Atlas
  • 权限管理:Ranger,Sentry

具体组件的介绍与安装,请点击各个组件名称进行跳转。

http://www.lryc.cn/news/252171.html

相关文章:

  • java-jar包
  • Flink运行时架构核心概念
  • docker安装达梦数据库并挂在数据卷
  • ROS第一个程序——helloworld
  • 【Python 训练营】N_17 冒泡排序
  • 虚拟机docker中的Nginx部署
  • 06、pytest将多个测试放在一个类中
  • 实体类转SQL工具类
  • 高端制造业中的通用性超精密3D光学测量仪器
  • 微信公众号非静默授权获取头像和昵称
  • Java项目学生管理系统四编辑学生
  • 不同数据库进行同步和增量数据(SQL server 与MySQL数据库为例)
  • 国内的几款强大的AI智能—AI语言模型
  • linux下恶意软件的七种反分析技术
  • Spring Security OAuth2 认证服务器自定义异常处理
  • selenium环境安装
  • (C++)和为s的两个数字--双指针算法
  • 鸿蒙(HarmonyOS)应用开发——构建页面(题目答案)
  • Python基础快速过一遍
  • 等保测评报价相差很大,里面有什么门道
  • MATLAB的rvctools工具箱熟悉运动学【机械臂机器人示例】
  • 如何精准操作无人机自动停机坪?
  • 【蓝桥杯】带分数
  • 软件工程 课堂测验 选择填空
  • 计算机网络的分类
  • 百度收录批量查询工具,免费SEO优化排名工具
  • select选择框里填充图片,下拉选项带图片
  • 轨道交通数字孪生可视化平台,助力城市交通运营智慧化
  • 【每日OJ —— 101. 对称二叉树】
  • 善网商城上线洁柔产品 公益人专享爱心价官方正品