当前位置: 首页 > news >正文

企业级大数据平台建设方案

企业级大数据平台建设方案

    • 方案简介
    • 硬件
    • 软件
      • 分布式存储:
      • Foreman作为集群管理工具
      • Spark
      • cloudera

方案简介

该方案是多年前在Roadstar.ai任职时的建设方案,现将方案部分细节开源,结合本博客的其他文章,能够建立可靠的企业大数据平台。


硬件

自组双路Xeon E5 + 64GB + SSD(250GB)+ 10TB*24 +万兆电口
峰值功率~800W

软件

OS:Centos7,安装到SSD上
存储方案:ZFS + raidz2(双奇偶校验) + 1 hot spare disk(1热备盘)

注意zfs需要0.7x版本以上,0.7x解决了两个主要问题:
1)hot spare(热备)不能在有盘故障的情况下热接入。
2)resilver(重同步重同步)太慢


分布式存储:

HDFS
需要使用3.x的版本(erasure code)

冗余方案使用EC(纠删码Erasure Coding),10+4模式(10 个数据块,4 个冗余块),需要isa-l加速(英特尔存储加速库),–编译了一个启用native的hadoop。


若机器不足,namenode(名字节点)及其backup(备份节点)都和datanode(数据节点)可共用


Foreman作为集群管理工具

Foreman(集群管理工具):用来管理和自动化物理和虚拟服务器的工具。


Spark

Apache Spark,用于大数据处理和分析的快速、通用的分布式计算系统。


cloudera

使用Cloudera部署和管理hadoop集群

CDH 是 Cloudera 公司发布的一个综合性大数据平台,它包含了经过 Cloudera 企业级优化和增强的 Apache Hadoop 组件。

http://www.lryc.cn/news/352386.html

相关文章:

  • HTML语义化标签:为何它们如此重要?
  • 详细介绍一下Votenet的工作原理及流程
  • 使用Autofit.js和React实现自适应布局
  • Kafka之【存储消息】
  • 鸿蒙开发配置官方地图
  • 《天道》丁元英格律诗商业案例完整拆解(上)
  • 2024年山东省安全员C证证模拟考试题库及山东省安全员C证理论考试试题
  • 微软开源多模态大模型Phi-3-vision,微调实战来了
  • 架构二。。
  • 《Google 软件工程》读书笔记
  • 研发机构大数据迁移如何保障敏感数据不泄露
  • 【Spring Security系列】权限之旅:SpringSecurity小程序登录深度探索
  • ​​​【收录 Hello 算法】第 10 章 搜索
  • 【MySQL精通之路】SQL优化(1)-查询优化(11)-多范围查询优化
  • Mysql之基本架构
  • Python学习---基于正则表达式的简单爬取电影下载信息案例
  • .DS_store文件
  • 【webrtc】内置opus解码器的移植
  • Java注解:讲解Java注解(Annotations)的概念,使用,并展示如何自定义注解,甚至框架级别的使用说明
  • 二维矩阵乘法案例
  • selenium安装出错
  • 前端中 dayjs 时间的插件使用(在vue 项目中)
  • tp5问题集记录 一
  • AGI技术与原理浅析:曙光还是迷失?
  • 探秘机器学习经典:K-近邻算法(KNN)全解析
  • 数据可视化每周挑战——全国星巴克门店数据可视化
  • 【前端】js通过元素属性获取元素
  • 申请轻纺行业工程设计资乙级对企业有什么要求
  • 基于单片机电梯控制系统设计与实现
  • 嵌入式单片机笔试题