当前位置: 首页 > news >正文

磁盘均衡器:HDFS Disk Balancer

HDFS Disk Balancer

  • 背景
    • 产生的问题以及解决方法
  • hdfs disk balancer简介
  • HDFS Disk Balancer功能
    • 数据传播报告
  • HDFS Disk Balancer开启
    • 相关命令

背景

  • 相比较于个人PC,服务器一般可以通过挂载多块磁盘来扩大单机的存储能力
  • 在Hadoop HDFS中,DataNode负责最终数据block的存储,在所在机器上的磁盘之间分配数据块。当写入新block时,DataNodes将根据选择策略(循环策略或可用空间策略)来选择block的磁盘(卷)
  • 循环策略:它将新的block均匀分布在可用磁盘上
  • 可用空间策略:此策略将数据写入具有更多可用空间(按百分比)的磁盘
    在这里插入图片描述

产生的问题以及解决方法

  • 在长期运行的集群中采用循环策略的时,DataNode有时会不均匀的填充其存储目录(磁盘/卷),从而导致某些磁盘已满而其他磁盘却很少使用的情况。发生这种情况的原因可能是由于大量的写入和删除操作,也可能是由于更换了磁盘。
  • 另外,如果我们使用基于可用空间选择策略,则每个新写入将进入新添加的空磁盘,从而使该期间的其他磁盘处于空闲状态,这将在新磁盘上创建瓶颈。
  • 因此需要一种INTRA DATANODE BALANCING(DataNode内数据块的均匀分布)来解决intra-DataNode偏斜(在磁盘上块的不均匀分布),这种偏斜是由于磁盘更换或随机写入和删除发生的。
  • 因此,hadoop3.0中引入了一个名为disk balancer的工具,该工具专注于在DataNode内分发数据

hdfs disk balancer简介

  • hdfs disk balancer是hadoop3中引入的命令行工具,用于平衡DataNode中的数据在磁盘指甲分布不均匀问题。在这里特别注意,hdfs diskbalancer与hdfsbalancer是不同的

在这里插入图片描述

HDFS Disk Balancer功能

数据传播报告

为了衡量集群中哪些计算机遭受数据分布不均的影响,磁盘平衡器定义了volume data density metric(磁盘/卷数据密度度量标准)和Node Data Density metric(节点数据密度度量标准)

  • 卷(磁盘)数据密度:比较同台机器上不同卷之间的数据分布情况
  • 节点数据密度:比较的是不同机器之间的

在这里插入图片描述

  • 卷数据密度计算
    假设有一台具有四个卷的计算机,各个磁盘的使情况
    在这里插入图片描述

在这里插入图片描述

  • 磁盘平衡
    当指定某个datanode节点进行disk数据平衡,就可以先计算或读取当前的volume data density(磁盘数据密度)。有了这些数据,我们可以轻松确定哪些卷已经超量配置,哪些卷已经不足
    为了将数据从一个卷移动到datanode中的另一个卷,Hadoop开发实现了基于rpc协议的disk balancer

HDFS Disk Balancer开启

  • hdfs disk balancer通过创建计划进行操作,该计划是一组语句,描述应在两个磁盘之间移动多少数据,然后在datanode上执行该语句。计划包含多个移动步骤。计划中的每个移动步骤都具有目标磁盘,源磁盘的地址。移动步骤还具有要移动的字节数。该计划是针对可操作的datanode执行的
  • 默认情况下,Hadoop集群上已经启用了disk balancer功能。通过hdfs-site.xml中调整dfs.disk.balancer.enabled参数值,选择在Hadoop中是否启用磁盘平衡器

相关命令

  • plan计划
    命令:hdfs diskbalancer -plan < datanode>

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

http://www.lryc.cn/news/105461.html

相关文章:

  • 蔚小理新势力互联网造车在CAN FD硬件主框架及后装控制方案开发
  • 左叶子之和
  • Java版知识付费平台免费搭建 Spring Cloud+Spring Boot+Mybatis+uniapp+前后端分离实现知识付费平台qt
  • LeetCode343. 整数拆分
  • 单机,集群和分布式概念
  • 小目标检测(1)——大恒(DaHeng)相机操作与控制编程
  • 异步实现邮件发送
  • 【Redis】内存数据库Redis进阶(Redis分片集群)
  • 替代LT8711龙讯替代RTD2172 CS5265中文规格书4K60HZ转接线 设计Type-C转HDMI2.0高清投屏方案
  • HCIA-datacom数通题库和录播视频资料
  • 优思学院|质量工程师应具备什么能力?
  • 数据分析 VS 数据可视化:决战时刻
  • Vue3中无法为el-tree-select设置反选问题分析
  • Redis - 缓存持久化
  • Pandas进阶修炼120题-第三期(金融数据处理,51-80题)
  • 3、HAproxy高级配置
  • tcpdump网络抓包工具的使用
  • AMEYA360旗下品牌:日本SUSUMU推出RGV系列贴片电阻器新产品
  • git-版本控制器
  • 台式机/工控机通过网线共享笔记本电脑无线网络linux系统下 usb网卡的驱动安装
  • kotlin 编写一个简单的天气预报app(五)增加forcast接口并显示
  • vs调试引发了异常:读取访问权限冲突,argv是0x7
  • 【电影推荐系统】实时推荐
  • Delphi 开发不一样的窗体标题栏:TTitleBarPanel
  • Quartz中禁止并发机制源码级解析
  • 为什么从公有云迁移到私有云的越来越多?
  • 用shell实现MySQL分库分表操作
  • php 适配器模式
  • Scratch Blocks自定义组件之「下拉图标」
  • Robot Framweork之UI自动化测试---分层设计