当前位置: 首页 > news >正文

hadoop的hdfs中避免因节点掉线产生网络风暴

hadoop的hdfs中避免因节点掉线产生网络风暴

控制节点掉线RPC风暴的参数
三个参数都是hdfs-site.xml中参数,具体可以参考apache hadoop官网,其实块的复制速度有两个方面决定,一是namenode分发任务的速度,二则是datanode之间进行复制的速度。前者可以理解成入口,后者可以当成出口。
1.入口参数:从namenode层面控制任务分发,这个参数修改必须重启namenode,不需要重启datanode.

dfs.namenode.replication.work.multiplier.per.iteration 
这个参数apache hadoop默认值2,cdh集群默认值10

这个参数决定了当NN与DN进行心跳(3s)发送任务列表时,告诉每个DN可以进行复制的block数量。比如集群有500个节点,这个值设置为10,那么一次心跳namnode可以发送datanode复制的数据块数量是10*500=5000块。假如一个节点掉线/退役有800000块block需要复制,则namenode需要多长时间可以将待复制块的任务分发完给datanode呢。
极限计算的结果:

任务分发时间=待复制block总数/(集群活跃dn*参数值)*心跳时间
time=800000/(500*10)=160次心跳*3s/每次心跳=480s=8分钟

所以节点越多,会分发任务越快,分发速度跟节点数和这个参数都成正比

2.出口参数:相比上面从nanode任务分发控制,下面两个使用datanode层面控制,这两个参数也需要重启namenode

1.dfs.namenode.replication.max-streamsapache hadoop默认值是2,cdh集群默认20。

这个参数含义是控制datanode节点进行数据复制的最大线程数,从上面我们知道block的复制优先级分成5种。这个参数控制不包含最高优先级的块复制。即除最高优先级的复制流限制

2.dfs.namenode.replication.max-streams-hard-limit这个值apache hadoop默认值2,cdh集群默认值40

这个参数含义是控制datanode所有优先级块复制的流个数,包含最高优先级;一般上面和上面两个参数互相的配合使用。

http://www.lryc.cn/news/151663.html

相关文章:

  • 2023年高教社杯 国赛数学建模思路 - 案例:最短时间生产计划安排
  • Spring MVC介绍
  • 5年测试在职经验之谈:2年功能测试、3年自动化测试,从入门到不可自拔...
  • 【Python数据分析】数据分析之numpy基础
  • Swift 如何从图片数据(Data)检测原图片类型?
  • 【ES6】 JavaScript 中的Object.assign
  • Redis缓存和持久化
  • OpenCV(六):多通道分离与合并
  • Sql单行数据查询为多行
  • 网络协议分析-http/https/tcp/udp
  • 基于aarch64分析kernel源码 四:printk 内核打印
  • 机器人中的数值优化(六)—— 线搜索最速下降法
  • postman调试注意事项
  • 【C#】泛型
  • CLIP:连接文本-图像
  • MFC网络编程简单例程
  • 云原生简介 (Cloud Native)
  • 【SpringBoot系列】 测试框架之@SpringBootTest的使用
  • 【数据结构与算法篇】手撕八大排序算法之交换排序
  • ArcGIS Pro实践技术应用、制图、空间分析、影像分析、三维建模、空间统计分析与建模、python融合
  • uniapp 项目实践总结(一)uniapp 框架知识总结
  • Oracle查看与修改隐藏参数
  • 基于MQTT协议的物联网网关实现远程数据采集及监控
  • 服务内部错误: stderr: bash: docker-compose: 未找到命令
  • 自然语言处理(六):词的相似性和类比任务
  • 安防监控视频平台EasyCVR视频汇聚平台定制项目增加AI智能算法详细介绍
  • VB个人邮件处理系统设计与实现
  • 第一章辩证唯物论,考点七思维导图
  • Python入门教程 - 基本函数(四)
  • [PyTorch][chapter 53][Auto Encoder 实战]