当前位置: 首页 > news >正文

Hadoop不同版本的区别

免费springboot,vue,springcloudalibaba视频,有兴趣可以看看

<!-- springboot,springboot整合redis,整合rocketmq视频: -->
https://www.bilibili.com/video/BV1nkmRYSErk/?vd_source=14d27ec13a4737c281b7c79463687112<!-- springcloudalibaba,openfeign,nacos,gateway,sso视频:-->
https://www.bilibili.com/video/BV1cFDEYWEkY/?vd_source=14d27ec13a4737c281b7c79463687112<!-- vue+springboot前后端分离视频:-->
https://www.bilibili.com/video/BV1JLSEYJETc/?vd_source=14d27ec13a4737c281b7c79463687112<!-- shiro视频:-->
https://www.bilibili.com/video/BV1YVUmYJEPi/?vd_source=14d27ec13a4737c281b7c79463687112

Hadoop的不同版本之间存在一些显著的区别,以下是一些主要的版本差异:

Hadoop 1.x vs Hadoop 2.x

  1. YARN的引入:Hadoop 2.0引入了YARN(Yet Another Resource Negotiator),将Hadoop从以MapReduce为中心的平台转变为更加多功能的数据处理平台。
  2. 容错机制:Hadoop 1.x主要通过复制来处理容错,而Hadoop 2.x可以通过Erasure编码处理容错。
  3. 存储方案:Hadoop 1.x使用3X副本方案,而Hadoop 2.x支持HDFS中的擦除编码,存储开销从200%降低到50%。
  4. 时间线服务:Hadoop 2.x使用具有可伸缩性问题的旧时间轴服务,而Hadoop 3.x改进了时间线服务v2,提高了时间线服务的可扩展性和可靠性。

Hadoop 2.x vs Hadoop 3.x

  1. Java版本支持:Hadoop 2.x的最低Java支持版本是Java 7,而Hadoop 3.x的最低支持版本是Java 8。
  2. 数据平衡:Hadoop 2.x使用HDFS平衡器进行数据平衡,而Hadoop 3.x使用Intra-data节点平衡器。
  3. 文件系统支持:Hadoop 3.x扩展了对更多文件系统的支持,包括Microsoft Azure Data Lake文件系统。
  4. Datanode资源:在Hadoop 3.x中,Datanode资源可以用于其他应用程序,类似于Hadoop 2.x。
  5. MapReduce API兼容性:Hadoop 3.x保持了与Hadoop 1.x程序兼容的MR API,以便在Hadoop 3.x上执行。
  6. 支持操作系统:Hadoop 3.x进一步支持了Microsoft Windows。
  7. 单点故障(SPOF):Hadoop 3.x具有SPOF的功能,Namenode失败后可以自动恢复,无需人工干预。
  8. HDFS联盟:Hadoop 3.x支持多个NameNode用于多个Namespace,提高了系统的可扩展性。
  9. YARN Timeline Service:Hadoop 3.x提供了新版本的YARN Timeline Service,提供了更加灵活和高效的应用程序历史记录和监控功能。
  10. Hadoop Common包的升级:Hadoop 3.x中升级了Hadoop Common包,包括一些新的功能和改进,以提高系统的性能和可靠性。
  11. 流式数据处理改进:Hadoop 3.x中对流式数据处理功能进行了改进,包括对Apache Kafka和Apache Storm等流处理框架的更好支持。
  12. 支持更多的硬件和操作系统平台:Hadoop 3.x扩展了对更多硬件和操作系统平台的支持。
  13. Shell脚本重构:Hadoop Shell脚本已被重写,以修复许多长期存在的错误并包括一些新功能。
  14. MapReduce任务本地优化:MapReduce增加了对map输出收集器的本地执行的支持,对于shuffle密集型工作,这可以使性能提高30%或更多。
  15. 支持多个NameNode:Hadoop 3.x支持两个以上的NameNode,提高了群集的容错能力。
  16. 默认服务端口变更:Hadoop 3.x中多个服务的默认端口已被更改,减少了与其他应用程序的端口冲突问题。
  17. DataNode内部负载均衡:Hadoop 3.x在DataNode内部添加了负载均衡功能,以优化数据存储和访问性能。
  18. 支持文件系统连接器:Hadoop 3.x提供了对多种文件系统的连接器支持,增强了Hadoop与外部存储系统的集成能力。

Hadoop 3.3.x vs Hadoop 3.4.0

  1. DistCp内存使用优化:Hadoop 3.4.0中添加了-useiterator选项,使用listStatusIterator构建列表,减少客户端构建列表时的内存使用。
  2. URI缓存:DFS客户端在创建socket地址时可以使用URI缓存,减少URI对象创建的频率。
  3. 自动密钥库重新加载:增加了自动重新加载密钥库的功能。
  4. Quota初始化线程增加:NameNode启动过程中的默认Quota初始化线程数量从4增加到12。
  5. 默认字符集替换为UTF-8:所有默认字符集使用已被替换为UTF-8。

这些是Hadoop不同版本之间的主要区别,每个新版本都在性能、可靠性、兼容性和易用性方面进行了改进和增强。

http://www.lryc.cn/news/500665.html

相关文章:

  • QtCreator UI界面 菜单栏无法输入中文
  • java switch及其新特性
  • E卷-货币单位换算(100分)
  • 什么是MMD Maximum Mean Discrepancy 最大均值差异?
  • 沐风老师3DMAX摄相机阵列插件使用方法
  • Java Web 开发学习中:过滤器与 Ajax 异步请求
  • 数据结构 (36)各种排序方法的综合比较
  • 使用vue搭建不需要打包的前端项目
  • 发布订阅者=>fiber=>虚拟dom
  • Python-计算机中的码制以及基础运算符(用于分析内存)
  • yum 离线软件安装
  • 【C语言】17. 数据在内存中的存储
  • 二叉树概述
  • 【开源免费】基于SpringBoot+Vue.JS图书进销存管理系统(JAVA毕业设计)
  • 惠普M126a连接共享打印机故障0x000006ba,系统不支持请求的命令,print spooler重复停止
  • Chainlit集成LlamaIndex实现一个通过用户聊天对话的酒店预定系统
  • 计算机网络之网络层超详细讲解
  • 代码随想录算法训练营day51|动态规划part13
  • ESP8266自制桌宠机器狗
  • 【力扣】409.最长回文串
  • git 拉取代码时报错 gitignore Please move or remove them before you merge.
  • 19,[极客大挑战 2019]PHP1
  • MQTT消息服务器mosquitto介绍及说明
  • uniapp结合movable-area与movable-view实现拖拽功能
  • 十九(GIT2)、token、黑马就业数据平台(页面访问控制(token)、首页统计数据、登录状态失效)、axios请求及响应拦截器、Git远程仓库
  • 文生图模型开源之光!ComfyUI - AuraFlow本地部署教程
  • spring boot之@Import注解的应用
  • 【记录】用JUnit 4的@Test注解时报错java.lang.NullPointerException的原因与解决方法
  • Spring Boot 自动化脚本-多线程批量压缩图片
  • 依托 Spring Boot框架,精铸高扩展性招聘信息管控系统