当前位置: 首页 > news >正文

Hadoop3:MapReduce之InputFormat数据输入过程整体概览(0)

一、MapReduce中数据流向

在这里插入图片描述

二、MapTask并行度

1、原理概览

数据块:BlockHDFS物理上把数据分成一块一块。数据块是HDFS存储数据单位。
数据切片:数据切片只是在逻辑上对输入进行分片,并不会在磁盘上将其切分成片进行存储。数据切片是MapReduce程序计算输入数据的单位,一个切片会对应启动一个MapTask

1)一个JobMap阶段并行度由客户端在提交Job时的切片数决定
2)每一个Split切片分配一个MapTask并行实例处理
3)默认情况下,切片大小=BlockSize
4)切片时不考虑数据集整体,而是逐个针对每一个文件单独切片

所以,会开启几个MapTask线程并发处理任务,是由切片数量决定的。
一般,切片大小的设置要与Block大小保持一致。这样性能最优。

2、相关配置

切片大小的配置
mapred-default.xml
最小切片大小配置
默认0,如果配置0,则代码层面分配是1

<property><name>mapreduce.input.fileinputformat.split.minsize</name><value>0</value><description>The minimum size chunk that map input should be splitinto.  Note that some file formats may have minimum split sizes thattake priority over this setting.</description>
</property>

在这里插入图片描述
最大切片大小配置
默认不配置,所以代码获取不到,代码给予Long.MAX_VALUE
mapreduce.input.fileinputformat.split.maxsize
在这里插入图片描述


BlockSize的配置
hdfs-default.xml

<property><name>dfs.blocksize</name><value>134217728</value><description>The default block size for new files, in bytes.You can use the following suffix (case insensitive):k(kilo), m(mega), g(giga), t(tera), p(peta), e(exa) to specify the size (such as 128k, 512m, 1g, etc.),Or provide complete size in bytes (such as 134217728 for 128 MB).</description>
</property>
http://www.lryc.cn/news/364502.html

相关文章:

  • 【Leetcode Python】70.爬楼梯
  • 深度学习 - 张量的广播机制和复杂运算
  • 【CSS】will-change 属性详解
  • linux安装mysql后,配置mysql,并连接navicat软件
  • 【学习笔记】Axios、Promise
  • 自然资源-关于加强规划实施监督管理的指导意见(浙江省自然资源厅学习借鉴)
  • 408链表的创建和初始化
  • Python数据框/列表生成一列多个同样的值
  • 使用 MDC 实现日志链路跟踪,包教包会!
  • 【成都信息工程大学】只考程序设计!成都信息工程大学计算机考研考情分析!
  • 将单列数据帧转换成多列数据帧
  • 信息学奥赛初赛天天练-20-完善程序-vector数组参数引用传递、二分中值与二分边界应用的深度解析
  • 推荐系统学习 一
  • 分库分表详解
  • 【java前端课堂】04_类的继承
  • React nginx配置,一个端口代理多个项目(转发后找不到CSS,JS及图片资源问题解决)
  • Unity协程详解
  • 【iOS】UI学习(二)
  • React路由(React笔记之五)
  • 调用讯飞星火API实现图像生成
  • reduce过滤递归符合条件的数据
  • Go微服务: 基于rocketmq:5.2.0搭建RocketMQ环境,以及示例参考
  • Wpf 使用 Prism 开发MyToDo应用程序
  • vue-Dialog 自定义title样式
  • 数据库主键设计
  • 小熊家务帮day13-day14 门户管理(ES搜索,Canal+MQ同步,索引同步)
  • Android8.1高通平台修改默认输入法
  • 49. 字母异位词分组
  • 负压实验室设计建设方案
  • 作文笔记10 复述故事