当前位置: 首页 > news >正文

11.hadoop系列之MapReduce框架原理之InputFormat数据输入

我们先简要了解下InputFormat输入数据

1.数据块与数据切片

数据块: Block在HDFS物理上数据分块,默认128M。数据块是HDFS存储数据单位
数据切片: 数据切片只是在逻辑上对输入进行分片,并不会物理上切片存储。数据切片是MapReduce计算输入数据的单位,一个切片对应启动一个MapTask

2.数据切片与MapTask并行度决定机制

  1. 一个Job的Map阶段并行度由客户端在提交Job时的切片数决定
  2. 每一个Split切片分配一个MapTask并行实例处理
  3. 默认情况下,切片大小=数据块大小
  4. 切片时不考虑数据集整体,而是针对每一个文件单独切片

3.TextInputFormat

TextInputFormat是默认的FileInputFormat实现类,按行读取每条记录。键是文件中的位置LongWritable类型,值是文本行Text类型

4.CombineTextInputFormat

4.1 应用场景

TextInputFormat按文件切片,不管文件多小,都会是一个单独的切片,都会交给一个MapTask,这样如果大量小文件,就会产生大量MapTask,影响性能
CombineTextInputFormat用于小文件过多场景,它可以将多个小文件逻辑上规划到一个切片中,这样多个小文件就可以交给一个MapTask处理

4.2 Driver中代码配置
job.setInputFormatClass(CombineFileInputFormat.class);
// 虚拟存储切片最大值设置为4M,可根据小文件情况调整
CombineFileInputFormat.setMaxInputSplitSize(job, 4 * 1024 * 1024);
4.3 切片机制

生成切片过程包括:虚拟存储过程和切片过程

1)假设有4个小文件abcd[读取时按字典顺序]大小分别为1.7M、5.1M、3.4M以及6.8M这四个小文件
2)虚拟存储之后形成6个文件块,大小分别为:1.7M (2.55M、2.55M)3.4M(3.4M、3.4M),因为ac文件小于4M,分为一块;bd文件大于4M且小于2 * 4M且为了均匀考虑故均分为两块(如果有E文件大小为8.2M,即8.2>2 * 4,则先逻辑划分出4M,剩余4.2在按之前逻辑均匀划分)
3)切片过程判断虚拟存储文件是否大于等于4M,是则单独形成一个切片,否则跟下一个虚拟存储文件合并,共同形成一个切片,故abcd最终会形成3个切片,大小分别为:(1.7+2.55)M,(2.55+3.4)M,(3.4+3.4)M

欢迎关注公众号算法小生与我沟通交流

http://www.lryc.cn/news/1974.html

相关文章:

  • LoadRunner
  • 笔试题-2023-芯原-数字前端设计or验证【纯净题目版】
  • 【软件测试】资深测试工程师说:你真的能做好bug分析吗?
  • NLP模型检查英语语法错误
  • Echarts的Category轴滑动
  • 04 react css上下浮动动画效果
  • 关于线程池
  • 【GPLT 二阶题目集】L2-004 这是二叉搜索树吗?
  • Python Numpy基础教程
  • 常见HTTP请求错误码大全
  • 重保期间如何「快速」构建内容安全治理体系?
  • 用Qt开发的ffmpeg流媒体播放器,支持截图、录像,支持音视频播放,支持本地文件播放、网络流播放
  • 第七节 平台设备驱动
  • 代理模式详解
  • 根据报告20%的白领在一年内做过副业,你有做副业吗?
  • 第二十三周周报
  • 2023年Q1业绩增长背后,迪士尼亟待扭转流媒体亏损困局
  • LKWA靶场通关和源码分析
  • logcpp demo
  • 平价款的血糖血压监测工具,用它养成健康生活习惯,dido F50S Pro上手
  • 算法训练营 day42 动态规划 理论基础 斐波那契数 爬楼梯 使用最小花费爬楼梯
  • MySQL8 创建用户,设置修改密码,授权
  • MySQL —— 内置函数
  • Mybatis框架(全部基础知识)
  • pixhawk2.4.8使用调试记录—APM固件
  • 终于进了字节,记录一下我作为一名测试员磕磕碰碰的三个月找工作经历...
  • 基于PYTHON django四川旅游景点推荐系统
  • MySql服务多版本之间的切换
  • 嵌入式开发:通过嵌入式虚
  • 广州穗雅医院杨济安:了解症状表现 有效防治口腔黏膜下纤维化