当前位置: 首页 > news >正文

hdfs中MapReduce中的shuffle,combine和partitioner(hadoop,Hdfs)

1- MapReduce中shuffle阶段的工作流程以及何如优化该阶段?

分区 ,排序 ,溢写 ,拷贝到对应reduce机器上 ,增加combiner ,压缩溢写的文件
 


2-MapReduce中combine的作用,一般使用情景,那些情况不需要以及和reduce的区别?

1)Combiner的意义就是对每一个maptask的输出进行局部汇总 ,以减小网络传输量。

2)Combiner能够应用的前提是不能影响最终的业务逻辑 ,而且 ,Combiner的输出kv应该跟reducer的输入kv类型 要对应起来。

3)Combiner和reducer的区别在于运行的位置。

- Combiner是在每一个maptask所在的节点运行;

- Reducer是接收全局所有Mapper的输出结果


3-        如果没有定义partitioner,那数据在被送达reduce前是如何被区分的?

如果没有自定义的 partitioning,则默认的 partition 算法,即根据每一条数据的 key的 hashcode 值摸运算(%) reduce 的数量 ,得到的数字就是“分区号”。

http://www.lryc.cn/news/351409.html

相关文章:

  • Linux应用入门(二)
  • 高仿果汁导航模板
  • 机器学习之一分类支持向量机(One-class SVM)
  • 签发免费https证书的方式
  • Autodl服务器中Faster-rcnn(jwyang)训练自己数据集(二)
  • 安卓手机文件误删或丢失?教你快速找回的方法!
  • C语言 | Leetcode C语言题解之第108题将有序数组转换为二叉搜索树
  • 关于在企业环境中中间人攻击(MITM)可行性研究的报告
  • GitHub Actions 自动部署 AWS Lambda
  • 【NOIP2013普及组复赛】题4:车站分级
  • el-table 表格拖拽 + 表头可修改 + 宽度自定义
  • Google发布的CAT3D,在1分钟内,能够从任意数量的真实或生成的图像创建3D场景。
  • 基于Matlab实现声纹识别系统
  • 【人工智能项目】小车障碍物识别与模型训练(完整工程资料源码)
  • #05【面试问题整理】嵌入式软件工程师
  • 同旺科技 FLUKE ADPT 隔离版发布 ---- 3
  • 探索 JavaScript 新增声明命令与解构赋值的魅力:从 ES5 迈向 ES6
  • HTML5 历史、地理位置处理、全屏处理
  • 打印机驱动程序安装后位置以及注册表中的位置
  • oracle数据库解析过高分析
  • Python解析网页-XPath
  • Vue 3入门指南
  • Arcpy安装和环境配置
  • Swagger2 和 Swagger3 的不同
  • 基于Tensorflow+Keras的卷积神经网络(CNN)人脸识别
  • electron学习记录
  • 【若依框架】学习
  • JavaScript运算符的二义性
  • 一次搞懂常见Banner尺寸,像素标准全解析!
  • 短视频矩阵管理系统:高效运营的智能解决方案