当前位置: 首页 > news >正文

Hadoop3:MapReduce中的Partition原理及自定义Partition

一、默认Partition分区配置

以WC案例来进行验证。

1、设置setNumReduceTasks

修改的代码
这行代码,确定了reduceTask的数量,也确定了分区逻辑
在这里插入图片描述

在mapper文件中,打上断点
在这里插入图片描述
计算分区的代码
这里会对每一个kv进行计算,然后,分配分区
在这里插入图片描述

2、不设置setNumReduceTasks

如果不设置这个参数
默认返回-1,则生成的分区文件就1个
在这里插入图片描述

3、总结

默认分区是根据key的hashCode对ReduceTasks个数取模得到的。用户没法控制哪个key存储到哪个分区。

那么,显然无法控制key的分区,是不能满足需求的!
所以,我们需要进行自定义Partition分区计算的逻辑。

二、自定义Partition分区

1、编写步骤

在这里插入图片描述

2、需求分析

http://www.lryc.cn/news/376873.html

相关文章:

  • 就因为没在大屏项目加全屏按钮,早上在地铁挨了领导一顿骂
  • STM32学习记录(八)————定时器输出PWM及舵机的控制
  • Vue CLI,Vue Router,Vuex
  • 互联网广告相关概念
  • 如何在服务器上部署一个java程序
  • 白酒:中国的酒文化的传承与发扬
  • 算法金 | 再见!!!梯度下降(多图)
  • python Django安装及怎么检测是否安装成功
  • Swift开发——存储属性与计算属性
  • 如何解决input输入时存在浏览器缓存问题?
  • Java基础学习-方法
  • Ribbon与Nginx的区别
  • R包开发详细教程
  • 图像的高频和低频细节
  • PostgreSQL源码分析——常量表达式化简
  • 速卖通自养号测评:安全高效的推广手段
  • 项目监督与控制
  • 【LeetCode刷题】面试题 17.19. 消失的两个数字
  • 如何定制Spring的错误json信息
  • 【第20章】Vue实战篇之Vue Router(路由)
  • 阿里云运维第一步(监控):开箱即用的监控
  • Python量化交易学习——Part7:定制增强型中证红利策略
  • 拥抱未来:探索改变游戏规则的新存储技术
  • shell中的流程控制
  • DiffIR: Efficient Diffusion Model for Image Restoration
  • xss一些笔记
  • 以太坊网络中为什么要设置Gas上限
  • vue-cli是什么?和 webpack是什么关系?
  • leetcode刷题(46-50)
  • [渗透测试学习] Runner-HackTheBox