当前位置: 首页 > news >正文

Hadoop3教程(九):MapReduce框架原理概述

文章目录

  • 简介
  • 参考文献

简介

这属于整个MR中最核心的一块,后续小节会展开描述。

整个MR处理流程,是分为Map阶段和Reduce阶段。

一般,我们称Map阶段的进程是MapTask,称Reduce阶段是ReduceTask。

其完整的工作流程如图:

在这里插入图片描述

Map阶段具体的工作任务是啥呢?

1) map阶段决定,根据数据源,可以选择根据什么方式来读取数据;

默认情况下,map阶段读数据,是按行读,读取到的KV里,K是偏移量(可以理解成行数),V是这一行的内容。那map阶段是不是只能这么行读呢?

不是。

这里就要介绍一个组件,叫做InputFormat,它就是用来控制数据的读取形式。

Hadoop中的InputFormat有好几种实现,如FileInputFormat、TextInputFormat和CombineTextInputFormat等。

2) 数据在被读进来之后,就会交给Mapper来进行自定义业务逻辑的处理;

3)接着进行shuffle,这是一个非常复杂的过程,可以在这里进行排序、分区、压缩、合并等等, 堪称MapReduce中最核心的环节

最后进入reduce阶段,也有一个组件,叫做OutputFormat,用来控制数据的输出形式。同样的,它也有好几种实现,默认的OutputFormat是把数据写进文件里,那我想写进数据库里,可不可以呢?

当然可以,自定义OutputFormat就可以。

接下来的几节就会围绕这个流程做展开讲述:

  • InputFormat
  • Shuffle机制
  • OutputFormat
  • Join应用

参考文献

  1. 【尚硅谷大数据Hadoop教程,hadoop3.x搭建到集群调优,百万播放】
http://www.lryc.cn/news/193330.html

相关文章:

  • 使用PyTorch加载数据集:简单指南
  • 【考研数学】线性代数第六章 —— 二次型(2,基本定理及二次型标准化方法)
  • Raven2靶机渗透
  • UE5中双pass解决半透明材质乱序问题
  • Cisdem Video Player for mac(高清视频播放器) v5.6.0中文版
  • 数据库管理-第109期 19c OCM考后感(20231015)
  • 初出茅庐的小李博客之SPI工作模式
  • SpringCloud-Bus
  • Adobe2024 全家桶更新了,PS、Ai、AE、PR应用尽有
  • 【斗破年番】彩鳞换装美翻,雁落天惨死,萧炎暗杀慕兰三老遇险,彩鳞霸气护夫
  • 华为端到端战略管理体系(DSTE开发战略到执行)的运作日历图/逻辑图及DSTE三大子流程介绍
  • Linux友人帐之调试器--gdb的使用
  • antd pro form 数组套数组 form数组动态赋值 shouldUpdate 使用
  • 动态规划:918. 环形子数组的最大和
  • 毅速丨模具3D打印材料有哪些选择
  • Springcloud笔记(1)-微服务和springcloud介绍
  • 十六、代码校验(4)
  • 【已解决】No Python at ‘D:\Python\python.exe‘
  • 蓝桥杯双周赛算法心得——数树数(dfs)
  • 综述:大规模小目标检测
  • ORACLE XXX序列 goes below MINVALUE 无法实例化的处理办法
  • 6款流程图制作软件:一站式指南
  • 第三章:Python中的序列(上)
  • 使用.NET实现WOL唤醒远程开机
  • 适用于 Golang 的任务调度程序 AGScheduler
  • 【HCIP】HCIA复习
  • 【Python小项目之Tkinter应用】【实用工具】实现手写签名器,可选线条粗细,支持清空、撤销、恢复功能,可将写好的签名保存成图片
  • Jenkins集成newman
  • Excel——对其他工作表和工作簿的引用
  • 如何正确的防止服务器被攻击?103.216.153.x