当前位置: 首页 > news >正文

MapReduce入门教程

这可不是目录

  • 入门
    • 定义与说明
      • 数据分析
      • Map和Reduce阶段的任务
      • <Kn,Vn>分析
      • MapReduce的数据类型
      • 其他说明(持续更新)
    • 开发案例(持续更新)
      • 自定义的wordcount
      • csv文件操作
      • 序列化操作

入门

定义与说明

数据分析

以下未数据分析示意图
在这里插入图片描述

Map和Reduce阶段的任务

  • Map阶段的任务:一个map通常处理一个切片,当数据量过大时会存在多个map
  • Reduce阶段的任务:对Map输出的键值对进行汇总、聚合,但reduce的数量根据输出要求决定
  • Map和Reduce没有一一对应的关系
  • 一个job允许有多个·Map和多个Reduce,部分情况允许没有Reduce

<Kn,Vn>分析

接上述Map和Reduce阶段的任务和数据分析

Map

一般而言,Map阶段会产生两个<k,v>键值对
<k1,v1>通常表示数据的输入,k1:偏移量(不重要,一般指输入);v1:原始数据
<k2,v2>是这个Map阶段的切片输出,k2:类别(按需要切分);v2:自定义输出的切片结果

Reduce

一般而言,Reduce阶段会产生两个<k,v>键值对
<k3,v3>一般是承接的map阶段的输入,k3:来自于k2,和k2类型相同;v3:集合形式的v2
<k4,v4>MapReduce的输出,k4:一般来源于k3,和k3类型相同;v4:自定义的汇总、聚合输出

MapReduce的数据类型

在这里插入图片描述
使用时可以考虑先转String类型进行操作,在进行输出时,可以再转为MapReduce的数据类型

其他说明(持续更新)

  • org.apache.hadoop.mapred是Hadoop 1.x的版本
  • 打包时,请将所有需要的jar包一起
  • 每一阶段的输出类型必须是hadoop定义的类型(如上)
  • k1一般不重要,基本是你的文件或者数据输入
  • Reduce阶段一般是最后的输出阶段,当然前提是你的MapReduce流程中含有Reduce

开发案例(持续更新)

自定义的wordcount

这可不是链接 = =

csv文件操作

这可不是链接 = =

序列化操作

这可不是链接

http://www.lryc.cn/news/424139.html

相关文章:

  • JDBC1 Mysql驱动,连接数据库
  • LeetCode 205 同构字符串
  • ARM高性能计算(HPC)处理器Neoverse介绍
  • 【每日力扣中医养生】力扣1298. 你能从盒子里获得的最大糖果数
  • 大数据-81 Spark 安装配置环境 集群环境配置 超详细 三台云服务器
  • C#创建一个自定义控件类
  • springboot牙科就诊管理系统--论文源码调试讲解
  • CUDA+tensorflow+python+vscode在GPU下环境安装及问题汇总与解答
  • 24/8/14算法笔记 复习_逻辑回归sigmoid
  • MySQL忘记/无root密码,强制修改root密码
  • 探索 MongoDB 的 $currentDate:解决 TTL 时间不同步问题的利器
  • defineModel
  • 去中心化技术的崛起:探索Web3的新时代
  • GNU/Linux - copy_{to,from}_user: 用户和内核空间的内存互拷贝
  • 进阶岛任务1: 探索 InternLM 模型能力边界
  • RabbitMQ实现多线程处理接收消息
  • AI智能网关 边缘计算 视觉AI
  • Java基础之原反补码
  • Unity如何使用Spine动画导出的动画
  • 变量位操作
  • 内网渗透—横向移动RDPWinRMWinRSSPN扫描Kerberos攻击
  • Python套接字综合应用(UDP篇)
  • 服务器安装哪吒面板详细教程
  • LLM微调(精讲)-以高考选择题生成模型为例(DataWhale AI夏令营)
  • 安全基础学习-RC4加密算法
  • 雨云宁波电信大带宽服务器测评(非广告)
  • 2024年,最新前端趋势
  • Linux静态进程和动态进程查看管理
  • CPU飙升 怎么定位问题
  • The Sandbox 游戏制作教程第 4 章|使用装备制作游戏,触发独特互动