当前位置: 首页 > news >正文

hadoop-mapreduce词频统计

一、Map Reduce主要阶段

二、词频统计示例

0.MapReduce 词频统计(Word Count)示例图

1. Input 阶段(输入阶段)

输入数据是一段文本,如下:

Hadoop is a big data framework.
Hadoop can store vast data.
Hadoop processes big data.
Hadoop can analyze vast data.
Hadoop is easy.

2. Split 阶段(数据分割阶段)

输入数据被切分为更小的部分,每个部分对应一行文本。
作用:将输入数据分配给不同的 Mapper 任务,实现并行处理。

Split 1: Hadoop is a big data framework.
Split 2: Hadoop can store vast data.
Split 3: Hadoop processes big data.
Split 4: Hadoop can analyze vast data.
Split 5: Hadoop is easy.

3. Mapper Phase(映射阶段)

每个 Mapper 任务读取一个输入块,应用用户定义的 Map 函数。
Map 函数会将输入文本解析为单词,并为每个单词输出一个键值对(Key-Value Pair),形式为 <单词, 1>。
例如:
  - 输入:Hadoop is a big data framework.
  - 输出:<Hadoop, 1>, <is, 1>, <a, 1>, <big, 1>, <data, 1>, <framework, 1>
作用:
Map 阶段的任务是将原始数据转化为键值对,并提取有用信息。

Mapper 输出:Split 1: <Hadoop, 1>, <is, 1>, <a, 1>, <big, 1>, <data, 1>, <framework, 1>
Split 2: <Hadoop, 1>, <can, 1>, <store, 1>, <vast, 1>, <data, 1>
Split 3: <Hadoop, 1>, <processes, 1>, <big, 1>, <data, 1>
Split 4: <Hadoop, 1>, <can, 1>, <analyze, 1>, <vast, 1>, <data, 1>
Split 5: <Hadoop, 1>, <is, 1>, <easy, 1>

4. Shuffle and Sort 阶段(洗牌和排序阶段) 

洗牌(Shuffle):

将 Mapper 阶段输出的键值对,根据键(单词)进行分组
所有相同键的键值对被发送到同一个 Reducer 任务。
例如:来自不同 Mapper 的 <Hadoop, 1> 被收集到一起:<Hadoop, [1, 1, 1, 1, 1]>

排序(Sort):

对每个键值对按照键排序(升序)。
图中展示了 Hadoop、is、a 等单词被分组和排序。

作用:实现数据分布和排序,为 Reduce 阶段的处理做好准备。

5. Reduce Phase(归约阶段)

Reduce 函数对每个键及其关联的值列表进行聚合计算
示例:
  - 输入:<Hadoop, [1, 1, 1, 1, 1]>
  - Reduce 计算:对列表中的值进行累加:1 + 1 + 1 + 1 + 1 = 5
  - 输出:<Hadoop, 5>

其他 Reduce 结果:
  - <is, 2>
  - <a, 1>
  - <big, 2>
  - <data, 4>
  - <framework, 1>
  - <easy, 1>

作用:Reduce 阶段将分组后的数据进行汇总、聚合、统计,生成最终结果。

6. output阶段(输出阶段)

a, 1
analyze, 1
big, 2
can, 2
data, 4
easy, 1
framework, 1
Hadoop, 5
is, 2
processes, 1
store, 1
vast, 2

三、过程总结

参考资料

https://www.youtube.com/watch?v=aReuLtY0YMI

http://www.lryc.cn/news/492679.html

相关文章:

  • 精心修炼Java并发编程(JUC)-volatile与synchronized关键字
  • 【ROS2】ROS2 与 ROS1 编码方式对比(Python实现)
  • ElasticSearch的下载和基本使用(通过apifox)
  • 城市轨道交通运营控制指挥中心设计方案
  • 多目标优化算法:多目标河马优化算法(MOHOA)求解ZDT1、ZDT2、ZDT3、ZDT4、ZDT6,提供完整MATLAB代码
  • 线程与进程的个人理解
  • vscode的项目给gitlab上传
  • 企业微信定位打卡
  • libaom 源码分析:码率控制介绍
  • RK3568平台开发系列讲解(DMA篇)DMA engine使用
  • C++中的函数对象
  • Linux指标之平均负载(The Average load of Linux Metrics)
  • 盛最多水的容器
  • 光伏功率预测!Transformer-LSTM、Transformer、CNN-LSTM、LSTM、CNN五模型时序预测
  • java全栈day10--后端Web基础(基础知识)
  • 使用爬虫时,如何确保数据的准确性?
  • Burp入门(4)-扫描功能介绍
  • Tourtally:颠覆传统的AI智能旅行规划革命
  • chrome允许http网站打开摄像头和麦克风
  • 视觉经典神经网络与复现:深入解析与实践指南
  • ByConity ELT 测试体验
  • 对象键值对内容映射
  • 《生成式 AI》课程 第7講:大型語言模型修練史 — 第二階段: 名師指點,發揮潛力 (兼談對 ChatGPT 做逆向工程與 LLaMA 時代的開始)
  • 学习C#中的反射
  • 学习使用jquery实现在指定div前面增加内容
  • react项目初始化配置步骤
  • vue使用百度富文本编辑器
  • 异常处理(6)自定义异常
  • 微软正在测试 Windows 11 对第三方密钥的支持
  • 时间的礼物:如何珍视每一刻