当前位置：首页 > news >正文

Hadoop - 1：Hadoop 技术解析；Hadoop是什么；Hadoop优势；Hadoop组成；HDFS、YARN、MapReduce 三者关系

news 2025/8/19 17:31:11

Hadoop - 1：Hadoop 技术解析；Hadoop是什么；Hadoop优势；Hadoop组成；HDFS、YARN、MapReduce 三者关系

Hadoop - 1：Hadoop 技术解析
- 一、Hadoop 是什么
- 二、Hadoop 优势
- - 1. 高可靠性
  - 2. 高扩展性
  - 3. 高效性
  - 4. 高容错性
- 三、Hadoop 组成
- - 1. Hadoop 1.x、2.x、3.x 区别
  - 2. HDFS 架构概述
  - 3. YARN 架构概述
  - 4. MapReduce 架构概述
- 四、HDFS、YARN、MapReduce 三者关系
- 五、总结

Hadoop - 1：Hadoop 技术解析

一、Hadoop 是什么

Hadoop 是一个由 Apache 基金会开源的 分布式计算框架，主要用于解决海量数据的存储和计算问题。它最初由 Doug Cutting 和 Mike Cafarella 开发，并受 Google 三篇经典论文（GFS、MapReduce、Bigtable）的启发而诞生。
Hadoop 的核心思想是 通过普通商用硬件搭建大规模分布式集群，在保障高可靠性和高吞吐量的同时，能够高效地处理 TB、PB 级别的大数据。

Hadoop 最常见的应用场景包括：

日志分析（如电商、搜索引擎的点击日志）
推荐系统（如抖音、淘宝的个性化推荐）
数据仓库建设
机器学习模型的离线训练

二、Hadoop 优势

1. 高可靠性

Hadoop 会在底层维护多个数据副本，即使某个计算节点或存储节点发生故障，也不会导致数据丢失。数据会自动从副本中恢复，保证业务的连续性。

2. 高扩展性

Hadoop 可以将任务和数据分布到不同的集群节点，理论上可以扩展到成千上万台服务器。例如在电商大促（双 11、618）期间，可以灵活增加集群节点以应对流量高峰。

3. 高效性

Hadoop 采用 MapReduce 并行计算模型，将复杂的计算任务拆分为子任务并行执行，大幅提升数据处理速度。

4. 高容错性

当某个任务执行失败时，Hadoop 会自动重新调度任务到其他节点执行，而无需人工干预，从而提高了系统的健壮性。

三、Hadoop 组成

Hadoop 主要由以下核心组件构成：

HDFS（Hadoop Distributed File System）：分布式文件存储系统，负责将大文件拆分成数据块并存储在多个节点。
YARN（Yet Another Resource Negotiator）：资源管理系统，负责调度和分配集群资源。
MapReduce：分布式计算框架，用于执行大规模数据处理任务。

1. Hadoop 1.x、2.x、3.x 区别

在这里插入图片描述

在Hadoop1.x时代Hadoop中的MapReduce百时处理业务逻辑运算和资源的调度，耦合性较大。
在Hadoop2.x时代，增加了Yarn。Yarn只负责资源的调度，MapReduce只负责运算。
Hadoop3.x在组成上没有变化。

Hadoop 1.x
- 采用 MapReduce 作为资源管理和计算框架。
- JobTracker 既负责任务调度又负责资源管理，容易成为瓶颈。
Hadoop 2.x
- 引入 YARN，将资源管理和任务调度分离。
- 提升了资源利用率，并支持多种计算框架（不仅仅是 MapReduce，还能跑 Spark、Tez 等）。
Hadoop 3.x
- 支持 纠删码（Erasure Coding），大幅降低存储成本。
- 引入 多 NameNode（支持 Federation），提升了集群的可扩展性。
- 提升了容器化支持，适配云原生环境。

2. HDFS 架构概述

Hadoop Distributed File System，简称HDFS，是 Hadoop 的分布式文件系统，特点是高吞吐量和大文件存储。

NameNode（nn）：元数据管理节点，负责维护文件系统的目录结构、文件与数据块的映射关系：存储文件的元数据，如文件名，文件目录结构，文件属性(生成时间、副本数、文件权限)，以及每个文件的块列表和块所在的DataNode等。
DataNode（dn）：存储节点，在本地文件系统存储文件块数据，以及块数据的校验和。
SecondaryNameNode（2nn）：用于辅助 NameNode 做元数据的合并（并不是 NameNode 的备份）。

数据存储机制：