当前位置：首页 > news >正文

Hadoop-005-HDFS分布式文件存储原理

news 2025/8/1 16:58:23

一、HDFS数据如何存储

分布式存储：每个服务器（节点）存储文件的一部分, 本文提到的part只是为方便理解, 指的文件部分数据, 并不是真实存在的概念

二、HDFS如何保证安全

问题1、文件大小不同,如何管理?

HDFS集群设定统一的管理单位: Block块, 它是HDFS集群最小的物理单位, 默认大小是256MB,支持修改, 文件分成3个Part,每个Part又分为3个Block块存入对应服务器

在这里插入图片描述

问题2、如何避免某个Block丢失或者损坏?

如上所示分为多个Block块存储, 如果任意一个Block块丢失就导致文件不完整了
Block块越多，损坏的几率就越大
通过配置多个副本可以解决, 给每个Block块设置2个副本（可修改）,每个块都有2个副本备份在其它服务器上,大大提升了数据安全性; 如下图所示
在这里插入图片描述

三、Block的配置

1、如何配置HDFS数据块的副本数量

如果需要自定义这个属性，请修改每一台服务器的hdfs-site.xml文件，并设置此属性。这个属性默认是3，一般情况下无需主动配置

<property><name>dfs.replication</name><value>3</value>
</property>

除了配置文件外，可在上传文件的时候，临时决定被上传文件以多少个副本存储。


hadoop fs -D dfs.replication=2 -put test.txt /
如上命令，就可以在上传test.txt的时候，临时设置其副本数为2

对于已经存在HDFS的文件，修改dfs.replication属性不会生效，如果要修改已存在文件可以通过命令

hadoop fs -setrep [-R] 2 path
如上命令，指定path的内容将会被修改为2个副本存储。-R选项可选，使用-R表示对子目录也生效。

2、fsck命令检查文件的副本数

使用hdfs提供的fsck命令来检查文件的副本数

hdfs fsck path [-files [-blocks [-locations]]]fsck可以检查指定路径是否正常-files可以列出路径内的文件状态-files -blocks  输出文件块报告（有几个块，多少副本）-files -blocks -locations 输出每一个block的详情

3、调整Block块默认大小

hdfs默认设置为256MB一个，也就是1GB文件会被划分为4个block存储。
Block块大小可以在 hdfs-site.xml中配置如下属性参数调整：

<property><name>dfs.blocksize</name><value>268435456</value><description>设置HDFS块大小，单位是b,如上设置为256MB</description>
</property>

四、Namenode元数据

1、如何管理Block块

NameNode基于一批edits和一个fsimage文件的配合, 完成整个文件系统的管理和维护

edits文件，是一个流水账文件，记录了hdfs中的每一次操作，以及本次操作影响的文件其对应的block, 将全部的edits文件，合并为最终结果，即可得到一个FSImage文件。

合并元数据的事情就是SecondaryNameNode干的, 它会通过http从NameNode拉取数据（edits和fsimage）
然后合并完成后提供给NameNode使用。

1. 每次对HDFS的操作，均被edits文件记录
2. edits达到大小上限后，开启新的edits记录
3. 定期进行edits的合并操作
如当前没有fsimage文件，  将全部edits合并为第一个fsimage
如当前已存在fsimage文件，将全部edits和已存在的fsimage进行合并，形成新的fsimage

对于元数据的合并，是一个定时过程，基于以下只要有一个达到条件就执行。：
dfs.namenode.checkpoint.period，默认3600（秒）即1小时
dfs.namenode.checkpoint.txns，默认1000000，即100W次事务检查是否达到条件，默认60秒检查一次，基于：
dfs.namenode.checkpoint.check.period，默认60（秒），来决定

2、HDFS写入流程

1. 客户端向NameNode发起请求
2. NameNode审核权限、剩余空间后，满足条件允许写入，并告知客户端写入的DataNode地址
3. 客户端向指定的DataNode发送数据包
4. 被写入数据的DataNode同时完成数据副本的复制工作，将其接收的数据分发给其它DataNode
5. DataNode1复制给DataNode2，然后基于DataNode2复制给Datanode3和DataNode4
6. 写入完成客户端通知NameNode，NameNode做元数据记录工作

在这里插入图片描述

注意:
1.NameNode不负责数据写入，只负责元数据记录和权限审批
2.客户端直接向1台DataNode写数据，这个DataNode一般是离客户端最近（网络距离）的那一个
3.数据块副本的复制工作，由DataNode之间自行完成（构建一个PipLine，按顺序复制分发，如图1给2, 2给3和4）

3、HDFS读取流程

1.客户端向NameNode申请读取某文件
2.NameNode判断客户端权限等细节后，允许读取，并返回此文件的block列表
3.客户端拿到block列表后自行寻找DataNode读取即可

在这里插入图片描述

1.数据同样不通过NameNode提供
2.NameNode提供的block列表，会基于网络距离计算尽量提供离客户端最近的
这是因为1个block有3份，会尽量找离客户端最近的那一份让其读取

查看全文

http://www.lryc.cn/news/478879.html

【多线程入门篇】创建线程以及线程的属性

三十四、Python基础语法（文件操作-上）

【大咖云集，院士出席 | ACM独立出版】第四届大数据、人工智能与风险管理国际学术会议 (ICBAR 2024，11月15-17日)--冬季主会场

03 Oracle进程秘籍：深度解析Oracle后台进程体系

AndroidStudio通过Bundle进行数据传递

Linux篇（文件管理命令）

大数据新视界 -- 大数据大厂之 Impala 性能优化：数据存储分区的艺术与实践（下）（2/30）

【数据结构】B树

Docker 容器网络模式详解

吴恩达深度学习笔记：卷积神经网络（Foundations of Convolutional Neural Networks）4.11

小游戏开发，出现了降本增效的技术？

（4）Java 编程基础概览：Java中的输入输出操作与代码注释详解

Git使用指南

【linux】再谈网络基础（一）

Unknown at rule @tailwindscss(unknownAtRules)

IDEA - 快速去除 mapper.xml 黄色警告线和背景色----简化版

高级 SQL 技巧详解

移除元素(java)

【Linux】shell脚本：检测文件是否存在，如存在则删除

Git代码托管（三）可视化工具操作（1）

How to use ffmpeg to convert video format from .webm to .mp4

Halcon 从XML中读取配置参数

hive表内外表之间切换

电子邮件营销软件哪个好？

OpenAI大事记；GPT到ChatGPT参数量进化

springboot020基于Java的免税商品优选购物商城设计与实现

代码随想录之字符串刷题总结

PS-基础学习（常用快捷键1.2-1.3）

qt QListView详解

287. 寻找重复数

一、HDFS数据如何存储

二、HDFS如何保证安全

问题1、文件大小不同,如何管理?

问题2、如何避免某个Block丢失或者损坏?

三、Block的配置

1、如何配置HDFS数据块的副本数量

2、fsck命令检查文件的副本数

3、调整Block块默认大小

四、Namenode元数据

1、如何管理Block块

2、HDFS写入流程

3、HDFS读取流程

相关文章：