当前位置: 首页 > news >正文

HDFS的设计目标和重要特性

HDFS的设计目标和重要特性

  • 设计目标
  • HDFS重要特性
    • 主从架构
    • 分块存储机制
    • 副本机制
    • namespace
    • 元数据管理
    • 数据块存储

设计目标

  • 硬件故障(Hardware Failure)是常态,HDFS可能有成百上千的服务器组成,每一个组件都有可能出现故障。因此古见检测和自动快速恢复的HDFS的核心架构目标。
  • HDFS上的应用主要是流式读取数据(Streaming Data Access).HDFS被设计成用于批处理,而不是用户交互式的。相较于数据分文的反映时间,更注重数据访问的高吞吐量。
  • 典型的HDFS文件大小是GB到TB的级别。所以,HDFS被调整成支持大文件(Large Data Sets)。它应该提供很高的聚合数据带宽,一个集群中支持数百个结点,一个集群中还应该支持千万级别的文件。
  • 大部分HDFS应用对文件要求的是write-one-read-many访问模型。一个文件一旦创建、写入、关闭之后就不需要修改了。这一假设简化了数据一致性问题,是高吞吐量的数据访问称为可能。
  • 移动计算的代价比之移动数据的代价低。一个应用请求的计算,距离它操作的数据越近就越高效。将计算移动到数据附近,比之将数据移动到应用所在显然更好。
  • HDFS被设计为可从一个平台轻松移植到另一个平台。这有助于将GDFS广发用作大量应用程序的首选平台

在这里插入图片描述

HDFS重要特性

主从架构

HDFS 采用master/slave架构。一般一个HDFS集群是有一个namenode和一定数目的DataNode组成。namenode是HDFS主节点,DataNode是HDFS从节点,两种角色各司其职,共同协调完成文件存储服务。
在这里插入图片描述

分块存储机制

HDFS中的文件在物理上是分块存储的(block),块的大小可以通过配置参数来规定,参数位于hdfs-default.xml中:dfs.blocksize。默认大小是128M。

在这里插入图片描述

副本机制

文件所有的block都会有副本。每个文件的block大小(dfs.bloocksize).和副本系数(dfs.replication)都是可配置的。副本系数可以在文件创建的时候胡指定,也可以在之后通过命令改变。

默认dfs.replication的值时3,也就是会额外在复制2份,连通本身总共3份副本

在这里插入图片描述

namespace

HDFS支持传统的文件层次型组织结构。用户可以创建目录,然后将文件保存在这些目录里。文件系统名字空间的层次结构和大多数现在有的文件系统类似:用户可以创建、删除、移动或重命名文件。

namenode负责维护问价系统的namespace名称空间,任何对文件系统名称空间或属性的修改都将被namenode记录下来

HDFS会给客户端提供一个统一的抽象目录数,客户端通过客户端,形如:hdfs://namenode:port/dir-a/dir-b/dir-c/file.data

元数据管理

在HDFS中,namenode管理的元数据具有两种类型

1.文件自身属性信息:文件管理、权限、修改时间、文件大小、复制因子、数据块大小

2.文件块文职映射信息:记录文件块和DataNode之间的映射信息,即哪个块位于哪个结点上

数据块存储

文件的各个block的具体存储管理由DataNode节点承担。每一个block都可以在多个DataNode上存储

在这里插入图片描述

http://www.lryc.cn/news/96834.html

相关文章:

  • 【JMeter】JMeter添加插件
  • 测牛学堂:车载测试面试总结之语音助手相关
  • Android开发之Fragment动态添加与管理
  • Python爬虫+数据可视化:分析唯品会商品数据
  • el-tree数据渲染超出省略
  • 若依vue -【 44】
  • React 基础篇(一)
  • Bean 的作用域和生命周期
  • STP和MTP(第二十二课)
  • Java-WebSocket
  • elementui的el-date-picker选择日期范围第二个不能早于第一个
  • 【NLP】无服务器问答系统
  • Dubbo
  • Java设计模式之策略(Strategy)模式
  • Vue引入CDN JS或本地JS文件之后 使用报错
  • NRF52832-扩展广播
  • springboot项目新增子module
  • Python Web 开发及 Django 总结
  • 《向量数据库指南》:向量数据库Pinecone故障排除
  • [86] 分割链表
  • 【python】 清空socket缓冲区
  • 108、RocketMQ的底层实现原理(不需要长篇大论)
  • 怎么把PDF转为word?1分钟解决难题
  • Mysql权限-系统表user,db,talbes_priv,columns_priv详解
  • GPT-4 模型详细教程
  • 智慧环保:创造绿色未来
  • 虚拟 DOM和render()函数和Vue.js模板语法
  • k8s Service网络详解(一)
  • 抖音账号矩阵系统开发源码
  • Python+Texturepacker自动化处理图片