当前位置: 首页 > news >正文

Hadoop3:HDFS存储优化之小文件归档

一、情景说明

我们知道,NameNode存储一个文件元数据,默认是150byte大小的内存空间。
那么,如果出现很多的小文件,就会导致NameNode的内存占用。

但注意,存储小文件所需要的磁盘容量和数据块的大小无关。
例如,一个1MB的文件设置为128MB的块存储,实际使用的是1MB的磁盘空间,而不是128MB

二、解决方案

HDFS存档文件或HAR文件来优化这个问题
具体说来,HDFS存档文件对内还是一个一个独立文件,对NameNode而言却是一个整体,减少了NameNode的内存。
在这里插入图片描述
它的底层,其实是一个MR程序。
你可以简单理解为,它就是一个压缩程序。

三、案例

将/input目录下的文件归档成input.har文件,并存于根目录。
在这里插入图片描述
归档文件

hadoop archive -archiveName input.har -p /input /output

在这里插入图片描述
查看归档文件内容

hadoop fs -ls /output/input.har
hadoop fs -ls har:///output/input.har

在这里插入图片描述在这里插入图片描述

解压归档文件中所有文件

hadoop fs -cp har:///output/input.har/*    /

解压归档文件中一个文件

hadoop fs -cp har:///output/input.har/hello.txt /

在这里插入图片描述在这里插入图片描述

http://www.lryc.cn/news/401973.html

相关文章:

  • Golang | Leetcode Golang题解之第234题回文链表
  • Unity Apple Vision Pro 开发(四):体积相机 Volume Camera
  • C语言 | Leetcode C语言题解之第231题2的幂
  • GitHub备份代码的学习笔记
  • 微信小程序与本地MySQL数据库通信
  • Flutter热更新技术探索
  • 【机器学习-00】机器学习是什么?
  • 【BUG】已解决:WslRegisterDistribution failed with error: 0x800701bc
  • 无人机监测的必要性及方法
  • PHP框架详解:Symfony框架
  • 在 Navicat BI 创建自定义字段:类型更改字段
  • llama-index,uncharted and llama2:7b run locally to generate Index
  • vue、js截取视频任意一帧图片
  • STM32智能家居系统教程
  • uniapp 开发 App 对接官方更新功能
  • 【PostgreSQL】PostgreSQL 教程
  • Qt类 | QLabel类详解
  • 深入剖析 Android 开源库 EventBus 的源码详解
  • End-to-End Object Detection with Transformers【目标检测-方法详细解读】
  • CSS3实现提示工具的渐入渐出效果及CSS3动画简介
  • JVM 垃圾回收算法
  • 吴恩达大模型系列课程《Prompt Compression and Query Optimization》中文学习打开方式
  • 2.javaWeb_请求和响应的处理(Request,Response)
  • 用C++、Python、Rust编写的有安全问题的B树
  • 问题:当直齿圆柱齿轮的齿数少于?时,可采用 变位的办法来避免根切。 #学习方法#其他
  • 请你谈谈:spring bean的生命周期 - 阶段2:Bean实例化阶段
  • 【开发指南】HTML和JS编写多用户VR应用程序的框架
  • C语言第6天作业 7月17日
  • 【BES2500x系列 -- RTX5操作系统】深入探索CMSIS-RTOS RTX -- 配置篇 -- flash的使用 --(八)
  • vue视频、图片自动轮播并伴随进度条