当前位置: 首页 > news >正文

HDFS中的sequence file

sequence file序列化文件

  • 介绍
  • 优缺点
  • 格式
    • 未压缩格式
    • 基于record压缩格式
    • 基于block压缩格式

介绍

  • sequence file是hadoop提供的一种二进制文件存储格式
  • 一条数据称之为record(记录),底层直接以<key, value>键值对形式序列化到文件中
    在这里插入图片描述

优缺点

  • 优点
    • 二进制格式存储,比文本文件更紧凑
    • 支持不同级别压缩(基于record或block压缩)
    • 文件可以拆分和并行处理,适用于MapReduce程序
  • 局限性
    • 二进制文件不方便查看
    • 特定于hadoop,只有java api可用于阈值进行交互。尚未提供多语言支持

格式

  • 根据压缩类型,有3汇总不用sequence file格式:未压缩格式,record压缩格式,block压缩格式
  • sequence file由一个header和多个record组成。以上三种格式均由使用相同的header结构,如下所示:前3个字节为SQE,表示该文件是序列文件,后跟一个字节表示实际版本号(例如SEQ4或SEQ6).HEADER中其他也包括key,valueclass名字,压缩细节,metadata, Sync marker。sync marker同步标记,用于可以读取任意位置的数据
    在这里插入图片描述

未压缩格式

  • 未压缩的sequence file文件由header,record,sync三个部分组成。其中record包含了4个部分:record length(记录长度),key length(键长),key,value
  • 每隔几个record(100个字节左右)就有一个同步标记
    在这里插入图片描述

基于record压缩格式

基于record压缩的sequence file文件由header,record,sync三个部分组成。其中record包含了4个部分:record length(记录长度),key length(键长),key,compressed value(被压缩的值)
在这里插入图片描述

基于block压缩格式

  • 基于block压缩的sequence file文件由header,block,sync三个部分组成
  • block值得是record block,可以理解为多个record记录组成的块。注意这个block和hdfs中分块存储的block(128M)是不同的概念。block中包括:record条数,压缩的key长度,压缩的keys,压缩的value长度,压缩的values。每隔一个block就有一个同步标记
  • block压缩比record压缩提供更好的压缩率。使用sequence file时,通常首选块压缩
    在这里插入图片描述
http://www.lryc.cn/news/110738.html

相关文章:

  • 【MySQL】检索数据使用数据处理函数
  • 【嵌入式学习笔记】嵌入式入门6——定时器TIMER
  • GD32F103输入捕获
  • [RT-Thread]基于ARTPI的文件系统认识与搭建
  • 动态规划+二分查找
  • 8.2小非农ADP数据来袭黄金将会如何表现?
  • linux启动oracle
  • AssetBundleBrowser导入报错解决方案
  • vue-baidu-map-3x 使用记录
  • 《GPU并行计算与CUDA编程》笔记
  • Shell编程基础(十二)函数
  • 【雕爷学编程】MicroPython动手做(33)——物联网之天气预报3
  • Screens 4 for mac VNC客户端 强大的远程控制工具
  • 搜索与图论(三)
  • 阿里云“通义千问”开源,可免费商用
  • 23.7.31 牛客暑期多校5部分题解
  • Python爬虫的学习day02 requests 模块post 函数, lmxl 模块的 etree 模块
  • 客户流失分析预测案例 -- 机器学习项目基础篇(7)
  • uniapp中我使用uni.navigateTo跳转webview页面传参,但是接收的参数只有一半。
  • 使用kaminari,在列表页实现分页功能
  • Android 性能调优之bitmap的优化
  • HOT74-数组中的第K个最大元素
  • 类与对象【中】
  • uni-app:实现列表单选功能
  • vue中axios二次封装并发起网络请求配置
  • 开源全文搜索引擎汇总
  • gitlab CI/CD 安装 gitlab runner
  • 服务器中了malox勒索病毒后怎么办怎么解决,malox勒索病毒解密数据恢复
  • Python小白学习:超级详细的字典介绍(字典的定义、存储、修改、遍历元素和嵌套)
  • word转pdf两种方式(免费+收费)