当前位置: 首页 > news >正文

spark3使用hive zstd压缩格式总结

ZSTD(全称为Zstandard)是一种开源的无损数据压缩算法,其压缩性能和压缩比均优于当前Hadoop支持的其他压缩格式,本特性使得Hive支持ZSTD压缩格式的表。Hive支持基于ZSTD压缩的存储格式有常见的ORC,RCFile,TextFile,JsonFile,Parquet,Squence,CSV。

ZSTD压缩格式的建表方式如下:

ORC存储格式建表时可指定TBLPROPERTIES(“orc.compress”=“zstd”):

create table tab_1(...) stored as orc TBLPROPERTIES("orc.compress"="zstd");

Parquet存储格式建表可指定TBLPROPERTIES(“parquet.compression”=“zstd”):

create table tab_2(...) stored as parquet TBLPROPERTIES("parquet.compression"="zstd");

其他格式或通用格式建表可执行设置参数指定compress,codec为“org.apache.hadoop.io.compress.ZStandardCode”:


set hive.exec.compress.output=true;set mapreduce.map.output.compress=true;set mapreduce.map.output.compress.codec=org.apache.hadoop.io.compress.ZStandardCodec;set mapreduce.output.fileoutputformat.compress=true;set mapreduce.output.fileoutputformat.compress.codec=org.apache.hadoop.io.compress.ZStandardCodec;set hive.exec.compress.intermediate=true;create table tab_3(...) stored as textfile;

说明:

ZSTD压缩格式的表和其他普通压缩表的SQL操作没有区别,可支持正常的增删查及聚合类SQL操作。

写出的文件使用zstd压缩,spark3才开始支持
–conf spark.sql.parquet.compression.codec=zstd

http://www.lryc.cn/news/187655.html

相关文章:

  • 直线导轨精度等级在设备中有什么影响?
  • windows平台FairMOT的实现
  • 系统架构设计:12 论软件维护方法及其应用
  • SS命令使用介绍
  • 让你的对象变得拗口:JSON.stringify(),我把对象夹进了 JSON 魔法帽!
  • TDengine时序数据库学习使用
  • 算法通过村第十三关-术数|青铜笔记|数字与数学
  • 【SpringMVC篇】详解SpringMVC入门案例
  • Programming abstractions in C阅读笔记:p166-p175
  • 【List-Watch】
  • Pytorch因nn.Parameter导致实验不可复现的一种情况
  • MySQL表名区分不区分大小写,规则是怎样
  • Design patterns--观察者模式
  • 【Spring Boot】SpringBoot 单元测试
  • ansible 调研
  • QT UI控件汇总介绍
  • 【垃圾回收概述及算法】
  • 2021年03月 Python(二级)真题解析#中国电子学会#全国青少年软件编程等级考试
  • 为什么通过一致性正则化方法就可以避免将所有未标记数据集分配给同一类?
  • 第4章 决策树
  • 在Remix中编写你的第一份智能合约
  • 如何查看dll文件内导出函数名称
  • 学习笔记|串口通信的基础知识|同步/异步|RS232|常见的串口软件的参数|STC32G单片机视频开发教程(冲哥)|第二十集:串口通信基础
  • JAVA String 和 String[][]互转的两种方法
  • 推荐几个制作svg的工具
  • Java实现防重复提交,使用自定义注解的方式
  • Springboot实现Web组件注册
  • Element组件案例 Vue路由 前端打包部署步骤
  • mysql5.7停止维护时间
  • 解密.kat6.l6st6r勒索病毒:保护数据的关键方法