当前位置: 首页 > news >正文

在Hive/Spark上执行TPC-DS基准测试 (PARQUET格式)

在上一篇文章:《在Hive/Spark上运行执行TPC-DS基准测试 (ORC和TEXT格式)》中,我们介绍了如何使用 hive-testbench 在Hive/Spark上执行TPC-DS基准测试,同时也指出了该项目不支持parquet格式。

如果我们想要生成parquet格式的测试数据,就需要使用其他工具了。本文选择使用另外一个开源项目:https://github.com/kcheeeung/hive-benchmark,它和 hive-testbench 项目非常接近,操作方法也很类似,如果你熟悉 hive-testbench, 应该会必要容易掌握这个工具。

备注:本文使用的Hive/Spark环境为AWS EMR,版本:6.11,未启用Glue Data Catalog。本文操作须在EMR Master节点上执行!因为脚本中会使用到hdfs、beeline等命令行工具,此外,经测试发现:如果EMR集群使用的是Glue Data Catalog,脚本执行过程中将会报错

在这里插入图片描述

http://www.lryc.cn/news/135066.html

相关文章:

  • 基于CentOS搭建私有仓库harbor
  • PDF怎么转Word?8 个最佳 PDF 转 Word 转换器
  • 老板都爱看的财务数据分析报表,全在这了
  • ZooKeeper(zk)与 Eureka 的区别及集群模式比较分析
  • 搜狗拼音占用了VSCode及微信小程序开发者工具快捷键Ctrl + Shit + K 搜狗拼音截图快捷键
  • PMI-ACP值得考吗?在中国的前景如何?
  • centos 安装防火墙,并开启对应端口号
  • 学习微信小程序时间延迟setTimeout和setInterval的使用方法
  • Vite好用的前端构建工具
  • Agile Iteration Velocity
  • HarmonyOS/OpenHarmony应用开发-ArkTS语言渲染控制LazyForEach数据懒加载
  • 04_15页表缓存(TLB)和巨型页
  • ResourceBundle类:读取配置文件
  • 数学建模的三大模型和十大常用算法
  • NAS绝对安全吗?文件会不会泄露或被删除?
  • Kubernetes 使用 Rancher 管理
  • 5G随身wifi如何选择?简单分类一下
  • 华为PPPOE配置实验
  • 1.jvm和java体系结构
  • h264 SPS 帧分辨率解析标准
  • 二、SQL注入之联合查询
  • Python爬虫入门 - 规则、框架和反爬策略解析
  • 【数据结构入门指南】二叉树
  • C++初阶——string(字符数组),跟C语言中的繁琐设计say goodbye
  • Android Bitmap详解(下)之图片缓存详解
  • 020-从零搭建微服务-认证中心(九)
  • 孤注一掷中的黑客技术
  • 机器学习笔记 - PyTorch Image Models图像模型概览 (timm)
  • Java 实现证件照底图替换,Java 实现照片头像底图替换
  • 周易卦爻解读笔记——未济