当前位置: 首页 > news >正文

Hive-testbench套件使用文档

Hive-testbench套件使用文档

hive-testbench 是hortonworks的一个开源项目,用于测试和基准测试 Apache Hive 的工具集。它提供了一系列的测试数据集和查询样例,用于评估和比较 Hive 在不同配置和环境下的性能。hive-testbench 的主要目标是模拟真实的大规模数据集和复杂查询场景,以帮助用户评估和优化 Hive 的性能。

hive-testbench 基于TPC-DS以及TPC-H进行封装,利用MapReduce的方式快速的生成指定数量的Hive基准测试数据,从几百兆到几十亿行的数据规模,以及包含多个表和复杂查询的查询样例。
说明:TPC-DS:是一个面向决策支持系统的包含多维度常规应用模型的决策支持基准,定义了 25 张表、99 个查询。TPC-H:用来评估在线分析处理的基准程序,主要模拟了供应商和采购商之间的交易行为,包含了 8 张表、22 个查询。

一、 开源版本编译与安装(已完成,可忽略,且本文编译版本已适配大数据平台)

1、 获取开源安装包
wget http://github.com/hortonworks/hive-testbench/archive/hdp3.zip
unzip hdp3.zip
2、 安装gcc
yum -y install gcc gcc-c++
3、 安装maven
此处不详述,记得要配置环境变量PATH。如果没有安装,则在编译hive-testbench时会自动帮你安装到当前的编译目录
4、 执行编译
./tpcds-build.sh
./tpch-build.sh

二、

http://www.lryc.cn/news/481146.html

相关文章:

  • 大数据新视界 -- 大数据大厂之 Impala 性能优化:新技术融合的无限可能(下)(12/30)
  • Python | Leetcode Python题解之第540题有序数组中的单一元素
  • AHB Matrix 四星级 验证笔记(2.4) Tt3.3AHB总线协议测试时的 并行数据
  • 前端零基础学习Day-Eight
  • 贪心算法day3(最长递增序列问题)
  • 【论文复现】MSA+抑郁症模型总结(三)
  • 【软件测试】敏捷模型(Scrum模型)和V模型、W模型
  • 【go从零单排】接口(interface)和多态(Polymorphism)
  • SI5319C-C-GM,SiliconLabs芯科 SI5319C-C-GMR,时钟合成器/抖动清除器 封装 QFN-36 在售 20000PCS 23+
  • 使用批处理脚本批量删除Maven无效依赖
  • 腾讯cos对象存储,下行流量费贵,是否可以加入服务器减少费用,架构如何设计
  • 【SAP】关于权限的继承
  • SpringBoot技术下的共享汽车运营平台
  • SwiftUI开发教程系列 - 第7章:数据流和状态管理
  • Ubuntu系统安装NVIDIA驱动、CUDA、PyTorch等GPU深度学习环境
  • 电子学会2024年3月青少年软件编程(图形化)等级考试试卷(三级)真题,含答案解析
  • 初学者指南:用例图——开启您的软件工程之旅
  • 二叉树遍历/算法数据结构
  • C#字符串的不可变性:内存管理与线程安全的优势分析
  • 【杂记】之语法学习第四课手写函数与结构体
  • 细说STM32单片机USART中断收发RTC实时时间并改善其鲁棒性的另一种方法
  • python使用turtle画图快速入门,轻松完成作业练习
  • 【C++】新手入门指南
  • C++使用开源ConcurrentQueue库处理自定义业务数据类
  • 在vue3的vite网络请求报错 [vite] http proxy error:
  • ElasticSearch 简单的查询。查询存在该字段的资源,更新,统计
  • FOFA使用教程之从零到精通
  • 【提高篇】3.2 GPIO(二,基本结构)
  • UE hard/soft reference| DDX DDY | Unity pcg color
  • macOS 应用公证指南:使用 fastlane 实现自动化公证流程