当前位置: 首页 > news >正文

【大数据 复习】第9章 数据仓库分析工具Hive

一、概念

1.概述

(1)Hive是一个构建于Hadoop顶层的数据仓库工具。

(2)某种程度上可以看作是用户编程接口,本身不存储和处理数据。

(3)依赖分布式文件系统HDFS存储数据。

(4)依赖分布式并行计算模型MapReduce处理数据。

(5)定义了简单的类SQL 查询语言——HiveQL。

(6)用户可以通过编写的HiveQL语句运行MapReduce任务。

(7)Hive需要把HiveQL语句转换成MapReduce任务进行运行。

(8)Hive具有的特点非常适用于数据仓库。

(9)是一个可以提供有效、合理、直观组织和使用数据的模型。

2.联系:

(1)Hive依赖于HDFS 存储数据。

(2)Hive依赖于MapReduce 处理数据。

(3)Pig可以作为Hive的替代工具

pig是一种数据流语言和运行环境,适合用于查询半结构化数据集。常用于ETL过程的一部分,即将外部数据装载到Hadoop集群中,然后转换为用户期待的数据格式。

(4)HBase 提供数据的实时访问,而Hive只能处理静态数据,主要是BI报表数据,所以HBase与Hive的功能是互补的。

3.Hive与传统数据库的对比

4.Hive组成模块

(1)用户接口模块

(2)驱动模块:包括编译器、优化器、执行器等。

(3)元数据存储模块(Metastore):是一个独立的关系型数据库,通常是与MySQL数据库连接后创建的一个MySQL实例,也可以是Hive自带的derby数据库实例。

二、习题

1.判断题 (1分)

Hive中的元数据存储模块是一个独立的关系型数据库。( )

正确答案: 正确

2.判断题 (1分)

Hive需要把HiveQL语句转换成MapReduce任务进行运行。( )

正确答案: 正确

3.判断题 (1分)

传统的数据库提供分区功能来改善大型表以及具有各种访问模式的表的可伸缩性,可管理性和提高数据库效率。Hive不支持分区功能,不使用分区使用索引可以加快数据的查询速度。( )

正确答案: 错误

Hive支持分区功能

4.判断题 (1分)

Hive同时支持导入单条数据和批量数据。( )

正确答案: 错误

5.判断题 (1分)

Hive是一个构建于Hadoop顶层的数据仓库工具,本身不存储和处理数据。( )

正确答案: 正确

http://www.lryc.cn/news/379952.html

相关文章:

  • ionic7 从安装 到 项目启动最后打包成 apk
  • setInterval 定时任务执行时间不准验证
  • Stable Diffusion Model网站
  • K8S - 实现statefulset 有状态service的灰度发布
  • Qt 技术博客:深入理解 Qt 中的 delete 和 deleteLater 与信号槽机制
  • 自学鸿蒙HarmonyOS的ArkTS语言<一>基本语法
  • 【OpenGauss源码学习 —— (ALTER TABLE(列存修改列类型))】
  • 【大数据 复习】第7章 MapReduce(重中之重)
  • Zookeeper:节点
  • 生产级别的 vue
  • kafka(五)spring-kafka(1)集成方法
  • Java中的设计模式深度解析
  • 鸿蒙 HarmonyOS NEXT星河版APP应用开发—上篇
  • [FreeRTOS 基础知识] 互斥访问与回环队列 概念
  • 音视频的Buffer处理
  • 【总结】攻击 AI 模型的方法
  • Linux配置中文环境
  • 深入解析 iOS 应用启动过程:main() 函数前的四大步骤
  • textarea标签改写为富文本框编辑器KindEditor
  • 高通安卓12-Input子系统
  • HTML 事件
  • Mysql 官方提供的公共测试数据集 Example Databases
  • Docker 下载与安装以及配置
  • Java中的集合框架详解:List、Set、Map的使用场景
  • [Django学习]前端+后端两种方式处理图片流数据
  • 如何配置IOMMU或者SWIOTLB
  • 【大数据 复习】第3章 分布式文件系统HDFS(重中之重)
  • element-ui里message抖动问题
  • Attention系列总结-粘贴自知乎
  • swagger下载文件名中文乱码、swagger导出文件名乱码、swagger文件导出名称乱码、解决swagger中文下载乱码bug