当前位置: 首页 > news >正文

Hive-基础介绍

简介

Apache Hive是一款数据仓库系统

功能

  1. 可以将存储在Hadoop(HDFS)中的数据映射为一张数据库表。
  2. 核心是将HQL语句转化为MapRece程序,然后提交到Hadoop执行。

组件

  1. 用户接口:CLI(shell命令行)、WebGUI、Thrift Server
  2. 元数据存储(Metastore):将表和HDFS文件的对应关系通常存储在mysql
  3. Hive Driver驱动程序(核心):语法解析、语法编译、优化器、执行器
  4. 执行引擎:MapReduce、Tez、Spark等

数据模型

Hive也有类似于关系型数据库的模型概念:

 :

 :

Partitions:分区,数据分区后存储在以分区字段命名的文件中。

Buckets:分桶,可以优化join查询和方便抽样查询

与Mysql区别

http://www.lryc.cn/news/409493.html

相关文章:

  • 网站如何从0-1搭建部署蓝图介绍
  • 面向对象(封装)练习题 巩固一下啦!
  • 一些问题 7/28
  • 昇思MindSpore 应用学习-基于MobileNetv2的垃圾分类
  • matlab 常用数据类型的转换
  • Cocos Creator2D游戏开发(6)-飞机大战(4)-敌机产生
  • Hugo部署到Vercel踩大坑——全是XML文件?
  • 2024 暑假友谊赛-热身1
  • Nginx系列-11 HTTP消息处理流程
  • 前端知识--前端访问后端技术Ajax及框架Axios
  • 【前端/js】使用js读取本地文件(xml、二进制)内容
  • 初步入门C ++之类的概念
  • 什么是技术作家风格指南?
  • WebGIS学习——Cesium|Javascript
  • Qt,获取其他.exe文件的标准输出流的信息(printf/print的输出信息)
  • LeetCode 热题 HOT 100 (010/100)【宇宙最简单版】
  • Ubuntu24.04安装mysql-server小计,解决mysql_secure_installation时不能重置密码的问题
  • unity3d:TabView,UGUI多标签页组件,TreeView树状展开菜单
  • go语言map底层及扩容机制原理详解(下)
  • 网络协议二 : 使用Cisco Packet Traceer工具模拟网络环境,集线器,网桥,交换机,路由器,IP,同一网段
  • Aria2 任意文件写入漏洞
  • 成为git砖家(4): git status 命令简介
  • 2-48 基于matlab的EM算法聚类可视化程序
  • k8s 使用技巧
  • 学习笔记-系统框图传递函数公式推导
  • C++ - 基于多设计模式下的同步异步⽇志系统
  • git 相关内容
  • ElasticSearch(es)倒排索引
  • 【自然语言处理】概论(一):自然语言处理概要
  • flask 开始