当前位置: 首页 > news >正文

Spark on hive Hive on spark

文章目录

    • Spark on hive & Hive on spark
      • Hive 架构与基本原理
      • Spark on hive
      • Hive on spark

Spark on hive & Hive on spark

Hive 架构与基本原理

在这里插入图片描述

Hive 的核心部件主要是 User Interface(1)和 Driver(3)。而不论是元数据库(4)、存储系统(5),还是计算引擎(6),Hive 都以“可插拔”的方式交给第三方独立组件。

Hive sql查询工作流程:

  • 接收到 SQL 查询之后, Hive 的 Driver 首先使用其 Parser 组件,将查询语句转化为 AST(Abstract Syntax Tree,查询语法树)。

  • Planner 组件根据 AST 生成执行计划,而 Optimizer 则进一步优化执行计划。要完成这一系列的动作,Hive 必须要拿到相关数据表的元信息,比如表名、列名、字段类型、数据文件存储路径、文件格式,等等;元信息存储在“Hive Metastore”(4)的数据库中。

Hive Metastore 是一个普通的关系型数据库(RDBMS),它的作用:

  • 辅助SQL 语法解析、执行计划的生成与优化;
  • 帮助底层计算引擎高效地定位并访问分布式文件系统中的数据源;

Spark on hive

在这里插入图片描述

Spark on Hive是spark做sql解析并转换成RDD执行,hive仅仅是做为外部数据源

Spark SQL 对 SQL 查询语句先后进行语法解析、语法树构建、逻辑优化、物理优化、数据结构优化、以及执行代码优化,等等。然后Spark SQL 将优化过后的执行计划,交付给 Spark Core执行引。

Hive on spark

在这里插入图片描述

“Hive on Spark” 指的是 Hive 采用 Spark 作为其后端的分布执行引擎。

Hive on Spark 是由 Hive 的 Driver 来完成 SQL 语句的解析、规划与优化,还需要把执行计划“翻译”成 RDD 语义下的 DAG,然后再把 DAG 交付给 Spark Core执行。【Spark on hive是由Spark SQL + Spark Core执行,性能更好】

http://www.lryc.cn/news/7166.html

相关文章:

  • 【MySQL】子查询
  • Day889.MySQL高可用 -MySQL实战
  • 剑指 Offer 24. 反转链表
  • “黑铁时代”,地产人如何以客户视角加速房企数字化转型
  • 零入门kubernetes网络实战-14->基于veth pair、namespace以及路由技术,实现跨主机命名空间之间的通信测试案例
  • 【pytorch框架】对模型知识的基本了解
  • SUP桨板电动气泵方案——鼎盛合方案
  • 小白系列Vite-Vue3-TypeScript:011-登录界面搭建及动态路由配置
  • C语言( 缓冲区和重定向)
  • 编程思想、方法论和架构的类型及应用
  • 【OA办公】OA流程审批大揭秘,带你看遍所有基础流程
  • 《零基础入门数据结构与算法》专栏介绍
  • 测试开发之Django实战示例 第九章 扩展商店功能
  • 【Spring】一文带你吃透AOP面向切面编程技术(下篇)
  • 【java】Spring Boot --40 个 Spring Boot 常用注解(建议收藏)
  • 《游戏学习》| 微信对话模拟生成器源码分析
  • 剑指 Offer 10- I. 斐波那契数列[c语言]
  • 【C#基础】C# 数据类型总结
  • 再创荣誉 | Softing工业荣获CAIMRS 2023 数字化创新奖
  • Multi Paxos
  • Android - dimen适配
  • 深度学习网络模型——RepVGG网络详解
  • 仓库拣货标签应用案例
  • 介绍一款HCIA、HCIP、HCIE的刷题软件
  • 线程池整理汇总
  • 华为OD机试真题Python实现【最短木板长度】真题+解题思路+代码(20222023)
  • VMware安装CentOS7
  • 力扣24.两两交换链表中的节点
  • AtCoder Regular Contest 137 题解(A~C)
  • 【C语言】预处理指令