当前位置: 首页 > news >正文

Hive与HBase的区别及应用场景

当数据量达到一定量级的时候,存储和统计计算查询都会遇到问题,今天了解一下Hive和Hbase的区别和应用场景。

一、定义

Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,默认情况下可以将sql语句转换为MapReduce任务进行运行。

HBase是Hadoop的数据库,一个分布式、可扩展、大数据的存储。

二、区别

Hive是运行在Hadoop上的一个工具,准确地讲是一个搜索工具。当对海量数据进行搜索时,Hadoop的计算引擎是MapReduce。但是对MapReduce的操作和编程是非常复杂的。于是Hive的存在就让复杂的编程过程简化成了用SQL语言对海量数据的操作。这大大减轻了程序员的工作量。

HiveSql默认情况下会转换成MapReduce进行计算,所以比较慢,只能做离线数据分析,不能做实时查询。

HBase,它是Hadoop的子项目,当然也可以理解为一个工具。Hadoop的数据运算是由MapReduce完成的,而数据存储是由HDFS完成的。HDFS是分布式存储,这是Hadoop存储数据的特点,但由此带来的问题就是数据的无序和散乱。

HBase是NoSql数据库,是物理表,不是逻辑表,虽然数据是存储在hdfs,但是读写速度非常快,适合做大数据量的即时查询。

三、应用场景

1.Hive中的表为纯逻辑表,仅仅对表的元数据进行定义。Hive没有物理存储的功能,它完全依赖HDFS和MapReduce。HBase表则是物理表,适合存放非结构化的数据。

2.Hive是在MapReduce的基础上对数据进行处理,而MapReduce的数据处理依照行模式;而HBase为列模式,这样使得对海量数据的随机访问变得可行。

3.HBase的存储表存储密度小,因而用户可以对行定义成不同的列;而Hive是逻辑表,属于稠密型,即定义列数,每一行对列数都有固定的数据。

4.Hive一般是做大数据量的离线数据分析,比如日志数据分析,但是不能做实时查询,因为需要很长时间才能返回结果;HBase适合用来对数据量很大的明细数据进行实时查询,如订单数据,用户画像数据。

以上就是Hive与HBase的区别及应用场景,但是只是说了一部分,两者的区别与应用肯定不止这些,还需要我们在以后的学习中,多加挖掘!

 

http://www.lryc.cn/news/30373.html

相关文章:

  • C++之单例模式
  • Redis十大类型——Set与Zset常见操作
  • 车载雷达实战之Firmware内存优化
  • 【剑指Offer】JZ14--剪绳子
  • raspberry pi播放音视频
  • 【电子学会】2022年12月图形化二级 -- 老鹰捉小鸡
  • C++的双端队列
  • 【独家】华为OD机试 - 拼接 URL(C 语言解题)
  • 为什么使用Junit单元测试?Junit的详解
  • 怎么学好嵌入式Linux系统和驱动
  • Spring Aware总结
  • 【RocketMQ】源码详解:Broker端消息刷盘流程
  • 编码器SIQ-02FVS3驱动
  • 【2021.9.7】记一次exe手动添加shellcode
  • 常用训练tricks,提升你模型的鲁棒性
  • 具有精密内部基准的 DACx0502 简介及驱动应用示例
  • C语言函数:字符串函数及模拟实现strncpy()、strncat()、strncmp()
  • 学术论文插图要求简介
  • 【独家】华为OD机试 - 斗地主 2(C 语言解题)
  • 力扣-计算特殊奖金
  • 华为校招机试真题目录
  • EdgeYOLO学习笔记
  • 【分布式】什么是分布式锁?正文揭晓
  • 超详细JDK1.8所有版本下载地址
  • 论文解析[11] CAT: Cross Attention in Vision Transformer
  • 嵌入式和Python(一):python环境搭建的详细步骤
  • 嵌入式学习笔记——STM32硬件基础知识
  • Mybatis插件开发及执行原理
  • vue父子组件通信,兄弟组件通信
  • 大数据技术之Hadoop集群配置