当前位置: 首页 > news >正文

Hive讲课笔记:内部表与外部表

文章目录

  • 一、导言
  • 二、内部表
    • 1.1 什么是内部表
      • 1.1.1 内部表的定义
      • 1.1.2 内部表的关键特性
    • 1.2 创建与操作内部表
      • 1.2.1 创建并查看数据库
      • 1.2.2 在park数据库里创建student表
      • 1.2.3 在student表插入一条记录
      • 1.2.4 通过HDFS WebUI查看数据库与表
  • 三、外部表
    • 2.1 什么是外部表
    • 2.2 创建与操作外部表
      • 2.2.1 在本地创建user.txt文件
      • 2.2.2 将文件user.txt上传到HDFS的/data目录
      • 2.2.3 创建外部表data管理/data目录的数据文件
      • 2.2.4 查询外部表data的记录
      • 2.2.5 在MySQL里查看hive元数据信息
  • 四、内部表与外部表的区别
    • 3.1 区别体现在删除表
    • 3.2 通过实验进行验证
      • 3.2.1 删除内部表student
      • 3.2.2 删除外部表data
      • 3.2.3 查看MySQL里hive元数据
  • 五、总结与展望

一、导言

  • 本次课程将深入讲解Hive的内部表和外部表。我们会从定义出发,逐步教授如何在park数据库中创建和操作student内部表,包括数据插入和通过HDFS WebUI查看。接着,我们将探讨外部表,从本地文件user.txt的创建与上传到HDFS,再到在Hive中管理/data目录的数据并进行查询,同时展示MySQL中hive元数据的查看方法。

  • 重点环节,我们将揭示内部表和外部表在删除操作上的区别,并通过课堂实验进行验证。同学们将亲自体验删除内部表student和外部表data的过程,并观察MySQL中hive元数据的变化。

  • 最后,我们将对本课程内容进行总结,并展望Hive表管理的未来应用,旨在帮助同学们全面掌握和有效运用Hive内部表和外部表。

二、内部表

1.1 什么是内部表

1.1.1 内部表的定义

  • Hive内部表是Hive数据仓库中的一种表类型。当在Hive中创建一个内部表时,表的数据和元数据都由Hive进行管理。

1.1.2 内部表的关键特性

  1. 存储位置:Hive内部表的数据默认存储在Hadoop Distributed File System (HDFS) 中的一个指定目录下,这个目录由Hive自动管理。

  2. 元数据管理:Hive内部表的元数据(如表结构、分区信息等)存储在 Hive Metastore 中,这是一个集中式的服务,用于存储和管理所有Hive表的元数据。

  3. 数据生命周期:删除Hive内部表时,不仅会删除表的元数据,还会从HDFS中删除与该表相关联的实际数据文件。

  4. 独立性:由于Hive完全管理内部表的数据和元数据,因此这些表对Hive具有完全的依赖性。如果不再使用Hive,内部表的数据将无法直接通过其他方式访问。

  5. 表操作限制:对Hive内部表进行数据修改或移动等操作可能会受到限制,因为这些操作可能会影响Hive对数据的管理和追踪。

  • 总的来说,Hive内部表是一种适合于数据仓库环境中长期存储和管理数据的表类型,它提供了方便的数据管理和查询功能,但同时也要求用户考虑其对数据持久性和访问方式的需求。

1.2 创建与操作内部表

1.2.1 创建并查看数据库

  • 创建park数据库,执行命令CREATE DATABASE park
    在这里插入图片描述
  • 在MySQL里查看数据库信息
    在这里插入图片描述
  • 在HDFS上查看park数据库对应的目录/user/hive/warehouse/park.db
    在这里插入图片描述

1.2.2 在park数据库里创建student表

  • 使用CREATE TABLE命令创建内部表。
  • 查看表信息。

1.2.3 在student表插入一条记录

  • 使用INSERT INTO命令插入数据。

1.2.4 通过HDFS WebUI查看数据库与表

  • 查看HDFS中数据库与表的存储情况。

三、外部表

2.1 什么是外部表

  • 通过CREATE EXTERNAL TABLE...LOCATION...命令创建的表称为外部表。
  • 对应HDFS某一个目录下的数据文件。

2.2 创建与操作外部表

2.2.1 在本地创建user.txt文件

  • 准备外部表的数据文件。

2.2.2 将文件user.txt上传到HDFS的/data目录

  • 通过HDFS Explorer查看上传的文件。

2.2.3 创建外部表data管理/data目录的数据文件

  • 使用CREATE EXTERNAL TABLE命令创建外部表。

2.2.4 查询外部表data的记录

  • 使用SELECT命令查询外部表的记录。

2.2.5 在MySQL里查看hive元数据信息

  • 查询Hive元数据中外部表的信息。

四、内部表与外部表的区别

3.1 区别体现在删除表

  • 内部表删除后,HDFS对应目录被删除。
  • 外部表删除后,HDFS对应目录不被删除。

3.2 通过实验进行验证

3.2.1 删除内部表student

  • 使用DROP TABLE命令删除内部表。

3.2.2 删除外部表data

  • 使用DROP TABLE命令删除外部表。

3.2.3 查看MySQL里hive元数据

  • 查询Hive元数据中表的状态。

五、总结与展望

  • 总结内部表与外部表的特点与操作步骤。
  • 展望在实际应用中的使用场景与注意事项。
http://www.lryc.cn/news/269054.html

相关文章:

  • Docker本地部署开源浏览器Firefox并远程访问进行测试
  • PHP:服务器端脚本语言的瑰宝
  • 【MySQL】数据库并发控制:悲观锁与乐观锁的深入解析
  • 作业--day38
  • pytest 的 fixture 固件机制
  • 分布式技术之分布式计算Stream模式
  • 2023年12月GESP Python五级编程题真题解析
  • 探索Apache Commons Imaging处理图像
  • 【11】ES6:async/await
  • 深入理解Java集合框架
  • 极智嘉加快出海发展步伐,可靠产品方案获客户认可
  • 运动目标检测方法的概述
  • 【Qt-Edit】
  • vue data变量不能以“_”开头,否则会产生很多怪异问题
  • 解释RestFUL API,以及如何使用它构建web程序
  • 文件下载输出zip文件
  • 构建高效数据流转的 ETL 系统:数据库 + Serverless 函数计算的最佳实践
  • 鸿蒙开发(二)- 鸿蒙DevEco3.X开发环境搭建
  • Openslide安装
  • 【ES】Elasticsearch常见问题与解决(持续更新)
  • 2023.12.29 Python面向对象 封装_继承_多台
  • 通过自然语言处理增强推荐系统:协同方法
  • 大创项目推荐 深度学习OCR中文识别 - opencv python
  • Python经典游戏 唤醒你童年记忆
  • 什么是骨传导耳机?骨传导能保护听力吗?
  • 使用electron属性实现保存图片并获取图片的磁盘路径
  • 进击的奶牛
  • 12月27日,每日信息差
  • 【赠书第14期】AI短视频制作一本通:文本生成视频+图片生成视频+视频生成视频
  • 简单工厂设计模式(计算器实例优化)