当前位置: 首页 > news >正文

Hive parquet表通过csv文件导入数据

1. background

已建好了 hive parquet 格式的表, 需要从服务器的csv导入数据至该hive表

2. step

  1. 提前上传csv至服务器 /path/temp.csv

  2. 创建 textfile 格式的中转表(这里使用内部表,方便删除) ,源表名dw_procurement.dwd_tc_comm_plant ,这里中转表加上了csv后缀

CREATE TABLE IF NOT EXISTS dw_procurement.dwd_tc_comm_plant_csv (`city` string, `plant_address` string
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
STORED AS TEXTFILE;
  1. 导入 csv 数据至中转表 ,在hive命令行下输入命令
load data local inpath '/path/temp.csv' into  table dw_procurement.dwd_tc_comm_plant_csv;
  1. 中转表数据转移至目标表,在hive命令行下输入命令
insert into dw_procurement.dwd_tc_comm_plant select * from dw_procurement.dwd_tc_comm_plant_csv;

1.你基于 a.csv 创建了外部表 A。
2.然后你执行了 DROP TABLE A。
3.接着你重新创建了一个表 A,但这次是基于 b.csv,而这两个文件的列结构相同,但数据内容不同。

你想确认重新创建的表 A 是否仍然使用的 a.csv 里的数据。

情况 1:重新创建表时指定了新的 LOCATION
如果你在重新创建表 A 时指定了新文件 b.csv 的路径,

例如:

CREATE EXTERNAL TABLE A (id INT,name STRING
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
LOCATION '/path/to/b.csv';

那么,表 A 将会使用 b.csv 中的数据。Hive 只会读取你在创建表时指定的文件路径的数据,并不会保留之前的 a.csv 数据。

情况 2:重新创建表时未指定 LOCATION

如果你在重新创建表 A 时没有指定新的 LOCATION,而 Hive 默认的 LOCATION 是原来 a.csv 的路径(例如 /user/hive/warehouse/<table_name>/),那么 Hive 将会再次使用原来的路径,表 A 仍然会读取 a.csv 中的数据。

CREATE EXTERNAL TABLE A (id INT,name STRING
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ',';

在这种情况下,表 A 的数据仍然会是 a.csv 中的数据。

http://www.lryc.cn/news/443521.html

相关文章:

  • C++ 构造函数最佳实践
  • C++——关联式容器(4):set和map
  • Spring Mybatis 基本使用 总结
  • 接口幂等性和并发安全的区别?
  • 【记录一下VMware上开虚拟端口映射到公网】
  • 半导体器件制造5G智能工厂数字孪生物联平台,推进制造业数字化转型
  • 数据结构之存储位置
  • 传输层协议(TCP和UDP)
  • 智能仓库|基于springBoot的智能无人仓库管理设计与实现(附项目源码+论文+数据库)
  • 2.《DevOps》系列K8S部署CICD流水线之部署NFS网络存储与K8S创建StorageClass
  • 【数据仓库】数据仓库常见的数据模型——维度模型
  • 【Kubernetes】常见面试题汇总(三十)
  • 【Web】PolarCTF2024秋季个人挑战赛wp
  • 职业技能大赛-自动化测试笔记分享-2
  • LeetCode讲解篇之1343. 大小为 K 且平均值大于等于阈值的子数组数目
  • 电子元件制造5G智能工厂物联数字孪生平台,推进制造业数字化转型
  • 【成品论文】2024年华为杯研赛E题25页高质量成品论文(后续会更新
  • 【后端】【语言】【python】python常见操作
  • 二叉树的链式结构和递归程序的递归流程图
  • 研究生如何利用 ChatGPT 帮助开展日常科研工作?
  • 【LLM学习之路】9月16日 第六天
  • Qt_窗口界面QMainWindow的介绍
  • 华为云centos7.9按装ambari 2.7.5 hostname 踩坑记录
  • 重生之我们在ES顶端相遇第15 章 - ES 的心脏-倒排索引
  • 金刚石切削工具学习笔记分享
  • 【文献阅读】基于原型的自适应方法增强未见到的构音障碍者的语音识别
  • Kafka-Go学习
  • Nginx反向代理出现502 Bad Gateway问题的解决方案
  • 通信工程学习:什么是VLAN虚拟局域网
  • python qt5 常用