当前位置: 首页 > news >正文

Hive3:数据的加载与导出

一、加载数据

在创建表之后,表中没有数据,我们不可能insert存入数据。
而是,通过数据加载,将HDFS中的数据关联到Hive表中。

建表

CREATE TABLE myhive.test_load(dt string comment '时间(时分秒)', user_id string comment '用户ID', word string comment '搜索词',url string comment '用户访问网址'
) comment '搜索引擎日志表' 
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';

SQL语法

LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename;

OVERWRITE:覆盖原表数据。

方式1、加载本地数据

这种方式,是先将本地数据上传HDFS文件系统中,然后,关联到Hive表中。
这里的本地,是指安装Hive的服务器。

SQL

LOAD DATA LOCAL INPATH '/home/atguigu/search_log.txt' INTO TABLE myhive.test_load;

在这里插入图片描述

方式2、加载HDFS数据

这种方式,是将HDFS文件系统重其他目录的数据,MoveHive表对应的目录中,从而,关联到Hive表中。

SQL
此时inpath对应的是HDFS中文件的路径。

LOAD DATA INPATH '/tmp/search_log.txt' INTO TABLE myhive.test_load;

在这里插入图片描述
在这里插入图片描述
加载后,源文件就不在了。
在这里插入图片描述

方式3、INSERT SELECT加载数据

这个方式,和MySQL语法差不多

INSERT [OVERWRITE | INTO] TABLE tablename1 [PARTITION (partcol1=val1, partcol2=val2 ...) 
[IF NOT EXISTS]] select_statement1 FROM from_statement;

SELECT查询语句的结果插入到其它表中,被SELECT查询的表可以是内部表或外部表。
注意:列字段要对齐,否则数据错乱。

示例:

INSERT INTO TABLE tbl1 SELECT * FROM tbl2;
INSERT OVERWRITE TABLE tbl1 SELECT * FROM tbl2;

二、导出数据

基本语法:

insert overwrite [local] directory 'path' select_statement1 FROM from_statement;

方式1、INSERT OVERWRITE

将查询的结果导出到本地 - 使用默认列分隔符

insert overwrite local directory '/home/hadoop/export1' 
select * from test_load ;

将查询的结果导出到本地 - 指定列分隔符

insert overwrite local directory '/home/hadoop/export2' 
row format delimited fields terminated by '\t' 
select * from test_load;

将查询的结果导出到HDFS文件系统中(不带local关键字)

insert overwrite directory '/tmp/export' 
row format delimited fields terminated by '\t' 
select * from test_load;

方式2、HIVE SHELL

基本语法:(hive -f/-e 执行语句或者脚本 > file

bin/hive -e "select * from myhive.test_load;" > /home/hadoop/export3/export4.txt
bin/hive -f export.sql > /home/hadoop/export4/export4.txt

注意:shell中的重定向符号>只能捕获程序的标准输出

http://www.lryc.cn/news/420066.html

相关文章:

  • React事件绑定的方式有哪些?区别?
  • ibis:极具潜力的Python数据分析新框架
  • SQL Zoo 8+.NSS Tutorial
  • conda pack迁移环境
  • UML建模案例分析-活动图商业建模
  • C++标准模板(STL)- 低层内存管理 - 解分配函数 (operator delete, operator delete[])
  • LeetCode 热题 HOT 100 (025/100)【宇宙最简单版】
  • 【mysql 第三篇章】一条 update语句是怎么持久化到磁盘上的?
  • 深入探索大模型:从基础到实践,开启AI之旅
  • 题解:力扣1567 - 返回乘积为正数的最长子数组
  • 009 | 上证50ETF基金数据分析及预测
  • Wakanda: 1靶场复现【附代码】(权限提升)
  • 内核函数调试
  • Spring IOC使用DButil实现对数据库的操作
  • Android14音频进阶调试之命令播放mp3/aac非裸流音频(八十)
  • vue中怎么自定义组件
  • BM1反转链表[栈+头插法]
  • VisionPro二次开发学习笔记10-使用 PMAlign和Fixture固定Blob工具检测孔
  • 学单片机怎么在3-5个月内找到工作?
  • 探索设计模式:观察者模式
  • gradio之持续输入,持续输出(流式)
  • Git 常用命令指南:从入门到精通
  • Camera驱动 汇总表【小驰行动派】
  • SSRS rdlc报表 九 在.net core中使用RDLC报表
  • 力扣(2024.08.10)
  • Django-文件上传
  • [Meachines] [Easy] valentine SSL心脏滴血+SSH-RSA解密+trp00f自动化权限提升+Tmux进程劫持权限提升
  • 利用单张/多张图内参数标定 OpenCV Python
  • The Llama 3 Herd of Models 第7部分视觉实验部分全文
  • 亚信安慧AntDB-T:使用Brin索引提升OLAP查询性能以及节省磁盘空间