当前位置: 首页 > news >正文

Sqoop导入数据(mysql---->>hive)

目录

  • 数据传输流程
  • 脚本
  • 报错和异常说明
    • 1. Caused by: java.lang.ClassNotFoundException: org.apache.hadoop.hive.conf.HiveConf
    • 2. 数据导入hive后显示NULL


数据传输流程

mysql---->>hdfs---->>hive
数据从mysql表中取出,放到hdfs上(由target-dir指定目录),所有数据转移完成后,将hdfs上传数据到hive表的对于目录下,并将该目录删除

脚本

import
--connect
jdbc:mysql://127.0.0.1:3306/sqoop
--username
root
--password
password
--as-textfile
--target-dir
/sqoop/student4
--delete-target-dir
--num-mappers
1
--bindir 
/opt/module/sqoop/lib
--table
student
--columns
id,name
--fields-terminated-by
,
--hive-import
--hive-table
student

报错和异常说明

1. Caused by: java.lang.ClassNotFoundException: org.apache.hadoop.hive.conf.HiveConf

原因:缺少hive的配置文件
解决方案:将hive目录下的hive-common-3.1.2.jar移动到sqoop的lib目录下

2. 数据导入hive后显示NULL

原因:建hive表是设定的分割符不恰当,跟从mysql导入过来的数据的分隔符不一样,所以导致hive切分不了数据,于是查询为空,但是这个过程,不属于导入失败,所以导入脚本正常运行。
导入流程:mysql---->>hdfs---->>hive
解决方案
首先检查mysql内部的数据是否正确导入到hdfs中
一般而言,mysql中的数据切分是’,’
检查hdfs中的数据情况(执行以下代码)
sqoop脚本student

import
--connect
jdbc:mysql://127.0.0.1:3306/sqoop
--username
root
--password
password
--as-textfile
--target-dir
/sqoop/student3
--delete-target-dir
--num-mappers
1
--bindir 
/opt/module/sqoop/lib
--table
student
--columns
id,name
--fields-terminated-by
,

脚本执行代码

sqoop --options-file sqoop_student.txt

检查生成的hdfs文件

 hdfs dfs -cat /sqoop/student3/part-m-00000

分析
在这里插入图片描述
hdfs中,数据以’,‘进行分割,因此hdfs---->>hive中也需要设定’,'作为分隔符

hive数据库创建
数据库创建脚本
设定’,'作为分割符

create table student
(id   string,name string
)ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' STORED AS TEXTFILE;

检查数据库情况

show create table student;

在这里插入图片描述
完整的导入脚本mysql---->>hdfs---->>hive

import
--connect
jdbc:mysql://127.0.0.1:3306/sqoop
--username
root
--password
password
--as-textfile
--target-dir
/sqoop/student4
--delete-target-dir
--num-mappers
1
--bindir 
/opt/module/sqoop/lib
--table
student
--columns
id,name
--fields-terminated-by
,
--hive-import
--hive-table
student

总结
可以修改分隔符为其他的形式’\t’ '\001’都可以,但是需要保证hdfs和hive中的分隔符统一

http://www.lryc.cn/news/500491.html

相关文章:

  • 实验3-实时数据流处理-Flink
  • 深度学习实验十四 循环神经网络(1)——测试简单循环网络的记忆能力
  • k8s部署odoo18(kubeshpere面板)
  • 【模型对比】ChatGPT vs Kimi vs 文心一言那个更好用?数据详细解析,找出最适合你的AI辅助工具!
  • Java——容器(单例集合)(上)
  • 如何配置Github并在本地提交代码
  • 工作bug,keil5编译器,理解int 类型函数返回值问题,详解!!!
  • 简明速通Java接口
  • MVC基础——市场管理系统(二)
  • java------------常用API preiod duration 计算时间差
  • 使用 FAISS 进行高效相似性搜索:从文本检索到动态数据处理
  • 执行“go mod tidy”遇到“misbehavior”错误
  • 深入详解人工智能机器学习:强化学习
  • 力扣打卡11:合并区间(比较器内联,引用传参的优化)
  • 《 bilibili-起步级 用户模块接口文档 经验分享 ~》
  • AES 与 SM4 加密算法:深度解析与对比
  • 启保停电路如何接到PLC
  • HTTP multipart/form-data 请求
  • 配置服务器的免密登录
  • 普通遥控电动遮阳雨棚怎么接入米家并用苹果手机Siri控制
  • 两种不同简缩极化的六个方程
  • 环形缓冲区(Ring Buffer):概念、功能、使用场景与实现
  • 大连理工大学数据结构2003年硕士入学试题
  • Master EDI 项目需求分析
  • 图海寻径——图相关算法的奇幻探索之旅
  • 亚马逊云科技re:Invent:生成式AI与全球布局
  • Android 因为混淆文件配置,打release包提示running R8问题处理
  • 20241209给Ubuntu20.04系统的的交换分区增加为20GB的步骤
  • Centos7环境下nifi单机部署
  • 如何通过轻易云实现金蝶云星空与旺店通数据集成