当前位置: 首页 > article >正文

Kettle 远程mysql 表导入到 hadoop hive

kettle 远程mysql 表导入到 hadoop hive

(教学用 )

在这里插入图片描述

文章目录

  • kettle 远程mysql 表导入到 hadoop hive
  • 创建 对象 执行 SQL 语句 -mysql 导出 CSV格式
  • CSV 文件远程上传到 HDFS
    • 运行 SSH 命令
    • 远程登录 run SSH 并执行 hadoop fs -put
  • 建表和加载数据
  • 总结


创建 对象 执行 SQL 语句 -mysql 导出 CSV格式

在这里插入图片描述

SELECT * 
INTO OUTFILE '/home/mysql-files/sakila_actor9.csv' 
FIELDS TERMINATED BY ',' 
ENCLOSED BY '' 
LINES TERMINATED BY '\n'
FROM sakila.actor;

CSV 文件远程上传到 HDFS

运行 SSH 命令

在这里插入图片描述

远程登录 run SSH 并执行 hadoop fs -put

在这里插入图片描述
在这里插入图片描述

/opt/module/hadoop-3.3.0/bin/hadoop fs -put /home/mysql-files/sakila_actor9.csv /user/hive/warehouse/

建表和加载数据

在这里插入图片描述

CREATE EXTERNAL TABLE IF NOT EXISTS sakiladb.actor9 
(actor_id STRING COMMENT 'from deserializer',first_name STRING COMMENT 'from deserializer',last_name STRING COMMENT 'from deserializer',last_update STRING COMMENT 'from deserializer'
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','  -- 列分隔符
STORED AS TEXTFILE;LOAD DATA INPATH '/user/hive/warehouse/sakila_actor9.csv' INTO TABLE actor9;

总结

通过 Kettle (Pentaho Data Integration),我们能够轻松地将远程 MySQL 数据库中的数据导出到 CSV 文件,上传到 HDFS,并最终将数据导入 Hive。这样,我们可以利用 Hadoop 的强大计算能力来进行数据处理和分析。以下是整个过程的概览:

导出 MySQL 数据为 CSV 格式:使用 Table Input 和 Text File Output 步骤。

上传 CSV 文件到 HDFS:通过 SSH Connection 执行 hadoop fs -put 命令。

在 Hive 中创建表并加载数据:使用 CREATE TABLE 和 LOAD DATA 命令。

这个过程不仅适用于 MySQL 和 Hive,也可以根据需要适配其他数据源和目标系统。

http://www.lryc.cn/news/2392882.html

相关文章:

  • 完整解析 Linux Kdump Crash Kernel 工作原理和实操步骤
  • 菜鸟之路Day36一一Web开发综合案例(部门管理)
  • LangChain实战:MMR和相似性搜索技术应用
  • 第 1 章:学习起步
  • SQL查询——大厂面试真题
  • Linux-pcie ranges介绍
  • ⭐ Unity AVProVideo插件自带播放器 脚本重构 实现视频激活重置功能
  • 互联网大厂Java求职面试:云原生微服务架构设计与AI大模型集成实战
  • 详解K8s API Server 如何处理请求的?
  • 微调数据处理
  • ✨1.1.1 按位与运算替代求余运算优化场景
  • 解决开发者技能差距:AI 在提升效率与技能培养中的作用
  • XCTF-web-easyphp
  • Transformer 通关秘籍11:Word2Vec 及工具的使用
  • 【DAY34】GPU训练及类的call方法
  • Flutte ListView 列表组件
  • muduo库的初步认识和基本使用,创建一个简单查询单词服务系统
  • 电脑如何保养才能用得更久
  • Oracle的NVL函数
  • 【HTML/CSS面经】
  • git查看commit属于那个tag
  • 如何从ISO镜像直接制作Docker容器基础镜像
  • 网站缓存入门与实战:浏览器与Nginx/Apache服务器端缓存,让网站速度起飞!(2025)
  • mysql-mysql源码本地调试
  • PCIe— Legacy PCI
  • PostgreSQL数据库配置SSL操作说明书
  • MySQL 的 super_read_only 和 read_only 参数
  • 低碳理念在道路工程中的应用-预制路面
  • 12-后端Web实战(登录认证)
  • TIDB创建索引失败 mkdir /tmp/tidb/tmp_ddl-4000/1370: no such file or directory.