当前位置: 首页 > news >正文

一百六十八、Kettle——用海豚调度器定时调度从Kafka到HDFS的任务脚本(持续更新追踪、持续完善)

一、目的

在实际项目中,从Kafka到HDFS的数据是每天自动生成一个文件,按日期区分。而且Kafka在不断生产数据,因此看看kettle是不是需要时刻运行?能不能按照每日自动生成数据文件?

为了测试实际项目中的海豚定时调度从Kafka到HDFS的kettle任务情况,特地提前跑一下海豚定时调度这个任务,看看到底什么情况。

二、海豚调度任务配置

(一)SHELL脚本配置

#!/bin/bash
source /etc/profile

/opt/install/kettle9.2/data-integration/pan.sh -rep=hurys_linux_kettle_repository -user=admin -pass=admin -dir=/kafka_to_hdfs/ -trans=04_Kafka_to_HDFS_turnratio level=Basic >>/home/log/kettle/04_Kafka_to_HDFS_turnratio_`date +%Y%m%d`.log 

(二)定时任务设置

定时任务设置为每天的零点,零点一到开始执行任务

(三)最后工作流情况

三、启动后追踪每天HDFS文件的情况

(一)启动工作流

工作流启动,成功!工作流一直在跑

相应的任务实例也在跑!

(二)每天HDFS情况

1、第一天为2023/8/30日

由于第一天开始执行任务,因此自动生成2023/08/30的HDFS文件

2、第二天为2023/8/31日

第二天的海豚任务自动调度,自动生成2023/08/31的HDFS文件

但问题是,除了再跑31日的任务外,30日的任务还在跑,可能是定时配置有问题,需要优化

而且这样搞容易把kettle搞出问题!

http://www.lryc.cn/news/147502.html

相关文章:

  • Linux centos7 bash编程(小练习)
  • 【SpringBoot】Web server failed to start. Port 8080 was already in use.
  • day-36 代码随想录算法训练营(19)part05
  • Vue3 实现JS动态改变CSS样式
  • 最新社区团购电商小程序源码 无bug完美运营版+详细搭建部署教程
  • 恒运资本:三大指数震荡走低,地产股大幅回撤,光刻胶概念逆市上涨
  • DP读书:不知道干什么就和我一起读书吧——以《鲲鹏处理器 架构与编程》中鲲鹏软件的构成为例
  • 现货黄金走势图中的止盈点
  • MyBatisPlus实现多租户功能
  • JAVA-斐波那契数列
  • keepalived+lvs(DR)
  • 基于Matlab实现频谱分析(附上源码+数据集)
  • 【Java】多线程(进阶)
  • BMP图片读写实践:rgb转bgr
  • 交通科技与管理杂志社交通科技与管理编辑部2023年第9期目录
  • 根据源码,模拟实现 RabbitMQ - 网络通讯设计,实现客户端Connection、Channel(完结)
  • The Cube++ Illumination Estimation Dataset 文章总结
  • “烧钱”的大模型,如何迈过存储这道坎?
  • UNIX网络编程卷一 学习笔记 第二十九章 数据链路访问
  • WebGIS的一些学习笔记
  • java Spring Boot将不同配置拆分入不同文件管理
  • Docker(三) 创建Docker镜像
  • Linux操作系统--shell编程(正则表达式)
  • k8s的service mesh功能有那些
  • 【数据库技术】NineData数据复制,加速实时数仓构建
  • Kotlin入门1. 语法基础
  • MVCC简介、工作流程、优缺点
  • pandas由入门到精通-pandas的数据结构
  • jenkins+ssh+Putty构建windows的IIS服务发布
  • 服务器和普通电脑有何区别?43.248.189.x