DolphinScheduler 集成DataX
DataX 与 DolphinScheduler 同服务器部署步骤
- 下载 DataX
wget https://datax-opensource.oss-cn-hangzhou.aliyuncs.com/202308/datax.tar.gz
tar -zxvf datax.tar.gz -C /home/ # 解压到指定目录
- 配置 DataX 环境变量
编辑 DolphinScheduler 的环境配置页面,按以下内容填写:
export PYTHON_LAUNCHER=/usr/bin/python # Python 执行路径(根据实际路径调整)
export DATAX_LAUNCHER=/home/datax/bin/datax.py # DataX 主程序路径
- 关键说明
同服务器限制:DolphinScheduler 调用 DataX 需通过 Python 直接执行脚本,因此两者必须在同一台服务器。
路径验证:
确保 python 路径正确:which python
确保 DataX 解压后 datax.py 路径存在:ls /home/datax/bin/datax.py - 后续操作
在 DolphinScheduler 中创建任务时,选择 DataX 任务类型,系统会自动读取配置的路径执行。
配置datax及python环境
配置地址在/dolphinscheduler-bin/bin/env/dolphinscheduler_env.sh
export DATAX_HOME=/data/datax
修改完DATAX_HOME ,重启ds即可,操作完后,可直接使用dophinscheduler的datax节点
注意事项
若 Python 路径不同,替换 /usr/bin/python 为实际路径(如 /usr/bin/python3)。
DataX 版本需与 DolphinScheduler 兼容,建议使用官方最新稳定版。
权限问题:确保 DolphinScheduler 服务账户对 /home/datax/ 有读写权限。