当前位置：首页 > news >正文

全链路数据湖开发治理解决方案2.0重磅升级，全面增强数据入湖、调度和治理能力

news 2025/8/27 22:02:27

简介： 阿里云全链路数据湖开发治理解决方案能力持续升级，发布2.0版本。解决方案包含开源大数据平台E-MapReduce(EMR) ，一站式大数据数据开发治理平台DataWorks ，数据湖构建DLF，对象存储OSS等核心产品。支持EMR新版数据湖DataLake集群（on ECS）、自定义集群（on ECS）、Spark集群（on ACK）三种形态，对接阿里云一站式大数据开发治理平台DataWorks，沉淀阿里巴巴十多年大数据建设方法论，为客户完成从入湖、建模、开发、调度、治理、安全等全链路数据湖开发治理能力，帮助客户提升数据的应用效率。

阿里云全链路数据湖开发治理解决方案能力持续升级，发布2.0版本。解决方案包含开源大数据平台E-MapReduce(EMR) ，一站式大数据数据开发治理平台DataWorks ，数据湖构建DLF，对象存储OSS等核心产品。

解决方案已支持EMR新版数据湖DataLake集群（on ECS）、自定义集群（on ECS）、Spark集群（on ACK）三种形态，对接阿里云一站式大数据开发治理平台DataWorks，沉淀阿里巴巴十多年大数据建设方法论，为客户完成从入湖、建模、开发、调度、治理、安全等全链路数据湖开发治理能力，帮助客户提升数据的应用效率。

在这里插入图片描述

重点能力升级

增强数据入湖能力

DataWorks 数据集成支持 MySQL 整库实时入湖 OSS（HUDI）、Kafka 实时入湖 OSS（HUDI）、MySQL 到 Hive 整库周期同步能力。

在 DataWorks 管控台选择进入数据集成

在这里插入图片描述

在页面直接点击“创建我的数据同步”

在这里插入图片描述

选择来源和去向类型就可以看到对应入湖能力

MySQL 整库实时入湖 OSS(Hudi)

支持元数据自动注册到阿里云DLF，方便用户进行湖管理;

支持 MySQL 实例级别的同步，即源端 MySQL 可以同时选择多个库;

支持按照正则表达式选定来源 MySQL 库和表;

支持自动加库加表，即 MySQL 侧增加库或表后，可以自动同步至 OSS，无需手工干预和操作。

在这里插入图片描述

Kafka 实时入湖 OSS(Hudi)

支持 Kafka json 数据增量实时入湖，秒级延迟

支持在同步链路中对数据处理，包括数据过滤、脱敏、字符串替换、字段级别赋值等操作

支持根据 kafka json 数据 schema 变化，动态增加字段

支持对接阿里云DLF，入湖元数据自动注册，实时可查可管理

支持自定义 OSS 湖端存储路径

在这里插入图片描述

MySQL 整库离线同步至 Hive

MySQL 整实例级别离线同步至 Hive，支持配置周期调度，也可以在 DataStudio 中依赖此同步调度节点为上游，支持历史全量同步和离线增量同步

在这里插入图片描述

增强作业开发调度能力

支持 spark on ACK 集群调度

DataWorks 支持调度 spark-submit, spark-sql 类型作业到 EMR Spark 集群（on ACK），用户可以利用 ACK 的弹性能力按需调整集群资源，实现和应用程序混部，使用同一套运维方案的同时，最大程度利用资源。对于原先在新版数据湖 DataLake 集群和自定义集群中运行的 Spark 任务，支持一键迁移到 ACK 集群，无需修改代码。