当前位置: 首页 > news >正文

StarRocks大批量数据导入方案-使用 Routine Load 导入数据

本文详细介绍如何使用Routine Load 导入数据

一、准备工作

1.1 安装基础环境

主要是安装StarRocks和Kafka,本文直接跳过不做详细介绍~

二、概念及原理

2.1 概念

  • 导入作业(Load job)

    导入作业会常驻运行,当导入作业的状态为 RUNNING 时,会持续不断生成一个或多个并行的导入任务,不断消费 Kafka 集群中一个 Topic 的消息,并导入至 StarRocks 中。

  • 导入任务(Load task)

    导入作业会按照一定规则拆分成若干个导入任务。导入任务是执行导入的基本单位,作为一个独立的事务,通过 Stream Load 导入机制实现。若干个导入任务并行消费一个 Topic 中不同分区的消息,并导入至 StarRocks 中。
    在这里插入图片描述

三、创建导入任务

3.1 语法

CREATE ROUTINE LOAD example_db.example_tbl1_ordertest1 ON example_tbl1
COLUMNS TERMINATED BY ",", -- 指定 CSV 数据的列分隔符,默认为\t 可不止指定
COLUMNS (order_id, pay_dt, customer_name, nationality, temp_gender, price) -- 可不指定
PROPERTIES
("desired_concurrent_number" = "5" ,-- 单个 Routine Load 导入作业的期望任务并发度,表示期望一个导入作业最多被分成多少个任务并行执行。默认值为 3"max_batch_interval" = "5", -- 任务的调度间隔,即任务多久执行一次。单位:秒。取值范围:5~60。默认值:10。"format"="json", -- 源数据的格式,取值范围:CSV、JSON。默认值:CSV"strip_outer_array" ="true" -- 是否裁剪 JSON 数据最外层的数组结构。取值范围:TRUE 或者 FALSE。默认值:FALSE
)
FROM KAFKA
-- 项目是kafka相关配置
("kafka_broker_list" = "<kafka_broker1_ip>:<kafka_broker1_port>,<kafka_broker2_ip>:<kafka_broker2_port>","kafka_topic" = "ordertest1","kafka_partitions" = "0,1,2,3,4","property.kafka_default_offsets" = "OFFSET_BEGINNING"
);

3.2 其他重要语法

  • 查看导入作业:SHOW ROUTINE LOAD
  • 查看导入任务:SHOW ROUTINE LOAD TASK
SHOW ROUTINE LOAD TASK WHERE JobName = "example_tbl2_ordertest2"
  • 暂停导入作业:PAUSE ROUTINE LOAD
PAUSE ROUTINE LOAD FOR example_tbl2_ordertest2;
  • 恢复导入作业:RESUME ROUTINE LOAD
RESUME ROUTINE LOAD FOR example_tbl2_ordertest2;
http://www.lryc.cn/news/464451.html

相关文章:

  • 从零开始学PHP之输出语句变量常量
  • 二叉树算法之字典树(Trie)详细解读
  • butterfly侧边栏音乐模块
  • 【论文阅读】Detach and unite: A simple meta-transfer for few-shot learning
  • Java中的动态代理——介绍与使用示例
  • 微信开发者工具:音乐小程序报错
  • P2-3与P2-4.【C语言基本数据类型、运算符和表达式】第三节与第四节
  • Python | Leetcode Python题解之第492题构造矩形
  • 新版vs code + Vue高亮、语法自动补全插件
  • 【优选算法】(第四十五篇)
  • 自闭症儿童的康复与培养:揭秘有效方法
  • rom定制系列------小米8澎湃os1.0.28安卓13客户定制固件 刷写以及界面预览
  • 【CTF-SHOW】Web入门 Web14 【editor泄露-详】【var/www/html目录-详】
  • Chrome谷歌浏览器禁止空格下翻页但可以暂停和播放视频脚本js
  • 【笔记】【YOLOv10图像识别】自动识别图片、视频、摄像头、电脑桌面中的花朵学习踩坑
  • H-TCP 的效率和公平性
  • 集群与分布式
  • git rebase的常用场景: 交互式变基, 变基和本地分支基于远端分支的变基
  • HttpURLConnection构造请求体传文件
  • STM32传感器模块编程实践(九) VL53L0X激光红外测距传感器简介及驱动源码
  • fastjson注解说明,fastjson注解有那些?fastjson是java的json序列化和反序列化工具包
  • VIT:论文关键点解读与常见疑问
  • ArcGIS无插件加载(无偏移)在线天地图高清影像与街道地图指南
  • 工业相机选型(自用笔记)
  • 【网安笔记】4种拒绝服务攻击
  • WPF 的组件数据绑定详解
  • 房子,它或许是沃土
  • 【Golang】Go语言http编程底层逻辑实现原理与实战
  • SOLIDWORKS参数化软件
  • 上位机开发常用技术 C# Task 线程 开始,暂停,继续,停止