当前位置: 首页 > news >正文

10TB海量JSON数据从OSS迁移至MaxCompute

前提条件

  • 开通MaxCompute。

  • 在DataWorks上完成创建业务流程,本例使用DataWorks简单模式。详情请参见创建业务流程。

  • 将JSON文件重命名为后缀为.txt的文件,并上传至OSS。本文中OSS Bucket地域为华东2(上海)。示例文件如下。

    {"store": {"book": [{"category": "reference","author": "Nigel Rees","title": "Sayings of the Century","price": 8.95},{"category": "fiction","author": "Evelyn Waugh","title": "Sword of Honour","price": 12.99},{"category": "fiction","author": "J. R. R. Tolkien","title": "The Lord of the Rings","isbn": "0-395-19395-8","price": 22.99}],"bicycle": {"color": "red","price": 19.95}},"expensive": 10
    }

将JSON数据从OSS迁移至MaxCompute

  1. 新增OSS数据源。详情请参见配置OSS数据源。

  2. 在DataWorks上新建数据表,用于存储迁移的JSON数据。

    1. 登录DataWorks控制台,单击左侧导航栏的数据建模与开发 > 数据开发,在下拉框中选择对应工作空间后单击进入数据开发

    2. 数据开发页面,鼠标悬停至image..png图标,单击新建表 > 

    3. 新建表对话框中,选择相应的路径,输入名称,单击新建

      说明:如果绑定多个实例,则需要选择MaxCompute引擎实例。

    4. 在表的编辑页面,单击DDL

    5. DDL模式对话框,输入如下建表语句,单击生成表结构

      create table mqdata (mq_data string);
    6. 确认操作对话框中,单击确认

    7. 生成表结构后,在基本属性模块输入表的中文名,并分别单击提交到开发环境提交到生产环境

      说明:如果您使用的是简单模式的工作空间,仅单击提交到生产环境即可。

  3. 新建离线同步节点。

    1. 进入数据开发页面,右键单击指定业务流程,选择新建节点 > 数据集成 > 离线同步

    2. 新建节点对话框中,输入节点名称,并单击确认

    3. 在顶部菜单栏上,单击转化脚本图标

    4. 在脚本模式下,单击顶部菜单栏上的**图标

    5. 导入模板对话框中选择来源类型数据源目标类型数据源,并单击确定。主要思路是一个字段存入整个json数据。

修改JSON代码后,单击运行按钮

配置代码如下。

{"type": "job","steps": [{"stepType": "oss","parameter": {"fieldDelimiterOrigin": "^","nullFormat": "","compress": "","datasource": "OSS_userlog","column": [{"name": 0,"type": "string","index": 0}],"skipHeader": "false","encoding": "UTF-8","fieldDelimiter": "^","fileFormat": "binary","object": ["applog.txt"]},"name": "Reader","category": "reader"},{"stepType": "odps","parameter": {"partition": "","isCompress": false,"truncate": true,"datasource": "odps_first","column": ["mqdata"],"emptyAsNull": false,"table": "mqdata"},"name": "Writer","category": "writer"}],"version": "2.0","order": {"hops": [{"from": "Reader","to": "Writer"}]},"setting": {"errorLimit": {"record": ""},"speed": {"concurrent": 2,"throttle": false}}
}

结果验证

新建ODPS SQL节点。

  1. 右键单击业务流程,选择新建节点 > MaxCompute ODPS SQL

  2. 新建函数对话框中,输入函数名称,单击新建

  3. 在ODPS SQL节点编辑页面输入如下语句。

    --查询表mq_data数据。
    SELECT * from mqdata;
    --获取JSON文件中的EXPENSIVE值。
    SELECT GET_JSON_OBJECT(mqdata.MQdata,'$.expensive') FROM mqdata;
  4. 单击**图标运行代码

  5. 您可以在运行日志查看运行结果。费用不低,我的项目是对外提供数据检索服务,这个消耗速度扛不住啊。

http://www.lryc.cn/news/270958.html

相关文章:

  • LLM之RAG实战(九)| 高级RAG 03:多文档RAG体系结构
  • Windows电脑引导损坏?按照这个教程能修复
  • 记Android字符串资源支持的参数类型
  • Java实现树结构(为前端实现级联菜单或者是下拉菜单接口)
  • MySQL中常用的数据类型
  • HTML+CSS+JS制作三款雪花酷炫特效
  • [C#]使用ONNXRuntime部署一种用于边缘检测的轻量级密集卷积神经网络LDC
  • ZigBee案例笔记 - 无线点灯
  • Debezium日常分享系列之:向 Debezium 连接器发送信号
  • 《C#程序设计教程》总复习
  • 为什么ChatGPT选择了SSE,而不是WebSocket?
  • appium入门基础
  • jsp介绍
  • Debian安装k8s记录
  • 第6课 用window API捕获麦克风数据并加入队列备用
  • 图片预览 element-plus 带页码
  • 【小白专用】winform启动界面+登录窗口 更新2024.1.1
  • 自动化网络故障修复管理
  • Git:常用命令(二)
  • Oracle 12c rac 搭建 dg
  • Cisco模拟器-交换机端口的隔离
  • zdppy_api框架快速入门
  • https证书配置过程
  • 如何用C语言程序生成任意手性(即具有任意m和n值),任意长度的碳纳米管,并输出三维空间坐标呢?
  • C++每日一练(8):图像相似度
  • C++面试宝典第12题:数组元素相除
  • oCPC实践录 | 目标ROI的出价与转化回传调控算法
  • 百倍量化之Dbcd-v2中性策略
  • 系统学习Python——装饰器:函数装饰器-[装饰器状态保持方案:函数属性]
  • 逻辑卷学习后续----------缩容