当前位置: 首页 > news >正文

如何将Hive表的分区字段插入PG表对应的时间戳字段?

文章目录

      • 1、背景描述
      • 2、场景分析



在这里插入图片描述

1、背景描述


数据仓库的建设通常是为业务和决策服务的。在数仓开发的应用层阶段,BI可以直接从主题层/业务层取数,而前端需要根据具体的作图需求通过后端查询数据库

作图的指标需要根据主题层/业务层做查询计算,然后将查询的结果导出到数据库以供前端作图。这个过程可以称为从数据仓库到OLTP数据库的ETL过程

然而,在ETL过程中,最棘手的问题就是数据类型兼容性问题,简单来说就是如何做数据类型转化,因为ETL的输入和输出是不同的系统

ETL的实现通常需要专门的工具或软件,例如DataX、Sqoop、Kettle等。当然,在湖仓一体化的环境下,ETL的成本将极大降低,因为我们可以直接使用SQL实现

例如,如何将Hive表的分区字段(string)通过SQL插入PG表对应的时间戳(timestamp)字段?

2、场景分析


在PostgreSQL中,时间戳(timestamp)类型主要用于存储日期和时间的值,包括年、月、日、时、分、秒和小数秒

例如,我们已经创建了一个应用层PG表,该表包含了某个作图图表的一些指标字段和一个时间戳(timestamp)字段,现在需要将Hive查询计算的结果插入到该PG表,其中分区(string)字段对应到PG表的时间戳字段(timestamp)

如何进行转换以确保插入成功?

在PostgreSQL中,根据声明日期时间类型的方式,只需要使用日期时间的字符串格式yyyy-MM-dd HH:mm:ss,直接在字符串的前面使用数据类型进行转换就可以了

insert into pg_table (col1,col2,...,stat_date)
select 
col1,
col2,
...,
timestamp ('2024-06-01 00:00:00') as stat_date 
from hive_table

因此,我们只需要将Hive的分区字段转换成yyyy-MM-dd HH:mm:ss格式,并使用timestamp声明即可完成插入

总的来说,湖仓一体化场景下,ETL的成本大大降低了,但是企业对用工人员的要求更高了,工人不仅需要熟悉数据仓库,还需要熟悉一些常见的数据库,以及它们之间如何融合使用


http://www.lryc.cn/news/389844.html

相关文章:

  • Spring Boot与MyBatis的集成应用
  • 在昇腾服务器上使用llama-factory对baichuan2-13b模型进行lora微调
  • Kafka 管理TCP连接
  • electron教程(一)创建项目
  • 如何在Oracle、MySQL、PostgreSQL上终止会话或取消SQL查询
  • 3、FTL基本工作过程
  • 微信小程序的跳转页面
  • 深入理解 Java 中的线程间通信:`wait()`, `notify()`, `notifyAll()`
  • 23种设计模式【创建型模式】详细介绍之【单例模式】
  • 某汽车配件制造公司任职资格体系项目成功案例纪实
  • 【Linux】生物信息学常用基本命令
  • React Native V0.74 — 稳定版已发布
  • Python面试宝典第4题:环形链表
  • Kubernetes (K8s) 底层原理
  • 解析Kotlin中的委托(包括类委托,属性委托)【笔记摘要】
  • vue3+ts+uniapp+vite+pinia项目配置
  • 大数据开发语言 Scala(四):面向对象编程
  • C++ //练习 14.31 我们的StrBlobPtr类没有定义拷贝构造函数、赋值运算符及析构函数,为什么?
  • 通配符和正则表达式之间的关系
  • GY-30光照传感器软件I2C方式驱动代码,基于STM32Cube
  • 双相元编程:一种新语言设计方法
  • 基于SpringBoot校园外卖配送系统设计和实现(源码+LW+调试文档+讲解等)
  • 茗鹤APS高级计划排程系统,在集团多工厂协同生产下的应用
  • 分享六款免费u盘数据恢复工具,U盘恢复工具集合【工具篇】
  • Linux 的启动流程
  • 思维导图插件--jsMind的使用
  • mac上使用finder时候,显示隐藏的文件或者文件夹
  • 泰雷茲具有首个通过FIPS 140-3 三级认证的HSMs
  • 美术馆预约小程序的设计
  • 序列化Serializable