当前位置: 首页 > news >正文

初识DBT以及搭建第一个DBT工程

DBT是什么:

        按照官方的说法,DBT 是一个数据转换流编排工具。个人理解就是,DBT是帮你编排SQL用的,你可以按照DBT的结构,构建好一个SQL的pipeline,然后让DBT帮你执行这个pipeline。我这里说的SQL pipeline的意思就是,先执行SQL a,再执行SQL b,类似这种。个人理解这就是DBT最大也是最核心的功能!

        因为在DBT中的操作基本都是关于SQL的操作,所以DBT才对外宣称自己是专门做ETL中的T(当然它也有支持一部分的python代码,但是貌似支队一小部分数据库提供支持)。

        个人觉得如果公司内部现成已经有一套数据任务开发框架,或者使用的是 ali 的 dataworks 、网易的 easydata 之类的,貌似没必要强行再上DBT。如果你是个中小公司,没有现成的数据开发平台,或者你是个数据分析师,嫌弃商用数据开发平台使用成本太高而且数据想保存在公司本地电脑中,那么建议考虑一下DBT!

        DBT还有一些特点:1. 把SQL开发像后端代码开发一样工程化,SQL工程存储在后端的代码仓库上,可以做到CI/CD。 2. 支持 jinja 宏函数,然后DBT定义了一套语法规范,抹平了一些SQL方言上的差异,做到一套DBT代码就可以在各个数据仓库上运行。当然对于这块功能我还是要打个问号的,后面研究的深入了再看看。 3. 无须写insert语句,直接写select语句即可,dbt会自动根据select建表,讲数据写入到数据库 4. 其他功能,后面慢慢说吧...

搭建第一个DBT工程:

        这里说的DBT指的是开源的dbt core,另外还有一款闭源的收费产品叫 dbt cloud。

        DBT是python代码编写的,所以想要使用dbt就要首先安装好python环境,个人使用的是3.10。

基于duckdb:

        dbt官方的收费产品dbt cloud 仅支持 BigQuery、Databricks、Postgres 等十多个数据库适配器,其他例如 Doris、MySQL、Hive 等等都是社区各自自己提供的适配器(开源)支持dbt。

        此处演示使用的数据库为duckdb。为什么是基于duckdb,是因为duckdb不需要安装,直接引个python包就好了。直接 pip install dbt-duckdb 安装好对应的python包即可,当然最好是在python虚拟环境中安装,防止与外部包冲突,同时安装dbt-duckdb 会自动把dbt-core 也安装好。

        环境安装好之后,然后直接执行dbt init my_jaffle_shop 就会帮你创建好一个名叫my_jaffle_shop 的dbt demo工程,如下所示,dbt会自动帮你创建好目录结构。其中dbt-project.yml是整个dbt工程的配置文件,它里面说明dbt工程的一些环境变量的配置,这样dbt就知道如何去解析工程结构了(具体每项配置干嘛用的,后续再说):

         同时在工程中还要新建一个文件叫profiles.yml,就是上面标红的第二个文件,整个文件是用于配置数据库连接信息用的,告诉dbt如何连接数据库。例如duckdb的配置如下所示:

        然后cd 到 myduckdb_jaffle_shop 目录下,执行 dbt run 命令,显示success,整个dbt工程就跑完了,数据就按demo工程中的SQL语句运行完毕写入到duckdb数据库中了:

        使用命令行查看运行结果:

参考:

        DBT是什么_dbt数据库_DBT中文社区的博客-CSDN博客

        Quickstart for dbt Core from a manual install | dbt Developer Hub

http://www.lryc.cn/news/102473.html

相关文章:

  • Python基于PyTorch实现卷积神经网络回归模型(CNN回归算法)项目实战
  • (AcWing)集合-Nim游戏
  • ConcurrentHashMap源码详解
  • 医疗流程自动化盛行,RPA成为医疗保健行业的重点应用技术
  • Java 版 spring cloud + spring boot 工程系统管理 工程项目管理系统源码 工程项目各模块及其功能点清单
  • java重试机制实现方案
  • 参数量仅有50KB的超轻量级unet变种网络egeunet【参数和计算量降低494和160倍】医疗图像分割实践
  • Android10 Settings系列(三)根据需求动态添加删除一级菜单、二级菜单的设置项
  • 51单片机——串行口通信
  • 洛谷题单 Part 6.7.1 矩阵
  • Spring中c3p0与dbcp配置
  • Flutter 添加 example流程
  • 数据治理8种方法
  • 大模型成互联网真正蜕变的标志,亦是各种新技术开始衍生的标志
  • 指针进阶详解---C语言
  • 设计模式思考,简单工厂模式和策略模式的区别?
  • Java - sh 脚本启动 jar 包等服务 - sh 脚本模板 - 适用于任何类似的服务启动
  • MySQL高级篇第5章(存储引擎)
  • openssl 命令行国密sm2的签名验签操作
  • 开源代码分享(9)—面向100%清洁能源的发输电系统扩展规划(附matlab代码)
  • 为 Google Play 即将推出基于区块链的内容政策做好准备
  • 查找-多路查找详解篇
  • css设置八等分圆
  • 「教程」如何使用一套代码在多种程序中接入天气预警API
  • (MYSQL)数据库服务端的启动与停止,登录与退出
  • 数学建模学习(8):单目标和多目标规划
  • 【Vscode | R | Win】R Markdown转html记录-Win
  • 【Lua语法】字符串操作、字符串中的方法
  • Linux 终端生成二维码
  • 子组件未抛出事件 父组件如何通过$refs监听子组件中数据的变化