当前位置: 首页 > news >正文

离线数仓开发SQL编写和调试的最佳实践(如何又快又好完成任务,学会几条就不用当很辛苦的牛马)

目录

在开发阶段对数据进行抽样

理论基础

实践应用

使用Hive进行数据采样

使用Spark进行数据采样

采用CTE模块化设计

逐步验证 

逐步验证案例实践:

验证sales_data CTE:

验证ranked_sales CTE:

验证top_sales CTE:

结论

用Doris或Impala等更快查询的代替Hive

Impala简介和优势

Doris简介和优势

利用大模型进行结对编程

1. 人工编写SQL的挑战

2. 利用大模型生成SQL

3.国内外大模型

 4.案例

4.1实现需求,让大模型给出参考sql

4.2遇到问题时不知道怎样解决,可以通过大模型寻找思路


在开发阶段对数据进行抽样

在离线数仓开发中,面临难题是数据量太大,有时一个任务跑完要几个小时,在开发阶段,如果每次要等很久,就会耗费大量时间在等待上。使用Hive或Spark进行数据处理时,采样数据是一种常见的优化手段。通过采样,可以显著提高查询速度,并且方便进行数据的抽样检查以验证正确性。离线数仓的表要分开发环境、预生产环境和生产环境,开发环境的表可以通过精心抽样,这样开发时执行速度就很快。

以下是详细的说明:

理论基础

  1. 采样原理

    • 采样是从大规模数据集中随机选取一部分数据子集的过程。通过减少数据量,可以加快查询和处理速度。
    • 采样可以是随机采样、分层采样或系统采样等。
  2. 优势

    • 提高查询速度
http://www.lryc.cn/news/475004.html

相关文章:

  • PostgreSQL 增量备份:保护你的数据资产
  • 字节青训-寻找最大葫芦
  • el-checkbox勾选一个变成了勾选所有
  • ExpandingCard扩展卡片
  • 移远通信推出八款天线新品,覆盖5G、4G、Wi-Fi和LoRa领域
  • MySQL 9从入门到性能优化-创建触发器
  • UE5 第三人称学习之动画 control rig
  • C++之--初见模板初阶
  • Nature|用于无线监测颅内信号的植入式柔性超声波传感器(柔性传感/健康监测/植入式电子/水凝胶)
  • 【和AI的《趣味》聊天】01 AI:你找茬是吧(
  • “发放父作业单”是“过数”用例里面的内容吗
  • Linux补基础之:网络配置
  • 【flink】之kafka到kafka
  • 微信小程序时间弹窗——年月日时分
  • 杂货 | 每日资讯 | 2024.11.1
  • Genmoai-smol:专为单 GPU 优化的开源 AI 视频生成模型,低显存生成高质量视频
  • RHCE8
  • 长短期记忆网络(LSTM)如何在连续的时间步骤中处理信息
  • MySQL基础(三)
  • 浏览器八股
  • 华为机试HJ18 识别有效的IP地址和掩码并进行分类统计
  • 计算机网络——TCP拥塞控制原理
  • ubuntu-开机黑屏问题快速解决方法
  • DNS服务器
  • 【C++笔记】string类使用详解
  • 数字隔离器与光隔离器有何不同?---腾恩科技
  • 方差与协方差
  • 【含文档】基于Springboot+Vue的工商局商家管理系统 (含源码数据库+LW)
  • 【股票市场情绪量化模型】
  • Oracle视频基础1.3.8与1.4.1练习