当前位置: 首页 > news >正文

第七篇: BigQuery中的复杂SQL查询

BigQuery中的复杂SQL查询

背景与目标
在数据分析中,我们通常需要从多个数据源中获取信息,以便进行深入的分析。这时,BigQuery提供的JOINUNION和子查询等复杂SQL语句非常实用。本文将以Google BigQuery的公共数据集为例,介绍如何使用这些高级SQL操作,并展示具体的使用场景,如从人口统计数据和城市服务请求中获取洞察。


1. JOIN操作:整合多表信息

在多表分析中,JOIN用于合并相关的表数据。例如,假设我们希望查看2000至2010年间美国常见的女性名字及旧金山的311服务请求类型。这个分析可以帮助我们在城市服务和人口统计之间发现潜在的联系。


SELECTnames.name AS popular_name,names.year AS year,requests.category AS service_request,requests.created_date AS request_date
FROM`bigquery-public-data.usa_names.usa_1910_current` AS names
JOIN`bigquery-public-data.san_francisco.311_service_requests` AS requests
ONnames.year = EXTRACT(YEAR FROM requests.created_date)
WHEREnames.gender = "F"AND names.year BETWEEN 2000 AND 2010
LIMIT 100;

查询结果示例:

popular_name	year	service_request
Emma			2008	311 External Request
Abigail			2008	311 External Request
Ava				2008	311 External Request
Sophia			2008	311 External Request
Isabella		2008	311 External Request
...

2. UNION操作:合并多个数据源

UNION操作适用于字段结构相似的多表合并,例如合并不同城市的311服务请求。

SELECT "San Francisco" AS city,category as request_type,created_date as requested_date
FROM`bigquery-public-data.san_francisco.311_service_requests`
UNION ALL
SELECT "New York" AS city,complaint_type AS request_type,created_date AS requested_date
FROM`bigquery-public-data.new_york_311.311_service_requests`;`

此查询将旧金山和纽约的311服务请求整合在一个表中,使我们可以在一个表中查看两地的公共服务需求数据。


3. 子查询:嵌套查询实现高级筛选

子查询用于从一个查询的结果中进一步筛选或聚合数据。例如,我们希望在旧金山市2019年最常见的五个服务请求中找到每个请求类型的平均处理时间。

SELECT main.category,AVG(main.request_duration) AS avg_duration
FROM (SELECT category,TIMESTAMP_DIFF(closed_date, created_date, MINUTE) AS request_durationFROM `bigquery-public-data.san_francisco.311_service_requests`WHERE EXTRACT(YEAR FROM created_date) = 2016
) AS main
GROUP BY main.category
ORDER BY avg_duration DESC
LIMIT 5

查询结果示例:

category								avg_duration
SFHA Requests							696681.24735376
General Request - HUMAN RESOURCES		562258.918918919
General Request - MEDICAL EXAMINER		561643.0
General Request - CONVENTION FACILITIES	546616.0
General Request - STATUS OF WOMEN		532976.0

解释:

  • 内部查询从旧金山的311服务请求数据中提取2016年的请求类型和每个请求的处理时间。
  • 外部查询通过聚合函数AVG计算每种服务类型的平均处理时间,并按时间排序。
    在这里插入图片描述

总结

BigQuery提供了强大的JOINUNION和子查询操作,帮助我们更灵活地整合和分析多来源数据。这些操作在业务分析和数据仓库管理中非常实用,通过合理应用这些SQL操作,可以有效提高数据分析的深度和效率。

http://www.lryc.cn/news/479340.html

相关文章:

  • 【SQL实验】高级查询(难点.三)含附加数据库操作
  • qt QFileSystemModel详解
  • element plus中修改el-table的样式
  • 深入理解封装与接口:Java程序设计的核心思想与最佳实践
  • linux 下调试 mpu6050 三轴加速度
  • C语言心型代码解析
  • 【LeetCode】【算法】647. 回文子串
  • 介绍6种常见的基于知识图谱推荐算法的类型和各自的优缺点
  • 使用python拟合二元曲线系数
  • go 集成viper 配置管理
  • Java:数据结构-再谈String类
  • 斗破QT编程入门系列之二:GUI应用程序设计基础:UI文件(四星斗师)
  • 微服务实战系列之玩转Docker(十八)
  • Javascript 获取设备信息 工具
  • 基于开源 AI 智能名片、S2B2C 商城小程序的用户获取成本优化分析
  • 仿真APP助力汽车零部件厂商打造核心竞争力
  • vue实现websocket实时短消息通知
  • tinymce扩展功能:1、行高、段落间距、格式刷;2、视频上传进度条;3、对复制的图片设置尺寸
  • 计算机毕业设计Python+图神经网络手机推荐系统 手机价格预测 手机可视化 手机数据分析 手机爬虫 Django Flask Spark 知识图谱
  • WPF的<ContentControl>控件
  • Python并发编程——multiprocessing
  • 智能家居的未来:AI让生活更智能还是更复杂?
  • 【物联网技术】ESP8266 WIFI模块在AP模式下作为TCP服务器与多个电脑/手机网络助手(TCP客户端)通信——TCP数据透传
  • 十五:java web(7)-- Spring Boot
  • 洛谷每日一题——P1036 [NOIP2002 普及组] 选数、P1045 [NOIP2003 普及组] 麦森数(高精度快速幂)
  • OpenHarmony开源鸿蒙
  • 2024.11.4 STM32点灯和简单的数据收发
  • Android Studio jcenter 停止服务,改用mavenCentral
  • EasyPOI使用详解
  • 【云原生开发】K8S多集群资源管理平台架构设计