当前位置：首页 > news >正文

Querybook：一个开源大数据查询分析工具

news 2025/7/5 18:43:36

Querybook 是一款由 Pinterest 开源、基于 Web 浏览器的大数据分析集成开发环境（IDE），专为数据分析师、工程师及业务人员设计，致力于简化大数据查询、协作与可视化流程。

体系结构

Querybook 包含三个主要的组件：

Web Server：处理 HTTP 请求，发送/接收 Websocket 消息，提供网站静态资源。
Worker：执行查询语句和预计划的 DataDoc（交互式数据分析笔记），以及其他辅助任务，例如更新 ElasticSearch 或者分析查询血缘。
Scheduler：从数据库中读取任务计划并发送给 Worker。

同时，Querybook 还包含以下基础设施：

数据库：用于存储 DataDoc、查询执行历史等信息。任何兼容 SQLAlchemy 的数据库都可以，推荐使用 MySQL。
Redis：用于发送异步任务到 Worker，维护多个 WebSocket 连接，以及缓存实时数据进行协作编辑。
Elasticsearch：支持数据库文档（DataDoc、表）的搜索功能，也用于表和用户的自动补全。
远程存储: 存储查询结果。Querybook 不限制从查询引擎拉取的数据量，因此推荐使用大型存储服务（例如 S3）。如果没有提供远程存储，将会使用数据库进行存储。

主要功能

Querybook 提供的主要功能包括：

集成多种查询引擎，包括 Presto、Hive、Druid、Snowflake、Big Query、MySQL、SQLite、PostgreSQL、SQL Server、Oracle 等；
基于富文本、SQL 查询以及图表构建数据分析笔记（DataDoc）；
支持查询语句的自动补全和鼠标悬停提示；
基于定时任务和图表构建可视化仪表盘；
支持团队实时协作编辑与评论；
支持表结构元数据管理；
支持 AI 助手，实现文本转 SQL、自动完成、错误修复等功能；
自动分析查询历史，构建数据血缘关系、高频用户画像及表使用排名；
支持查询结果导出 Google Sheets、Microsoft 365、Python 脚本等；
支持查询执行通知，包括 Email、Slack、Microsoft Teams。

下载安装

推荐使用 Linux 或者 macOS 系统运行 Querybook，首先克隆并下载代码库：

git clone git@github.com:pinterest/querybook.git
cd querybook

然后构建并运行 Docker 容器（需要提前安装 Docker）：

make

在浏览器中输入以下地址进行访问：

https://localhost:10001

详细信息可以参考下面的文档：

https://www.querybook.org/docs/setup_guide/setup_overview

查看全文

http://www.lryc.cn/news/580239.html

Gartner《数据与分析治理的参考架构概述》学习心得

如何将FPGA设计验证效率提升1000倍以上(2)

【论文笔记】【强化微调】综述 - Think With Image

【入门级-C++程序设计：1、程序基本概念-头文件与名字空间的概念】

Android-自定义View的实战学习总结

深入理解JVM垃圾回收机制：引用计数法与可达性分析算法

暑期数据结构第一天

Docker Desktop 安装到D盘（包括镜像下载等）+ 汉化

【狂飙AGI】第8课：AGI-行业大模型（系列2）

springboot整合腾讯云cos对象存储，获取临时密钥，前端直传图片文件

web网页，在线%电商，茶叶，商城，网上商城系统%分析系统demo，于vscode,vue,java,jdk,springboot,mysql数据库

数据结构---线性表理解（一）

JAVA-springboot 整合Redis

Android Studio-Git的使用指南

指数分布的Python计算与分析

CMD 实用命令大全

【网络与系统安全】强制访问控制——Biba模型

Assistant API的原理及应用

深入MIPI DSI显示技术栈 (四） DSI物理层——高速传输的基石

HLS基础(1)：循环展开与存储分块

深入剖析MYSQL MVCC多版本并发控制+ReadView视图快照规避幻读问题

Kuberrnetes 服务发布

AI领域新趋势：从提示(Prompt)工程到上下文(Context)工程

Spring Boot + 本地部署大模型实现：优化与性能提升

【排序算法】

模型部署与推理--利用libtorch模型部署与推理

体系结构

主要功能

下载安装

相关文章：