当前位置: 首页 > news >正文

Databend 开源周报第 110 期

 Databend 是一款现代云数仓。专为弹性和高效设计,为您的大规模分析需求保驾护航。自由且开源。即刻体验云服务:https://app.databend.cn 。

What's On In Databend

探索 Databend 本周新进展,遇到更贴近你心意的 Databend 。

使用 BendSQL 管理 Stage 中的文件

Databend 推荐使用 PRESIGN 来将文件上传到 stage 中或者将文件下载到本地。PRESIGN 会生成一个带有时间限制的预签名 URL ,提供了一种安全高效的数据传输方式,并且减少文件传输的延迟。

对于 BendSQL 客户端的用户而言,可以利用 PUT 命令将文件上传到 Stage 并使用 GET 命令下载 Stage 中的文件。

root@localhost:8000/default> PUT fs:///books.parquet @~PUT fs:///books.parquet @~┌───────────────────────────────────────────────┐
│                 file                │  status │
│                String               │  String │
├─────────────────────────────────────┼─────────┤
│ /books.parquet                       │ SUCCESS │
└───────────────────────────────────────────────┘GET @~/ fs:///fromStage/┌─────────────────────────────────────────────────────────┐
│                      file                     │  status │
│                     String                    │  String │
├───────────────────────────────────────────────┼─────────┤
│ /fromStage/books.parquet                      │ SUCCESS │
└─────────────────────────────────────────────────────────┘

如果您想了解更多信息,请查看下面列出的资源。

  • Docs | Staging Files

Code Corner

一起来探索 Databend 和周边生态中的代码片段或项目。

在 Jupyter Notebook 中使用 Databend Python Binding

Databend 提供 Python Binding ,无需部署 Databend 实例即可使用,DataFrame 也可以自由转换到 Polars 和 Pandas 格式,方便和数据科学工具集成使用。

只需要执行下面的命令安装即可:

pip install databend

下面的程序展示了如何在 Jupyter Notebook 中使用 Databend Python Binding ,并利用 matplotlib 绘制条形图。

# Create a table in DataBend
ctx.sql("CREATE TABLE IF NOT EXISTS user (created_at Date, count Int32)")# Create a table in DataBend
ctx.sql("CREATE TABLE IF NOT EXISTS user (created_at Date, count Int32)")# Insert multiple rows of data into the table
ctx.sql("INSERT INTO user VALUES ('2022-04-01', 5), ('2022-04-01', 3), ('2022-04-03', 4), ('2022-04-03', 1), ('2022-04-04', 10)")# Execute a query
result = ctx.sql("SELECT created_at as date, count(*) as count FROM user GROUP BY created_at")# Display the query result
result.show()# Import libraries for data visualization
import matplotlib.pyplot as plt# Convert the query result to a Pandas DataFrame
df = result.to_pandas()# Create a bar chart to visualize the data
df.plot.bar(x='date', y='count')
plt.show()

如果您想了解更多信息,请查看下面列出的资源。

  • Docs | Tutorial-3: Integrate with Jupyter Notebook with Python Binding Library

Highlights

以下是一些值得注意的事件,也许您可以找到感兴趣的内容。

  • 实现对所有权模型的初步支持
  • Hash Join 支持溢出(spill)
  • Databend 中的列现在默认支持空值,阅读文档 Docs | NULL Values and NOT NULL Constraint 了解详细情况。
  • 阅读文档 Docs | databend-local 掌握 Databend Local 模式。

What's Up Next

我们始终对前沿技术和创新理念持开放态度,欢迎您加入社区,为 Databend 注入活力。

支持使用 JavaScript 创建 UDF

PR #12729 | feat: implement udf server in databend 预计会在本周进行合并。这意味着 Databend 即将支持使用 Python 创建用户自定义函数。

CREATE FUNCTION [IF NOT EXISTS] <udf_name> (<arg_type>, ...) RETURNS <return_type> LANGUAGE <language> HANDLER=<handler> ADDRESS=<udf_server_address>

我们期望在这个 PR 的基础上提供对多种语言 UDF 的支持,JavaScript 可能是值得尝试的选项之一。

Issue #12746 | Feature: support javascript udf 

如果你对这个主题感兴趣,可以尝试解决其中的部分问题或者参与讨论和 PR review 。或者,你可以点击 https://link.databend.rs/i-m-feeling-lucky 来挑选一个随机问题,祝好运!

Changelog

前往查看 Databend 每日构建的变更日志,以了解开发的最新动态。

地址:https://github.com/datafuselabs/databend/releases

Contributors

非常感谢贡献者们在本周的卓越工作。

Connect With Us

Databend 是一款开源、弹性、低成本,基于对象存储也可以做实时分析的新式数仓。期待您的关注,一起探索云原生数仓解决方案,打造新一代开源 Data Cloud。

  • Databend Website
  • GitHub Discussions
  • Twitter
  • Slack Channel
http://www.lryc.cn/news/165075.html

相关文章:

  • 开源大模型ChatGLM2-6B 1. 租一台GPU服务器测试下
  • SQL10 用where过滤空值练习
  • JVM--Hotspot Architecture 详解
  • ThreadLocal功能实现
  • Linux编辑器-vim使用
  • 自助式数据分析平台:JVS智能BI功能介绍(二)数据集管理
  • 《5G技术引领教育信息化新革命》
  • cmake学习过程记录
  • Vue3、Vite使用 html2canvas 把Html生成canvas转成图片并保存,以及填坑记录
  • centos yum源配置(CentOS7 原生 yum 源修改为阿里 yum 源)
  • linux————ansible
  • 初识Java 8-1 接口和抽象类
  • 微信小程序音频后台播放功能
  • NotePad——xml格式化插件xml tools在线安装+离线安装
  • 图书管理系统 数据结构先导课暨C语言大作业复习 | JorbanS
  • python 爬虫的开发环境配置
  • 技术架构图是什么?和业务架构图的区别是什么?
  • 数据增强
  • 【Unity】2D 对话模块的实现
  • laravel安装初步使用学习 composer安装
  • 【VS插件】VS code上的Remote - SSH
  • TensorFlow 02(张量)
  • 513. 找树左下角的值
  • 量化:基于支持向量机的择时策略
  • 成功解决Selenium 中116版本的chromedriver找不到问题
  • PYQT常用组件--方法汇总
  • Linux系统编程(一):文件 I/O
  • OSM+three.js打造3D城市
  • 02JVM_垃圾回收GC
  • ARM Linux DIY(八)USB 调试