当前位置: 首页 > news >正文

doris:HLL

HLL是用作模糊去重,在数据量大的情况性能优于 Count Distinct。HLL的导入需要结合hll_hash等函数来使用。更多文档参考HLL。

使用示例​

第 1 步:准备数据​

创建如下的 csv 文件:test_hll.csv

1001|koga
1002|nijg
1003|lojn
1004|lofn
1005|jfin
1006|kon
1007|nhga
1008|nfubg
1009|huang
1010|buag

第 2 步:在库中创建表​

CREATE TABLE testdb.test_hll(typ_id           BIGINT          NULL   COMMENT "ID",typ_name         VARCHAR(10)     NULL   COMMENT "NAME",pv               hll hll_union   NOT NULL   COMMENT "hll"
)
AGGREGATE KEY(typ_id,typ_name)
DISTRIBUTED BY HASH(typ_id) BUCKETS 10;

第 3 步:导入数据​

curl --location-trusted -u <doris_user>:<doris_password> \-H "column_separator:|" \-H "columns:typ_id,typ_name,pv=hll_hash(typ_id)" \-T test_hll.csv \-XPUT http://<fe_ip>:<fe_http_port>/api/testdb/test_hll/_stream_load

第 4 步:检查导入数据​

使用 hll_cardinality 进行查询:

mysql> select typ_id,typ_name,hll_cardinality(pv) from testdb.test_hll;
+--------+----------+---------------------+
| typ_id | typ_name | hll_cardinality(pv) |
+--------+----------+---------------------+
|   1010 | buag     |                   1 |
|   1002 | nijg     |                   1 |
|   1001 | koga     |                   1 |
|   1008 | nfubg    |                   1 |
|   1005 | jfin     |                   1 |
|   1009 | huang    |                   1 |
|   1004 | lofn     |                   1 |
|   1007 | nhga     |                   1 |
|   1003 | lojn     |                   1 |
|   1006 | kon      |                   1 |
+--------+----------+---------------------+
10 rows in set (0.06 sec)

http://www.lryc.cn/news/528595.html

相关文章:

  • 双层Git管理项目,github托管显示正常
  • 准备知识——旋转机械的频率和振动基础
  • 知识库管理驱动企业知识流动与工作协同创新模式
  • CMake常用命令指南(CMakeList.txt)
  • 【回溯+剪枝】找出所有子集的异或总和再求和 全排列Ⅱ
  • 中国技术突破对国际格局的多维影响与回应
  • 【漫话机器学习系列】068.网格搜索(GridSearch)
  • 元宇宙下的Facebook:虚拟现实与社交的结合
  • 记忆力训练day08
  • 崇州市街子古镇正月初一繁华剪影
  • websocket webworker教程及应用
  • 【后端】Flask
  • 【cran Archive R包的安装方式】
  • 如何用matlab画一条蛇
  • Greenplum临时表未清除导致库龄过高处理
  • 【Linux】gdb——Linux调试器
  • C++ 中用于控制输出格式的操纵符——setw 、setfill、setprecision、fixed
  • C++ ——— 学习并使用 priority_queue 类
  • 基础项目实战——3D赛车(c++)
  • ODP(OBProxy)路由初探
  • 从零推导线性回归:最小二乘法与梯度下降的数学原理
  • 计算机网络__基础知识问答
  • 第 5 章:声音与音乐系统
  • C语言编译过程全面解析
  • 算法每日双题精讲 —— 前缀和(【模板】一维前缀和,【模板】二维前缀和)
  • Maui学习笔记- SQLite简单使用案例02添加详情页
  • VMware 中Ubuntu无网络连接/无网络标识解决方法【已解决】
  • 完美世界前端面试题及参考答案
  • 新时代架构SpringBoot+Vue的理解(含axios/ajax)
  • 代理模式 -- 学习笔记