当前位置: 首页 > news >正文

生态扩展Spark Doris Connector

生态扩展Spark Doris Connector
doris官网去查找相匹配的spark

spark的安装:

tar -zxvf spark-3.1.2-bin-hadoop3.2.tgzmv spark-3.1.2-bin-hadoop3.2 /opt/spark

spark环境配置:vim /etc/profile

export SPARK_HOME=/opt/spark
export PATH=$PATH:$SPARK_HOME/bin

将编译好的spark-doris-connector-3.3_2.12-1.3.0-SNAPSHOT.jar复制到spark的jars目录

cp spark-doris-connector-3.2_2.12-1.3.0-SNAPSHOT.jar /opt/spark/jars/

代码库地址:https://github.com/apache/doris-spark-connector
编译与安装
准备工作
修改custom_env.sh.tpl文件,重命名为custom_env.sh
在源码目录下执行: sh build.sh 根据提示输入你需要的 Scala 2.12与 Spark3.2.3 版本进行编译。

验证:

scala> import org.apache.doris.spark._
import org.apache.doris.spark._scala>scala> val doris = spark.sql(|     s"""|     |CREATE TEMPORARY VIEW spark_doris|     |USING doris|     |OPTIONS(|     | "table.identifier"="demo.example_tbl",|     | "fenodes"="10.63.0.181:8030",|     | "user"="root",|     | "password"=""|     |);|     |""".stripMargin)
doris: org.apache.spark.sql.DataFrame = []scala>scala> spark.sql("SELECT * FROM spark_doris;").show
+-------+----------+----+---+---+-------------------+----+--------------+--------------+
|user_id|      date|city|age|sex|    last_visit_date|cost|max_dwell_time|min_dwell_time|
+-------+----------+----+---+---+-------------------+----+--------------+--------------+
|  10000|2017-10-01|北京| 20|  0|2017-10-01 07:00:00|  35|            10|             2|
|  10001|2017-10-01|北京| 30|  1|2017-10-01 17:05:45|   2|            22|            22|
|  10002|2017-10-02|上海| 20|  1|2017-10-02 12:59:12| 200|             5|             5|
|  10003|2017-10-02|广州| 32|  0|2017-10-02 11:20:00|  30|            11|            11|
|  10004|2017-10-01|深圳| 35|  0|2017-10-01 10:00:15| 100|             3|             3|
|  10004|2017-10-03|深圳| 35|  0|2017-10-03 10:20:22|  11|             6|             6|
+-------+----------+----+---+---+-------------------+----+--------------+--------------+scala>
http://www.lryc.cn/news/214916.html

相关文章:

  • 构建 hive 时间维表
  • Pycharm安装jupyter和d2l
  • 虹科案例 | AR内窥镜手术应用为手术节约45分钟?
  • 纳米银线 纳米银纳米线 平均直径: 50-100nm
  • 力扣labuladong——一刷day15
  • 【开题报告】基于微信小程序的母婴商品仓储管理系统的设计与实现
  • Faraday库
  • 【原创】java+swing+mysql校园论坛管理系统设计与实现
  • endnote调整参考文献
  • chap认证带客户端IP分配案例
  • 算法笔记【8】-合并排序算法
  • 蓝桥杯每日一题2023.10.30
  • macOS M1安装wxPython报错‘tiff.h‘ file not found的解决方法
  • 多路转接之epoll
  • 删除排序链表中的重复节点II(C++解法)
  • uniapp自定义tab切换css样式、uni-forms中input下拉等标签字体、过宽、溢出样式一系列调整(附加实战举例)
  • windows server 2016-IIS静态服务器-设置详细过程
  • 不一样的编程方式 —— 协程(设计原理与汇编实现)
  • Thinkphp6项目在虚拟机无法指向pulic的目录访问的方法
  • 数据结构(超详细讲解!!)第十八节 串(堆串)
  • idea集成测试插件替代postman
  • clusterprolifer go kegg msigdbr 富集分析应该使用哪个数据集,GO?KEGG?Hallmark?
  • Linux学习笔记1-入门
  • 怎样更有效的运营Etsy店铺?
  • Vue 项目中如何使用Bootstrap5(简单易懂)
  • k8s 资源预留
  • 微信小程序自定义弹窗阻止滑动冒泡catchtouchmove之后弹窗内部内容无法滑动
  • Linux 命令速查
  • 第22期 | GPTSecurity周报
  • JavaScript前端 console 控制台详细解析与代码实例