当前位置: 首页 > news >正文

spark shell

1.进行shell命令行

        spark-shell

2.创建RDD

2.1 读取文件创建RDD

        2.1.1读取linux文件系统的文件创建RDD

        --需要保证每一个worker中都有该文件

        val data1 = sc.textFile("file:/opt/file/word.txt")

        

        2.1.2读取hdfs文件系统上的文件创建RDD

        val data2=sc.textFile("hdfs:/word.txt")

2.2使用Parallelize创建RDD

·        val array1=Array(1,2,3,4,5,6)

        val data3 = sc.parallelize(array1)

2.3从其他的RDD中创建新的RDD

        val data4=data3.map(num =>(num*2))

3.对RDD进行操作

--统计RDD中的数据记录表

data1.count()

--对RDD中的数据进行过滤操作

--过滤数据,保留每行中含有hello的数据

val filterRDD=data1.filter(line => line.contains("hello"))

filterRDD.count()

--读取RDD的第一条数据

filterRDD.first()

--读取中的N条数据

filterRDD.take(2)

4.实现wordcount

val wordcount=data1.flatMap(line=>line.split(" ")).map(word=>(word,1)).reduceByKey(_+_)

 

将RDD中的数据写到hdfs上

wordcount.saveAsTextFile("hdfs:/out")

http://www.lryc.cn/news/403374.html

相关文章:

  • 集群架构-web服务器(接入负载均衡+数据库+会话保持redis)--15454核心配置详解
  • # Redis 入门到精通(七)-- redis 删除策略
  • 10:00面试,10:08就出来了,问的问题有点变态。。。
  • html+canvas 实现签名功能-手机触摸
  • 前端组件化探索与实践:Vue自定义暂无数据组件的开发与应用
  • 《汇编语言 基于x86处理器》- 读书笔记 - Visual Studio 2019 配置 MASM环境
  • Air780E/Air780EP/Air780EQ/Air201模块遇到死机问题如何分析
  • 吴松洋院长 艺后整形集团专家组特约成员 全方位责任塑美
  • 前端经验:使用sheetjs导出CSV文本为excel
  • 【nnUNetv2进阶】十五、nnUNetv2 魔改网络-小试牛刀-引入ECA
  • centos(或openEuler系统)安装kafka集群
  • HarmonyOS根据官网写案列~ArkTs从简单地页面开始
  • GraphRAG+ollama+LM Studio+chainlit
  • 【中项第三版】系统集成项目管理工程师 | 第 5 章 软件工程② | 5.4 - 5.8
  • 6. dolphinscheduler-3.0.0伪集群部署
  • 防火墙内容安全综合实验
  • 常见的数据分析用例 —— 信用卡交易欺诈检测
  • IP地址:由电脑还是网线决定?
  • 如何定位及优化SQL语句的性能
  • SentenceTransformers (SBERT)
  • 第三届智能机械与人机交互技术学术会议(IHCIT 2024)
  • 图的访问(C++)
  • LeetCode做题记录(第二天)169. 多数元素
  • Adobe XD中文设置指南:专业设计师的现场解答
  • CentOS 7 安装Jenkins2.346.1(war方式安装)
  • 使用Java -jar运行就jar包时报异常:org.yaml.snakeyaml.error.YAMLException异常
  • golang实现的ab测试http代理工具
  • Maven学习——Maven的下载、安装与配置(详细攻略!)
  • C#知识|账号管理系统-修改账号按钮功能的实现
  • bug等级和优先级