当前位置: 首页 > news >正文

spark04-文件读取分区数据分配原理

接 https://blog.csdn.net/oracle8090/article/details/129013345?spm=1001.2014.3001.5502

通过上一节知道 总字节数为7 每个分区字节数为3

代码

  val conf: SparkConf = new SparkConf().setMaster("local").setAppName("wordcount")val sc: SparkContext = new SparkContext(conf)val rdd: RDD[String] = sc.textFile("datas/1.txt",2)rdd.saveAsTextFile("output")

通过运营最终得到的输出文件为:

part-00002为空文件

1.spark读取文件采用的是Hadoop方式读取,所以一行一行读取,跟字节数没有关系

2.数据读取时以偏移量为单位,偏移量不会被重新读取

/*数据(回车占两字符)=》偏移量

1@@ =>0 1 2

2@@ =>3 4 5

3 =>6

*/

3 数据分区的偏移量范围

0号分区 =>[0,3]=>1 2 偏移量是0-3 读取1@@ 2,但是以行为单位读取最终读取的为1@@,2@@,因此第一个分区文件分配的数字为1 2

1号分区 =>[3,6] => 3 偏移量是3-6 但是3 4 5 偏移量已经被0号分区读取过了,因此第二个分区文件分配的数字为3

2号分区 =>[6,7]

http://www.lryc.cn/news/5305.html

相关文章:

  • 常见的网络安全攻击及防御技术概述
  • NetSuite Balancing Segment平衡段
  • Docker 中遇到的问题
  • 树莓派用默认账号和密码登录不上怎么办;修改树莓派的密码
  • 【LeetCode】不同的二叉搜索树 [M](卡特兰数)
  • 【软件相关】文献管理工具——Zotero
  • leetcode练习一:数组(二分查找、双指针、滑动窗口)
  • iPhone更新iOS 16.3出现应用卡死、闪退的问题怎么办?
  • TCP协议原理一
  • 【黑马SpringCloud(6)】Sentinel解决雪崩问题
  • 微信小程序 java springboot招聘求职应聘简历系统
  • 亿级高并发电商项目-- 实战篇 --万达商城项目 四(Dashboard服务、设置统一返回格式与异常处理、Postman测试接口 )
  • 为什么这11道JVM面试题这么重要(附答案)
  • 概率统计之概率篇
  • 综合项目 旅游网 【5.旅游线路收藏功能】
  • 【ArcGIS Pro二次开发】(3):UI管理_显示隐藏Tab、Group、Control等控件
  • Spring Boot开发实战——echarts图标填充数据
  • 李达聪老师:互联网时代的B2B品牌如何塑造
  • javaEE 初阶 — 连接管理机制
  • 40个改变你编程技能的小技巧!
  • iTOP3588开发板直连电脑配置方法(无线上网)配置主机IP
  • 压电陶瓷换能器导纳圆图公式推导及匹配
  • 设计模式C++实现11:观察者模式
  • l1和l2接口如何进行编写?一定要掌握这几个元素
  • GAMES101作业7及课程总结(重点实现多线程加速,微表面模型材质)
  • 面试题(二十四)数据结构与算法
  • 【HAL库】STM32CubeMX开发----STM32F407----Uart串口接收空闲中断
  • Qt_文件操作
  • int和Integer有什么区别?
  • Axure 9 收录不同效果的制作过程