当前位置: 首页 > news >正文

基于Hadoop的表级监管

现状

大数据平台中,采用hadoop的方式存储数据,hdfs本质上是文件系统,而文件系统对数据的监管能力有限,但是数据安全领域问题日渐凸显,现目前,大数据平台一般以分层结构进行授权,但是对于一线开发人员而言,是能够接触到整个大数据平台中的所有表的,那么如何实现这样一个表的结构和数据的权限控制流程就显得尤为重要。

HDFS的数据节点

节点存储

对于每个hdfs存储节点而言,存储节点被称为数据节点(Data Node)。数据节点负责实际存储数据块并执行数据的读写操作。

  1. 数据块存储: HDFS将大文件切分成固定大小的数据块(通常为128MB或256MB)。这些数据块会被分布存储在不同的数据节点上。

  2. 数据冗余: HDFS使用数据冗余机制来保障数据的可靠性和容错性。每个数据块的多个副本会被存储在不同的数据节点上,通常是默认的3个副本。这些副本的分布有助于防止数据丢失。

  3. 块的复制: 当客户端写入数据到HDFS时,数据首先会写入本地数据节点。然后,数据块的副本会被自动创建并复制到其他数据节点,通常是在不同的机架上,以减少机架级别的故障对数据的影响。

  4. 心跳和报告: 数据节点会定期向HDFS的主节点(Name Node)发送心跳信号,以通知其存活状态。此外,数据节点会发送块报告,其中包含它所持有的所有数据块的信息。这些信息帮助主节点跟踪数据块的位置和复制状

http://www.lryc.cn/news/130095.html

相关文章:

  • 【学习日记】【FreeRTOS】延时列表的实现
  • ​LeetCode解法汇总833. 字符串中的查找与替换
  • ide internal errors【bug】
  • 阿里云与中国中医科学院合作,推动中医药行业数字化和智能化发展
  • 【Redis】Redis 的学习教程(五)之 SpringBoot 集成 Redis
  • github以及上传代码处理
  • 【PACS源码】认识PACS的架构和工作流程
  • 【C++】开源:跨平台Excel处理库-libxlsxwriter配置使用
  • 前端-轮询
  • Python “贪吃蛇”游戏,在不断改进中学习pygame编程
  • Linux网络编程_Ubuntu环境配置安装
  • gradle java插件
  • 神经网络基础-神经网络补充概念-48-rmsprop
  • 分析Flink,源和算子并行度不一致时,运行一段时间后,看似不再继续消费的问题,提供解决思路。
  • PyTorch训练深度卷积生成对抗网络DCGAN
  • Spring-4-掌握Spring事务传播机制
  • [PyTorch][chapter 49][创建自己的数据集 1]
  • 中间件(二)dubbo负载均衡介绍
  • springboot异步文件上传获取输入流提示找不到文件java.io.FileNotFoundException
  • 安装jenkins-cli
  • linux通过NC工具启动临时端口监听
  • 开源语音聊天软件Mumble
  • JDK 1.6与JDK 1.8的区别
  • 单片机实训报告
  • 【编织时空四:探究顺序表与链表的数据之旅】
  • PHP8的字符串操作1-PHP8知识详解
  • 电脑提示msvcp140.dll丢失的解决方法,dll组件怎么处理
  • stable diffusion基础
  • Greiner–Hormann裁剪算法深度探索:C++实现与应用案例
  • Automatically Correcting Large Language Models