当前位置: 首页 > news >正文

【Azure 架构师学习笔记】-Azure Storage Account(6)- File Layer

本文属于【Azure 架构师学习笔记】系列。
本文属于【Azure Storage Account】系列。
接上文 【Azure 架构师学习笔记】-Azure Storage Account(5)- Data Lake layers

前言

上一文介绍了存储帐户的概述,还有container的一些配置,在container下面存放的就是文件夹和文件,也就是数据。之所以单独一文描述是因为当一个项目考虑使用云存储时,除了一些必要的外部设置这种“硬”设计之外,还需要考虑文件结构这种“软”设计。 本文讲述的就是比较通用的“软”设计部分。

在container下面,按照业界的一些最佳实践,会定义一些列的Zone, 目录,当然还要配置安全控制,将在下一文介绍。

Zone

分开zone的其中一个原因来自于上文讲述的一些策略,如果没有把zone区分出来,那么某些允许定期删除或者不允许删除的策略就会导致数据的管理混乱。同时通过把访问控制细化,可以更好地保护一个中央存储帐户上的数据安全和可信度。
还有其他的一些好处,比如缺乏治理的数据湖,可能会变成数据“沼泽”, 或者变成数据“垃圾场”,用户会淹没在混乱的数据中。

常见的Zone有以下几个:

  • Raw:数据的原始格式存储。可以作为下游系统唯一数据源。
  • Staging:经过初步处理的数据,已经可共数据科学家等进行使用。
  • Curated:符合数据湖标准的数据集市。经过清洗,转换,重组后的数据,可供数据交付。符合安全,治理要求。

还有一些更加细分的,可选的zone:

  • Transient/Temp:对Raw data进行进一步的区分,把“新”数据从中隔离出来。也可以用于数据校验,提供低延时的数据服务。
  • Master Data:用于引用的数据。
  • User Drop Zone:手动生成的数据。
  • Archive Zone:数据归档。

Zone的设计并不仅限于云存储,而且这是一种设计思维而不是实现方式,具体需求绝体实现。

文件夹

在各个zone下面存放的首先是文件夹。文件夹的问题在于结构的设计,你可以按时间创建父文件夹,里面是地区,系统等。也可以按照地区建父文件夹,哪一种更合适?要根据需求来定,如果为了数据分析,那么建议更多的是:
以zone为第一层,以数据源为第二层,然后再按年月日顺序创建文件夹。
这样的好处在于权限控制较为简单,ADF, Databricks等ETL 过程可以更加动态,参数化。

小结

整个存储帐户最终看起来将会是类似如下图所示:
在这里插入图片描述

下一文将介绍一下安全方面的内容。

http://www.lryc.cn/news/234806.html

相关文章:

  • idea 环境搭建及运行java后端源码
  • 掌握Shell:从新手到编程大师的Linux之旅
  • 有重复元素的快速排序
  • Bert浅谈
  • 产品运营的场景和运营策略
  • C#异常捕获try catch详细介绍
  • 切换阿里云ES方式及故障应急处理方案
  • CTFhub-RCE-过滤空格
  • 无需添加udid,ios企业证书的自助生成方法
  • 【PTA题目】6-20 使用函数判断完全平方数 分数 10
  • Nas搭建webdav服务器并同步Zotero科研文献
  • 一句话总结敏捷实践中不同方法
  • 【数据结构】线段树(点修区查)
  • Ansys Lumerical | 用于增强现实系统的表面浮雕光栅
  • QT day3作业
  • 【Ubuntu】设置永不息屏与安装 dconf-editor
  • gRPC 的原理 介绍带你从头了解gRPC
  • Apriori算法
  • 肖sir__linux讲解(2.1)
  • The ultimate UI kit and design system for Figma 组件库下载
  • Selenium——利用input标签上传文件
  • C++初阶 日期类的实现(下)
  • 大师学SwiftUI第16章 - UIKit框架集成
  • 7.docker运行redis容器
  • unity教程
  • 未定义与 ‘double‘ 类型的输入参数相对应的函数 ‘Link‘
  • 为什么Transformer模型中使用Layer Normalization(Layer Norm)而不是Batch Normalization(BN)
  • Vite - 配置 - 文件路径别名的配置
  • phpStorm Xdebug调试 加FireFox浏览器
  • 多维时序 | MATLAB实现PSO-BiGRU-Attention粒子群优化双向门控循环单元融合注意力机制的多变量时间序列预测