当前位置: 首页 > news >正文

数据储存与管理【大数据导论】

这里是阿川的博客,祝您变得更强

✨ 个人主页:在线OJ的阿川
💖文章专栏:大数据入门到进阶
🌏代码仓库:


写在开头

现在您看到的是我的结论或想法但在这背后凝结了大量的思考、经验和讨论


在这里插入图片描述

在这里插入图片描述

目录

  • 1. 数据储存与管理概念
  • 2. 数据库详解
  • 3. 传统数据储存与管理技术详解
    • 3.1 文件系统
    • 3.2 关系数据库详解
    • 3.3 数据仓库详解
    • 3.4 并行数据库详解


1. 数据储存与管理概念

概念: 利用计算机硬件和软件技术,对数据进行有效的储存和应用,如图1

在这里插入图片描述

图1

储存数据类型:

  • 结构化数据库
  • 半结构化数据库
    • 网页文件
  • 非结构化数据库
    • 图片
    • 视频
    • 音频

在这里插入图片描述

图2

数据储存与管理技术:

传统

  • 文件系统
  • 关系数据库
  • 数据仓库
  • 并行数据库
    在这里插入图片描述
图3

新型

  • 分布式文件系统
  • NewSQL数据库
  • NoSQL数据库
  • 云数据库

在这里插入图片描述

图4

代表性产品

  • HDFS
  • Spanner
  • HBase

在这里插入图片描述

图5

2. 数据库详解

数据库概念: 面向事务,以一定的方式储存在一起,能被多个用户共享,具有尽可能小的冗余度与应用程序彼此独立的应用集合

数据库管理系统:

  • DBMS

在这里插入图片描述

图6

传统数据库:

  • 网状数据库
  • 层状数据库
  • 关系数据库(主流)
    在这里插入图片描述
图7

3. 传统数据储存与管理技术详解

3.1 文件系统

概念: 操作系统用于明确存储设备或分区上文件信息的方法与数据结构

在这里插入图片描述

图8

文件系统的组成:

  • 文件系统的接口
  • 对对象操纵和管理的软件集合
  • 对象及属性

在这里插入图片描述

图9

文件系统功能:

建立、存入、读出、转改、转储、控制文件的存取、销毁文件

在这里插入图片描述

图10

3.2 关系数据库详解

关系数据库 结构化数据概念: 采用关系数据模型来组织、管理数据,可以看成许多关系表(二维表格)的结合
在这里插入图片描述

图11

注意: 结构化的数据都必须提前定好表的名称、字段名称、字段类型和约束等规范化操作

在这里插入图片描述

图12

优点: 数据表的可靠性和稳定性高
缺点: 数据模型不够灵活,一旦存入数据后,进行修改困难
关系数据库常见产品:

  • Oracle
  • SQL Server
  • MySQL
  • DB2
    在这里插入图片描述
图13

关系数据库存储规范:

为了规范数据、减少重复性数据、充分利用存储空间,把数据按照最小的数据表形式存储,采用主外键关系,并且通过连接查询获取数据表之间的相关结果
在这里插入图片描述

图14

关系数据库查询方式:

结构化查询语言(SQL)

  • 高级的非过程化语言,允许用户在高层的数据结构上工作且该语言可以嵌套使用,具有很高的灵活性

在这里插入图片描述

图15

关系数据库连接方式:

统一的数据库连接接口标准ODBC

  • 利用ODBC生产的程序与具体的数据库产品无关,从而数据库用户与开发人员平定不同数据库异构环境的复杂性

在这里插入图片描述

图16

3.3 数据仓库详解

数据仓库概念: 面向主题的、集成的、相对稳定的反映历史变化的数据集合,从而支持管理决策
数据仓库结构:

  • 数据源
  • 数据储存和管理
  • OLAP服务器
  • 前端工具和应用
    在这里插入图片描述
图17

其中数据源
分为内部数据和外部数据
内部:

  • 业务数据+文档数据

在这里插入图片描述

图18

外部:

  • 外部数据
  • 法律法规
  • 市场信息
  • 竞争对手的信息
  • 外部统计数据
  • 其他相关文档

在这里插入图片描述

图19

其中数据存储和管理
对数据进行抽取和转换,并且加载到数据仓库中,并且按照主题进行重新组织,最终确定数据仓库的目的存储结构,同时存储数据结构的原数据(数据字典、记录系统定义、数据转化规则、数据加载频率、业务规则)

在这里插入图片描述

图20

其中OLAP服务器

对需要分析的数据按照多维数据模型进行重组,从而支持用户随时从多角度、多层次分析数据,发现数据规律趋势

在这里插入图片描述

图21

其中前端工具和应用

  • 数据查询工具
  • 自由报表工具
  • 数据分析工具
  • 数据挖掘工具
  • 各类应用系统

在这里插入图片描述

图22

数据库与数据仓库对比

数据库: 面向事务,捕获数据
数据仓库: 面向主题,分析数据


3.4 并行数据库详解

并行数据库概念: 在无共享的体系结构中进行数据操作的数据系统。这些系统大部分采用了关系数据模型,支持进行SQL语句查询
两大关键技术:

  • 关系表的水平划分
  • SQL查询的分区执行

在这里插入图片描述

图23

优点:
高性能和高可靠性,通过多个节点并行数据库任务,提高整个数据库系统的性能和可用性

缺点:
没有较好的弹性,不好进行数据转移
系统容错率较差,一旦节点发生了故障,整个查询都要从头开始执行,只适合资源需求相对固定的程序

4. 夹带私货

若你能看到看到这篇文章且能看到这,则说明你我有缘留个关注吧,后面还会接着计算机408、底层原理、开源项目、以及数据、后端研发相关、实习、笔试/面试、秋招/春招、各种竞赛相关、简历相关、考研、学术相关……,祝你我变得更强

好的,到此为止啦,祝您变得更强
在这里插入图片描述

在这里插入图片描述

道阻且长 行则将至
个人主页:在线OJ的阿川大佬的支持和鼓励,将是我成长路上最大的动力 在这里插入图片描述
http://www.lryc.cn/news/521024.html

相关文章:

  • 《从零到一:搭建高效体育直播网站的全流程技术指南》
  • 松散比较(PHP)(小迪网络安全笔记~
  • 一文了解如何使用 DBeaver 管理 DolphinDB
  • 网络基础知识指南|1-20个
  • 01.09周四F34-Day50打卡
  • Linux简介和环境搭建
  • 在移动端开发图表,uniapp+echarts,需要特殊处理,使用renderjs
  • SpringBoot之LazyInitializationBeanFactoryPostProcessor类源码学习
  • United States of America三种表示
  • OpenCV基于均值漂移算法(pyrMeanShiftFiltering)的水彩画特效
  • 【C++】拷贝构造函数与运算符重载
  • 2024年开发语言热度排名
  • CryptoMamba:利用状态空间模型实现精确的比特币价格预测
  • MQTTX客户端使用
  • 网管平台(进阶篇):路由器的管理实践
  • 基于微信小程序的智能停车场管理系统设计与实现(LW+源码+讲解)
  • 【Vue】父组件向子组件传递参数;子组件向父组件触发自定义事件
  • 搜广推校招面经七
  • Leetcode 518. 零钱兑换 II 动态规划
  • 【EI 会议征稿】第四届材料工程与应用力学国际学术会议(ICMEAAE 2025)
  • 集合的线程安全
  • 《深入理解Mybatis原理》Mybatis中的缓存实现原理
  • C# 数据拟合教程:使用 Math.NET Numerics 的简单实现
  • C# 中对 Task 中的异常进行捕获
  • Android车机DIY开发之软件篇(九)默认应用和服务修改
  • SimpleFOC01|基于STM32F103+CubeMX,移植核心的common代码
  • web.xml常用配置
  • 代码随想录刷题day07|(数组篇)58.区间和
  • 【Linux】进程结束和进程等待
  • 可编辑精品PPT | 城投集团(行业)数字化解决方案