数据储存与管理【大数据导论】

✨ 个人主页:在线OJ的阿川
💖文章专栏:大数据入门到进阶
🌏代码仓库:
写在开头
现在您看到的是我的结论或想法,但在这背后凝结了大量的思考、经验和讨论
目录
- 1. 数据储存与管理概念
- 2. 数据库详解
- 3. 传统数据储存与管理技术详解
- 3.1 文件系统
- 3.2 关系数据库详解
- 3.3 数据仓库详解
- 3.4 并行数据库详解
1. 数据储存与管理概念
概念: 利用计算机硬件和软件技术,对数据进行有效的储存和应用,如图1
储存数据类型:
- 结构化数据库
- 半结构化数据库
- 网页文件
- 非结构化数据库
- 图片
- 视频
- 音频
数据储存与管理技术:
传统
- 文件系统
- 关系数据库
- 数据仓库
- 并行数据库
新型
- 分布式文件系统
- NewSQL数据库
- NoSQL数据库
- 云数据库
代表性产品
- HDFS
- Spanner
- HBase
2. 数据库详解
数据库概念: 面向事务,以一定的方式储存在一起,能被多个用户共享,具有尽可能小的冗余度与应用程序彼此独立的应用集合
数据库管理系统:
- DBMS
传统数据库:
- 网状数据库
- 层状数据库
- 关系数据库(主流)
3. 传统数据储存与管理技术详解
3.1 文件系统
概念: 操作系统用于明确存储设备或分区上文件信息的方法与数据结构
文件系统的组成:
- 文件系统的接口
- 对对象操纵和管理的软件集合
- 对象及属性
文件系统功能:
建立、存入、读出、转改、转储、控制文件的存取、销毁文件
3.2 关系数据库详解
关系数据库 结构化数据概念: 采用关系数据模型来组织、管理数据,可以看成许多关系表(二维表格)的结合
注意: 结构化的数据都必须提前定好表的名称、字段名称、字段类型和约束等规范化操作
优点: 数据表的可靠性和稳定性高
缺点: 数据模型不够灵活,一旦存入数据后,进行修改困难
关系数据库常见产品:
- Oracle
- SQL Server
- MySQL
- DB2
关系数据库存储规范:
为了规范数据、减少重复性数据、充分利用存储空间,把数据按照最小的数据表形式存储,采用主外键关系,并且通过连接查询获取数据表之间的相关结果
关系数据库查询方式:
结构化查询语言(SQL)
- 高级的非过程化语言,允许用户在高层的数据结构上工作且该语言可以嵌套使用,具有很高的灵活性
关系数据库连接方式:
统一的数据库连接接口标准ODBC
- 利用ODBC生产的程序与具体的数据库产品无关,从而数据库用户与开发人员平定不同数据库异构环境的复杂性
3.3 数据仓库详解
数据仓库概念: 面向主题的、集成的、相对稳定的反映历史变化的数据集合,从而支持管理决策
数据仓库结构:
- 数据源
- 数据储存和管理
- OLAP服务器
- 前端工具和应用
其中数据源
分为内部数据和外部数据
内部:
- 业务数据+文档数据
外部:
- 外部数据
- 法律法规
- 市场信息
- 竞争对手的信息
- 外部统计数据
- 其他相关文档
其中数据存储和管理
对数据进行抽取和转换,并且加载到数据仓库中,并且按照主题进行重新组织,最终确定数据仓库的目的存储结构,同时存储数据结构的原数据(数据字典、记录系统定义、数据转化规则、数据加载频率、业务规则)
其中OLAP服务器
对需要分析的数据按照多维数据模型进行重组,从而支持用户随时从多角度、多层次分析数据,发现数据规律趋势
其中前端工具和应用
- 数据查询工具
- 自由报表工具
- 数据分析工具
- 数据挖掘工具
- 各类应用系统
数据库与数据仓库对比
数据库: 面向事务,捕获数据
数据仓库: 面向主题,分析数据
3.4 并行数据库详解
并行数据库概念: 在无共享的体系结构中进行数据操作的数据系统。这些系统大部分采用了关系数据模型,支持进行SQL语句查询
两大关键技术:
- 关系表的水平划分
- SQL查询的分区执行
优点:
高性能和高可靠性,通过多个节点并行数据库任务,提高整个数据库系统的性能和可用性
缺点:
没有较好的弹性,不好进行数据转移
系统容错率较差,一旦节点发生了故障,整个查询都要从头开始执行,只适合资源需求相对固定的程序
4. 夹带私货
若你能看到看到这篇文章且能看到这,则说明你我有缘,留个关注吧,后面还会接着计算机408、底层原理、开源项目、以及数据、后端研发相关、实习、笔试/面试、秋招/春招、各种竞赛相关、简历相关、考研、学术相关……,祝你我变得更强
好的,到此为止啦,祝您变得更强
道阻且长 行则将至 |
---|
个人主页:在线OJ的阿川![]() ![]() |