当前位置：首页 > news >正文

数据挖掘（1）概述

news 2025/8/14 20:27:58

一、数据仓库和数据挖掘概述

1.1 数据仓库的产生

数据仓库与数据挖掘：
- 数据仓库和联机分析处理技术(存储)。
- 数据挖掘：在大量的数据中心挖掘感兴趣的知识、规则、规律、模式、约束(分析)。
数据仓库用于决策分析：
1. 数据仓库：是在数据库已经大量存在的情况下，为了进一步挖掘数据资源、为了决策需要而产生的，并不是‘大型数据库’。
2. 数据仓库与数据库的区别：

数据库	数据仓库
事务处理	决策分析
保持事务处理的当前状态	保存过去和当前的数据
	大量数据库的集成

1.2 数据挖掘的基本概念

数据挖掘定义：
1. 数据挖掘是从大量的数据中挖掘出隐含的、未知的、用户可能感兴趣的和对决策有潜在价值的知识和规则。
2. 几层含义：
  - 数据：真实、大量、含噪声。
  - 发现的是用户感兴趣的知识。
  - 发现的知识：可接受、可理解、可运用。
  - 不要求发现全部的知识，仅对特定的问题。
数据挖掘的一个过程
数据挖掘的功能
1. 关联分析(描述)
  - 反映一个事件和其他事件之间依赖或关联的知识。
  - 广泛用于：购物篮、事务数据分析。
2. 聚类分析(描述)
  - 最大化类内的相似性和最小化类间的相似性(无监督的学习方法)
  - 找出数据集中的共性与差异，将具有共性的对象聚合在相应的类中。
  - 无指导的观察室学习，没有预先定义的类
3. 分类挖掘(预测)
  - 分类：同类事物共同性质的特征型知识，不同事物之间的差异型特征知识。(有监督的学习方法)
    - 类别：特征联系，决策树
  - 有指导的事例式学习，有预先定义的类
  - 过程：分析训练集中数据，为每个类别建立分类分析模型；用这个分类分析模型对DB中的其他记录进行分类。
  - 聚类与分类的区别：
4. 孤立点分析
  - 对差异和极端特例的描述。
  - 孤立点：事物偏离常规的异常现象。
  - 没有孤立点分析算法。
  - 异常检测：通过构建正常行为模型(特征描述)，来检测与特征描述严重偏离的新的模式。

二、数据仓库的基本概念

2.1概念

数据仓库（Data Warehouse）是在数据库已经大量存在的情况下，为了进一步挖掘数据资源，为了决策需要而产生的，它并不是所谓的“大型数据库

2.2数据仓库的两个主要作用

存储经过加工处理的决策需要的数据
查询决策分析的依据

2.3数据仓库的关键特征

面向主题（从面向应用到面向主题）
集成的（需要使用数据清洗、数据继承来处理数据）
随时间而变化的（只进行两种数据访问：数据的初始装载、查询操作）
不容易丢失的（包含时间元素）

2.4为什么要建立数据仓库

事务型处理(DB)：
1. 日常事务处理
2. 处理细节信息
分析型处理(DW)：
1. 用于管理员的决策分 析
2. 处理宏观信息
区别

2.5数据仓库与数据挖掘的关系

区别：
- 数据仓库：存储技术，提供对不同决策的数据和信息。
- 数据挖掘：分析技术，从数据中挖掘信息。
联系：
- 成功的数据挖掘：通过访问正确的、完整的、集成的数据，进行深层次的分析。
- 数据仓库并不是数据挖掘的必要条件：
  - DM不一定建立在DW之上,DW不是实施DM的必要条件。
  - 在开发DW过程中所进行的数据集成、清洗、准备，才使得DW对DM有重要的价值。

2.6数据立方体

1. 概念分层(单个维)

定义：定义一个映射序列，将低层概念映射到更一般的高层概念中。
比如：在城市->省份->国家->州，维度中，我们可以从中选取一个维度进行考查。

2.方体的格(维的集合)

定义：给定一个维的集合，将在不同汇总级别上给出的数据立方体。
0维方体：存放最高层的汇总，顶点方体
最底层汇总：基本方体

2.7 数据仓库的三级模型

1.概念模型：

首先将现实世界抽象为概念模型、然后再用计算机世界的模型和语言描述。
数据仓库的第一层、最高层
数据仓库用信息包图表示概念模型。
信息包图

eg：确定维度、级别(类别、概念分层、将维度细分)、度量(指标与事实)。

2.逻辑模型：

数据仓库第二层
三种表示：星型、雪花模型、事实星座模型。
几个基本概念：
1. 维：视角、观点；eg：时间维度、产地维度。
2. 维表：每一维都有一个表与之对应。
3. 事实：数字度量。
4. 事实表：事实的名称或度量、以及每个相关维表的关键字。
星型模型
1. 事实表在中心，周围围绕地连接维表。
2. 通常由三种逻辑模型表示法：星型模型，雪花模型，事实星座模型
雪花模型
1. 相当于增加了外键，维护表与表的关系，减少了冗余。
事实星座模型
1. 对主题的数据仓库，需要多个事实表共享维表。

3.物理模型：

定义：是逻辑模型在数据仓库中的实现。
主要进行：数据存储结构、存储策略、索引策略、存储分配优化。
两种常见的存储结构：
1. 分布式存储
  1. 物理上分布、逻辑上统一。
2. 集中式存储
  - 通过FC(光纤通信)交换机来直接访问所有数据，而不需要其它节点。

2.8DW的设计

数据仓库设计与数据库设计的区别(** )
DW设计的原则
1. 以数据驱动为中心，数据驱动和需求驱动相结合
2. 数据驱动：根据当前数据基础和质量进行数据源分析
3. 需求驱动：根据业务方向需求进行调整。

三、联机分析处理

建立数据仓库的目的，是要为决策提供必要的支持。

3.1 OLAP概述

1. OLAP的基本概念

定义：联机分析处理是共享多维信息的、针对特定问题的联机数据访问和分析的快速软件技术。
核心技术是维，OLAP是多维数据分析工具的集合。
OLAP与数据仓库的多维数据组织管理正好形成相互结合相互补充的关系。

2. 几个关系？

OLAP与DW
1. 数据仓库：侧重于存储和管理面向主题的数据。
2. OLAP：侧重于数据仓库中的数据分析，并将其转换成辅助决策的信息。
  - 多维数据分析，这与数据仓库的多维数据组织管理相互结合、相互补充。
  - 使得DW能快速分析查询，从而能有效的联机分析。
OLAP(联机处理分析)与OLTP()
1. OLTP：关系型数据库的主要应用，增删改查。事务型
2. OLAP：数据仓库的主要应用，分析与决策，并提供查询结果。分析型
  - OLAP的数据来自于OLTP数据库