读商战数据挖掘:你需要了解的数据科学与分析思维05拟合数据
1. 拟合数据
1.1. 预测建模就是根据其他描述性属性找出目标变量的模型的过程
1.2. 从数据集中提取预测模型的方法,是先确定模型的结构,而使模型的数值型参数待定
- 1.2.1. 然后再通过数据挖掘,根据特定的训练数据集计算出最佳参数值
1.3. 常见的情形是,模型由含有一系列数值变量的参数化的数学函数或公式构成,而我们既可以基于领域知识,从理论上判断哪些变量对目标变量具有较好的预测性,也可以基于其他数据挖掘技术来决定模型需要使用哪些变量
1.4. 参数学习
-
1.4.1. 参数化建模
-
1.4.2. 数据挖掘系统中,模型的形式及其所用变量是确定的,数据挖掘的目的则是通过调整参数来使模型尽可能地拟合数据
1.5. 在统计学和计量经济学的某些领域中,“模型”是指未明确参数的模型
1.6. 只考虑二元分类,即模型预测的事件要么发生,要么不发生
1.7. 属性值的简单加权求和
-
1.7.1. 属性的权重就是数据挖掘所要拟合的参数
-
1.7.2. 线性模型技术包括了传统线性回归、逻辑回归和诸如支持向量机的线性判别式
1.8. 模型的预测效果和模型的可理解性
2. 根据数学函数分类
2.1. 树形模型可以表示为实例空间中的空间划分
2.2. 创建同质区域的主要目的,就是通过判断一个新的、从未出现过的实例会落入哪个区域来预测它的目标变量值
2.3. 线性分类器,其本质上是多个属性值的加权和
2.4. 线性判别函数
-
2.4.1. 线性判别式,因为该式能够判别分类,而决策边界的函数又是属性的线性组合(加权和)
-
2.4.2. 选择分类的最佳边界并非易事
2.5. 数据挖掘的任务就是用参数化模型来“拟合”某个特定数据集
-
2.5.1. 要找到这些特征的一系列最佳权重
-
2.5.2. 大体上,特征的权重越大,其对目标变量分类的重要性也越大
2.6. 目标函数的最优化
-
2.6.1. 一般的做法是定义一个既能够体现目标,又能由一系列特定权重和一系列特定数据计算出的目标函数,然后通过最大化或最小化目标函数选出最优权重值
-
2.6.2. 要找到完全符合数据挖掘的真正目标的目标函数往往是不可能的
-
2.6.3. 数据科学家通常基于信念和经验来选择目标函数
-
2.6.4. 线性回归、逻辑回归和支持向量机三者非常相似
2.7. 用线性判别函数对实例进行评分和排序
-
2.7.1. 并不需要精确的概率估计,而仅需要评分
-
2.7.2. 评分可以用来根据实例属于某一类的概率来对它们进行排序
-
2.7.3. 不需要取得精确的概率估计值,只需要这个排序足够合理,能使得排序中可能性最高的用户做出响应的可能性最大即可
2.8. 支持向量机
-
2.8.1. 支持向量机就是线性判别式
-
2.8.2. 和一般的线性判别式一样,支持向量机也依赖特征的线性方程来对实例进行分类
-
2.8.3. 由于非线性的支持向量机使用了不同的特征(原特征的函数),因而新特征的线性判别式就是原特征的非线性判别式
-
2.8.4. 支持向量机的目标函数包含了“间距越宽越好”的概念
-
2.8.4.1. 当最宽的间距被找到时,就把间距的中心线作为线性判别式
-
2.8.4.2. 两条平行虚线之间的距离叫作线性判别式周围的间距,而我们的目标就是将该间距最大化
-
-
2.8.5. 训练集不过是来自于某个总体的样本,而在预测建模时,我们感兴趣的是预测未出现过的新实例的目标变量
-
2.8.6. 支持向量机的第二条重要概念在于它对落在决策边界的错误一侧的数据点的处理方式
- 2.8.6.1. 不存在能将所有数据点完美分类的单一直线决策边界
-
2.8.7. 如果数据并不线性可分,那么其所能达到的最佳拟合即某个兼顾了较宽的间距和较低的总误差惩罚的平衡点
-
2.8.8. 对分类错误的数据点的惩罚的大小与该点到间距边缘的距离成正比,所以支持向量机会尽可能只产生“小”误差
- 2.8.8.1. 该误差函数被称作合页损失
3. 通过数学函数进行回归
3.1. 术语“损失”一般指误差惩罚,通用于数据科学领域
3.2. 损失函数能够判断一个实例需要分摊多少惩罚
- 3.2.1. 其判断基于模型预测值的误差
3.3. 分类错误的数据点到决策边界的距离为正,而分类正确的数据点到决策边界的距离则为负
3.4. 支持向量机使用的是合页损失
-
3.4.1. 因为其损失图看上去很像合页
-
3.4.2. 如果数据点没有落在间距的错误一侧,那么合页损失函数就不会给出惩罚
-
3.4.3. 仅当数据点落在决策边界错误的一侧,且在间距边缘之外时,合页损失函数才为正
-
3.4.4. 数据点到间距边缘的距离增加时,损失函数值随之线性增加
-
3.4.5. 数据点离决策边界越远,其受到的惩罚越多
-
3.4.6. 0-1损失函数,对正确决策的损失值赋值为0,对错误决策的损失值赋值为1
3.5. 平方误差
-
3.5.1. 平方误差将数据点到决策边界的距离的平方定义为误差
-
3.5.2. 通常用于数值型预测(回归)而非分类,能极大地惩罚那些错得离谱的预测
-
3.5.3. 在分类问题中,它也能极大地惩罚落向“错误一侧”且远离决策边界的数据点
-
3.5.4. 平方误差同样会惩罚那些落向正确一侧且远离决策边界的数据点
-
3.5.5. 选择平方误差作为分类问题或类概率估计问题的损失函数,有违“考虑损失函数是否与商业目标一致”的原则
3.6. 绝对误差
-
3.6.1. 将绝对误差的和最小化
-
3.6.2. 等价地将整个训练数据集的绝对误差的平均值最小化
3.7. 标准线性回归过程真正最小化的是这些误差的平方和或平均值,因此该过程也叫作“最小二乘”回归
-
3.7.1. 方便
-
3.7.2. 最小二乘误差函数是由18世纪著名数学家高斯(Carl Friedrich Gauss)提出的,且其用法有理论依据的支撑(与正态分布,即高斯分布,有关)
-
3.7.3. 用在理论分析方面也很方便
-
3.7.4. 最小二乘回归的一个严重缺陷是对数据过于敏感:误差点及其他离群点会大大扭曲最终得出的线性方程
3.8. 任何目标函数都有自己的优势和劣势
3.9. 一旦见到线性回归仅仅作为一个(线性)模型拟合数据的实例出现,我们就知道必须要选择合适的目标函数来进行最优化
- 3.9.1. 必须牢记最终的商业应用场景
4. 类概率估计和逻辑回归
4.1. 在同样的线性模型拟合数据的框架下,通过选择一个不同的目标函数,可以设计出一个能给出精确类概率估计的模型
4.2. 最常见的一种被称为逻辑回归
-
4.2.1. 分类问题和回归问题的区别在于目标变量是类别型还是数值型
-
4.2.2. 逻辑回归进行的是数值预测(即对对数优势比进行预测)
4.3. 优势比
- 4.3.1. 某事件发生的概率与不发生的概率的比率
4.4. 对数优势比
-
4.4.1. 对优势比取对数
-
4.4.2. 任何非负数取对数之后都有可能变为负数
4.5. 针对概率估计,逻辑回归使用了线性模型,而该模型同样可以用于线性判别式的分类问题和预测数值型目标变量值的线性回归问题
4.6. 逻辑回归模型的输出结果可以理解为类成员的对数优势比
4.7. 由于这些对数优势比可以直接转化为类成员概率,因而逻辑回归往往只被当作一种类别概率的模型
4.8. 类成员概率
-
4.8.1. 训练数据中目标变量的观测值仅仅会在实例的观测值为该类时令p(x)=1,不为该类时则令p(x)=0
-
4.8.2. 虽然训练数据集包含对潜在概率的一组统计“提取”,但它不是潜在概率本身
4.9. 对比逻辑回归和树型归纳
-
4.9.1. 分类树和线性分类器都使用了线性决策边界
-
4.9.2. 分类树使用的决策边界与实例空间的坐标轴垂直
-
4.9.2.1. 线性分类器所使用的决策边界的方向是任意的
-
4.9.2.2. 分类树每次只选择一个属性,而线性分类器使用的则是所有属性的加权组合
-
-
4.9.3. 分类树是个“分段式”分类器,在必要时会用分而治之的方法对实例空间进行递归式划分
-
4.9.3.1. 分类树可以随意将实例空间反复切分,直到它变成极小的区域
-
4.9.3.2. 线性分类器仅把一个决策平面放置在实例空间中,故而它可以自由选择方向
-
4.9.3.3. 该优势仅限于把实例空间一分为二的情况
4.9.3.3.1. 因为决策平面是一个包含了所有变量的(线性)公式,而该公式必须适合整个数据空间
-
-
4.9.4. 在将模型应用到商业问题中时,不同背景的企业利益相关者会对模型产生不同的理解
5. 非线性函数、支持向量机和神经网络
5.1. 如果我们把更复杂的特征纳入线性函数中,那么就可以用这样的函数来体现非线性模型
5.2. 基于拟合复杂非线性函数的各类技术中,最常用的两类被称作非线性支持向量机和神经网络
5.3. 支持向量机有一个所谓的“核函数”,它能将原始特征映射到其他特征空间中,随后我们可以用线性模型拟合这个新的特征空间
5.4. 神经网络
-
5.4.1. 神经网络这一领域博大精深,历史悠久,且在数据挖掘中应用广泛
-
5.4.2. 在提高模型拟合的灵活性时,也会提高对模型拟合得过好的可能性
-
5.4.3. 模型能拟合特定的训练集中的细节,却不能找出适用范围更广的模式或模型
-
5.4.4. 希望模型不仅适用于目前的训练集,还能适用于来自同一个总体或者应用场景的其他数据集
-
5.4.5. 这种考虑不是仅仅针对神经网络,而是广义地针对所有模型