当前位置: 首页 > news >正文

机器学习(二) -- 数据预处理(3)

系列文章目录

未完待续……


目录


前言

tips:这里只是总结,不是教程哈。本章开始会用到numpy,pandas以及matplotlib,这些就不在这讲了哈。

“***”开头的是给好奇心重的宝宝看的,其实不太重要可以跳过。

此处以下所有内容均为暂定,因为我还没找到一个好的,让小白(我自己)也能容易理解(更系统、嗯应该是宏观)的讲解顺序与方式。

第一文主要简述了一下机器学习大致有哪些东西(当然远远不止这些),对大体框架有了一定了解。接着我们根据机器学习的流程一步步来学习吧,掐掉其他不太用得上我们的步骤,精练起来就4步(数据预处理,特征工程,训练模型,模型评估),其中训练模型则是我们的重头戏,基本上所有算法也都是这一步,so,这个最后写,先把其他三个讲了,然后,在结合这三步来进行算法的学习,兴许会好点(个人拙见)。


四、***【数据集成】

将多个数据源中的数据合并,存放于一个一致的数据存储中。

五、***【数据变换】

通过平滑聚集,数据概化,规范化等方式将数据转换成适用于数据挖掘的形式。

将原始数据变换成较好数据格式的方法,以便作为数据处理前特定数据挖掘算法的输入。

六、***【数据归约】

数据挖掘时往往数据量非常大,在大量数据上进行挖掘分析需要很长的时间,数据归约技术可以用来得到数据集的归约表示,它小得多,但仍然接近于保持原数据的完整性,并结果与归约前结果相同或几乎相同。也就是说,在归约后的数据集上挖掘将更有效,而且仍会产生相同或相似的分析结果。数据归约包括维归约、数量归约和数据压缩。

七、数据拆分

数据拆分:机器学习的数据集划分一般分为两个部分:

        训练数据:用于训练,构建模型。一般占70%-80%(数据量越大,取得比例最好越大)

        测试数据:用于模型评估,检验模型是否有效。一般占20%-30%

1、近似值

该处使用的url网络请求的数据。

2、内容

该处使用的url网络请求的数据。

3、思维方式

该处使用的url网络请求的数据。

4、根本课题

该处使用的url网络请求的数据。

1.1、嗡嗡嗡

嗡嗡嗡

1.2、十五万

嗡嗡嗡

http://www.lryc.cn/news/269837.html

相关文章:

  • 【数学建模美赛M奖速成系列】Matplotlib绘图技巧(三)
  • 手写Spring与基本原理--简易版
  • EasyNTS端口穿透服务新版本发布 0.8.7 增加隧道流量总数记录,可以知晓设备哪个端口耗费流量了
  • python自动合计各部周销
  • Java内存区域与内存溢出异常
  • 远程网络唤醒家庭主机(openwrt设置)
  • Spring知识02
  • Linux服务器搭建笔记-006:拓展/home目录容量
  • 元宇宙与VR虚拟现实的未来如何?
  • 微服务事务处理:CAP 定理和最终一致性的关系
  • 【Linux操作系统】探秘Linux奥秘:操作系统的入门与实战
  • Copilot概述:AI助手引领编程新纪元
  • 最小覆盖子串(LeetCode 76)
  • Windows Sockets 2 笔记
  • 13章总结
  • (2023,3D NeRF,无图像变分分数蒸馏,单步扩散)SwiftBrush:具有变分分数蒸馏的一步文本到图像扩散模型
  • 【WPF.NET开发】将路由事件标记为已处理和类处理
  • 2023年03月18日_微软office365 copilot相关介绍
  • GBASE南大通用携手宇信科技打造“一表通”全链路解决方案
  • Python 内置高阶函数练习(Leetcode500.键盘行)
  • 【JavaWeb】day01-HTMLCSS
  • 【工具】windeployqt 在windows + vscode环境下打包
  • 跟着LearnOpenGL学习12--光照贴图
  • DotNet 命令行开发
  • hyperf console 执行
  • 第一篇 设计模式引论 - 探索软件设计的智慧结晶
  • HBase基础知识(六):HBase 对接 Hive
  • Java连接Mysql报错:javax.net.ssl.SSLException: Received fatal alert: internal_error
  • Mixtral 8*7B + Excel + Python 超强组合玩转数据分析
  • 深入浅出理解Web认证:Session、Cookie与Token