当前位置: 首页 > news >正文

数据分析笔记1

数据分析概述:数据获取--探索分析与可视化--预处理--分析建模--模型评估
数据分析含义:利用统计与概率的分析方法提取有用的信息,最后进行总结与概括


一、数据获取
实用网站:kaggle 阿里云天池
·数据仓库:将所有业务数据汇总处理,构成数据仓库(DW)
          ·全部事实记录
          ·部分维度与数据的整理(数据集市(DM))
·监测与抓取:爬虫
·填写、埋点、日志
          ·用户填写信息
          ·APP或网页埋点(特定流程的信息记录点)(页面统计、统计操作行为)
          ·操作日志
·计算
           ·通过已有数据计算

二、探索分析与可视化
单因子和可视化
·理论基础
···集中趋势:均值、中位数与分位数、众数
····四分位数计算方法:Q1的位置=(n+1)*0.25    (n为数据的个数)
                                                                 Q2的位置=(n+1)*0.5
                                                                 Q3的位置=(n+1)*0.75
···离中趋势:标准差、方差--σ的值越大表示数据越离散,σ越小表示数据越聚拢
···数据分布:偏态与峰态、正态分布与三大分布
····偏态系数S与峰态系数K--均值>中位数-->正偏反之为反偏
···抽样理论:抽样误差、抽样精度
·数据分类
··定类(类别)
··定序(顺序)
··定距(间隔)
··定比(比率)
·单属性分析
··异常值分析
···连续异常值
···离散异常值
···知识异常值
··对比分析
···绝对数比较
···相对数比较--结构相对数、比例相对数、比较相对数、强调相对数
···对比维度--时间维度、空间维度、经验与计划
··结构分析
···静态
···动态
··分布分析
···直接获得概率分析
···是不是正态分布
···极大似然

http://www.lryc.cn/news/179195.html

相关文章:

  • paramiko 3
  • 基于Dlib训练自已的人脸数据集提高人脸识别的准确率
  • Git 详细安装教程(详解 Git 安装过程的每一个步骤
  • kafka伪集群部署,使用KRAFT模式
  • 【双指针遍历】N数之和问题
  • Qt的QObject类
  • 【图论C++】链式前向星(图(树)的存储)
  • 16.PWM输入捕获示例程序(输入捕获模式测频率PWMI模式测频率和占空比)
  • pip version 更新
  • Oracle - 多区间按权重取值逻辑
  • 本次CTF·泰山杯网络安全的基础知识部分(二)
  • MyBatis 映射文件(Mapper XML):配置与使用
  • 基于 SpringBoot 的大学生租房网站
  • BL808学习日志-0-概念理解
  • CISSP学习笔记:业务连续性计划
  • .NET Nuget包推荐安装
  • 【文献阅读】Pocket2Mol : 基于3D蛋白质口袋的高效分子采样 + CrossDocked数据集说明
  • TrustRadius 评论:为什么 Splashtop 优于 LogMeIn
  • 【动态规划】动态规划经典例题 力扣牛客
  • 统计模型----决策树
  • C# List 复制之深浅拷贝
  • 论<script> 标签可以直接写在 HTML 文件中的哪些位置?(可以将 <script> 标签直接插入到 HTML 文件的任何位置)
  • 【MySQL进阶】--- 存储引擎的介绍
  • self-XSS漏洞SRC挖掘
  • 1859. 将句子排序
  • 普通学校,普通背景,普通公司,不普通总结。
  • Flink之Watermark生成策略
  • 提升API文档编写效率,Dash for Mac是你的不二之选
  • 无人注意,新安装的 Ubuntu 23.04 不支持安装 32 位应用
  • 全面横扫:dlib Python API在Linux和Windows的配置方案