当前位置: 首页 > news >正文

工业大数据分析算法实战-day15

文章目录

  • day15
    • 特定数据类型的算法
    • 工业分析中的数据预处理
      • 工况划分
      • 数据缺失
      • 时间数据不连续
      • 强噪声
      • 大惯性系统
      • 趋势项消除

day15

今天是第15天,昨日是针对最优化算法、规则推理算法、系统辨识算法进行了阐述,今日主要是针对其他算法中的特定数据类型的算法、以及开启讨论工业算法分析的章节:第六章:工业分析中的典型处理方法

特定数据类型的算法

这块主要是针对文本数据、图像数据、时空数据的数据方法做了阐述,很多地方只是粗浅一带而过,所以我这边只是贴了一张图,以后有涉猎到再慢慢研究,毕竟是很大的方法类别.

文本数据类的不同研究任务

image-20241225195958336

图像数据的任务分类

image-20241225200008554

时空分析技术组成

image-20241225200020089

工业分析中的数据预处理

工况划分

不同工况的设备和系统运行规律、变量分布差异很大,因此对于工况划分是很多工业分析课题的前置条件,通常会有如下3种策略

  • 一次性分割策略:可采用Autoplait算法进行分割
  • 分组分割的策略:根据业务语义形成若干变量组,对于每个组做时序分割,然后对这些分割短进行聚类,最后对多个组的类别进行组合
    • 在单变量时序分割中,可以采用PELT算法按照均值/方差变化分成若干段,也可采用SAX、PAA、PLA等时序再表征算法
  • 聚类合并策略:对每个时刻点的向量进行聚类,标记t时刻对于的类别,根据类别时序进行自然分割

需要注意,时间序列分割算法通常是基于统计量(比如PELT算法根据均值、方差的变化进行切分)、局部结构(例如PLA用分段线性模型去逼近原序列)、局部动力学模型(例如AR模型)的稳定性进行显性分割,或者建立全局的生成式,或者建立全局的生成式概率模型(例如Autoplait用两层HMM模型)进行隐性分割(体现在隐含的状态类别变量上)

数据缺失

数据量充足的情况下,对于存在缺失值的记录,可以采用过滤的方式

相对平稳的指标,可以采用线性插值、多项式插值,或者建立自回归模型(如ARIMA模型)的方式填充

在中等规模数据量的情形下可以采用回归建模的方法(用其他变量去预测存在缺失的变量)

时间数据不连续

在探索性建模阶段应当遵循“大数原则”,尽快掌握技术的可实现度,但是在部署的版本一定要有严谨、鲁棒且明确的处理方法,以保证模型的可用性,有时候也可从领域知识的角度去发现和处理,ANOVA等统计方法也可检测统计分布的改变

强噪声

  • 对于毛刺型的噪声,可以使用中值滤波、STL分解等鲁棒性方法
  • 对于平稳性高噪声,采用线性滤波
  • 对于区间内有界但杂乱的信号,可以采用LOESS等局部线性拟合方法

大惯性系统

很多温场、流场存在很大的惯性,也就是当前点和上一点的差异接近噪声,用动力学模型建模(诸如lstm、状态方程)时,如果不加处理,因为其共线性,导致其效果不佳,此时放大尺度是一种通常的处理方法也就是增加粒度

趋势项消除

趋势项常常反映了外部调整或环境变化,不是工业对象本身的规律,需要滤除。另外很多分析算法需要信号是平稳的,至少不存在趋势。趋势项的消除可采用STL分解、小波分析等算法。下图a是原始数据,b是消除趋势后的时序

image-20241225214324974

http://www.lryc.cn/news/509820.html

相关文章:

  • C语言实现顺序表详解
  • 【ES6复习笔记】对象方法扩展(17)
  • 【视觉惯性SLAM:相机成像模型】
  • 学习笔记(C#基础书籍)-- C#基础篇
  • 操作系统(26)数据一致性控制
  • ubuntu24.04使用opencv4
  • 【项目构建】Gradle入门
  • Electron -- Electron应用主要核心(二)
  • 【前端开发】HTML+CSS+JavaScript前端三剑客的基础知识体系了解
  • git命令恢复/还原某个文件、删除远程仓库中的文件
  • 二十一、Ingress 进阶实践
  • ES学习Promise对象(九)
  • 寻找适合小户型的开源知识库open source knowledge base之路
  • Linux高级--2.6 网络面试问题
  • 在 CentOS 7 上安装 Node.js 20 并升级 GCC、make 和 glibc
  • 音视频入门基础:MPEG2-TS专题(20)——ES流简介
  • 五子棋小游戏设计(Matlab)
  • 基于Pycharm与数据库的新闻管理系统(3)MongoDB
  • WebRtc webrtc-streamer部署
  • CVPR-2024 | 具身导航模型大一统!NaviLLM:学习迈向具身导航的通用模型
  • CAN201 Introduction to Networking(计算机网络)Pt.2 传输层
  • git仓库多人协作新建分支 合并到主分支流程详解
  • Visual Studio 使用 GitHub Copilot 与 IntelliCode 辅助编码 【AI辅助开发系列】
  • 【时间之外】IT人求职和创业应知【74】-运维机器人
  • 高阶:基于Python paddleocr库 提取pdf 文档高亮显示的内容
  • STM32项目之环境空气质量检测系统软件设计
  • 重温设计模式--原型模式
  • 输变电资质分一级、二级,新办从二级开始,三级已取消
  • 浏览器http缓存问题
  • 结构化Prompt:让大模型更智能的秘诀