当前位置: 首页 > news >正文

038—pandas 重采样线性插补

前言

在数据处理时,由于采集数据量有限,或者采集数据粒度过小,经常需要对数据重采样。在本例中,我们将实现一个类型超分辨率的操作。

思路:

  • 首先将原始数据长度扩展为 3 倍,可以使用 loc[] 方法对索引扩展来生成,同时去掉尾部多余的数据。
  • 再将每行数据扩展出的数据挖去(设置为空),这个操作我们在案例 使用 explode() 后不复制其他列 中有过讲解。
  • 最后使用 DataFrame 的 interpolate() 插补方法会默认按线性逻辑进行填充。

使用步骤

读入数据

代码如下(示例):

import pandas as pd
import numpy as npdf = pd.DataFrame({'A': [10, 20, 50, 40, 80,],'B': [2, 8, 10, 6, 4, ],})df
# 这个数据共有 5 行,现在我们需要扩展它,在前相邻两个数据之间由一个扩展为 3 个。如 0 和 1 之间再增加两个数据,最终数据为 13 行。
# 新增加的数据行,按整体按线性插补的算法补充。

在这里插入图片描述

# 将索引重复三次:
df.index.repeat(3)

在这里插入图片描述

# 将得到的索引传入 loc[] 得到扩展数据:
df.loc[df.index.repeat(3)]

在这里插入图片描述

# 去掉尾部多余的数据:
(df.loc[df.index.repeat(3)].iloc[:-3+1] # 删除最后三个(可为变量),再保留1个,方便以后封装
)

在这里插入图片描述

# 再接我们之前案例的方法将扩展出来的数据设置为空:
def func(d: pd.DataFrame):d.iloc[1:, :] = Nonereturn d(df.loc[df.index.repeat(3)].iloc[:-3+1].groupby(level=0).apply(func)
)

在这里插入图片描述

# 最后再用 interpolate() 插补数据,整体代码如下:
def func(d: pd.DataFrame):d.iloc[1:, :] = Nonereturn d # 将第一行及其之后的行设置为None(df.loc[df.index.repeat(3)]  # 将df的每个索引值重复3次.iloc[:-3+1] # 取除了最后3行的所有行.groupby(level=0) # 按照索引值进行分组.apply(func) # 对每个分组应用函数func.interpolate() # 对缺失值进行插补
)

在这里插入图片描述

# 其他方法:
# 我们还可以尝试用分组方法合并进去空 DataFrame,然后再做插补。
none_df = pd.DataFrame([[None]*len(df.columns)], # 将空DataFrame与原DataFrame合并columns=df.columns,  dtype=float,)
none_df

在这里插入图片描述

(df.groupby(level=0, group_keys=False)  # 按照索引值进行分组 .apply(lambda x: pd.concat([x, *[none_df]*2])) # 将空DataFrame与原DataFrame合并.interpolate() # 对缺失值进行插补.iloc[:-2]  # 取除了最后2行的所有行 
)

在这里插入图片描述

总结

以上就是今天要讲的内容,本文仅仅简单介绍了pandas的使用,而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。

http://www.lryc.cn/news/325773.html

相关文章:

  • 智慧工地源码 数字孪生可视化大屏 工地管理平台系统源码 多端展示(PC端、手机端、平板端)
  • 深度学习Top10算法之深度神经网络DNN
  • 【智能算法】海马优化算法(SHO)原理及实现
  • AI大模型学习的伦理与社会影响
  • 记录些LangChain相关的知识
  • C语言例4-7:格式字符f的使用例子
  • [蓝桥杯 2019 省 A] 修改数组
  • Git基础(25):Cherry Pick合并指定commit id的提交
  • C语言结构体之位段
  • 2016年认证杯SPSSPRO杯数学建模D题(第二阶段)NBA是否有必要设立四分线全过程文档及程序
  • 登录校验解决方案JWT
  • Flutter开发进阶之瞧瞧BuildOwner
  • 大量免费工具使用(提供api接口)
  • 网络探测工具Nmap介绍
  • 20240319-2-机器学习基础面试题
  • 0202矩阵的运算-矩阵及其运算-线性代数
  • python中的__dict__
  • 数学分析复习:无穷乘积
  • 02 React 组件使用
  • 你就是上帝
  • Spring Cloud: openFegin使用
  • 流畅的 Python 第二版(GPT 重译)(二)
  • Flutter 旋转动画 线性变化的旋转动画
  • 【Web应用技术基础】HTML(5)——案例1:展示简历信息
  • ethers.js:wallet(创建钱包,导入助记词,导入私钥)
  • 面试笔记——Java集合篇
  • 在 IntelliJ IDEA 中使用 Terminal 执行 git log 命令后的退出方法
  • 架构整洁之道-读书总结
  • 蓝桥杯学习笔记(贪心)
  • 【无标题】如何使用 MuLogin 设置代理