当前位置: 首页 > news >正文

DataFrame中按某字段分类并且取该分类随机数量的数据

最近有个需求,把某个df中的数据,按照特定字段分类,并且每个分类只取随机数量数据,这个随机数量需要有范围限制。写出来记录下。 

def randomCutData(self, df, startNum):grouped = df.groupby('classify_label')df_sampled = pd.DataFrame()for _, group in grouped:num_samples = len(group)num_random_samples = random.randint(min(startNum, num_samples),num_samples)sampled_group = group.sample(n=num_random_samples, random_state=42)df_sampled = pd.concat([df_sampled, sampled_group])return df_sampled.copy()self.randomCutData(df, 50).copy().reset_index(drop=True).to_csv('xxxxx.csv', index=False)

这里面的startNum是起始数量,如果该分类都没达到起始数量的话,就直接取该类的全部数据。

http://www.lryc.cn/news/108688.html

相关文章:

  • 【c++】rand()随机函数的应用(一)——rand()函数详解和实例
  • iOS——Block回调
  • html学习6(xhtml)
  • UML-活动图
  • 跨境电商怎么做?Live Market教你创业及做大生意
  • Linux 4.19 和Linux 5.10 的区别
  • 学习单片机的秘诀:实践与坚持
  • Hum Brain Mapp:用于功能连接体指纹识别和认知状态解码的高精度机器学习技术
  • Ajax图书管理业务
  • 对于爬虫代码的优化,多个方向
  • ffmpeg推流卡顿修复
  • Java02-迭代器,数据结构,List,Set ,TreeSet集合,Collections工具类
  • 离散 Hopfield 神经网络的分类与matlab实现
  • opencv 30 -图像平滑处理01-均值滤波 cv2.blur()
  • 中小企业的数字化营销应该如何着手?数字化营销到底要怎么做?
  • 实数信号的傅里叶级数研究(Matlab代码实现)
  • oracle数据库巡检脚本
  • 服务注册中心consul的服务健康监控及告警
  • 【算法第十四天7.28】二叉树的最大深度,二叉树的最小深度 ,完全二叉树的节点个数
  • 网络安全设备-等保一体机
  • Kafka的配置和使用
  • 【C++】unordered_map在Windows和Linux上的不同行为
  • Apipost三方消息通知,接口变更不用愁
  • C语言 用数组名作函数参数
  • 每日一题(980. 不同路径 III)-回溯
  • 【Python:json常用函数,用于加载和保存json文件】load(), loads(), dump(), dumps()
  • Flink State 和 Fault Tolerance详解
  • 小红书2023“家生活”趋势白皮书
  • 使用 LangChain 搭建基于 Amazon DynamoDB 的大语言模型应用
  • 210. 课程表 II Python