当前位置：首页 > news >正文

DataFrame中按某字段分类并且取该分类随机数量的数据

news 2025/8/6 13:09:28

最近有个需求，把某个df中的数据，按照特定字段分类，并且每个分类只取随机数量数据，这个随机数量需要有范围限制。写出来记录下。

def randomCutData(self, df, startNum):grouped = df.groupby('classify_label')df_sampled = pd.DataFrame()for _, group in grouped:num_samples = len(group)num_random_samples = random.randint(min(startNum, num_samples),num_samples)sampled_group = group.sample(n=num_random_samples, random_state=42)df_sampled = pd.concat([df_sampled, sampled_group])return df_sampled.copy()self.randomCutData(df, 50).copy().reset_index(drop=True).to_csv('xxxxx.csv', index=False)

这里面的startNum是起始数量，如果该分类都没达到起始数量的话，就直接取该类的全部数据。

http://www.lryc.cn/news/108688.html

相关文章：

【c++】rand()随机函数的应用(一)——rand()函数详解和实例

iOS——Block回调

html学习6（xhtml）

跨境电商怎么做?Live Market教你创业及做大生意

Linux 4.19 和Linux 5.10 的区别

学习单片机的秘诀：实践与坚持

Hum Brain Mapp：用于功能连接体指纹识别和认知状态解码的高精度机器学习技术

Ajax图书管理业务

对于爬虫代码的优化，多个方向

ffmpeg推流卡顿修复

Java02-迭代器，数据结构,List,Set ,TreeSet集合,Collections工具类

离散 Hopfield 神经网络的分类与matlab实现

opencv 30 -图像平滑处理01-均值滤波 cv2.blur()

中小企业的数字化营销应该如何着手？数字化营销到底要怎么做？

实数信号的傅里叶级数研究（Matlab代码实现）

oracle数据库巡检脚本

服务注册中心consul的服务健康监控及告警

【算法第十四天7.28】二叉树的最大深度，二叉树的最小深度，完全二叉树的节点个数

网络安全设备-等保一体机

Kafka的配置和使用

【C++】unordered_map在Windows和Linux上的不同行为

Apipost三方消息通知，接口变更不用愁

C语言用数组名作函数参数

每日一题(980. 不同路径 III)-回溯

【Python：json常用函数，用于加载和保存json文件】load(), loads(), dump(), dumps()

Flink State 和 Fault Tolerance详解

小红书2023“家生活”趋势白皮书

使用 LangChain 搭建基于 Amazon DynamoDB 的大语言模型应用

210. 课程表 II Python