常用机器学习公开数据集大全
根据收集到的信息,以下是对数据挖掘常用公开数据集的分类整理,涵盖不同领域和任务类型,并附上获取方式和推荐理由:
一、经典入门数据集
- UCI机器学习库(https://archive.ics.uci.edu/ml/)
- 推荐数据集:Iris(鸢尾花分类)、Wine(葡萄酒分类)、Boston Housing(波士顿房价预测)
- 特点:涵盖分类、回归、聚类等任务,数据格式规范,适合初学者练习。
- Kaggle竞赛数据集(https://www.kaggle.com/datasets)
- 推荐数据集:Titanic(泰坦尼克号生存预测)、House Prices(房价预测)、Digit Recognizer(手写数字识别)
- 特点:结构化数据为主,附带详细描述和社区讨论,适合实战演练。
二、领域专用数据集
- 计算机视觉
- MNIST(手写数字识别):https://www.kaggle.com/datasets/oddrationale/mnist
- CIFAR-10/100(物体分类):CIFAR-10 and CIFAR-100 datasets
- COCO(通用物体检测):COCO - Common Objects in Context
- ImageNet(大规模图像分类):ImageNet
- 自然语言处理
- IMDB评论(情感分析):IMDB Dataset of 50K Movie Reviews | Kaggle
- Twitter情感分析:Sentiment140 dataset with 1.6 million tweets | Kaggle
- WikiText(语言模型):https://blog.einstein.ai/the-wikitext-long-term-dependency-language-modeling-dataset/
- 时间序列分析
- UCI EEG数据集(脑电信号分类):UCI Machine Learning Repository
- M4竞赛数据集(时间序列预测):https://github.com/Mcompetitions/M4-methods
三、近三年新增高质量数据集
- 医疗健康
- MIMIC-III(重症监护数据):MIMIC
- COVID-19开放研究数据集(文献分析):https://allenai.org/data/covid-19-open-research-dataset
- 地理空间与遥感
- AWS Landsat/Sentinel-2(卫星影像):https://registry.opendata.aws/satellite-imagery/
- SpaceNet(卫星影像与标注数据):https://spacenet.ai/
- 自动驾驶
- Waymo Open Dataset(自动驾驶数据):https://waymo.com/open/
- BDD100k(驾驶场景数据):Berkeley DeepDrive
四、特殊任务数据集
- 推荐系统
- Amazon产品评论:Amazon Fine Food Reviews | Kaggle
- MovieLens(电影推荐):MovieLens | GroupLens
- 异常检测
- KDD Cup 1999(网络入侵检测):https://www.kaggle.com/datasets/kddcup1999/kddcup1999-intrusion-detection
- 信用卡欺诈检测:Credit Card Fraud Detection | Kaggle
- 多模态数据
- CMU-MOSEI(情感分析,文本+音频+视频):https://github.com/CMU-Multicomp-Lab/multimodal_datasets
- Flickr30k(图像-文本配对):https://www.kaggle.com/datasets/hrsaikumar/flickr30k
五、获取建议
- 通用平台:优先从UCI、Kaggle、Google Dataset Search(https://datasetsearch.research.google.com/)等平台下载,数据格式规范且文档齐全。
- 领域专用:医疗数据推荐MIMIC-III,地理空间数据推荐AWS公共数据集,自然语言处理推荐Hugging Face Datasets(https://huggingface.co/datasets)。
- 版本控制:注意数据集的更新时间,优先选择近三年发布或维护的版本,以确保数据时效性。