当前位置: 首页 > news >正文

常用机器学习公开数据集大全

根据收集到的信息,以下是对数据挖掘常用公开数据集的分类整理,涵盖不同领域和任务类型,并附上获取方式和推荐理由:

一、经典入门数据集

  1. UCI机器学习库(https://archive.ics.uci.edu/ml/)
    • 推荐数据集:Iris(鸢尾花分类)、Wine(葡萄酒分类)、Boston Housing(波士顿房价预测)
    • 特点:涵盖分类、回归、聚类等任务,数据格式规范,适合初学者练习。
  2. Kaggle竞赛数据集(https://www.kaggle.com/datasets)
    • 推荐数据集:Titanic(泰坦尼克号生存预测)、House Prices(房价预测)、Digit Recognizer(手写数字识别)
    • 特点:结构化数据为主,附带详细描述和社区讨论,适合实战演练。

二、领域专用数据集

  1. 计算机视觉
    • MNIST(手写数字识别):https://www.kaggle.com/datasets/oddrationale/mnist
    • CIFAR-10/100(物体分类):CIFAR-10 and CIFAR-100 datasets
    • COCO(通用物体检测):COCO - Common Objects in Context
    • ImageNet(大规模图像分类):ImageNet
  2. 自然语言处理
    • IMDB评论(情感分析):IMDB Dataset of 50K Movie Reviews | Kaggle
    • Twitter情感分析:Sentiment140 dataset with 1.6 million tweets | Kaggle
    • WikiText(语言模型):https://blog.einstein.ai/the-wikitext-long-term-dependency-language-modeling-dataset/
  3. 时间序列分析
    • UCI EEG数据集(脑电信号分类):UCI Machine Learning Repository
    • M4竞赛数据集(时间序列预测):https://github.com/Mcompetitions/M4-methods

三、近三年新增高质量数据集

  1. 医疗健康
    • MIMIC-III(重症监护数据):MIMIC
    • COVID-19开放研究数据集(文献分析):https://allenai.org/data/covid-19-open-research-dataset
  2. 地理空间与遥感
    • AWS Landsat/Sentinel-2(卫星影像):https://registry.opendata.aws/satellite-imagery/
    • SpaceNet(卫星影像与标注数据):https://spacenet.ai/
  3. 自动驾驶
    • Waymo Open Dataset(自动驾驶数据):https://waymo.com/open/
    • BDD100k(驾驶场景数据):Berkeley DeepDrive

四、特殊任务数据集

  1. 推荐系统
    • Amazon产品评论:Amazon Fine Food Reviews | Kaggle
    • MovieLens(电影推荐):MovieLens | GroupLens
  2. 异常检测
    • KDD Cup 1999(网络入侵检测):https://www.kaggle.com/datasets/kddcup1999/kddcup1999-intrusion-detection
    • 信用卡欺诈检测:Credit Card Fraud Detection | Kaggle
  3. 多模态数据
    • CMU-MOSEI(情感分析,文本+音频+视频):https://github.com/CMU-Multicomp-Lab/multimodal_datasets
    • Flickr30k(图像-文本配对):https://www.kaggle.com/datasets/hrsaikumar/flickr30k

五、获取建议

  • 通用平台:优先从UCI、Kaggle、Google Dataset Search(https://datasetsearch.research.google.com/)等平台下载,数据格式规范且文档齐全。
  • 领域专用:医疗数据推荐MIMIC-III,地理空间数据推荐AWS公共数据集,自然语言处理推荐Hugging Face Datasets(https://huggingface.co/datasets)。
  • 版本控制:注意数据集的更新时间,优先选择近三年发布或维护的版本,以确保数据时效性。
http://www.lryc.cn/news/619979.html

相关文章:

  • [系统架构设计师]系统架构基础知识(一)
  • [系统架构设计师]信息安全技术基础知识(三)
  • DataOceanAI Dolphin(ffmpeg音频转化教程) 多语言(中国方言)语音识别系统部署与应用指南
  • 最新去水印小程序系统 前端+后端全套源码 多套模版 免授权
  • TF-IDF实战——《红楼梦》文本分析
  • 商品分类拖拽排序设计
  • 用 Qt C++ 从零打通“前端界面 → 后端接口”的数据交互
  • Redis的基础命令
  • 图像分类-动手学计算机视觉10
  • RabbitMQ:Windows版本安装部署
  • 高防CDN和高防IP的各自优势
  • Vue项目生产环境性能优化实战指南
  • 【Java虚拟机】JVM内存模型
  • uniapp跨端性能优化方案
  • 中科米堆CASAIM蓝光三维扫描仪用于焊接件3D尺寸检测
  • GDB命令笔记
  • 【React】use-immer vs 原生 Hook:谁更胜一筹?
  • Chrome 插件开发实战
  • AutoCAD 各版本与插件合集详解:Architecture、Plant 3D、Civil 3D 等
  • CNN卷积神经网络预测手写数字的Pytorch实现
  • games101 第三讲 Transformation(变换)
  • 人工到智能:塑料袋拆垛的自动化革命 —— 迁移科技的实践与创新
  • AI一键抠图软件--Digiarty.AIArty.Image.Matting
  • MySQL数据库知识体系总结 20250813
  • 数据库连接池如何进行空闲管理
  • TeamViewer 以数字化之力,赋能零售企业效率与客户体验双提升
  • “我店模式”:零售转型中的场景化突围
  • 【k8s】k8s pod调度失败原因列表、Pod 完整的状态类型列表
  • TDengine IDMP 基本功能(4. 实时分析)
  • 【金仓数据库产品体验官】_从实践看金仓数据库与 MySQL 的兼容性