当前位置: 首页 > news >正文

数据挖掘常用公开数据集

数据挖掘的公开数据集资源非常丰富,覆盖多个领域(金融、医疗、社交网络、图像、文本等)。以下是一些方便实用且广泛认可的公开数据集平台和经典数据集,适合快速验证模型和项目实践:


一、综合数据集平台

  1. Kaggle Datasets
    🔗 Find Open Datasets and Machine Learning Projects | Kaggle

    • 特点:社区活跃,数据集附带代码案例(Notebooks),适合初学者。

    • 实用数据集

      • Titanic(分类预测)

      • House Prices(回归预测)

      • COVID-19 Open Research Dataset(文本挖掘)

  2. UCI Machine Learning Repository
    🔗 UCI Machine Learning Repository

    • 特点:学术经典,覆盖分类、回归、聚类等任务。

    • 实用数据集

      • Iris(分类,150条花卉数据)

      • Wine(分类,葡萄酒成分)

      • Adult(二分类,收入预测)

  3. Google Dataset Search
    🔗 https://datasetsearch.research.google.com

    • 特点:搜索引擎式查找,聚合全网开放数据集。


二、领域专项数据集

1. 金融与经济
  • Yahoo Finance
    🔗 https://finance.yahoo.com

    • 股票、加密货币历史价格(支持API下载)。

  • World Bank Open Data
    🔗 https://data.worldbank.org

    • 全球国家经济、人口、环境指标。

2. 社交网络与图数据
  • Stanford Large Network Dataset Collection
    🔗 Stanford Large Network Dataset Collection

    • 实用数据集:

      • Facebook Social Circles(社交关系图)

      • Amazon Product Co-purchasing(商品关联图)

3. 文本与 NLP
  • IMDB Movie Reviews
    🔗 Kaggle链接

    • 5万条电影评论(情感分析经典)。

  • Common Crawl(海量网页文本)
    🔗 https://commoncrawl.org

4. 图像与视频
  • CIFAR-10/100
    🔗 官方下载

    • 6万张10类/100类小尺寸图像(物体识别)。

  • MNIST(手写数字识别)

    • 入门必用,集成在sklearn/TensorFlow中。

5. 时间序列
  • Air Passengers

    • 经典航空乘客数据(1949-1960),内置在Python库statsmodels中。

  • M4 Competition Data
    🔗 https://github.com/Mcompetitions/M4-methods

    • 10万条时间序列(预测竞赛数据)。


三、政府与组织开放数据

  1. 中国政府开放数据平台
    🔗 https://data.stats.gov.cn(国家统计局)

    • 经济、人口、区域统计数据。

  2. NASA Open Data
    🔗 https://data.nasa.gov

    • 卫星影像、气候数据。

  3. European Union Open Data Portal

        🔗 https://data.europa.eu

四、实用建议

  1. 选数据集看三点

    • 数据质量(是否清洗过)

    • 任务匹配度(分类/回归/聚类)

    • 数据规模(小样本练手 vs 大数据挑战)

  2. 快速调用方式

             Python库直接加载(示例):

from sklearn.datasets import load_iris, fetch_california_housing
iris = load_iris()  # 鸢尾花数据集
housing = fetch_california_housing()  # 加州房价数据集

附:5个最适合练手的经典数据集

数据集名称领域任务类型数据量获取方式
Iris生物多分类150sklearn.datasets.load_iris
Titanic用户行为二分类891Kaggle
MNIST图像多分类70ktorchvision.datasets.MNIST
Wine Quality食品科学回归/分类4.9kUCI 或 Kaggle
Spam SMSNLP文本分类5.5kKaggle链接

提示:优先选择预处理较完整的数据集(如Kaggle),避免时间浪费在数据清洗上。进阶场景可挑战非结构化数据(如爬虫获取的原始文本/图像)。

http://www.lryc.cn/news/619499.html

相关文章:

  • spring gateway配合nacos实现负载均衡
  • 【HTML】在页面中画一条0.5px的线
  • 【Part 4 未来趋势与技术展望】第一节|技术上的抉择:三维实时渲染与VR全景视频的共生
  • SQL语句优化
  • JsonReader:Spring AI 的 JSON 搬运大师
  • html img标签设置默认图片,防止图片路径不存在导致图片不展示影响页面美观
  • 2022 年全国硕士研究生招生考试真题笔记
  • Nestjs框架: 由权限模型设计到 Prisma 数据库迁移的演示
  • ZED 2i相机调试
  • 【SpringBoot】12 核心功能-配置文件详解:Properties与YAML配置文件
  • 肖臻《区块链技术与应用》第十一讲:比特币核心概念重温:一文读懂私钥、交易、挖矿与网络现状
  • 模型驱动的自动驾驶AI系统全生命周期安全保障
  • Easysearch 数据迁移之 INFINI Gateway
  • elasticsearch mapping和template解析(自动分词)!
  • LeetCode 刷题【40. 组合总和 II】
  • Linux系统编程Day13 -- 程序地址空间(进阶)
  • 边缘节点 DDoS 防护:CDN 节点的流量清洗与就近拦截方案
  • IPA1299至为芯替代TI ADS1299的脑机接口芯片
  • 机器翻译:学习率调度详解
  • 云蝠智能 VoiceAgent 在不良资产处理中的技术应用与实践
  • 2020/12 JLPT听力原文 问题一 5番
  • 磁悬浮轴承转子动平衡:零接触旋转下的“隐形杀手”深度解析与精准猎杀指南
  • Video_AVI_Packet(1)
  • 部署 Docker 应用详解(MySQL + Tomcat + Nginx + Redis)
  • 1688商品数据抓取:Python爬虫+动态页面解析
  • Visual Studio Code 跨平台快捷键指南:Windows 与 macOS 全面对比
  • VS2022+QT5.15.2+OCCT7.9.1的开发环境搭建流程
  • vscode远程服务器出现一直卡在正在打开远程和连接超时解决办法
  • LaTeX(排版系统)Texlive(环境)Vscode(编辑器)环境配置与安装
  • IV模型(工具变量模型)