当前位置: 首页 > news >正文

机器学习数据集整理:图像、表格

前言

如果你对这篇文章感兴趣,可以点击「【访客必读 - 指引页】一文囊括主页内所有高质量博客」,查看完整博客分类与对应链接。


表格数据

  • Sklearn 提供了 13 个表格型数据,且数据处理接口统一;
  • LIBSVM 提供了 131 个表格型数据,整体数据格式比较统一;
  • UCI 提供了 565 个表格型数据,但未提供统一的数据集处理接口;
    • 或许可使用该仓库的代码进行统一处理:ucimlrepo
  • OpenML 提供了 5393 个表格型数据,且数据可按照下述代码统一处理:
import openmlopenml.config.apikey = "your api key"dataset_id = 43466
dataset = openml.datasets.get_dataset(dataset_id, download_all_files=False)
X, y, _, _ = dataset.get_data(target=dataset.default_target_attribute)print(dataset.description)
print(X.shape, X.columns)
print(len(y), y.name)

图像数据

  • torchvision 提供了大量图像数据集,包括 37 个图像分类数据集;
  • huggingface 包含大量图像数据集,其中图像分类至少有 636 个,并提供了统一的数据集调用接口;
  • deeplake 提供了 1262 个图像数据集,有统一的数据集下载接口;
  • UCI 中包含 4 个较小的图像数据集。
http://www.lryc.cn/news/242126.html

相关文章:

  • Vue: Cannot find module @/xx/xx/xx.vue or its corresponding type declarations.
  • 怎样自动把网页截图发到微信群里
  • Netty实现websocket且实现url传参的两种方式(源码分析)
  • 深入理解C语言指针:基础概念、语法和实际应用
  • 百度云加速免费版下线,推荐几款目前仍旧免费的CDN
  • HarmonyOS(五)—— 认识页面和自定义组件生命周期
  • DevExpress WinForms TreeMap组件,用嵌套矩形可视化复杂分层数据
  • IO口速度影响了什么?
  • Verilog基础:时序调度中的竞争(一)
  • nginx 配置静态缓存全教程 (以及静态缓存文件没有生成)
  • 自己动手打包构建编译cri-dockerd
  • Self-Supervised Exploration via Disagreement论文笔记
  • 【网络奇幻之旅】那年我与区块链技术的邂逅
  • 1.5.1 git/svn日志格式规范
  • [autojs]ui线程中更新控件的值的问题
  • 机器视觉技术在现代汽车制造中的应用
  • 学习视频剪辑方法:AI智剪助力,批量处理短视频无忧
  • 振南技术干货集:制冷设备大型IoT监测项目研发纪实(3)
  • 1143. 最长公共子序列
  • EASYEXCEL(一)
  • 竞赛YOLOv7 目标检测网络解读
  • 第一类曲线积分@对弧长的曲线积分
  • 【TypeScript】常见数据结构与算法(二):链表
  • 原型模式 (Prototype Pattern)
  • 项目总结报告(案例模板)
  • C++ Qt QByteArray用法介绍
  • 蓝桥杯物联网竞赛_STM32L071_3_Oled显示
  • python-opencv轮廓检测(外轮廓检测和全部轮廓检测,计算轮廓面积和周长)
  • LeetCode [简单] 1. 两数之和
  • C++设计模式之工厂模式(下)——抽象工厂模式