当前位置: 首页 > news >正文

CVNLP 常用数据集语料库资源汇总



CV

  • ghcn
  • climate_sphere
  • ModelNet40
  • Shrec17 data + label
  • cosmo Spherical convergence maps dataset | Zenodo

Classification

  • Fashion-MNIST
  • ImageNet
  • CIFAR-10 + CIFAR-100
  • CelebA Dataset
  • MS-Celeb-1M
  • SVHN The Street View House Numbers (SVHN) Dataset
  • Open Images Dataset

NLP

Sentiment Analysis

  • Large Movie Review Dataset (IMDB)
  • Sentiment140 (STS)

Text Classification

  • Twenty Newsgroups

Dialogue Generation

  • Reddit-Thread Dataset
  • SimpleQuestions (v2)
  • Web data: Amazon reviews
  • The WikiText Long Term Dependency Language Modeling Dataset

其他

  • WordNet
  • Yelp

Audio

  • The Flickr Audio Caption Corpus

Multi-Modal

Classification

  • Multi-Modal Sarcasm Detection in Twitter with Hierarchical Fusion Model (2019)
  • MUStARD: Multimodal Sarcasm Detection Dataset (ACL, 2019)
  • CMU-Multimodal SDK
  • UR-FUNNY
  • CH-SIMS: A Chinese Multimodal Sentiment Analysis Dataset with Fine-grained Annotations of Modality (2020)
  • Iemocap: interactive emotional dyadic motion capture database (2008)
  • MM-IMDB

Search & Matching

  • IAPR TC-12
  • Nus-wide
  • BriVL (2021)

Image Captioning

  • Flickr8k Dataset
  • Flickr 30k Dataset
  • COCO Dataset (2015)
  • Conceptual Captions Dataset (2018)

VisualQA

  • VisualQA

Tri-Modal

  • How2: A Large-scale Dataset for Multimodal Language Understanding

其他

  • SVLD: The Social Vision and Language Dataset
  • https://dubbel.eecs.berkeley.edu/minio/login
  • AI-NLP-ML GROUP
  • https://dumps.wikimedia.org/backup-index-bydb.html
  • 汉语语料库

中文NLP数据集搜索(命名实体识别、文本分类、文本摘要)


参考资料

  1. 如何优雅地使用数据标注众包平台?——Amazon Mechanical Turk使用指南
  2. Datasets for Natural Language Processing
  3. nlp_chinese_corpus
  4. nlp-datasets
  5. 10大行业公开数据免费下载:电商行业
  6. 数据集大全:25个深度学习的开放数据集
  7. 深度学习开源数据集
http://www.lryc.cn/news/19305.html

相关文章:

  • lisp 表达式求值规则
  • Sophos Firewall OS (SFOS) 19.5 MR1 - 同步下一代防火墙
  • 为什么很多人转行IT考虑后端开发Java?
  • WebDAV之π-Disk派盘+Cloud Player
  • Python-datetime、time包常用功能汇总
  • Spring MVC 源码- HandlerAdapter 组件(四)之 HandlerMethodReturnValueHandler
  • 2023面试必备:web自动化测试POM设计模式详解
  • 【人工智能 AI】Robotic Process Automation (RPA) 机器人流程自动化 (RPA)
  • ubuntu/linux系统知识(37)systemd管理临时文件的方法systemd-tmpfiles
  • 云计算专业和计算机专业哪个好就业?
  • electron sha512 checksum mismatch
  • 使用Chemistry Development Kit (CDK) 来进行化学SMILES子结构匹配
  • CMake模块的使用和自定义模块
  • jvm调优参数配置
  • Leetcode.1567 乘积为正数的最长子数组长度
  • 部分库与使用方法总结(自用)
  • C++实现日期类
  • 想成为一名专业黑客,但不知道从哪里学起?我来教你。
  • VMware ESXi 7.0 U3k Unlocker OEM BIOS 集成网卡驱动和 NVMe 驱动 (集成驱动版)
  • 新的计算方法:预测益生菌在不同生长条件下的相互作用
  • python自学之《21天学通Python》(13)——第16章 数据库编程
  • [架构之路-118]-《软考-系统架构设计师》-软架构设计-11-可靠性相关设计
  • 电阻串联的作用
  • leetcode 1675. Minimize Deviation in Array(最小化数组偏差)
  • 特征向量中心度(eigenvector centrality)算法原理与源码解析
  • Vue3 中组件的使用(上)
  • spring-boot、spring-cloud、spring-cloud-alibaba版本对应
  • 【沐风老师】3DMAX一键楼梯脚本插件StairGenerator使用教程
  • OpenShift 简介
  • netty自定义封包实现