当前位置：首页 > news >正文

自然语言处理数据集集锦（持续更新ing...）

news 2025/8/26 13:39:40

诸神缄默不语-个人CSDN博文目录

最近更新时间：2023.4.26
最早更新时间：2023.4.25

文本摘要主题的数据集见我之前写的另一篇博文：文本摘要数据集的整理、总结及介绍（持续更新ing…）
智能司法主题的数据集我准备等项目结束后发布。
其他NLP数据集见下：

文章目录

1. 语料库
- 1.1 中文
2. QA数据集
- 2.1 英文
3. 对话系统
- 3.1 open-domain
- - 3.1.1 中文
4. 多模态
- 4.1 图文匹配
5. 复述
6. 自然语言推理NLI
- 6.1 集锦
- 6.2 英文
5. 其他集成性项目 / benchmark
- 5.1 中文
- 5.2 中文多模态
- 5.3 英文

1. 语料库

1.1 中文

CLUEbenchmark/CLUECorpus2020: Large-scale Pre-training Corpus for Chinese 100G 中文预训练语料
FudanNLPLAB/CBook-150K: 中文图书语料MD5链接
Index of /zhwiki/latest/
PCL-Platform.Intelligence/Chinese_WPLC: 中文长上下文词语预测（Chinese WPLC）数据集 - Chinese_WPLC - OpenI - 启智AI开源社区提供普惠算力！
诗歌和音韵：THUNLP-AIPoet/Datasets: Poetry-related datasets developed by THUAIPoet (Jiuge) group.

2. QA数据集

2.1 英文

QQP First Quora Dataset Release: Question Pairs - Data @ Quora - Quora

3. 对话系统

3.1 open-domain

3.1.1 中文

https://huggingface.co/datasets/fnlp/moss-002-sft-data
https://github.com/OpenLMLab/MOSS/tree/main/SFT_data/conversations/conversation_with_plugins
https://github.com/OpenLMLab/MOSS/tree/main/SFT_data/conversations/conversation_without_plugins
thu-coai/CDial-GPT: A Large-scale Chinese Short-Text Conversation Dataset and Chinese pre-training dialog models

4. 多模态

4.1 图文匹配

Flickr 30k From image descriptions to visual denotations: New similarity metrics for semantic inference over event descriptions

5. 复述

ParaNMT-50M: Pushing the Limits of Paraphrastic Sentence Embeddings with Millions of Machine Translations
1. Para-nmt-50m https://drive.google.com/file/d/1rbF3daJjCsa1-fu2GANeJd2FBXos1ugD/view?usp=sharing
2. Para-nmt-5m-processed https://drive.google.com/file/d/19NQ87gEFYu3zOIp_VNYQZgmnwRuSIyJd/view?usp=sharing

6. 自然语言推理NLI

6.1 集锦

赛尔笔记 | 自然语言推理数据集简述 - 知乎
GLUE部分基准数据集介绍：RTE、MRPC、SST-2、QNLI、MNLI、QQP_真·skysys的博客-CSDN博客

6.2 英文

SNLI https://nlp.stanford.edu/projects/snli/

5. 其他集成性项目 / benchmark

5.1 中文

CLUEbenchmark/CLUE: 中文语言理解测评基准 Chinese Language Understanding Evaluation Benchmark: datasets, baselines, pre-trained models, corpus and leaderboard
中文医疗信息处理评测基准CBLUE
千言（LUGE）| 全面的中文开源数据集合
funNLP
brightmart/nlp_chinese_corpus: 大规模中文自然语言处理语料 Large Scale Chinese Corpus for NLP

5.2 中文多模态

MUGE(Multimodal Understanding and Generation Evaluation)

5.3 英文

SemEval

http://www.lryc.cn/news/62890.html

相关文章：

93、Dehazing-NeRF: Neural Radiance Fields from Hazy Images

JAVA子类与继承

62 openEuler 22.03-LTS 搭建MySQL数据库服务器-管理数据库

【分布式搜索引擎ES01】

1.3 鞅、停时和域流-鞅（布朗运动与随机计算【习题解答】）

十、ElasticSearch 实战 - 源码运行

GPT-3 论文阅读笔记

方案解析丨数字人主播如何成为电商直播新标配

Python最全迭代器有哪些？

ESP32 网络计时器，包含自动保存

【ChatGPT】阿里版 ChatGPT 突然官宣意味着什么？

IPEmotion控制模块-PID循环应用

【元分析研究方法】学习笔记2.检索文献（含100种学术文献搜索清单链接）

题目：16版.自由落体

视频可视化搭建项目，通过简单拖拽方式快速生产一个短视频

network-1 4 layer internet model

计算机网络笔记（横向）

Redux的基本使用，从入门到入土

GDOUCTF2023-部分re复现

Java学习17（IO模型详解）

Vue-全局过滤器以及进阶操作

财报解读：涅槃重生之后，新东方还想再造一个“文旅甄选”？

华为OD机试 - 过滤组合字符串（Python）

maven简单使用

HTML学习笔记一

人工智能十大流行算法，通俗易懂讲明白

支持中英双语和多种插件的开源对话语言模型，160亿参数

SQL基础培训10-复杂查询原理

如何搭建信息存储中心？资源共享方案之搭建ftp个人服务器