PaddleNLP Datasets API

PaddleNLP提供了

阅读理解

数据集名称	简介	调用方法
SQuAD	斯坦福问答数据集，包括SQaAD1.1和SQaAD2.0	`paddlenlp.datasets.SQuAD`
DuReader-yesno	千言数据集：阅读理解，判断答案极性	`paddlenlp.datasets.DuReaderYesNo`
DuReader-robust	千言数据集：阅读理解，答案原文抽取	`paddlenlp.datasets.DuReaderRobust`

数据集名称	简介	调用方法
CoLA	单句分类任务，二分类，判断句子是否合法	`paddlenlp.datasets.GlueCoLA`
SST-2	单句分类任务，二分类，判断句子情感极性	`paddlenlp.datasets.GlueSST2`
MRPC	句对匹配任务，二分类，判断句子对是否是相同意思	`paddlenlp.datasets.GlueMRPC`
STSB	计算句子对相似性，分数为1~5	`paddlenlp.datasets.GlueSTSB`
QQP	判定句子对是否等效，等效、不等效两种情况，二分类任务	`paddlenlp.datasets.GlueQQP`
MNLI	句子对，一个前提，一个是假设。前提和假设的关系有三种情况：蕴含（entailment），矛盾（contradiction），中立（neutral）。句子对三分类问题	`paddlenlp.datasets.GlueMNLI`
QNLI	判断问题（question）和句子（sentence）是否蕴含，蕴含和不蕴含，二分类	`paddlenlp.datasets.GlueQNLI`
RTE	判断句对是否蕴含，句子1和句子2是否互为蕴含，二分类任务	`paddlenlp.datasets.GlueRTE`
WNLI	判断句子对是否相关，相关或不相关，二分类任务	`paddlenlp.datasets.GlueWNLI`
LCQMC	A Large-scale Chinese Question Matching Corpus 语义匹配数据集	`paddlenlp.datasets.LCQMC`
ChnSentiCorp	中文评论情感分析语料	`paddlenlp.datasets.ChnSentiCorp`
IMDB	IMDB电影评论情感分析数据集	`paddle.text.datasets.Imdb`
Movielens	Movielens 1-M电影评级数据集	`paddle.text.datasets.Movielens`

数据集名称	简介	调用方法
Conll05	语义角色标注数据集	`paddle.text.datasets.Conll05st`
MSRA_NER	MSRA 命名实体识别数据集	`paddlenlp.datasets.MSRA_NER`
Express_Ner	快递单命名实体识别数据集	express_ner

数据集名称	简介	调用方法
IWSLT15	IWSLT'15 English-Vietnamese data 英语-越南语翻译数据集	`paddlenlp.datasets.IWSLT15`
WMT14	WMT14 EN-DE 英语-德语翻译数据集	`paddlenlp.datasets.WMT14ende`

数据集名称	简介	调用方法
CSSE COVID-19	约翰·霍普金斯大学系统科学与工程中心新冠病例数据	time_series
UCIHousing	波士顿房价预测数据集	`paddle.text.datasets.UCIHousing`

数据集名称	简介	调用方法
yahoo	雅虎英文语料库	VAE
PTB	Penn Treebank Dataset	`paddlenlp.datasets.PTB`
1 Billon words	1 Billion Word Language Model Benchmark R13 Output 基准语料库	ELMo