Skip to content

Latest commit

 

History

History
59 lines (46 loc) · 4.92 KB

datasets.md

File metadata and controls

59 lines (46 loc) · 4.92 KB

PaddleNLP Datasets API

PaddleNLP提供了

阅读理解

数据集名称 简介 调用方法
SQuAD 斯坦福问答数据集,包括SQaAD1.1和SQaAD2.0 paddlenlp.datasets.SQuAD
DuReader-yesno 千言数据集:阅读理解,判断答案极性 paddlenlp.datasets.DuReaderYesNo
DuReader-robust 千言数据集:阅读理解,答案原文抽取 paddlenlp.datasets.DuReaderRobust

文本分类

数据集名称 简介 调用方法
CoLA 单句分类任务,二分类,判断句子是否合法 paddlenlp.datasets.GlueCoLA
SST-2 单句分类任务,二分类,判断句子情感极性 paddlenlp.datasets.GlueSST2
MRPC 句对匹配任务,二分类,判断句子对是否是相同意思 paddlenlp.datasets.GlueMRPC
STSB 计算句子对相似性,分数为1~5 paddlenlp.datasets.GlueSTSB
QQP 判定句子对是否等效,等效、不等效两种情况,二分类任务 paddlenlp.datasets.GlueQQP
MNLI 句子对,一个前提,一个是假设。前提和假设的关系有三种情况:蕴含(entailment),矛盾(contradiction),中立(neutral)。句子对三分类问题 paddlenlp.datasets.GlueMNLI
QNLI 判断问题(question)和句子(sentence)是否蕴含,蕴含和不蕴含,二分类 paddlenlp.datasets.GlueQNLI
RTE 判断句对是否蕴含,句子1和句子2是否互为蕴含,二分类任务 paddlenlp.datasets.GlueRTE
WNLI 判断句子对是否相关,相关或不相关,二分类任务 paddlenlp.datasets.GlueWNLI
LCQMC A Large-scale Chinese Question Matching Corpus 语义匹配数据集 paddlenlp.datasets.LCQMC
ChnSentiCorp 中文评论情感分析语料 paddlenlp.datasets.ChnSentiCorp
IMDB IMDB电影评论情感分析数据集 paddle.text.datasets.Imdb
Movielens Movielens 1-M电影评级数据集 paddle.text.datasets.Movielens

序列标注

数据集名称 简介 调用方法
Conll05 语义角色标注数据集 paddle.text.datasets.Conll05st
MSRA_NER MSRA 命名实体识别数据集 paddlenlp.datasets.MSRA_NER
Express_Ner 快递单命名实体识别数据集 express_ner

机器翻译

数据集名称 简介 调用方法
IWSLT15 IWSLT'15 English-Vietnamese data 英语-越南语翻译数据集 paddlenlp.datasets.IWSLT15
WMT14 WMT14 EN-DE 英语-德语翻译数据集 paddlenlp.datasets.WMT14ende

时序预测

数据集名称 简介 调用方法
CSSE COVID-19 约翰·霍普金斯大学系统科学与工程中心新冠病例数据 time_series
UCIHousing 波士顿房价预测数据集 paddle.text.datasets.UCIHousing

语料库

数据集名称 简介 调用方法
yahoo 雅虎英文语料库 VAE
PTB Penn Treebank Dataset paddlenlp.datasets.PTB
1 Billon words 1 Billion Word Language Model Benchmark R13 Output 基准语料库 ELMo