PaddleNLP提供了
数据集名称 | 简介 | 调用方法 |
---|---|---|
SQuAD | 斯坦福问答数据集,包括SQaAD1.1和SQaAD2.0 | paddlenlp.datasets.SQuAD |
DuReader-yesno | 千言数据集:阅读理解,判断答案极性 | paddlenlp.datasets.DuReaderYesNo |
DuReader-robust | 千言数据集:阅读理解,答案原文抽取 | paddlenlp.datasets.DuReaderRobust |
数据集名称 | 简介 | 调用方法 |
---|---|---|
CoLA | 单句分类任务,二分类,判断句子是否合法 | paddlenlp.datasets.GlueCoLA |
SST-2 | 单句分类任务,二分类,判断句子情感极性 | paddlenlp.datasets.GlueSST2 |
MRPC | 句对匹配任务,二分类,判断句子对是否是相同意思 | paddlenlp.datasets.GlueMRPC |
STSB | 计算句子对相似性,分数为1~5 | paddlenlp.datasets.GlueSTSB |
QQP | 判定句子对是否等效,等效、不等效两种情况,二分类任务 | paddlenlp.datasets.GlueQQP |
MNLI | 句子对,一个前提,一个是假设。前提和假设的关系有三种情况:蕴含(entailment),矛盾(contradiction),中立(neutral)。句子对三分类问题 | paddlenlp.datasets.GlueMNLI |
QNLI | 判断问题(question)和句子(sentence)是否蕴含,蕴含和不蕴含,二分类 | paddlenlp.datasets.GlueQNLI |
RTE | 判断句对是否蕴含,句子1和句子2是否互为蕴含,二分类任务 | paddlenlp.datasets.GlueRTE |
WNLI | 判断句子对是否相关,相关或不相关,二分类任务 | paddlenlp.datasets.GlueWNLI |
LCQMC | A Large-scale Chinese Question Matching Corpus 语义匹配数据集 | paddlenlp.datasets.LCQMC |
ChnSentiCorp | 中文评论情感分析语料 | paddlenlp.datasets.ChnSentiCorp |
IMDB | IMDB电影评论情感分析数据集 | paddle.text.datasets.Imdb |
Movielens | Movielens 1-M电影评级数据集 | paddle.text.datasets.Movielens |
数据集名称 | 简介 | 调用方法 |
---|---|---|
Conll05 | 语义角色标注数据集 | paddle.text.datasets.Conll05st |
MSRA_NER | MSRA 命名实体识别数据集 | paddlenlp.datasets.MSRA_NER |
Express_Ner | 快递单命名实体识别数据集 | express_ner |
数据集名称 | 简介 | 调用方法 |
---|---|---|
IWSLT15 | IWSLT'15 English-Vietnamese data 英语-越南语翻译数据集 | paddlenlp.datasets.IWSLT15 |
WMT14 | WMT14 EN-DE 英语-德语翻译数据集 | paddlenlp.datasets.WMT14ende |
数据集名称 | 简介 | 调用方法 |
---|---|---|
CSSE COVID-19 | 约翰·霍普金斯大学系统科学与工程中心新冠病例数据 | time_series |
UCIHousing | 波士顿房价预测数据集 | paddle.text.datasets.UCIHousing |
数据集名称 | 简介 | 调用方法 |
---|---|---|
yahoo | 雅虎英文语料库 | VAE |
PTB | Penn Treebank Dataset | paddlenlp.datasets.PTB |
1 Billon words | 1 Billion Word Language Model Benchmark R13 Output 基准语料库 | ELMo |