From 3f3498b5756b973fca6c2830e3ad4fde506f9f85 Mon Sep 17 00:00:00 2001 From: w5688414 Date: Tue, 25 Oct 2022 08:22:27 +0000 Subject: [PATCH] Fix README.md of Retrieval based classification --- .../hierarchical/retrieval_based/README.md | 21 ++++++++----------- .../retrieval_based/scripts/train.sh | 2 +- .../multi_class/retrieval_based/README.md | 1 - 3 files changed, 10 insertions(+), 14 deletions(-) diff --git a/applications/text_classification/hierarchical/retrieval_based/README.md b/applications/text_classification/hierarchical/retrieval_based/README.md index 7ca27425e314..8dbbfc0a40f3 100644 --- a/applications/text_classification/hierarchical/retrieval_based/README.md +++ b/applications/text_classification/hierarchical/retrieval_based/README.md @@ -99,14 +99,14 @@ pip install -r requirements.txt **训练、开发、测试数据集** -train.txt(训练数据集文件), dev.txt(开发数据集文件),test.txt(可选,测试数据集文件),文件中文本与标签类别名用tab符`'\t'`分隔开,标签中多个标签之间用`','`英文逗号分隔开。训练集指用于训练模型的数据;开发集指用于评测模型表现的数据,可以根据模型在开发集上的精度调整训练参数和模型;测试集用于测试模型表现,没有测试集时可以使用开发集代替。 +train.txt(训练数据集文件), dev.txt(开发数据集文件),test.txt(可选,测试数据集文件),文件中文本与标签类别名用tab符`'\t'`分隔开,层次标签之间用`'##'`号分隔开。训练集指用于训练模型的数据;开发集指用于评测模型表现的数据,可以根据模型在开发集上的精度调整训练参数和模型;测试集用于测试模型表现,没有测试集时可以使用开发集代替。 **注意文本中不能包含tab符`'\t'`**。 - train.txt/dev.txt/test.txt 文件格式: ```text -<文本>'\t'<标签>','<标签>','<标签> -<文本>'\t'<标签>','<标签> +<文本>'\t'<标签>'##'<标签>'##'<标签> +<文本>'\t'<标签>'##'<标签> ... ... ``` @@ -121,7 +121,7 @@ train.txt(训练数据集文件), dev.txt(开发数据集文件),test.txt( ``` **分类标签** -label.txt(层次分类标签文件)记录数据集中所有标签路径集合,在标签路径中,高层的标签指向底层标签,标签之间用`'##'`连接。 +label.txt(层次分类标签文件)记录数据集中所有标签路径集合,层次标签之间用`'##'`连接即可,标签的行先后顺序对结果没有影响。 - label.txt 文件格式: @@ -136,13 +136,11 @@ label.txt(层次分类标签文件)记录数据集中所有标签路径集合, ``` - label.txt 文件样例: ```text -体育/运动##游泳 -电脑/网络##程序设计 -健康##整形美容##胸部整形 -教育/科学##外语学习##日语 +教育/科学 +教育/科学##院校信息 +教育/科学##外语学习##英语考试 +教育/科学##理工学科##生物学 教育/科学##职业教育##会计资格考试 -健康##内科##呼吸内科 -生活##美食/烹饪##餐厅/酒店 ... ``` @@ -191,7 +189,7 @@ python -u -m paddle.distributed.launch --gpus "0,1" \ --recall_result_file "recall_result.txt" \ --train_set_file ${data_path}/train.txt \ --corpus_file ${data_path}/label.txt \ - --similar_text_pair ${data_path}/dev.txt \ + --similar_text_pair_file ${data_path}/dev.txt \ --evaluate True ``` @@ -215,7 +213,6 @@ python -u -m paddle.distributed.launch --gpus "0,1" \ * `recall_num`: 对 1 个文本召回的相似文本数量 * `similar_text_pair`: 由相似文本对构成的评估集 * `corpus_file`: 召回库数据 corpus_file -* `similar_text_pair`: 由相似文本对构成的评估集 也可以使用bash脚本: diff --git a/applications/text_classification/hierarchical/retrieval_based/scripts/train.sh b/applications/text_classification/hierarchical/retrieval_based/scripts/train.sh index c73b10bf4c77..ea88cfdd53a7 100644 --- a/applications/text_classification/hierarchical/retrieval_based/scripts/train.sh +++ b/applications/text_classification/hierarchical/retrieval_based/scripts/train.sh @@ -31,5 +31,5 @@ python -u -m paddle.distributed.launch --gpus "0,1" \ --recall_result_file "recall_result.txt" \ --train_set_file ${data_path}/train.txt \ --corpus_file ${data_path}/label.txt \ - --similar_text_pair ${data_path}/dev.txt \ + --similar_text_pair_file ${data_path}/dev.txt \ --evaluate True diff --git a/applications/text_classification/multi_class/retrieval_based/README.md b/applications/text_classification/multi_class/retrieval_based/README.md index 7670de95f3ff..10602a07b356 100644 --- a/applications/text_classification/multi_class/retrieval_based/README.md +++ b/applications/text_classification/multi_class/retrieval_based/README.md @@ -195,7 +195,6 @@ python -u -m paddle.distributed.launch --gpus "0,1" \ * `recall_num`: 对 1 个文本召回的相似文本数量 * `similar_text_pair`: 由相似文本对构成的评估集 * `corpus_file`: 召回库数据 corpus_file -* `similar_text_pair`: 由相似文本对构成的评估集 也可以使用bash脚本: