From 3f3498b5756b973fca6c2830e3ad4fde506f9f85 Mon Sep 17 00:00:00 2001
From: w5688414 <w5688414@gmail.com>
Date: Tue, 25 Oct 2022 08:22:27 +0000
Subject: [PATCH] Fix README.md of Retrieval based classification

---
 .../hierarchical/retrieval_based/README.md    | 21 ++++++++-----------
 .../retrieval_based/scripts/train.sh          |  2 +-
 .../multi_class/retrieval_based/README.md     |  1 -
 3 files changed, 10 insertions(+), 14 deletions(-)

diff --git a/applications/text_classification/hierarchical/retrieval_based/README.md b/applications/text_classification/hierarchical/retrieval_based/README.md
index 7ca27425e314..8dbbfc0a40f3 100644
--- a/applications/text_classification/hierarchical/retrieval_based/README.md
+++ b/applications/text_classification/hierarchical/retrieval_based/README.md
@@ -99,14 +99,14 @@ pip install -r requirements.txt
 
 **训练、开发、测试数据集**
 
-train.txt(训练数据集文件)， dev.txt(开发数据集文件)，test.txt(可选，测试数据集文件)，文件中文本与标签类别名用tab符`'\t'`分隔开，标签中多个标签之间用`','`英文逗号分隔开。训练集指用于训练模型的数据；开发集指用于评测模型表现的数据，可以根据模型在开发集上的精度调整训练参数和模型；测试集用于测试模型表现，没有测试集时可以使用开发集代替。
+train.txt(训练数据集文件)， dev.txt(开发数据集文件)，test.txt(可选，测试数据集文件)，文件中文本与标签类别名用tab符`'\t'`分隔开，层次标签之间用`'##'`号分隔开。训练集指用于训练模型的数据；开发集指用于评测模型表现的数据，可以根据模型在开发集上的精度调整训练参数和模型；测试集用于测试模型表现，没有测试集时可以使用开发集代替。
 
 **注意文本中不能包含tab符`'\t'`**。
 
 - train.txt/dev.txt/test.txt 文件格式：
 ```text
-<文本>'\t'<标签>','<标签>','<标签>
-<文本>'\t'<标签>','<标签>
+<文本>'\t'<标签>'##'<标签>'##'<标签>
+<文本>'\t'<标签>'##'<标签>
 ...
 ...
 ```
@@ -121,7 +121,7 @@ train.txt(训练数据集文件)， dev.txt(开发数据集文件)，test.txt(
 ```
 **分类标签**
 
-label.txt(层次分类标签文件)记录数据集中所有标签路径集合，在标签路径中，高层的标签指向底层标签，标签之间用`'##'`连接。
+label.txt(层次分类标签文件)记录数据集中所有标签路径集合，层次标签之间用`'##'`连接即可，标签的行先后顺序对结果没有影响。
 
 - label.txt 文件格式：
 
@@ -136,13 +136,11 @@ label.txt(层次分类标签文件)记录数据集中所有标签路径集合，
 ```
 - label.txt  文件样例：
 ```text
-体育/运动##游泳
-电脑/网络##程序设计
-健康##整形美容##胸部整形
-教育/科学##外语学习##日语
+教育/科学
+教育/科学##院校信息
+教育/科学##外语学习##英语考试
+教育/科学##理工学科##生物学
 教育/科学##职业教育##会计资格考试
-健康##内科##呼吸内科
-生活##美食/烹饪##餐厅/酒店
 ...
 ```
 
@@ -191,7 +189,7 @@ python -u -m paddle.distributed.launch --gpus "0,1" \
     --recall_result_file "recall_result.txt" \
     --train_set_file ${data_path}/train.txt \
     --corpus_file ${data_path}/label.txt   \
-    --similar_text_pair ${data_path}/dev.txt \
+    --similar_text_pair_file ${data_path}/dev.txt \
     --evaluate True
 ```
 
@@ -215,7 +213,6 @@ python -u -m paddle.distributed.launch --gpus "0,1" \
 * `recall_num`: 对 1 个文本召回的相似文本数量
 * `similar_text_pair`: 由相似文本对构成的评估集
 * `corpus_file`: 召回库数据 corpus_file
-* `similar_text_pair`: 由相似文本对构成的评估集
 
 也可以使用bash脚本：
 
diff --git a/applications/text_classification/hierarchical/retrieval_based/scripts/train.sh b/applications/text_classification/hierarchical/retrieval_based/scripts/train.sh
index c73b10bf4c77..ea88cfdd53a7 100644
--- a/applications/text_classification/hierarchical/retrieval_based/scripts/train.sh
+++ b/applications/text_classification/hierarchical/retrieval_based/scripts/train.sh
@@ -31,5 +31,5 @@ python -u -m paddle.distributed.launch --gpus "0,1" \
     --recall_result_file "recall_result.txt" \
     --train_set_file ${data_path}/train.txt \
     --corpus_file ${data_path}/label.txt   \
-    --similar_text_pair ${data_path}/dev.txt \
+    --similar_text_pair_file ${data_path}/dev.txt \
     --evaluate True
diff --git a/applications/text_classification/multi_class/retrieval_based/README.md b/applications/text_classification/multi_class/retrieval_based/README.md
index 7670de95f3ff..10602a07b356 100644
--- a/applications/text_classification/multi_class/retrieval_based/README.md
+++ b/applications/text_classification/multi_class/retrieval_based/README.md
@@ -195,7 +195,6 @@ python -u -m paddle.distributed.launch --gpus "0,1" \
 * `recall_num`: 对 1 个文本召回的相似文本数量
 * `similar_text_pair`: 由相似文本对构成的评估集
 * `corpus_file`: 召回库数据 corpus_file
-* `similar_text_pair`: 由相似文本对构成的评估集
 
 也可以使用bash脚本：