使用fairseq训练模型

在开始之前，请先确保已成功安装fairseq。

pip install fairseq

训练数据下载

我们可以在这个链接下载开源的对联数据： https://github.com/wb14123/couplet-dataset/releases

下载后，我们可以分别得到train和test目录下的上联文件in.txt和下联文件out.txt。

为了便于后续重新划分数据，我们先使用如下命令合并train和test目录下的数据：

cat test/in.txt train/in.txt > in.txt
cat test/out.txt train/out.txt > out.txt

如果您打算使用自己的数据集，请确保对联的数据分为上联和下联两个文件，用换行符\n分隔每条上联或下联数据，每个字以空格隔开。

划分数据集

在开始训练之前，我们需要将收集的训练数据分为训练集、验证集、测试集三部分。

由于训练数据比较大，我们这里使用98:1:1的比例划分训练集、验证集、测试集，并将上联文件分别命名为train.up、valid.up、test.up，下联文件命名为train.down、valid.down、test.down。

以下提供了两种划分数据集的方式供参考。

Python脚本划分数据集

该方法需要确保已安装sklearn，如未安装可以执行命令pip3 install -U scikit-learn安装。

首先，将以下脚本保存为split.py，并与对联数据in.txt和out.txt放置于同一目录下。

from sklearn.model_selection import train_test_split
import sys

x_file = sys.argv[1]
y_file = sys.argv[2]

with open(x_file,'r') as f:
    X = f.read().splitlines()

with open(y_file,'r') as f:
    y = f.read().splitlines()

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.02, random_state=1)

X_test, X_val, y_test, y_val = train_test_split(X_test, y_test, test_size=0.5, random_state=1)

def save(name,data):
    with open(name,'w') as f:
        for l in data:
            f.write(l+'\n')

save('./train.up',X_train)
save('./train.down',y_train)
save('./test.up',X_test)
save('./test.down',y_test)
save('./valid.up',X_val)
save('./valid.down',y_val)

然后，执行命令：

python split.py in.txt out.txt

脚本将使用98:1:1的比例划分训练集、验证集、测试集，自动生成对应的文件。

Bash脚本划分

该方法利用Linux系统中的wc和split命令按照行数手动划分数据集，与上一种方法相比，该方法没有打乱数据集后进行划分。

具体步骤如下：

执行以下命令统计数据集行数。
```
wc -l in.txt
```
得到以下输出：
```
774491 in.txt
```
由于数据集共计774491行，按照98：1：1的比例划分数据集，因此我们需要把数据分按759001、7745、7745行进行划分。
执行以下命令划分出上联的训练集。
```
split -l 759001 in.txt
```
完成后数据会被划分为xaa和xab两个文件。xaa包含了759001行数据，xab包含了剩余的数据。

执行以下命令将xaa重命名为train.up即可。
```
mv xaa train.up
```
执行以下命令继续划分上联的验证集和数据集。（如果出现overwrite error，可以重命名xab后重新执行）
```
split -l 7745 xab
```
划分完成后，将xaa命名为test.up，将xab命名为valid.up即可。命令如下:
```
mv xaa test.up
mv xab valid.up
```
重复上述过程划分下联。注意划分顺序必须与上述过程保持一致，否则，将导致上联与下联数据不匹配。

执行以下命令即可完成下联的划分。
```
split -l 759001 out.txt
mv xaa train.down
split -l 7745 xab
mv xaa test.down
mv xab valid.down
```

数据预处理

在训练模型之前，我们需要将数据预处理成模型可以读取的二进制文件，并生成字典文件。

开始前，我们先统一文件路径。

HOME_DIR=$(cd `dirname $0`; pwd)
RAW_DATA_DIR=${HOME_DIR}/fairseq-data
PREPROCESSED_DATA_DIR=${HOME_DIR}/data-bin/couplet
MODEL_SAVE_DIR=${HOME_DIR}/output/couplet

RAW_DATA_DIR为上述的所有训练数据的存放目录。上述步骤划分数据集后得到的所有文件均存放于此目录
PREPROCESSED_DATA_DIR是预处理文件的输出目录
MODEL_SAVE_DIR为训练模型结果的保存目录

接着执行以下脚本开始预处理数据。

fairseq-preprocess \
--source-lang up \
--target-lang down \
--trainpref ${RAW_DATA_DIR}/train \
--validpref ${RAW_DATA_DIR}/valid \
--testpref ${RAW_DATA_DIR}/test \
--destdir ${PREPROCESSED_DATA_DIR}

完成预处理后，生成的训练所需的二进制文件及上联和下联的字典文件都会保存在PREPROCESSED_DATA_DIR目录下。

模型训练

完成数据预处理后，执行以下脚本即可开始训练。

fairseq-train ${PREPROCESSED_DATA_DIR} \
--log-interval 100 \
--lr 0.25 \
--clip-norm 0.1 \
--dropout 0.2  \
--criterion label_smoothed_cross_entropy \
--save-dir ${MODEL_SAVE_DIR} \
-a lstm \
--max-tokens 4000 \
--max-epoch 100

其中，-a参数可以选择训练的模型，此处我们选择lstm进行训练。

更多的参数解释请参考fairseq文档。

训练完成后，模型文件会保存在MODEL_SAVE_DIR目录下。

模型推理

fairseq提供了两种模型推理的命令行工具，分别是fairseq-generate和fairseq-interactive。除此之外，我们还可以使用Python加载模型并完成推理。

fairseq-generate

fairseq-generate的输入是二进制文件，会自动读取测试集的数据完成推理。

具体命令如下：

fairseq-generate ${PREPROCESSED_DATA_DIR} --path ${MODEL_SAVE_DIR}/checkpoint_best.pt --source-lang up --target-lang down

fair-seq-interactive

fairseq-interactive提供了交互式命令行的方式推理，加载模型后，用户输入上联，模型将实时输出下联。

具体命令如下：

fairseq-interactive ${PREPROCESSED_DATA_DIR} --path ${MODEL_SAVE_DIR}/checkpoint_best.pt --source-lang up --target-lang down

更多参数请参考fairseq文档。

使用Python加载模型

为了搭建后端服务，我们可以使用Python加载模型，并完成推理。

下面以加载LSTM为例。

引入模型

from fairseq.models.lstm import LSTMModel

读入模型文件

我们将模型生成的checkpoint文件拷贝到./checkpoints目录下，将预处理阶段生成的两份字典文件（dict.up.txt和dict.down.txt）拷贝到./checkpoints/dict目录下。按如下代码即可读入文件：
```
model = LSTMModel.from_pretrained('./checkpoints',\
checkpoint_file='checkpoint_best.pt',\
data_name_or_path="./dict")
```
第一个参数为checkpoint文件所在目录，checkpoint_file为需要读入的checkpoint的文件名，data_name_or_path为字典文件所在的目录。需要注意的是，字典文件目录将以第一个参数为根目录，若路径有误会出现报错信息：AttributeError: 'NoneType' object has no attribute 'split'。

推理

此处需要注意输入的文字之间需用空格隔开。

upper = '海内存知己'
down = model.translate(' '.join(list(upper)))
print(down) # 天 涯 若 比 邻

搭建Flask Web应用

安装flask
```
pip3 install flask
```

搭建服务

这一步我们将使用Python加载模型后，利用flask开启web服务。

from flask import Flask
from flask import request
from fairseq.models.lstm import LSTMModel # 引入模型

model = LSTMModel.from_pretrained('./checkpoints',\
    checkpoint_file='checkpoint_best.pt',\
    data_name_or_path="./dict") # 读入模型

app = Flask(__name__)

@app.route('/',methods=['GET'])
def get_couplet_down():
    couplet_up = request.args.get('upper','')

    couplet_down = model.translate(' '.join(list(couplet_up))) # 模型推理

    couplet_down = couplet_down.replace(' ','')

    return couplet_up + "," + couplet_down

启动服务

在测试环境中，我们使用flask自带的web服务即可（注：生产环境应使用uwsgi+nginx部署，有兴趣的同学可以自行查阅资料）。

使用以下两条命令：

在Ubuntu下，
```
export FLASK_APP=app.py
python -m flask run
```
在Windows下，
```
set FLASK_APP=app.py
python -m flask run
```
此时，服务就启动啦。

我们仅需向后端 http://127.0.0.1:5000/ 发起get请求，并带上上联参数upper，即可返回生成的对联到前端。

请求示例: http://127.0.0.1:5000/?upper=海内存知己

返回结果: 海内存知己，天涯若比邻

模型对比

除了LSTM外，我们还使用了fairseq中内置的几组模型进行训练对比，包括CNN、transformer。具体可用模型可以参考fairseq Models。

我们对模型训练了30个epoch。

速度和模型大小对比：

模型名称	推理时间 (100句)	训练时间	模型大小
LSTM	0.7s	2h48m	103.9M
CNN	2.9s	28h42m	679.1M
Transformer	1.1s	4h05m	207.9M

训练效果对比：

模型名称	Valid Loss	BLEU4	Perplexity
LSTM	3.99	12.14	17.00
CNN	4.39	15.69	19.39
Transformer	4.24	10.29	10.77

注：Transformer为2个Encoder和2个Decoder。

可见，LSTM的模型较小，训练和推理速度较快，loss也更小。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

fairseq.md

fairseq.md

使用fairseq训练模型

训练数据下载

划分数据集

Python脚本划分数据集

Bash脚本划分

数据预处理

模型训练

模型推理

fairseq-generate

fair-seq-interactive

使用Python加载模型

搭建Flask Web应用

模型对比

Files

fairseq.md

Latest commit

History

fairseq.md

File metadata and controls

使用fairseq训练模型

训练数据下载

划分数据集

Python脚本划分数据集

Bash脚本划分

数据预处理

模型训练

模型推理

fairseq-generate

fair-seq-interactive

使用Python加载模型

搭建Flask Web应用

模型对比