Fix NPTag preprocess bug #2199

linjieccc · 2022-05-17T12:43:16Z

PR types

Bug fixes

PR changes

APIs

Description

tokenizer非兼容升级导致NPTag解码错误：

from paddlenlp.transformers import AutoTokenizer

tokens = list('糖醋排骨')
tokenizer = AutoTokenizer.from_pretrained('ernie-1.0')
tokenizer(tokens, return_length=True, is_split_into_words=True, pad_to_max_seq_len=True, max_seq_len=64)

升级前结果返回的是padding前的序列长度：{..., 'seq_len': 6}
升级后结果返回的是padding前的序列长度：{..., 'seq_len': 64}

已修改为不做padding，返回原始序列长度的方式

fix nptag preprocess bug

b11eb3b

ZeyuChen approved these changes May 17, 2022

View reviewed changes

ZeyuChen added the bugfix label May 17, 2022

ZeyuChen assigned wawltor May 17, 2022

Merge branch 'develop' into fix_nptag

56d61c2

ZeyuChen merged commit 7ca4114 into PaddlePaddle:develop May 17, 2022

linjieccc deleted the fix_nptag branch June 1, 2022 10:06

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Fix NPTag preprocess bug #2199

Fix NPTag preprocess bug #2199

linjieccc commented May 17, 2022 •

edited

Loading

Fix NPTag preprocess bug #2199

Fix NPTag preprocess bug #2199

Conversation

linjieccc commented May 17, 2022 • edited Loading

PR types

PR changes

Description

linjieccc commented May 17, 2022 •

edited

Loading