Skip to content

PaddleNLP v2.2.0

Compare
Choose a tag to compare
@smallv0221 smallv0221 released this 10 Dec 17:51
· 4024 commits to develop since this release
9d9bd67

New features

预训练加速训推一体加速开发FasterERNIE

  • 新增支持高性能文本预处理算子FasterTokenizer,提供更快的文本预处理 #1220
  • 融合Fused TransformerEncoder API,极致优化Transformer性能 #1308
  • 新增to_static()接口,支持文本处理与模型计算整图导出,提供更易用的模型导出
  • 优化C++部署体验,显著降低C++开发成本
  • 提供文本分类、序列标注使用示例

面向生成任务的高性能加速组件FasterGeneration

  • FasterTransformer升级至V4.0版本
  • Transformer 加速版本在 sampling 以及 3 种 beam search 策略下新增 force decoding 策略支持
  • 生成API新增Diverse Beam Search策略

Taskflow升级

  • 新增名词短语标注及文本相似度计算任务 #1246 #1345
  • 句法分析任务增加已分词方式解析句法树能力 #1351
  • 中文分词、词性标注、命名实体识别任务支持用户自定义词典干预策略 #364 #1420
  • 知识挖掘任务支持自定义模型、自定义Term-Linking等进阶使用方式 #1329
  • 解语套件词类知识标注工具WordTag支持增量数据训练 #1329
  • 解语套件百科知识树TermTree使用体验完善,支持定制化使用 #1329

更多预训练模型

  • 新增表单多模态模型LayoutLM、LayoutLMv2、LayoutXLM模型
  • 新增基于unimo-text-1.0-lcsts-new中文摘要预训练模型
  • 新增mBART和mBART50模型,用于多语言翻译
  • 解语套件新增NPTag模型,可直接用于名词短语标注,标签类别2000+ #1246
  • 新增GPTModel预训练权重 gpt2-en、gpt2-large-en、gpt2-xl-en,可用于英文文本生成 #1302
  • 新增Mengzi中文预训练模型

自动模型与分词器加载

  • 新增AutoModel和AutoTokenizer模块,可更便捷加载不同网络结构预训练模型与分词器

社区贡献

  • 新增BertJapaneseTokenizer & 新增BertJapanese模型预训练权重 by @iverxin in #1115
  • 新增BlenderbotSmall & Blenderbot模型 #868 ,感谢 @kevinng77 的贡献
  • 新增SqueezeBERT模型 #937 ,感谢 @renmada 的贡献
  • 新增CTRL模型 #921 ,感谢 @JunnYu 的贡献
  • 新增T5模型 #916 ,感谢 @JunnYu 的贡献
  • 新增Reformer模型 #870 ,感谢 @JunnYu 的贡献
  • 新增MobileBert模型 #1160 ,感谢 @nosaydomore 的贡献
  • 新增ChineseBert模型 #1100 ,感谢 @27182812 的贡献
  • 新增End-to-End Memory Network模型 #1046,感谢 @yulangz 的贡献
  • 完善Bert模型下游任务代码 & 新增Bert预训练权重 by @JunnYu in #1085
  • 完善BigBird模型下游任务代码 by @iverxin in #1114
  • 完善Electra模型下游任务代码 & 新增Electra预训练权重 by @JunnYu in #1086
  • 完善Roberta模型下游任务代码 & 新增Roberta预训练权重 by @nosaydomore in #1133
  • 完善GPT模型下游任务代码 & 新增GPT预训练权重 by @JunnYu in #1088
  • 完善XLNet模型下游任务代码 & 新增DistilBert预训练权重by @renmada in

Misc

  • 新增文本分类数据集XNLI #1336
  • GPT-3模型预训练,支持静态图Pure FP16训练 #1353
  • 命名实体识别,增加了peoples_daily_ner数据集支持,同时支持使用ERNIE模型 #1361
  • 优化ViterbiDecoder解码性能,在GPU设备上可提升10倍 #1291

Bugfix

  • 修复下载进度条单位不正确的问题
  • 修复GPT模型导出后,预测报错问题 #1303
  • 修复文本纠错模型指标统计Bug #1255 #1265 #1273
  • 修复generate API接口的get_logits_processor参数缺失 @JunnYu in #1399
  • 修复BERT模型对2D attention mask的支持 @JunnYu in #1226