- Our light reimplement of bert for keras
- 更清晰、更轻量级的keras版bert
- 个人博客:https://kexue.fm/
这是笔者重新实现的keras版的bert,致力于用尽可能清爽的代码来实现结合bert和keras。
本项目的初衷是为了修改、定制上的方便,所以可能会频繁更新。
因此欢迎star,但不建议fork,因为你fork下来的版本可能很快就过期了。
目前已经实现:
- 加载bert/roberta/albert的预训练权重进行finetune;
- 实现语言模型、seq2seq所需要的attention mask;
- 丰富的examples;
- 从零预训练代码(支持TPU、多GPU,请看pretraining);
- 兼容keras、tf.keras
快速安装:
pip install git+https://www.github.com/bojone/bert4keras.git
使用例子请参考examples目录。
之前基于keras-bert给出的例子,仍适用于本项目,只需要将bert_model
的加载方式换成本项目的。
理论上兼容Python2和Python3,实验环境是Python 2.7、Tesorflow 1.13+以及Keras 2.3.1(已经在2.2.4、2.3.0、2.3.1、tf.keras下测试通过)。
当然,乐于贡献的朋友如果发现了某些bug的话,也欢迎指出修正甚至Pull Requests~
目前支持加载的权重:
- Google原版bert: https://github.com/google-research/bert
- 徐亮版roberta: https://github.com/brightmart/roberta_zh
- 哈工大版roberta: https://github.com/ymcui/Chinese-BERT-wwm
- Google原版albert[例子]: https://github.com/google-research/google-research/tree/master/albert
- 徐亮版albert: https://github.com/brightmart/albert_zh
- 华为的NEZHA: https://github.com/huawei-noah/Pretrained-Language-Model/tree/master/NEZHA
(注:徐亮版albert的开源时间早于Google版albert,这导致早期徐亮版albert的权重与Google版的不完全一致,换言之两者不能直接相互替换。为了减少代码冗余,bert4keras的0.2.4及后续版本均只支持加载Google版以徐亮版中带Google字眼的权重。如果要加载早期版本的权重,请用0.2.3版本。)
- 2019.12.27: 重构预训练代码,减少冗余;目前支持RoBERTa和GPT两种预训练方式。
- 2019.12.17: 适配华为的nezha权重,只需要在
build_bert_model
函数里加上model='nezha'
;此外原来albert的加载方式albert=True
改为model='albert'
。 - 2019.12.16: 通过跟keras 2.3+版本类似的思路给低版本引入层中层功能,从而恢复对低于2.3.0版本的keras的支持。
- 2019.12.14: 新增Conditional Layer Normalization及相关demo。
- 2019.12.09: 各example的data_generator规范化;修复application='lm'时的一个错误。
- 2019.12.05: 优化tokenizer的do_lower_case,同时微调各个example。
- 2019.11.23: 将train.py重命名为optimizers.py,更新大量优化器实现,全面兼容keras和tf.keras。
- 2019.11.19: 将utils.py重命名为tokenizer.py。
- 2019.11.19: 想来想去,最后还是决定把snippets放到bert4keras.snippets下面去好了。
- 2019.11.18: 优化预训练权重加载逻辑,增加保存模型权重至Bert的checkpoint格式方法。
- 2019.11.17:
分离一些与Bert本身不直接相关的常用代码片段到python_snippets,供其它项目共用。 - 2019.11.11: 添加NSP部分。
- 2019.11.05: 适配google版albert,不再支持非Google版albert_zh。
- 2019.11.05: 以RoBERTa为例子的预训练代码开发完毕,同时支持TPU/多GPU训练,详见roberta。欢迎在此基础上构建更多的预训练代码。
- 2019.11.01: 逐步增加预训练相关代码,详见pretraining。
- 2019.10.28: 支持使用基于sentencepiece的tokenizer。
- 2019.10.25: 引入原生tokenizer。
- 2019.10.22: 引入梯度累积优化器。
- 2019.10.21: 为了简化代码结构,决定放弃keras 2.3.0之前的版本的支持,目前只支持keras 2.3.0+以及tf.keras。
- 2019.10.20: 应网友要求,现支持直接用
model.save
保存模型结构,用load_model
加载整个模型(只需要在load_model
之前执行from bert4keras.layers import *
,不需要额外写custom_objects
)。 - 2019.10.09: 已兼容tf.keras,同时在tf 1.13和tf 2.0下的tf.keras测试通过,通过设置环境变量
TF_KERAS=1
来切换tf.keras。 - 2019.10.09: 已兼容Keras 2.3.x,但只是临时方案,后续可能直接移除掉2.3之前版本的支持。
- 2019.10.02: 适配albert,能成功加载albert_zh的权重,只需要在
load_pretrained_model
函数里加上albert=True
。
之前一直用CyberZHG大佬的keras-bert,如果纯粹只是为了在keras下对bert进行调用和fine tune来说,keras-bert已经足够能让人满意了。
然而,如果想要在加载官方预训练权重的基础上,对bert的内部结构进行修改,那么keras-bert就比较难满足我们的需求了,因为keras-bert为了代码的复用性,几乎将每个小模块都封装为了一个单独的库,比如keras-bert依赖于keras-transformer,而keras-transformer依赖于keras-multi-head,keras-multi-head依赖于keras-self-attention,这样一重重依赖下去,改起来就相当头疼了。
所以,我决定重新写一个keras版的bert,争取在几个文件内把它完整地实现出来,减少这些依赖性,并且保留可以加载官方预训练权重的特性。
感谢CyberZHG大佬实现的keras-bert,本实现有不少地方参考了keras-bert的源码,在此衷心感谢大佬的无私奉献。
QQ交流群:67729435,微信群请加机器人微信号spaces_ac_cn