中文羊驼大模型二期 v3.1
本次更新推出长上下文版聊天/指令模型Chinese-Alpaca-2-7B-16K和Chinese-Alpaca-2-13B-16K,可直接应用于各类长文本下游任务。
🚀 Chinese-Alpaca-2-7B-16K、Chinese-Alpaca-2-13B-16K
- 与Chinese-LLaMA-2-16K类似,通过位置插值方法,在增量数据上进行训练,使模型获得长文本处理能力
- 长上下文版模型(Chinese-LLaMA-2-16K、Chinese-Alpaca-2-16K)支持16K,且均可通过NTK方法进一步扩展
- 在长文本评测LongBench(中文+代码任务)上,16K版模型相比标准版均有显著的性能提升,其中Chinese-Alpaca-2-7B-16K和Chinese-Alpaca-2-13B-16K分别获得28.3和29.5的平均分,在同类模型中具有一定优势
- Chinese-Alpaca-2-7B-16K、Chinese-Alpaca-2-13B-16K已加入到⚔️ 模型竞技场,欢迎体验评测
温馨提示
- transformers 4.31.0以上版本可直接加载16K模型;llama.cpp下则需要在推理时添加
--rope-scale 4
参数 - 使用长上下文版模型之前,务必参阅推理与部署表格,查看相关方法是否支持
- 建议:主要处理长文本任务时,使用16K版模型;其他场景建议使用标准版模型
其他更新
- 修复了训练脚本中gradient_checkpointing相关问题(#175) by @Qznan
- privateGPT:添加了对16K模型的支持(#195)
- LangChain, TGW, API:添加了对16K模型的支持(#196)
- FAQ:添加了问题9、10、11(#197)
- LongBench:添加了推理脚本(#198、#217)
For English release note, please refer to Discussion.