We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
(此 ISSUE 为 PaddlePaddle Hackathon 第三期活动的任务 ISSUE,更多详见 【PaddlePaddle Hackathon 第三期】任务总览)
以下为飞桨黑客松第三期中,其他项目贡献任务合集:
任务标题:基于 PaddleNLP 语义索引实现 Gradient Cache 策略,实现超大 batch 语义索引模型训练
技术标签:python、语义索引
任务难度:进阶
详细描述:语义索引模型的效果受 batch_size 影响很大,一般 batch_size 越大模型效果越好,但是受限于 GPU 显存大小,batch_size 在普通硬件上往往无法开到很大;这篇 paper (Paper: https://arxiv.org/pdf/2101.06983.pdf) 提出的 Gradient Cache 算法可以有效扩展 batch_size , 在显存较小条件下也能实现大 batch 语义索引模型训练。
提交内容
技术要求
参考资料
The text was updated successfully, but these errors were encountered:
Ligoml
No branches or pull requests
(此 ISSUE 为 PaddlePaddle Hackathon 第三期活动的任务 ISSUE,更多详见 【PaddlePaddle Hackathon 第三期】任务总览)
以下为飞桨黑客松第三期中,其他项目贡献任务合集:
No.90:基于 PaddleNLP 语义索引实现 Gradient Cache 策略,实现超大 batch 语义索引模型训练
任务标题:基于 PaddleNLP 语义索引实现 Gradient Cache 策略,实现超大 batch 语义索引模型训练
技术标签:python、语义索引
任务难度:进阶
详细描述:语义索引模型的效果受 batch_size 影响很大,一般 batch_size 越大模型效果越好,但是受限于 GPU 显存大小,batch_size 在普通硬件上往往无法开到很大;这篇 paper (Paper: https://arxiv.org/pdf/2101.06983.pdf) 提出的 Gradient Cache 算法可以有效扩展 batch_size , 在显存较小条件下也能实现大 batch 语义索引模型训练。
提交内容
技术要求
参考资料
No.91:增加 Taichi 和 PaddlePaddle 高效结合的案例
答疑交流
The text was updated successfully, but these errors were encountered: