资源占用问题 #32

Ming-Di · 2023-09-18T02:40:15Z

请问在RLHF过程中，actor，refrence，critic和reward使用的都是7B吗，使用offload了吗，我用的4张80G卡，使用offload的情况下，加载完模型就占用60g了，batch size=4，显存就占满了

Ablustrund · 2023-09-20T06:54:30Z

您好，我们没有使用offload。加载完模型每个卡占用60G，尝试适配一下Zero3。应该需要修改少量的代码（50行以内）。

Ablustrund · 2023-09-20T06:56:09Z

我们在开源代码时去掉了Zero3的部分。经过验证代码是可以完美适配Zero3的。

Ming-Di · 2023-09-21T07:56:16Z

您好，我们没有使用offload。加载完模型每个卡占用60G，尝试适配一下Zero3。应该需要修改少量的代码（50行以内）。

非常感谢😁，请问您训练时是使用8卡 + zero3 + 不开offload 的设定吗，这样的话 batchsize能到多少呢，我想参考一下

Provide feedback