关于复现模型训练 #359

Sean082408 · 2024-03-16T08:05:20Z

我想用复现您的模型训练过程，但是您的训练代码是分布式训练的，我只有一台电脑，一个cpu，一个gpu，在使用您的代码训练时，发生了以下错误，请问如何用您的代码进行训练，顺便问下您当初训练了多久？

hzwer · 2024-03-16T17:05:16Z

80个gpu小时
启动命令是 python3 -m torch.distributed.launch --nproc_per_node=1 train.py --world_size=1
可能还需要把 train.py 中的 worker 改小

Sean082408 · 2024-03-22T09:41:47Z

您好，我尝试在云上的linux和windows上运行train.py代码，会出现以下疑似网络的问题，请问怎么解决呢？
windows报错：

linux报错：

JasonChen925 · 2024-03-25T05:20:53Z

同问，单GPU在输入 python3 -m torch.distributed.launch --nproc_per_node=1 train.py --world_size=1时总会报错，我的设备是3070，ubuntu22.04,不知道有没有单GPU训练模型成功的前例

hzwer · 2024-03-25T06:26:54Z

可能得尝试把所有 distributed 相关内容去掉 🤦

Provide feedback