learning-at-home · Vectorrent · Jun 13, 2024 · Jul 13, 2024 · Jul 13, 2024 · Oct 19, 2024
diff --git a/benchmarks/benchmark_optimizer.py b/benchmarks/benchmark_optimizer.py
@@ -8,6 +8,7 @@
 
 import torch
 import torchvision
+from packaging import version
 from torch import nn as nn
 from torch.nn import functional as F
 from torch.utils.data import Dataset
@@ -16,6 +17,13 @@
 from hivemind.optim.optimizer import Optimizer
 from hivemind.utils.crypto import RSAPrivateKey
 
+torch_version = torch.__version__.split("+")[0]
+
+if version.parse(torch_version) >= version.parse("2.3.0"):
+    from torch.amp import GradScaler, autocast
+else:
+    from torch.cuda.amp import GradScaler, autocast
+
 
 @dataclass(frozen=True)
 class TrainingArguments:
@@ -98,7 +106,7 @@ def run_trainer(batch_size: int, batch_time: float, client_mode: bool, verbose:
             grad_scaler = hivemind.GradScaler()
         else:
             # check that hivemind.Optimizer supports regular PyTorch grad scaler as well
-            grad_scaler = torch.cuda.amp.GradScaler(enabled=args.use_amp)
+            grad_scaler = GradScaler(enabled=args.use_amp)
 
         prev_time = time.perf_counter()
 
@@ -107,7 +115,7 @@ def run_trainer(batch_size: int, batch_time: float, client_mode: bool, verbose:
 
             batch = torch.randint(0, len(X_train), (batch_size,))
 
-            with torch.cuda.amp.autocast() if args.use_amp else nullcontext():
+            with autocast() if args.use_amp else nullcontext():
                 loss = F.cross_entropy(model(X_train[batch].to(args.device)), y_train[batch].to(args.device))
                 grad_scaler.scale(loss).backward()