PaddlePaddle · luotao1 · Apr 25, 2024 · Apr 24, 2024
diff --git a/paddle/fluid/operators/collective/alltoall_op.cu.cc b/paddle/fluid/operators/collective/alltoall_op.cu.cc
@@ -114,15 +114,15 @@ class AllToAllOpCUDAKernel : public framework::OpKernel<T> {
       comm_ctx->GroupEnd();
       VLOG(3) << "new comm_context_manager has rid " << ring_id;
     } else {
-      PADDLE_ENFORCE_GPU_SUCCESS(platform::dynload::ncclGroupStart());
+      PADDLE_ENFORCE_GPU_SUCCESS(phi::dynload::ncclGroupStart());
       for (auto i = 0; i < nranks; ++i) {
-        PADDLE_ENFORCE_GPU_SUCCESS(platform::dynload::ncclSend(
+        PADDLE_ENFORCE_GPU_SUCCESS(phi::dynload::ncclSend(
             send_buf + offset, send_numel, dtype, i, comm->comm(), stream));
-        PADDLE_ENFORCE_GPU_SUCCESS(platform::dynload::ncclRecv(
+        PADDLE_ENFORCE_GPU_SUCCESS(phi::dynload::ncclRecv(
             recv_buf + offset, send_numel, dtype, i, comm->comm(), stream));
         offset += send_numel;
       }
-      PADDLE_ENFORCE_GPU_SUCCESS(platform::dynload::ncclGroupEnd());
+      PADDLE_ENFORCE_GPU_SUCCESS(phi::dynload::ncclGroupEnd());
       VLOG(3) << "old NCCLCommContext has rid " << ring_id;
     }
 #else

diff --git a/paddle/fluid/operators/collective/barrier_op.cu.cc b/paddle/fluid/operators/collective/barrier_op.cu.cc
@@ -71,13 +71,13 @@ class BarrierOpCUDAKernel : public framework::OpKernel<T> {
       // should ExecutionContext for calc stream.
       auto stream = ctx.cuda_device_context().stream();
       ncclRedOp_t nccl_red_type = ncclSum;
-      PADDLE_ENFORCE_GPU_SUCCESS(platform::dynload::ncclAllReduce(sendbuff,
-                                                                  recvbuff,
-                                                                  numel,
-                                                                  dtype,
-                                                                  nccl_red_type,
-                                                                  comm->comm(),
-                                                                  stream));
+      PADDLE_ENFORCE_GPU_SUCCESS(phi::dynload::ncclAllReduce(sendbuff,
+                                                             recvbuff,
+                                                             numel,
+                                                             dtype,
+                                                             nccl_red_type,
+                                                             comm->comm(),
+                                                             stream));
       platform::GpuStreamSync(stream);
       VLOG(3) << "old NCCLCommContext has rid " << rid;
     }

diff --git a/paddle/fluid/operators/collective/c_allgather_op.cu.cc b/paddle/fluid/operators/collective/c_allgather_op.cu.cc
@@ -103,12 +103,12 @@ class CAllGatherOpCUDAKernel : public framework::OpKernel<T> {
       comm_ctx->AllGather(out, *in, stream);
     } else {
       PADDLE_ENFORCE_GPU_SUCCESS(
-          platform::dynload::ncclAllGather(send_buff,
-                                           recv_buff,
-                                           send_numel,
-                                           static_cast<ncclDataType_t>(dtype),
-                                           comm->comm(),
-                                           stream));
+          phi::dynload::ncclAllGather(send_buff,
+                                      recv_buff,
+                                      send_numel,
+                                      static_cast<ncclDataType_t>(dtype),
+                                      comm->comm(),
+                                      stream));
     }
 
 #else

diff --git a/paddle/fluid/operators/collective/c_allreduce_op.h b/paddle/fluid/operators/collective/c_allreduce_op.h
@@ -427,13 +427,13 @@ class CAllReduceOpCUDAKernel : public framework::OpKernel<T> {
     if (comm_ctx) {
       comm_ctx->AllReduce(out, *in, nccl_red_type, stream);
     } else {
-      PADDLE_ENFORCE_GPU_SUCCESS(platform::dynload::ncclAllReduce(sendbuff,
-                                                                  recvbuff,
-                                                                  numel,
-                                                                  dtype,
-                                                                  nccl_red_type,
-                                                                  comm->comm(),
-                                                                  stream));
+      PADDLE_ENFORCE_GPU_SUCCESS(phi::dynload::ncclAllReduce(sendbuff,
+                                                             recvbuff,
+                                                             numel,
+                                                             dtype,
+                                                             nccl_red_type,
+                                                             comm->comm(),
+                                                             stream));
     }
 #else
     PADDLE_THROW(phi::errors::PreconditionNotMet(

diff --git a/paddle/fluid/operators/collective/c_broadcast_op.cu.cc b/paddle/fluid/operators/collective/c_broadcast_op.cu.cc
@@ -54,7 +54,7 @@ class CBroadcastOpCUDAKernel : public framework::OpKernel<T> {
           platform::ToNCCLDataType(framework::TransToProtoVarType(x->dtype()));
       auto comm = platform::NCCLCommContext::Instance().Get(rid, place);
       if (root == comm->rank()) {
-        PADDLE_ENFORCE_GPU_SUCCESS(platform::dynload::ncclBcast(
+        PADDLE_ENFORCE_GPU_SUCCESS(phi::dynload::ncclBcast(
             reinterpret_cast<void*>(const_cast<T*>(x->data<T>())),
             numel,
             dtype,
@@ -71,7 +71,7 @@ class CBroadcastOpCUDAKernel : public framework::OpKernel<T> {
               static_cast<phi::DenseTensor*>(out));
         }
       } else {
-        PADDLE_ENFORCE_GPU_SUCCESS(platform::dynload::ncclBcast(
+        PADDLE_ENFORCE_GPU_SUCCESS(phi::dynload::ncclBcast(
             out->data<T>(), numel, dtype, root, comm->comm(), stream));
         VLOG(3) << "rank " << comm->rank() << " invoke Bcast. received "
                 << common::product(out->dims());

diff --git a/paddle/fluid/operators/collective/c_concat_op.cu.cc b/paddle/fluid/operators/collective/c_concat_op.cu.cc
@@ -130,12 +130,12 @@ class CConcatOpCUDAKernel : public framework::OpKernel<T> {
         comm_ctx->AllGather(&temp_out, *x, stream);
       } else {
         PADDLE_ENFORCE_GPU_SUCCESS(
-            platform::dynload::ncclAllGather(send_buff,
-                                             recv_buff,
-                                             send_numel,
-                                             static_cast<ncclDataType_t>(dtype),
-                                             comm->comm(),
-                                             stream));
+            phi::dynload::ncclAllGather(send_buff,
+                                        recv_buff,
+                                        send_numel,
+                                        static_cast<ncclDataType_t>(dtype),
+                                        comm->comm(),
+                                        stream));
       }
     }
 

diff --git a/paddle/fluid/operators/collective/c_gen_nccl_id_op.cc b/paddle/fluid/operators/collective/c_gen_nccl_id_op.cc
@@ -30,7 +30,7 @@ namespace operators {
 #if defined(PADDLE_WITH_NCCL) || defined(PADDLE_WITH_RCCL)
 static void GenNCCLID(std::vector<ncclUniqueId>* nccl_ids) {
   for (auto& nccl_id : *nccl_ids) {
-    PADDLE_ENFORCE_GPU_SUCCESS(platform::dynload::ncclGetUniqueId(&nccl_id));
+    PADDLE_ENFORCE_GPU_SUCCESS(phi::dynload::ncclGetUniqueId(&nccl_id));
   }
 }
 

diff --git a/paddle/fluid/operators/collective/c_reduce_op.h b/paddle/fluid/operators/collective/c_reduce_op.h
@@ -321,14 +321,14 @@ class CReduceOpCUDAKernel : public framework::OpKernel<T> {
     if (comm_ctx) {
       comm_ctx->Reduce(out, *in, nccl_red_type, root, stream);
     } else {
-      PADDLE_ENFORCE_GPU_SUCCESS(platform::dynload::ncclReduce(sendbuff,
-                                                               recvbuff,
-                                                               numel,
-                                                               dtype,
-                                                               nccl_red_type,
-                                                               root,
-                                                               comm->comm(),
-                                                               stream));
+      PADDLE_ENFORCE_GPU_SUCCESS(phi::dynload::ncclReduce(sendbuff,
+                                                          recvbuff,
+                                                          numel,
+                                                          dtype,
+                                                          nccl_red_type,
+                                                          root,
+                                                          comm->comm(),
+                                                          stream));
     }
 #else
     PADDLE_ENFORCE_EQ(

diff --git a/paddle/fluid/operators/collective/c_reducescatter_op.cu.cc b/paddle/fluid/operators/collective/c_reducescatter_op.cu.cc
@@ -107,14 +107,14 @@ class CReduceScatterOpCUDAKernel : public framework::OpKernel<T> {
     if (comm_ctx) {
       comm_ctx->ReduceScatter(out, *in, ncclSum, stream);
     } else {
-      PADDLE_ENFORCE_GPU_SUCCESS(platform::dynload::ncclReduceScatter(
-          send_buff,
-          recv_buff,
-          recv_numel,
-          static_cast<ncclDataType_t>(dtype),
-          ncclSum,
-          comm->comm(),
-          stream));
+      PADDLE_ENFORCE_GPU_SUCCESS(
+          phi::dynload::ncclReduceScatter(send_buff,
+                                          recv_buff,
+                                          recv_numel,
+                                          static_cast<ncclDataType_t>(dtype),
+                                          ncclSum,
+                                          comm->comm(),
+                                          stream));
     }
 #else
     PADDLE_THROW(phi::errors::PreconditionNotMet(

diff --git a/paddle/fluid/operators/collective/c_scatter_op.cu.cc b/paddle/fluid/operators/collective/c_scatter_op.cu.cc
@@ -123,7 +123,7 @@ class CScatterOpCUDAKernel : public framework::OpKernel<T> {
       }
     } else {
       if (root_id == comm->rank()) {
-        PADDLE_ENFORCE_GPU_SUCCESS(platform::dynload::ncclBcast(
+        PADDLE_ENFORCE_GPU_SUCCESS(phi::dynload::ncclBcast(
             reinterpret_cast<void*>(const_cast<T*>(x->data<T>())),
             numel,
             dtype,
@@ -137,7 +137,7 @@ class CScatterOpCUDAKernel : public framework::OpKernel<T> {
             *platform::DeviceContextPool::Instance().Get(place),
             static_cast<phi::DenseTensor*>(&temp));
       } else {
-        PADDLE_ENFORCE_GPU_SUCCESS(platform::dynload::ncclBcast(
+        PADDLE_ENFORCE_GPU_SUCCESS(phi::dynload::ncclBcast(
             out_ptr, numel, dtype, root_id, comm->comm(), stream));
       }
     }

diff --git a/paddle/fluid/operators/collective/c_softmax_with_cross_entropy_op.cu b/paddle/fluid/operators/collective/c_softmax_with_cross_entropy_op.cu
@@ -212,7 +212,7 @@ struct CSoftmaxWithCrossEntropyFunctor<phi::GPUContext, T> {
     } else {
       void* logits_max_buff = logits_max.mutable_data<T>(place);
 
-      PADDLE_ENFORCE_GPU_SUCCESS(platform::dynload::ncclAllReduce(
+      PADDLE_ENFORCE_GPU_SUCCESS(phi::dynload::ncclAllReduce(
           logits_max_buff,
           logits_max_buff,
           logits_max.numel(),
@@ -276,7 +276,7 @@ struct CSoftmaxWithCrossEntropyFunctor<phi::GPUContext, T> {
       comm_ctx->AllReduce(&predicted_logits, predicted_logits, ncclSum, stream);
     } else {
       void* predict_logits_buff = predicted_logits.data();
-      PADDLE_ENFORCE_GPU_SUCCESS(platform::dynload::ncclAllReduce(
+      PADDLE_ENFORCE_GPU_SUCCESS(phi::dynload::ncclAllReduce(
           predict_logits_buff,
           predict_logits_buff,
           predicted_logits.numel(),
@@ -302,7 +302,7 @@ struct CSoftmaxWithCrossEntropyFunctor<phi::GPUContext, T> {
       comm_ctx->AllReduce(&sum_exp_logits, sum_exp_logits, ncclSum, stream);
     } else {
       void* sum_exp_logits_buff = sum_exp_logits.data();
-      PADDLE_ENFORCE_GPU_SUCCESS(platform::dynload::ncclAllReduce(
+      PADDLE_ENFORCE_GPU_SUCCESS(phi::dynload::ncclAllReduce(
           sum_exp_logits_buff,
           sum_exp_logits_buff,
           sum_exp_logits.numel(),

diff --git a/paddle/fluid/operators/collective/gen_nccl_id_op.cc b/paddle/fluid/operators/collective/gen_nccl_id_op.cc
@@ -37,7 +37,7 @@ namespace operators {
 #if defined(PADDLE_WITH_NCCL) || defined(PADDLE_WITH_RCCL)
 static void GenNCCLID(std::vector<ncclUniqueId>* nccl_ids) {
   for (auto& nccl_id : *nccl_ids) {
-    PADDLE_ENFORCE_GPU_SUCCESS(platform::dynload::ncclGetUniqueId(&nccl_id));
+    PADDLE_ENFORCE_GPU_SUCCESS(phi::dynload::ncclGetUniqueId(&nccl_id));
   }
 }
 

diff --git a/paddle/fluid/operators/collective/global_gather_op.cu.cc b/paddle/fluid/operators/collective/global_gather_op.cu.cc
@@ -165,30 +165,30 @@ struct GlobalGatherFunctor<phi::GPUContext, T> {
       auto send_buf = x->data<T>();
       auto recv_buf = out->data<T>();
       for (auto i = 0; i < n_expert; ++i) {
-        PADDLE_ENFORCE_GPU_SUCCESS(platform::dynload::ncclGroupStart());
+        PADDLE_ENFORCE_GPU_SUCCESS(phi::dynload::ncclGroupStart());
         for (auto j = 0; j < nranks; ++j) {
           int idx = i + j * n_expert;
           if (cpu_global_count_data[idx]) {
-            PADDLE_ENFORCE_GPU_SUCCESS(platform::dynload::ncclSend(
-                send_buf + send_ptr * in_feat,
-                cpu_global_count_data[idx] * in_feat,
-                dtype,
-                j,
-                comm->comm(),
-                stream));
+            PADDLE_ENFORCE_GPU_SUCCESS(
+                phi::dynload::ncclSend(send_buf + send_ptr * in_feat,
+                                       cpu_global_count_data[idx] * in_feat,
+                                       dtype,
+                                       j,
+                                       comm->comm(),
+                                       stream));
             send_ptr += cpu_global_count_data[idx];
           }
           if (cpu_local_count_data[idx]) {
-            PADDLE_ENFORCE_GPU_SUCCESS(platform::dynload::ncclRecv(
-                recv_buf + expert_ptr[idx] * in_feat,
-                cpu_local_count_data[idx] * in_feat,
-                dtype,
-                j,
-                comm->comm(),
-                stream));
+            PADDLE_ENFORCE_GPU_SUCCESS(
+                phi::dynload::ncclRecv(recv_buf + expert_ptr[idx] * in_feat,
+                                       cpu_local_count_data[idx] * in_feat,
+                                       dtype,
+                                       j,
+                                       comm->comm(),
+                                       stream));
           }
         }
-        PADDLE_ENFORCE_GPU_SUCCESS(platform::dynload::ncclGroupEnd());
+        PADDLE_ENFORCE_GPU_SUCCESS(phi::dynload::ncclGroupEnd());
       }
     }
 #else

diff --git a/paddle/fluid/operators/collective/global_scatter_op.cu.cc b/paddle/fluid/operators/collective/global_scatter_op.cu.cc
@@ -173,30 +173,30 @@ struct GlobalScatterFunctor<phi::GPUContext, T> {
       auto recv_buf = out->data<T>();
 
       for (auto i = 0; i < n_expert; ++i) {
-        PADDLE_ENFORCE_GPU_SUCCESS(platform::dynload::ncclGroupStart());
+        PADDLE_ENFORCE_GPU_SUCCESS(phi::dynload::ncclGroupStart());
         for (auto j = 0; j < nranks; ++j) {
           int idx = i + j * n_expert;
           if (cpu_local_count_data[idx]) {
-            PADDLE_ENFORCE_GPU_SUCCESS(platform::dynload::ncclSend(
-                send_buf + expert_ptr[idx] * in_feat,
-                cpu_local_count_data[idx] * in_feat,
-                dtype,
-                j,
-                comm->comm(),
-                stream));
+            PADDLE_ENFORCE_GPU_SUCCESS(
+                phi::dynload::ncclSend(send_buf + expert_ptr[idx] * in_feat,
+                                       cpu_local_count_data[idx] * in_feat,
+                                       dtype,
+                                       j,
+                                       comm->comm(),
+                                       stream));
           }
           if (cpu_global_count_data[idx]) {
-            PADDLE_ENFORCE_GPU_SUCCESS(platform::dynload::ncclRecv(
-                recv_buf + recv_ptr * in_feat,
-                cpu_global_count_data[idx] * in_feat,
-                dtype,
-                j,
-                comm->comm(),
-                stream));
+            PADDLE_ENFORCE_GPU_SUCCESS(
+                phi::dynload::ncclRecv(recv_buf + recv_ptr * in_feat,
+                                       cpu_global_count_data[idx] * in_feat,
+                                       dtype,
+                                       j,
+                                       comm->comm(),
+                                       stream));
             recv_ptr += cpu_global_count_data[idx];
           }
         }
-        PADDLE_ENFORCE_GPU_SUCCESS(platform::dynload::ncclGroupEnd());
+        PADDLE_ENFORCE_GPU_SUCCESS(phi::dynload::ncclGroupEnd());
       }
     }
 

diff --git a/paddle/fluid/operators/collective/partial_allgather_op.cu.cc b/paddle/fluid/operators/collective/partial_allgather_op.cu.cc
@@ -128,12 +128,12 @@ class PartialAllGatherOpCUDAKernel : public framework::OpKernel<T> {
         const T* send_buff = in->data<T>() + offset;
         T* recv_buff = out->data<T>();
         PADDLE_ENFORCE_GPU_SUCCESS(
-            platform::dynload::ncclAllGather(send_buff,
-                                             recv_buff,
-                                             send_numel,
-                                             static_cast<ncclDataType_t>(dtype),
-                                             comm->comm(),
-                                             stream));
+            phi::dynload::ncclAllGather(send_buff,
+                                        recv_buff,
+                                        send_numel,
+                                        static_cast<ncclDataType_t>(dtype),
+                                        comm->comm(),
+                                        stream));
       }
     }
 #else

diff --git a/paddle/fluid/operators/collective/partial_recv_op.cu.cc b/paddle/fluid/operators/collective/partial_recv_op.cu.cc
@@ -150,12 +150,12 @@ class PartialRecvOpCUDAKernel : public framework::OpKernel<T> {
         comm_ctx->Recv(&recv_buf, recv_numel, peer, stream);
       } else {
         PADDLE_ENFORCE_GPU_SUCCESS(
-            platform::dynload::ncclRecv(out->data<T>() + offset,
-                                        recv_numel,
-                                        dtype,
-                                        peer,
-                                        comm->comm(),
-                                        stream));
+            phi::dynload::ncclRecv(out->data<T>() + offset,
+                                   recv_numel,
+                                   dtype,
+                                   peer,
+                                   comm->comm(),
+                                   stream));
       }
       VLOG(3) << "rank " << rank << " recv " << recv_numel << " from offset["
               << offset << "] from " << peer;

diff --git a/paddle/fluid/operators/collective/partial_send_op.cu.cc b/paddle/fluid/operators/collective/partial_send_op.cu.cc
@@ -144,13 +144,12 @@ class PartialSendCUDAKernel : public framework::OpKernel<T> {
 
         comm_ctx->Send(send_buf, send_numel, peer, stream);
       } else {
-        PADDLE_ENFORCE_GPU_SUCCESS(
-            platform::dynload::ncclSend(x->data<T>() + offset,
-                                        send_numel,
-                                        dtype,
-                                        peer,
-                                        comm->comm(),
-                                        stream));
+        PADDLE_ENFORCE_GPU_SUCCESS(phi::dynload::ncclSend(x->data<T>() + offset,
+                                                          send_numel,
+                                                          dtype,
+                                                          peer,
+                                                          comm->comm(),
+                                                          stream));
       }
 
       VLOG(3) << "rank " << rank << " send " << send_numel << " from offset["