triton-lang · eaplatanios · Jul 30, 2024 · Aug 1, 2024 · Aug 1, 2024 · ThomasRaoux
@@ -3,6 +3,7 @@
 
 #include <memory>
 #include <optional>
+#include <string>
 
 namespace mlir {
 

@@ -21,8 +21,29 @@
 namespace mlir {
 namespace {
 
-using namespace triton;
-using namespace triton::gpu;
+// We only "import" the symbols that we need to avoid name conflicts.
+using triton::AdvanceOp;
+using triton::LinearLayout;
+using triton::MakeTensorPtrOp;
+using triton::gpu::getCTALayout;
+using triton::gpu::getCTAsPerCGA;
+using triton::gpu::getCTASplitNum;
+using triton::gpu::MmaEncodingTrait;
+using triton::gpu::getNumCTAs;
+using triton::gpu::getOrder;
+using triton::gpu::getShapePerCTA;
+using triton::gpu::getThreadsPerWarp;
+using triton::gpu::getThreadsPerWarpWithUniqueData;
+using triton::gpu::getUniqueContigPerThread;
+using triton::gpu::getWarpsPerCTA;
+using triton::gpu::getWarpsPerCTAWithUniqueData;
+using triton::gpu::toLinearLayout;
+using triton::gpu::AMDMfmaEncodingAttr;
+using triton::gpu::BlockedEncodingAttr;
+using triton::gpu::DotOperandEncodingAttr;
+using triton::gpu::NvidiaMmaEncodingAttr;
+using triton::gpu::SliceEncodingAttr;
+using triton::gpu::TritonGPUDialect;
 
 int getParentAxis(Attribute layout, int axis) {
   if (auto sliceEncoding = dyn_cast<SliceEncodingAttr>(layout)) {
@@ -514,7 +535,7 @@ bool supportMMA(triton::DotOp op, int version) {
     }
   }
   if (aElemTy.isF32() && bElemTy.isF32()) {
-    return op.getInputPrecision() == InputPrecision::TF32 && version >= 2;
+    return op.getInputPrecision() == triton::InputPrecision::TF32 && version >= 2;
   }
   return supportMMA(op.getA(), version) && supportMMA(op.getB(), version);
 }

@@ -21,7 +21,13 @@
 
 namespace mlir {
 
-using namespace triton;
+// We only "import" the symbols that we need to avoid name conflicts.
+using triton::AxisInfo;
+using triton::DialectInferLayoutInterface;
+using triton::JoinOp;
+using triton::ModuleAxisInfoAnalysis;
+using triton::PointerType;
+using triton::SplitOp;
 
 SmallVector<unsigned, 3> mmaVersionToInstrShape(int version,
                                                 const ArrayRef<int64_t> &shape,
@@ -443,7 +449,7 @@ std::optional<Attribute> inferSrcEncoding(Operation *op, Attribute encoding) {
       op->hasTrait<mlir::OpTrait::SameLoadStoreOperandsAndResultEncoding>() ||
       op->hasTrait<mlir::OpTrait::Elementwise>() ||
       isa<scf::WhileOp, scf::YieldOp, scf::ConditionOp,
-          nvidia_gpu::WarpGroupDotWaitOp>(op)) {
+          triton::nvidia_gpu::WarpGroupDotWaitOp>(op)) {
     return encoding;
   }
 
@@ -472,7 +478,7 @@ std::optional<Attribute> inferDstEncoding(Operation *op, Attribute encoding) {
       op->hasTrait<mlir::OpTrait::SameLoadStoreOperandsAndResultEncoding>() ||
       op->hasTrait<mlir::OpTrait::Elementwise>() ||
       isa<scf::WhileOp, scf::ForOp, scf::YieldOp, scf::ConditionOp,
-          nvidia_gpu::WarpGroupDotWaitOp>(op))
+          triton::nvidia_gpu::WarpGroupDotWaitOp>(op))
     return encoding;
   if (auto reduceOp = dyn_cast<triton::ReduceOp>(op))
     return inferDstEncoding(reduceOp, encoding);
@@ -824,7 +830,7 @@ Value linearize(OpBuilder &b, Location loc, ArrayRef<Value> multiDim,
 }
 
 bool isPureUnaryInlineAsm(Operation *op) {
-  auto inlineAsmOp = dyn_cast<ElementwiseInlineAsmOp>(op);
+  auto inlineAsmOp = dyn_cast<triton::ElementwiseInlineAsmOp>(op);
   if (!inlineAsmOp)
     return false;
   return op->getNumOperands() == 1 && op->getNumResults() == 1 &&

@@ -429,7 +429,12 @@ int32_t LinearLayout::getNumConsecutiveInOut() const {
       }
     }
   }
+
+#if defined(_MSC_VER)
+  int32_t trailingZeros = otherBits != 0 ? _tzcnt_u32(otherBits) : 31;
+#else
   int32_t trailingZeros = otherBits != 0 ? __builtin_ctz(otherBits) : 31;
+#endif
 
   return 1 << std::min(consec, trailingZeros);
 }