From 07b375876ee996758238141a46881f9c883770f5 Mon Sep 17 00:00:00 2001
From: Guangyun Han <guangyunhan@microsoft.com>
Date: Tue, 28 Nov 2023 05:29:12 +0000
Subject: [PATCH] Minor

---
 .../contrib_ops/rocm/math/gemm_float8.cu      | 25 ++++++++++++-------
 .../contrib_ops/rocm/math/gemm_float8_ck.cuh  |  8 +++---
 .../math/gemm_float8_ck_impl/add_instance.cu  | 18 +++++--------
 ...xdl_splitk_f16_f8_f16_mk_kn_mn_instance.cu |  6 ++---
 ...k_f16_f8_f16_mk_kn_mn_instance_original.cu | 12 +++------
 ...xdl_splitk_f16_f8_f16_mk_nk_mn_instance.cu |  6 ++---
 ...k_f8_f16_f16_mk_kn_mn_instance_original.cu |  6 ++---
 7 files changed, 36 insertions(+), 45 deletions(-)
diff --git a/onnxruntime/contrib_ops/rocm/math/gemm_float8.cu b/onnxruntime/contrib_ops/rocm/math/gemm_float8.cu
index fb9344f3fd780..d7d98dfa15756 100644
--- a/onnxruntime/contrib_ops/rocm/math/gemm_float8.cu
+++ b/onnxruntime/contrib_ops/rocm/math/gemm_float8.cu
@@ -135,13 +135,16 @@ Status GemmFloat8::ComputeFp8Fp16Fp16(OpKernelContext* ctx, const Tensor* A, con
   params.scale_c = 1.0f;         // NOTE: not implemented
   params.scale_c_dev = nullptr;  // NOTE: not implemented
 
-  // NOTE: transA is not implemented
-  if (transB_) {
-    ORT_NOT_IMPLEMENTED("transB is not implemented");
-    // return (*GetOp<Fp8T, MLFloat16, MLFloat16, BlasOp::NonTrans, BlasOp::Trans>())(&params);
-  } else {
+  if (!transA_ && !transB_) {
     return (*GetOp<Fp8T, MLFloat16, MLFloat16, BlasOp::NonTrans, BlasOp::NonTrans>())(&params);
+  } else if (transA_ && !transB_) {
+    ORT_NOT_IMPLEMENTED("transA is not implemented");
+  } else if (!transA_ && transB_) {
+    ORT_NOT_IMPLEMENTED("transB is not implemented");
+  } else if (transA_ && transB_) {
+    ORT_NOT_IMPLEMENTED("transA & transB is not implemented");
   }
+  return ORT_MAKE_STATUS(ONNXRUNTIME, FAIL, "Unreachable");
 }
 
 template <typename Fp8T>
@@ -181,12 +184,16 @@ Status GemmFloat8::ComputeFp16Fp8Fp16(OpKernelContext* ctx, const Tensor* A, con
   params.scale_c = 1.0f;         // NOTE: not implemented
   params.scale_c_dev = nullptr;  // NOTE: not implemented
 
-  // NOTE: transA is not implemented
-  if (transB_) {
-    return (*GetOp<MLFloat16, Fp8T, MLFloat16, BlasOp::NonTrans, BlasOp::Trans>())(&params);
-  } else {
+  if (!transA_ && !transB_) {
     return (*GetOp<MLFloat16, Fp8T, MLFloat16, BlasOp::NonTrans, BlasOp::NonTrans>())(&params);
+  } else if (transA_ && !transB_) {
+    ORT_NOT_IMPLEMENTED("transA is not implemented");
+  } else if (!transA_ && transB_) {
+    return (*GetOp<MLFloat16, Fp8T, MLFloat16, BlasOp::NonTrans, BlasOp::Trans>())(&params);
+  } else if (transA_ && transB_) {
+    ORT_NOT_IMPLEMENTED("transA & transB is not implemented");
   }
+  return ORT_MAKE_STATUS(ONNXRUNTIME, FAIL, "Unreachable");
 }
 #define GEMM_FLOAT8_CONSTRAINTS BuildKernelDefConstraints<MLFloat16, Float8E4M3FN, Float8E4M3FNUZ>()
 #else
diff --git a/onnxruntime/contrib_ops/rocm/math/gemm_float8_ck.cuh b/onnxruntime/contrib_ops/rocm/math/gemm_float8_ck.cuh
index 8536b5d0433a6..010962f77b27c 100644
--- a/onnxruntime/contrib_ops/rocm/math/gemm_float8_ck.cuh
+++ b/onnxruntime/contrib_ops/rocm/math/gemm_float8_ck.cuh
@@ -162,19 +162,19 @@ using Nop = ck::tensor_operation::element_wise::PassThrough;
 
 void add_device_gemm_xdl_splitk_f8_f16_f16_mk_kn_mn_instances(
     std::vector<std::unique_ptr<ck::tensor_operation::device::DeviceGemmSplitK<
-        Row, Row, Row, ck::f8_t, ck::half_t, ck::half_t, Scale<Float8E4M3FN>, Nop, Nop>>>& instances);
+        Row, Row, Row, F8, F16, F16, Scale<Float8E4M3FN>, Nop, Nop>>>& instances);
 
 void add_device_gemm_xdl_splitk_f8_f16_f16_mk_kn_mn_instances(
     std::vector<std::unique_ptr<ck::tensor_operation::device::DeviceGemmSplitK<
-        Row, Row, Row, ck::f8_t, ck::half_t, ck::half_t, Scale<Float8E4M3FNUZ>, Nop, Nop>>>& instances);
+        Row, Row, Row, F8, F16, F16, Scale<Float8E4M3FNUZ>, Nop, Nop>>>& instances);
 
 void add_device_gemm_xdl_splitk_f16_f8_f16_mk_kn_mn_instances(
     std::vector<std::unique_ptr<ck::tensor_operation::device::DeviceGemmSplitK<
-        Row, Row, Row, ck::half_t, ck::f8_t, ck::half_t, Nop, Scale<Float8E4M3FN>, Nop>>>& instances);
+        Row, Row, Row, F16, F8, F16, Nop, Scale<Float8E4M3FN>, Nop>>>& instances);
 
 void add_device_gemm_xdl_splitk_f16_f8_f16_mk_kn_mn_instances(
     std::vector<std::unique_ptr<ck::tensor_operation::device::DeviceGemmSplitK<
-        Row, Row, Row, ck::half_t, ck::f8_t, ck::half_t, Nop, Scale<Float8E4M3FNUZ>, Nop>>>& instances);
+        Row, Row, Row, F16, F8, F16, Nop, Scale<Float8E4M3FNUZ>, Nop>>>& instances);
 
 void add_device_gemm_xdl_splitk_f16_f8_f16_mk_nk_mn_instances(
     std::vector<std::unique_ptr<ck::tensor_operation::device::DeviceGemmSplitK<
diff --git a/onnxruntime/contrib_ops/rocm/math/gemm_float8_ck_impl/add_instance.cu b/onnxruntime/contrib_ops/rocm/math/gemm_float8_ck_impl/add_instance.cu
index 1730adadeb0e7..4c691dd18f2e9 100644
--- a/onnxruntime/contrib_ops/rocm/math/gemm_float8_ck_impl/add_instance.cu
+++ b/onnxruntime/contrib_ops/rocm/math/gemm_float8_ck_impl/add_instance.cu
@@ -48,16 +48,14 @@ void add_device_gemm_xdl_splitk_f16_f8_f16_mk_kn_mn_instances_ort(
 
 void add_device_gemm_xdl_splitk_f16_f8_f16_mk_kn_mn_instances(
     std::vector<std::unique_ptr<ck::tensor_operation::device::DeviceGemmSplitK<
-        Row, Row, Row, F16, F8, F16, PassThrough, Scale<Float8E4M3FN>, PassThrough>>>&
-        instances) {
+        Row, Row, Row, F16, F8, F16, PassThrough, Scale<Float8E4M3FN>, PassThrough>>>& instances) {
   internal::add_device_gemm_xdl_splitk_f16_f8_f16_mk_kn_mn_instances_ck(instances);
   internal::add_device_gemm_xdl_splitk_f16_f8_f16_mk_kn_mn_instances_ort(instances);
 }
 
 void add_device_gemm_xdl_splitk_f16_f8_f16_mk_kn_mn_instances(
     std::vector<std::unique_ptr<ck::tensor_operation::device::DeviceGemmSplitK<
-        Row, Row, Row, F16, F8, F16, PassThrough, Scale<Float8E4M3FNUZ>, PassThrough>>>&
-        instances) {
+        Row, Row, Row, F16, F8, F16, PassThrough, Scale<Float8E4M3FNUZ>, PassThrough>>>& instances) {
   internal::add_device_gemm_xdl_splitk_f16_f8_f16_mk_kn_mn_instances_ck(instances);
   internal::add_device_gemm_xdl_splitk_f16_f8_f16_mk_kn_mn_instances_ort(instances);
 }
@@ -99,26 +97,22 @@ void add_device_gemm_xdl_splitk_f8_f16_f16_mk_kn_mn_instances(
 namespace internal {
 void add_device_gemm_xdl_splitk_f16_f8_f16_mk_nk_mn_instances_ck(
     std::vector<std::unique_ptr<ck::tensor_operation::device::DeviceGemmSplitK<
-        Row, Col, Row, F16, F8, F16, PassThrough, Scale<Float8E4M3FN>, PassThrough>>>&
-        instances);
+        Row, Col, Row, F16, F8, F16, PassThrough, Scale<Float8E4M3FN>, PassThrough>>>& instances);
 
 void add_device_gemm_xdl_splitk_f16_f8_f16_mk_nk_mn_instances_ck(
     std::vector<std::unique_ptr<ck::tensor_operation::device::DeviceGemmSplitK<
-        Row, Col, Row, F16, F8, F16, PassThrough, Scale<Float8E4M3FNUZ>, PassThrough>>>&
-        instances);
+        Row, Col, Row, F16, F8, F16, PassThrough, Scale<Float8E4M3FNUZ>, PassThrough>>>& instances);
 }  // namespace internal
 
 void add_device_gemm_xdl_splitk_f16_f8_f16_mk_nk_mn_instances(
     std::vector<std::unique_ptr<ck::tensor_operation::device::DeviceGemmSplitK<
-        Row, Col, Row, F16, F8, F16, PassThrough, Scale<Float8E4M3FN>, PassThrough>>>&
-        instances) {
+        Row, Col, Row, F16, F8, F16, PassThrough, Scale<Float8E4M3FN>, PassThrough>>>& instances) {
   internal::add_device_gemm_xdl_splitk_f16_f8_f16_mk_nk_mn_instances_ck(instances);
 }
 
 void add_device_gemm_xdl_splitk_f16_f8_f16_mk_nk_mn_instances(
     std::vector<std::unique_ptr<ck::tensor_operation::device::DeviceGemmSplitK<
-        Row, Col, Row, F16, F8, F16, PassThrough, Scale<Float8E4M3FNUZ>, PassThrough>>>&
-        instances) {
+        Row, Col, Row, F16, F8, F16, PassThrough, Scale<Float8E4M3FNUZ>, PassThrough>>>& instances) {
   internal::add_device_gemm_xdl_splitk_f16_f8_f16_mk_nk_mn_instances_ck(instances);
 }
 
diff --git a/onnxruntime/contrib_ops/rocm/math/gemm_float8_ck_impl/device_gemm_xdl_splitk_f16_f8_f16_mk_kn_mn_instance.cu b/onnxruntime/contrib_ops/rocm/math/gemm_float8_ck_impl/device_gemm_xdl_splitk_f16_f8_f16_mk_kn_mn_instance.cu
index 2bb4f06bd67f4..49463e58886f8 100644
--- a/onnxruntime/contrib_ops/rocm/math/gemm_float8_ck_impl/device_gemm_xdl_splitk_f16_f8_f16_mk_kn_mn_instance.cu
+++ b/onnxruntime/contrib_ops/rocm/math/gemm_float8_ck_impl/device_gemm_xdl_splitk_f16_f8_f16_mk_kn_mn_instance.cu
@@ -72,8 +72,7 @@ using device_gemm_xdl_splitk_f16_f8_f16_mk_kn_mn_instances_ort = std::tuple<
 
 void add_device_gemm_xdl_splitk_f16_f8_f16_mk_kn_mn_instances_ort(
     std::vector<std::unique_ptr<ck::tensor_operation::device::DeviceGemmSplitK<
-        Row, Row, Row, F16, F8, F16, PassThrough, Scale<Float8E4M3FN>, PassThrough>>>&
-        instances) {
+        Row, Row, Row, F16, F8, F16, PassThrough, Scale<Float8E4M3FN>, PassThrough>>>& instances) {
   ck::tensor_operation::device::instance::add_device_operation_instances(
       instances, device_gemm_xdl_splitk_f16_f8_f16_mk_kn_mn_instances_ort<Float8E4M3FN>{});
   ck::tensor_operation::device::instance::add_device_operation_instances(
@@ -82,8 +81,7 @@ void add_device_gemm_xdl_splitk_f16_f8_f16_mk_kn_mn_instances_ort(
 
 void add_device_gemm_xdl_splitk_f16_f8_f16_mk_kn_mn_instances_ort(
     std::vector<std::unique_ptr<ck::tensor_operation::device::DeviceGemmSplitK<
-        Row, Row, Row, F16, F8, F16, PassThrough, Scale<Float8E4M3FNUZ>, PassThrough>>>&
-        instances) {
+        Row, Row, Row, F16, F8, F16, PassThrough, Scale<Float8E4M3FNUZ>, PassThrough>>>& instances) {
   ck::tensor_operation::device::instance::add_device_operation_instances(
       instances, device_gemm_xdl_splitk_f16_f8_f16_mk_kn_mn_instances_ort<Float8E4M3FNUZ>{});
   ck::tensor_operation::device::instance::add_device_operation_instances(
diff --git a/onnxruntime/contrib_ops/rocm/math/gemm_float8_ck_impl/device_gemm_xdl_splitk_f16_f8_f16_mk_kn_mn_instance_original.cu b/onnxruntime/contrib_ops/rocm/math/gemm_float8_ck_impl/device_gemm_xdl_splitk_f16_f8_f16_mk_kn_mn_instance_original.cu
index 5a1d98c51e8ff..236e5555051fc 100644
--- a/onnxruntime/contrib_ops/rocm/math/gemm_float8_ck_impl/device_gemm_xdl_splitk_f16_f8_f16_mk_kn_mn_instance_original.cu
+++ b/onnxruntime/contrib_ops/rocm/math/gemm_float8_ck_impl/device_gemm_xdl_splitk_f16_f8_f16_mk_kn_mn_instance_original.cu
@@ -59,20 +59,16 @@ using device_gemm_xdl_splitk_f16_f8_f16_mk_kn_mn_instances_ck = std::tuple<
 
 void add_device_gemm_xdl_splitk_f16_f8_f16_mk_kn_mn_instances_ck(
     std::vector<std::unique_ptr<ck::tensor_operation::device::DeviceGemmSplitK<
-        Row, Row, Row, F16, F8, F16, PassThrough, Scale<Float8E4M3FN>, PassThrough>>>&
-        instances) {
+        Row, Row, Row, F16, F8, F16, PassThrough, Scale<Float8E4M3FN>, PassThrough>>>& instances) {
   ck::tensor_operation::device::instance::add_device_operation_instances(
-      instances,
-      device_gemm_xdl_splitk_f16_f8_f16_mk_kn_mn_instances_ck<Float8E4M3FN>{});
+      instances, device_gemm_xdl_splitk_f16_f8_f16_mk_kn_mn_instances_ck<Float8E4M3FN>{});
 }
 
 void add_device_gemm_xdl_splitk_f16_f8_f16_mk_kn_mn_instances_ck(
     std::vector<std::unique_ptr<ck::tensor_operation::device::DeviceGemmSplitK<
-        Row, Row, Row, F16, F8, F16, PassThrough, Scale<Float8E4M3FNUZ>, PassThrough>>>&
-        instances) {
+        Row, Row, Row, F16, F8, F16, PassThrough, Scale<Float8E4M3FNUZ>, PassThrough>>>& instances) {
   ck::tensor_operation::device::instance::add_device_operation_instances(
-      instances,
-      device_gemm_xdl_splitk_f16_f8_f16_mk_kn_mn_instances_ck<Float8E4M3FNUZ>{});
+      instances, device_gemm_xdl_splitk_f16_f8_f16_mk_kn_mn_instances_ck<Float8E4M3FNUZ>{});
 }
 
 }  // namespace internal
diff --git a/onnxruntime/contrib_ops/rocm/math/gemm_float8_ck_impl/device_gemm_xdl_splitk_f16_f8_f16_mk_nk_mn_instance.cu b/onnxruntime/contrib_ops/rocm/math/gemm_float8_ck_impl/device_gemm_xdl_splitk_f16_f8_f16_mk_nk_mn_instance.cu
index 63e27c34f3c91..1a0d45df82a71 100644
--- a/onnxruntime/contrib_ops/rocm/math/gemm_float8_ck_impl/device_gemm_xdl_splitk_f16_f8_f16_mk_nk_mn_instance.cu
+++ b/onnxruntime/contrib_ops/rocm/math/gemm_float8_ck_impl/device_gemm_xdl_splitk_f16_f8_f16_mk_nk_mn_instance.cu
@@ -69,8 +69,7 @@ using device_gemm_xdl_splitk_f16_f8_f16_mk_nk_mn_instances = std::tuple<
 
 void add_device_gemm_xdl_splitk_f16_f8_f16_mk_nk_mn_instances_ck(
     std::vector<std::unique_ptr<ck::tensor_operation::device::DeviceGemmSplitK<
-        Row, Col, Row, F16, F8, F16, PassThrough, Scale<Float8E4M3FN>, PassThrough>>>&
-        instances) {
+        Row, Col, Row, F16, F8, F16, PassThrough, Scale<Float8E4M3FN>, PassThrough>>>& instances) {
   ck::tensor_operation::device::instance::add_device_operation_instances(
       instances, device_gemm_xdl_splitk_f16_f8_f16_mk_nk_mn_instances<Float8E4M3FN>{});
   ck::tensor_operation::device::instance::add_device_operation_instances(
@@ -79,8 +78,7 @@ void add_device_gemm_xdl_splitk_f16_f8_f16_mk_nk_mn_instances_ck(
 
 void add_device_gemm_xdl_splitk_f16_f8_f16_mk_nk_mn_instances_ck(
     std::vector<std::unique_ptr<ck::tensor_operation::device::DeviceGemmSplitK<
-        Row, Col, Row, F16, F8, F16, PassThrough, Scale<Float8E4M3FNUZ>, PassThrough>>>&
-        instances) {
+        Row, Col, Row, F16, F8, F16, PassThrough, Scale<Float8E4M3FNUZ>, PassThrough>>>& instances) {
   ck::tensor_operation::device::instance::add_device_operation_instances(
       instances, device_gemm_xdl_splitk_f16_f8_f16_mk_nk_mn_instances<Float8E4M3FNUZ>{});
   ck::tensor_operation::device::instance::add_device_operation_instances(
diff --git a/onnxruntime/contrib_ops/rocm/math/gemm_float8_ck_impl/device_gemm_xdl_splitk_f8_f16_f16_mk_kn_mn_instance_original.cu b/onnxruntime/contrib_ops/rocm/math/gemm_float8_ck_impl/device_gemm_xdl_splitk_f8_f16_f16_mk_kn_mn_instance_original.cu
index 9fc6c12722d35..a0628802ec09e 100644
--- a/onnxruntime/contrib_ops/rocm/math/gemm_float8_ck_impl/device_gemm_xdl_splitk_f8_f16_f16_mk_kn_mn_instance_original.cu
+++ b/onnxruntime/contrib_ops/rocm/math/gemm_float8_ck_impl/device_gemm_xdl_splitk_f8_f16_f16_mk_kn_mn_instance_original.cu
@@ -72,8 +72,7 @@ using device_gemm_xdl_splitk_f8_f16_f16_mk_kn_mn_instances_ck = std::tuple<
 
 void add_device_gemm_xdl_splitk_f8_f16_f16_mk_kn_mn_instances_ck(
     std::vector<std::unique_ptr<ck::tensor_operation::device::DeviceGemmSplitK<
-        Row, Row, Row, F8, F16, F16, Scale<Float8E4M3FN>, PassThrough, PassThrough>>>&
-        instances) {
+        Row, Row, Row, F8, F16, F16, Scale<Float8E4M3FN>, PassThrough, PassThrough>>>& instances) {
   ck::tensor_operation::device::instance::add_device_operation_instances(
       instances, device_gemm_xdl_splitk_f8_f16_f16_mk_kn_mn_instances_ck<Float8E4M3FN>{});
   ck::tensor_operation::device::instance::add_device_operation_instances(
@@ -82,8 +81,7 @@ void add_device_gemm_xdl_splitk_f8_f16_f16_mk_kn_mn_instances_ck(
 
 void add_device_gemm_xdl_splitk_f8_f16_f16_mk_kn_mn_instances_ck(
     std::vector<std::unique_ptr<ck::tensor_operation::device::DeviceGemmSplitK<
-        Row, Row, Row, F8, F16, F16, Scale<Float8E4M3FNUZ>, PassThrough, PassThrough>>>&
-        instances) {
+        Row, Row, Row, F8, F16, F16, Scale<Float8E4M3FNUZ>, PassThrough, PassThrough>>>& instances) {
   ck::tensor_operation::device::instance::add_device_operation_instances(
       instances, device_gemm_xdl_splitk_f8_f16_f16_mk_kn_mn_instances_ck<Float8E4M3FNUZ>{});
   ck::tensor_operation::device::instance::add_device_operation_instances(