From e123f92c72836b27afe429176be973d43e2bef4c Mon Sep 17 00:00:00 2001
From: Alexander Pivovarov <pivovaa@amazon.com>
Date: Thu, 9 Mar 2023 20:22:56 -0800
Subject: [PATCH] Fix typos 2 (#842)

Co-authored-by: Haicheng Wu <57973641+hwu36@users.noreply.github.com>
---
 README.md                                     |  8 ++---
 docs/annotated.html                           | 10 +++---
 ..._00_0c9bb6f4463ab6085e6008b5d5ad6abfd.html |  2 +-
 ..._00_07c56401b4df75709ae636675d9980a9a.html |  2 +-
 ...ayout4d0960ae6b1d1bf19e6239dbd002249c.html |  2 +-
 docs/command__line_8h_source.html             |  4 +--
 docs/device_2gemm__batched_8h.html            |  2 +-
 ...ce_2kernel_2tensor__foreach_8h_source.html |  2 +-
 docs/device_2tensor__fill_8h.html             |  2 +-
 docs/device_2tensor__fill_8h_source.html      |  2 +-
 docs/device_2tensor__foreach_8h_source.html   |  2 +-
 docs/functions_func_s.html                    |  2 +-
 docs/functions_s.html                         |  2 +-
 docs/hierarchy.html                           | 10 +++---
 docs/host_2tensor__fill_8h.html               |  2 +-
 docs/host_2tensor__fill_8h_source.html        |  2 +-
 docs/host_2tensor__foreach_8h_source.html     |  2 +-
 ...clude_2cutlass_2gemm_2device_2gemm_8h.html |  2 +-
 ...tlass_2gemm_2device_2gemm__complex_8h.html |  2 +-
 docs/mma__pipelined_8h_source.html            |  2 +-
 docs/namespacecutlass_1_1gemm_1_1device.html  |  6 ++--
 ...mespacecutlass_1_1reference_1_1device.html |  4 +--
 ...namespacecutlass_1_1reference_1_1host.html |  4 +--
 docs/search/all_12.js                         |  2 +-
 docs/search/functions_12.js                   |  2 +-
 .../structcutlass_1_1CommandLine-members.html |  2 +-
 docs/structcutlass_1_1CommandLine.html        |  4 +--
 ...ayout660562b232f408218828ca5915b7e73a.html |  2 +-
 ...Helper_3_01Func_00_01Rank_00_010_01_4.html |  2 +-
 ...outB_4f3f32c4b336238abfd741e87bfced46.html |  2 +-
 ...Helper_3_01Func_00_01Rank_00_010_01_4.html |  2 +-
 ...ass_2util_2reference_2device_2gemm_8h.html |  2 +-
 ...tlass_2util_2reference_2host_2gemm_8h.html |  2 +-
 docs/wmma__sm75_8h_source.html                |  2 +-
 examples/00_basic_gemm/basic_gemm.cu          |  2 +-
 .../volta_tensorop_gemm.cu                    |  6 ++--
 .../turing_tensorop_gemm.cu                   |  6 ++--
 .../turing_tensorop_conv2dfprop.cu            |  6 ++--
 .../threadblock/b2b_implicit_gemm_pipelined.h |  4 +--
 ...implicit_gemm_pipelined_smem_accumulator.h |  2 +-
 .../threadblock/b2b_mma_pipelined.h           |  2 +-
 .../b2b_mma_pipelined_smem_accumulator.h      |  2 +-
 .../ampere_tensorop_conv2dfprop.cu            |  6 ++--
 .../ampere_gemm_operand_reduction_fusion.cu   |  2 +-
 .../fused_multihead_attention_fixed_seqlen.cu |  2 +-
 ...sed_multihead_attention_variable_seqlen.cu |  2 +-
 .../gemm/custom_mma_pipelined.h               |  2 +-
 .../gemm/mma_from_smem.h                      |  2 +-
 ...cated_tile_access_iterator_residual_last.h |  2 +-
 .../ir_gen/gen_threadblock.py                 | 34 +++++++++----------
 .../ir_gen/gen_verify.py                      |  8 ++---
 .../ir_gen/helper.py                          | 10 +++---
 ..._gemm_schedules_with_collective_builder.cu | 14 ++++----
 include/cute/atom/copy_traits_sm90_tma.hpp    |  2 +-
 include/cutlass/arch/mma.h                    |  4 +--
 ..._gradient_tile_access_iterator_optimized.h |  6 ++--
 ...activation_tile_access_iterator_analytic.h |  2 +-
 ...ctivation_tile_access_iterator_optimized.h |  2 +-
 .../threadblock/depthwise_fprop_pipelined.h   |  2 +-
 .../threadblock/implicit_gemm_pipelined.h     |  2 +-
 .../conv/threadblock/threadblock_swizzle.h    |  6 ++--
 .../default_epilogue_complex_tensor_op.h      |  2 +-
 ...default_epilogue_complex_tensor_op_blas3.h |  2 +-
 .../predicated_tile_iterator_direct_conv.h    |  2 +-
 .../predicated_tile_iterator_strided_dgrad.h  |  4 +--
 include/cutlass/gemm/device/ell_gemm.h        |  2 +-
 include/cutlass/gemm/device/gemm.h            |  2 +-
 include/cutlass/gemm/device/gemm_array.h      |  2 +-
 include/cutlass/gemm/device/gemm_batched.h    |  2 +-
 include/cutlass/gemm/device/gemm_complex.h    |  2 +-
 .../device/gemm_layernorm_mainloop_fusion.h   |  2 +-
 include/cutlass/gemm/device/gemm_universal.h  |  2 +-
 .../device/gemm_universal_with_broadcast.h    |  2 +-
 .../gemm/device/gemm_with_k_reduction.h       |  2 +-
 include/cutlass/gemm/device/rank_2k.h         |  2 +-
 include/cutlass/gemm/device/rank_k.h          |  2 +-
 include/cutlass/gemm/device/symm.h            |  2 +-
 include/cutlass/gemm/device/trmm.h            |  2 +-
 .../gemm/kernel/default_gemm_with_broadcast.h |  2 +-
 .../gemm/kernel/default_gemm_with_reduction.h |  2 +-
 .../kernel/rank_2k_grouped_problem_visitor.h  |  2 +-
 include/cutlass/gemm/kernel/sm90_gemm_tma.hpp |  2 +-
 .../kernel/sm90_gemm_tma_warpspecialized.hpp  |  2 +-
 ...90_gemm_tma_warpspecialized_persistent.hpp |  2 +-
 .../gemm/threadblock/ell_mma_pipelined.h      |  2 +-
 .../mma_planar_complex_pipelined.h            |  2 +-
 .../kernel/tensor_reduce_affine_contiguous.h  |  2 +-
 .../kernel/tensor_reduce_affine_strided.h     |  2 +-
 .../predicated_tile_access_iterator.h         |  2 +-
 .../regular_tile_iterator_tensor_op_sm70.h    |  2 +-
 media/docs/implicit_gemm_convolution.md       |  2 +-
 media/docs/quickstart.md                      |  7 ++--
 test/unit/conv/device/conv2d_testbed.h        |  2 +-
 .../conv/device/conv2d_testbed_interleaved.h  |  2 +-
 .../device/conv2d_with_broadcast_testbed.h    |  2 +-
 .../device/conv2d_with_reduction_testbed.h    |  2 +-
 test/unit/conv/device/conv3d_testbed.h        |  2 +-
 .../device/default_gemm_configuration.hpp     |  2 +-
 .../library/include/cutlass/library/handle.h  |  4 +--
 .../library/include/cutlass/library/library.h | 14 ++++----
 tools/library/scripts/generator.py            |  4 +--
 tools/library/scripts/pycutlass/README.md     |  4 +--
 .../pycutlass/docs/source/md/basic_idea.md    |  8 ++---
 .../scripts/pycutlass/src/cpp/include/arch.h  |  6 ++--
 .../src/cpp/include/conv/conv_problem_size.h  |  2 +-
 .../epilogue_visitor_op/visitor_op_binary.h   |  2 +-
 .../visitor_op_column_reduction.h             |  4 +--
 .../visitor_op_linear_combination.h           |  2 +-
 .../visitor_op_row_reduction.h                |  4 +--
 .../pycutlass/src/cpp/include/gemm/gemm.h     |  2 +-
 .../pycutlass/src/cpp/include/swizzling.h     |  6 ++--
 .../src/cpp/include/tensor_ref_view.h         |  2 +-
 .../builder/collective_op_builder.py          |  8 ++---
 .../pycutlass/src/pycutlass/c_types.py        |  2 +-
 .../pycutlass/src/pycutlass/gemm_operation.py | 16 ++++-----
 .../pycutlass/src/pycutlass/library.py        |  2 +-
 .../src/pycutlass/reduction_operation.py      |  4 +--
 .../src/pycutlass/test/conv2d_testbed.py      |  2 +-
 .../src/pycutlass/test/gemm_testbed.py        |  2 +-
 .../pycutlass/src/pycutlass/test/utils.py     |  2 +-
 .../pycutlass/test/gemm/gemm_bf16_sm90.py     |  2 +-
 .../pycutlass/test/gemm/gemm_f16_sm90.py      |  4 +--
 .../pycutlass/test/gemm/gemm_f64_sm90.py      |  2 +-
 .../pycutlass/test/gemm/gemm_s8_sm90.py       |  2 +-
 tools/library/src/conv2d_operation.h          |  4 +--
 tools/library/src/conv3d_operation.h          |  2 +-
 tools/library/src/handle.cu                   |  4 +--
 tools/library/src/rank_2k_operation.h         |  2 +-
 .../src/reduction/reduction_operation.h       |  2 +-
 .../src/reference/conv_reference_operation.h  |  2 +-
 tools/library/src/symm_operation.h            |  2 +-
 tools/library/src/util.cu                     |  6 ++--
 .../profiler/src/conv2d_operation_profiler.cu | 26 +++++++-------
 .../profiler/src/conv2d_operation_profiler.h  |  8 ++---
 .../profiler/src/conv3d_operation_profiler.cu | 16 ++++-----
 .../profiler/src/conv3d_operation_profiler.h  | 10 +++---
 tools/profiler/src/cublas_helpers.cu          |  2 +-
 tools/profiler/src/cublas_helpers.h           | 12 +++----
 tools/profiler/src/cudnn_helpers.cpp          |  6 ++--
 tools/profiler/src/cudnn_helpers.h            | 10 +++---
 tools/profiler/src/debug.h                    |  2 +-
 tools/profiler/src/device_allocation.cu       |  4 +--
 tools/profiler/src/device_allocation.h        |  4 +--
 tools/profiler/src/gemm_operation_profiler.cu |  8 ++---
 tools/profiler/src/gpu_timer.cpp              |  2 +-
 tools/profiler/src/gpu_timer.h                |  2 +-
 tools/profiler/src/operation_profiler.h       |  2 +-
 tools/profiler/src/options.cu                 |  4 +--
 tools/profiler/src/options.h                  |  2 +-
 tools/profiler/src/problem_space.h            |  4 +--
 .../util/include/cutlass/util/command_line.h  |  6 ++--
 .../include/cutlass/util/device_groupnorm.h   |  2 +-
 .../cutlass/util/device_nhwc_padding.h        | 12 +++----
 .../util/include/cutlass/util/helper_cuda.hpp |  2 +-
 .../cutlass/util/reference/device/gemm.h      |  2 +-
 .../reference/device/kernel/tensor_foreach.h  |  2 +-
 .../util/reference/device/tensor_fill.h       |  2 +-
 .../util/reference/device/tensor_foreach.h    |  2 +-
 .../cutlass/util/reference/host/gemm.h        |  2 +-
 .../cutlass/util/reference/host/tensor_fill.h |  2 +-
 .../util/reference/host/tensor_foreach.h      |  2 +-
 161 files changed, 310 insertions(+), 309 deletions(-)

diff --git a/README.md b/README.md
index dc7cde32..79c11b3e 100644
--- a/README.md
+++ b/README.md
@@ -328,7 +328,7 @@ or a subset of kernels for NVIDIA Ampere and Turing architecture:
 
 ### Building a subset Tensor Core GEMM kernels
 
-To compile a subset of Tensor Core GEMM kernels with FP32 accumulation and FP16 input targetting NVIDIA Ampere and Turing architecture, 
+To compile a subset of Tensor Core GEMM kernels with FP32 accumulation and FP16 input targeting NVIDIA Ampere and Turing architecture, 
 use the below cmake command line:
 ```bash
 $ cmake .. -DCUTLASS_NVCC_ARCHS='75;80' -DCUTLASS_LIBRARY_KERNELS=cutlass_tensorop_s*gemm_f16_*_nt_align8
@@ -376,7 +376,7 @@ reference_device: Passed
 
 ### Building one CUDA Core GEMM kernel
 
-To compile one SGEMM kernel targetting NVIDIA Ampere and Turing architecture, use the below cmake command line:
+To compile one SGEMM kernel targeting NVIDIA Ampere and Turing architecture, use the below cmake command line:
 ```bash
 $ cmake .. -DCUTLASS_NVCC_ARCHS='75;80' -DCUTLASS_LIBRARY_KERNELS=cutlass_simt_sgemm_128x128_8x2_nn_align1
 ...
@@ -418,7 +418,7 @@ $ ./tools/profiler/cutlass_profiler --kernels=sgemm --m=3456 --n=4096 --k=4096
 ### Building a subset of Tensor Core Convolution kernels
 
 To compile a subset of Tensor core convolution kernels implementing forward propagation (fprop) with FP32 accumulation 
-and FP16 input targetting NVIDIA Ampere and Turing architecture, use the below cmake command line:
+and FP16 input targeting NVIDIA Ampere and Turing architecture, use the below cmake command line:
 ```bash
 $ cmake .. -DCUTLASS_NVCC_ARCHS='75;80' -DCUTLASS_LIBRARY_KERNELS=cutlass_tensorop_s*fprop_optimized_f16
 ...
@@ -466,7 +466,7 @@ reference_device: Passed
 ### Building one Convolution CUDA kernel
 
 To compile and run one CUDA Core convolution kernel implementing forward propagation (fprop) with F32 accumulation 
-and FP32 input targetting NVIDIA Ampere and Turing architecture, use the below cmake command line:
+and FP32 input targeting NVIDIA Ampere and Turing architecture, use the below cmake command line:
 ```bash
 $ cmake .. -DCUTLASS_NVCC_ARCHS='75;80' -DCUTLASS_LIBRARY_KERNELS=cutlass_simt_sfprop_optimized_128x128_8x2_nhwc
 ...
diff --git a/docs/annotated.html b/docs/annotated.html
index 43923cc2..233691c2 100644
--- a/docs/annotated.html
+++ b/docs/annotated.html
@@ -280,15 +280,15 @@
 <tr id="row_0_3_0_13_" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1device_1_1DefaultGemmConfiguration_3_01arch_1_1OpClassWmmaTensorOp_00_0884059ecad03bea3e86c4cf722226097.html" target="_self">DefaultGemmConfiguration&lt; arch::OpClassWmmaTensorOp, ArchTag, ElementA, ElementB, ElementC, ElementAccumulator &gt;</a></td><td class="desc"></td></tr>
 <tr id="row_0_3_0_14_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span id="arr_0_3_0_14_" class="arrow" onclick="toggleFolder('0_3_0_14_')">&#9658;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="classcutlass_1_1gemm_1_1device_1_1Gemm.html" target="_self">Gemm</a></td><td class="desc"></td></tr>
 <tr id="row_0_3_0_14_0_" style="display:none;"><td class="entry"><span style="width:80px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1device_1_1Gemm_1_1Arguments.html" target="_self">Arguments</a></td><td class="desc">Argument structure </td></tr>
-<tr id="row_0_3_0_15_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span id="arr_0_3_0_15_" class="arrow" onclick="toggleFolder('0_3_0_15_')">&#9658;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="classcutlass_1_1gemm_1_1device_1_1Gemm_3_01ElementA___00_01LayoutA___00_01ElementB___00_01Layout4d0960ae6b1d1bf19e6239dbd002249c.html" target="_self">Gemm&lt; ElementA_, LayoutA_, ElementB_, LayoutB_, ElementC_, layout::ColumnMajor, ElementAccumulator_, OperatorClass_, ArchTag_, ThreadblockShape_, WarpShape_, InstructionShape_, EpilogueOutputOp_, ThreadblockSwizzle_, Stages, AlignmentA, AlignmentB, SplitKSerial, Operator_, IsBetaZero &gt;</a></td><td class="desc">Parital specialization for column-major output exchanges problem size and operand </td></tr>
+<tr id="row_0_3_0_15_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span id="arr_0_3_0_15_" class="arrow" onclick="toggleFolder('0_3_0_15_')">&#9658;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="classcutlass_1_1gemm_1_1device_1_1Gemm_3_01ElementA___00_01LayoutA___00_01ElementB___00_01Layout4d0960ae6b1d1bf19e6239dbd002249c.html" target="_self">Gemm&lt; ElementA_, LayoutA_, ElementB_, LayoutB_, ElementC_, layout::ColumnMajor, ElementAccumulator_, OperatorClass_, ArchTag_, ThreadblockShape_, WarpShape_, InstructionShape_, EpilogueOutputOp_, ThreadblockSwizzle_, Stages, AlignmentA, AlignmentB, SplitKSerial, Operator_, IsBetaZero &gt;</a></td><td class="desc">Partial specialization for column-major output exchanges problem size and operand </td></tr>
 <tr id="row_0_3_0_15_0_" style="display:none;"><td class="entry"><span style="width:80px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1device_1_1Gemm_3_01ElementA___00_01LayoutA___00_01ElementB___00_01Layou1b211cc9c97c022d8fe10f2dd32c8709.html" target="_self">Arguments</a></td><td class="desc">Argument structure </td></tr>
 <tr id="row_0_3_0_16_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span id="arr_0_3_0_16_" class="arrow" onclick="toggleFolder('0_3_0_16_')">&#9658;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="classcutlass_1_1gemm_1_1device_1_1GemmBatched.html" target="_self">GemmBatched</a></td><td class="desc"></td></tr>
 <tr id="row_0_3_0_16_0_" style="display:none;"><td class="entry"><span style="width:80px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1device_1_1GemmBatched_1_1Arguments.html" target="_self">Arguments</a></td><td class="desc">Argument structure </td></tr>
-<tr id="row_0_3_0_17_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span id="arr_0_3_0_17_" class="arrow" onclick="toggleFolder('0_3_0_17_')">&#9658;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="classcutlass_1_1gemm_1_1device_1_1GemmBatched_3_01ElementA___00_01LayoutA___00_01ElementB___00_0c9bb6f4463ab6085e6008b5d5ad6abfd.html" target="_self">GemmBatched&lt; ElementA_, LayoutA_, ElementB_, LayoutB_, ElementC_, layout::ColumnMajor, ElementAccumulator_, OperatorClass_, ArchTag_, ThreadblockShape_, WarpShape_, InstructionShape_, EpilogueOutputOp_, ThreadblockSwizzle_, Stages, AlignmentA, AlignmentB, Operator_ &gt;</a></td><td class="desc">Parital specialization for column-major output exchanges problem size and operand </td></tr>
+<tr id="row_0_3_0_17_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span id="arr_0_3_0_17_" class="arrow" onclick="toggleFolder('0_3_0_17_')">&#9658;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="classcutlass_1_1gemm_1_1device_1_1GemmBatched_3_01ElementA___00_01LayoutA___00_01ElementB___00_0c9bb6f4463ab6085e6008b5d5ad6abfd.html" target="_self">GemmBatched&lt; ElementA_, LayoutA_, ElementB_, LayoutB_, ElementC_, layout::ColumnMajor, ElementAccumulator_, OperatorClass_, ArchTag_, ThreadblockShape_, WarpShape_, InstructionShape_, EpilogueOutputOp_, ThreadblockSwizzle_, Stages, AlignmentA, AlignmentB, Operator_ &gt;</a></td><td class="desc">Partial specialization for column-major output exchanges problem size and operand </td></tr>
 <tr id="row_0_3_0_17_0_" style="display:none;"><td class="entry"><span style="width:80px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1device_1_1GemmBatched_3_01ElementA___00_01LayoutA___00_01ElementB___00_213d78696663f4231cd52c6a277c60e5.html" target="_self">Arguments</a></td><td class="desc">Argument structure </td></tr>
 <tr id="row_0_3_0_18_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span id="arr_0_3_0_18_" class="arrow" onclick="toggleFolder('0_3_0_18_')">&#9658;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="classcutlass_1_1gemm_1_1device_1_1GemmComplex.html" target="_self">GemmComplex</a></td><td class="desc"></td></tr>
 <tr id="row_0_3_0_18_0_" style="display:none;"><td class="entry"><span style="width:80px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1device_1_1GemmComplex_1_1Arguments.html" target="_self">Arguments</a></td><td class="desc">Argument structure </td></tr>
-<tr id="row_0_3_0_19_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span id="arr_0_3_0_19_" class="arrow" onclick="toggleFolder('0_3_0_19_')">&#9658;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="classcutlass_1_1gemm_1_1device_1_1GemmComplex_3_01ElementA___00_01LayoutA___00_01ElementB___00_07c56401b4df75709ae636675d9980a9a.html" target="_self">GemmComplex&lt; ElementA_, LayoutA_, ElementB_, LayoutB_, ElementC_, layout::ColumnMajor, ElementAccumulator_, OperatorClass_, ArchTag_, ThreadblockShape_, WarpShape_, InstructionShape_, EpilogueOutputOp_, ThreadblockSwizzle_, Stages, TransformA, TransformB, SplitKSerial &gt;</a></td><td class="desc">Parital specialization for column-major output exchanges problem size and operand </td></tr>
+<tr id="row_0_3_0_19_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span id="arr_0_3_0_19_" class="arrow" onclick="toggleFolder('0_3_0_19_')">&#9658;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="classcutlass_1_1gemm_1_1device_1_1GemmComplex_3_01ElementA___00_01LayoutA___00_01ElementB___00_07c56401b4df75709ae636675d9980a9a.html" target="_self">GemmComplex&lt; ElementA_, LayoutA_, ElementB_, LayoutB_, ElementC_, layout::ColumnMajor, ElementAccumulator_, OperatorClass_, ArchTag_, ThreadblockShape_, WarpShape_, InstructionShape_, EpilogueOutputOp_, ThreadblockSwizzle_, Stages, TransformA, TransformB, SplitKSerial &gt;</a></td><td class="desc">Partial specialization for column-major output exchanges problem size and operand </td></tr>
 <tr id="row_0_3_0_19_0_" style="display:none;"><td class="entry"><span style="width:80px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1device_1_1GemmComplex_3_01ElementA___00_01LayoutA___00_01ElementB___00_a3923967cafb5cb9774c320dc24baa77.html" target="_self">Arguments</a></td><td class="desc">Argument structure </td></tr>
 <tr id="row_0_3_0_20_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span id="arr_0_3_0_20_" class="arrow" onclick="toggleFolder('0_3_0_20_')">&#9658;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="classcutlass_1_1gemm_1_1device_1_1GemmSplitKParallel.html" target="_self">GemmSplitKParallel</a></td><td class="desc"></td></tr>
 <tr id="row_0_3_0_20_0_" style="display:none;"><td class="entry"><span style="width:80px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1device_1_1GemmSplitKParallel_1_1Arguments.html" target="_self">Arguments</a></td><td class="desc">Argument structure </td></tr>
@@ -594,7 +594,7 @@
 <tr id="row_0_8_1_4_" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1reference_1_1device_1_1Gemm.html" target="_self">Gemm</a></td><td class="desc"></td></tr>
 <tr id="row_0_8_1_5_" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1reference_1_1device_1_1Gemm_3_01ElementA_00_01LayoutA_00_01ElementB_00_01Layout4e016ab7cfc644acd7cb4ae770339773.html" target="_self">Gemm&lt; ElementA, LayoutA, ElementB, LayoutB, ElementC, LayoutC, ScalarType, AccumulatorType, arch::OpMultiplyAdd &gt;</a></td><td class="desc">Partial specialization for multiply-add </td></tr>
 <tr id="row_0_8_1_6_" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1reference_1_1device_1_1Gemm_3_01ElementA_00_01LayoutA_00_01ElementB_00_01Layout30b72addd464a2ca4a26785cbfd77a8e.html" target="_self">Gemm&lt; ElementA, LayoutA, ElementB, LayoutB, ElementC, LayoutC, ScalarType, AccumulatorType, arch::OpMultiplyAddSaturate &gt;</a></td><td class="desc">Partial specialization for multiply-add-saturate </td></tr>
-<tr id="row_0_8_1_7_" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1reference_1_1device_1_1Gemm_3_01ElementA_00_01LayoutA_00_01ElementB_00_01Layout660562b232f408218828ca5915b7e73a.html" target="_self">Gemm&lt; ElementA, LayoutA, ElementB, LayoutB, ElementC, LayoutC, ScalarType, AccumulatorType, arch::OpXorPopc &gt;</a></td><td class="desc">Parital specialization for XOR-popc </td></tr>
+<tr id="row_0_8_1_7_" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1reference_1_1device_1_1Gemm_3_01ElementA_00_01LayoutA_00_01ElementB_00_01Layout660562b232f408218828ca5915b7e73a.html" target="_self">Gemm&lt; ElementA, LayoutA, ElementB, LayoutB, ElementC, LayoutC, ScalarType, AccumulatorType, arch::OpXorPopc &gt;</a></td><td class="desc">Partial specialization for XOR-popc </td></tr>
 <tr id="row_0_8_1_8_" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1reference_1_1device_1_1TensorDiagonalForEach.html" target="_self">TensorDiagonalForEach</a></td><td class="desc">Launches a kernel calling a functor for each element along a tensor's diagonal </td></tr>
 <tr id="row_0_8_1_9_" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1reference_1_1device_1_1TensorForEach.html" target="_self">TensorForEach</a></td><td class="desc">Launches a kernel calling a functor for each element in a tensor's index space </td></tr>
 <tr id="row_0_8_2_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span id="arr_0_8_2_" class="arrow" onclick="toggleFolder('0_8_2_')">&#9658;</span><span class="icona"><span class="icon">N</span></span><a class="el" href="namespacecutlass_1_1reference_1_1host.html" target="_self">host</a></td><td class="desc"></td></tr>
@@ -620,7 +620,7 @@
 <tr id="row_0_8_2_2_" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1reference_1_1host_1_1Gemm.html" target="_self">Gemm</a></td><td class="desc"></td></tr>
 <tr id="row_0_8_2_3_" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1reference_1_1host_1_1Gemm_3_01ElementA_00_01LayoutA_00_01ElementB_00_01LayoutB_193dd3a37f00deff1e5dcd7c310afb1f.html" target="_self">Gemm&lt; ElementA, LayoutA, ElementB, LayoutB, ElementC, LayoutC, ScalarType, ComputeType, arch::OpMultiplyAdd &gt;</a></td><td class="desc">Partial specialization for multiply-add </td></tr>
 <tr id="row_0_8_2_4_" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1reference_1_1host_1_1Gemm_3_01ElementA_00_01LayoutA_00_01ElementB_00_01LayoutB_55729eac7dbd6bf311ea36f680e83e93.html" target="_self">Gemm&lt; ElementA, LayoutA, ElementB, LayoutB, ElementC, LayoutC, ScalarType, ComputeType, arch::OpMultiplyAddSaturate &gt;</a></td><td class="desc">Partial specialization for multiply-add-saturate </td></tr>
-<tr id="row_0_8_2_5_" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1reference_1_1host_1_1Gemm_3_01ElementA_00_01LayoutA_00_01ElementB_00_01LayoutB_4f3f32c4b336238abfd741e87bfced46.html" target="_self">Gemm&lt; ElementA, LayoutA, ElementB, LayoutB, ElementC, LayoutC, ScalarType, ComputeType, arch::OpXorPopc &gt;</a></td><td class="desc">Parital specialization for XOR-popc </td></tr>
+<tr id="row_0_8_2_5_" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1reference_1_1host_1_1Gemm_3_01ElementA_00_01LayoutA_00_01ElementB_00_01LayoutB_4f3f32c4b336238abfd741e87bfced46.html" target="_self">Gemm&lt; ElementA, LayoutA, ElementB, LayoutB, ElementC, LayoutC, ScalarType, ComputeType, arch::OpXorPopc &gt;</a></td><td class="desc">Partial specialization for XOR-popc </td></tr>
 <tr id="row_0_9_" style="display:none;"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span id="arr_0_9_" class="arrow" onclick="toggleFolder('0_9_')">&#9658;</span><span class="icona"><span class="icon">N</span></span><a class="el" href="namespacecutlass_1_1thread.html" target="_self">thread</a></td><td class="desc"></td></tr>
 <tr id="row_0_9_0_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="classcutlass_1_1thread_1_1Matrix.html" target="_self">Matrix</a></td><td class="desc">Per-thread matrix object storing a packed matrix </td></tr>
 <tr id="row_0_10_" style="display:none;"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span id="arr_0_10_" class="arrow" onclick="toggleFolder('0_10_')">&#9658;</span><span class="icona"><span class="icon">N</span></span><a class="el" href="namespacecutlass_1_1transform.html" target="_self">transform</a></td><td class="desc"></td></tr>
diff --git a/docs/classcutlass_1_1gemm_1_1device_1_1GemmBatched_3_01ElementA___00_01LayoutA___00_01ElementB___00_0c9bb6f4463ab6085e6008b5d5ad6abfd.html b/docs/classcutlass_1_1gemm_1_1device_1_1GemmBatched_3_01ElementA___00_01LayoutA___00_01ElementB___00_0c9bb6f4463ab6085e6008b5d5ad6abfd.html
index d53d8d67..6800f4fe 100644
--- a/docs/classcutlass_1_1gemm_1_1device_1_1GemmBatched_3_01ElementA___00_01LayoutA___00_01ElementB___00_0c9bb6f4463ab6085e6008b5d5ad6abfd.html
+++ b/docs/classcutlass_1_1gemm_1_1device_1_1GemmBatched_3_01ElementA___00_01LayoutA___00_01ElementB___00_0c9bb6f4463ab6085e6008b5d5ad6abfd.html
@@ -108,7 +108,7 @@
 </div><!--header-->
 <div class="contents">
 
-<p>Parital specialization for column-major output exchanges problem size and operand.  
+<p>Partial specialization for column-major output exchanges problem size and operand.
 </p>
 
 <p><code>#include &lt;<a class="el" href="device_2gemm__batched_8h_source.html">gemm_batched.h</a>&gt;</code></p>
diff --git a/docs/classcutlass_1_1gemm_1_1device_1_1GemmComplex_3_01ElementA___00_01LayoutA___00_01ElementB___00_07c56401b4df75709ae636675d9980a9a.html b/docs/classcutlass_1_1gemm_1_1device_1_1GemmComplex_3_01ElementA___00_01LayoutA___00_01ElementB___00_07c56401b4df75709ae636675d9980a9a.html
index 84685856..d0978343 100644
--- a/docs/classcutlass_1_1gemm_1_1device_1_1GemmComplex_3_01ElementA___00_01LayoutA___00_01ElementB___00_07c56401b4df75709ae636675d9980a9a.html
+++ b/docs/classcutlass_1_1gemm_1_1device_1_1GemmComplex_3_01ElementA___00_01LayoutA___00_01ElementB___00_07c56401b4df75709ae636675d9980a9a.html
@@ -108,7 +108,7 @@
 </div><!--header-->
 <div class="contents">
 
-<p>Parital specialization for column-major output exchanges problem size and operand.  
+<p>Partial specialization for column-major output exchanges problem size and operand.
 </p>
 
 <p><code>#include &lt;<a class="el" href="include_2cutlass_2gemm_2device_2gemm__complex_8h_source.html">gemm_complex.h</a>&gt;</code></p>
diff --git a/docs/classcutlass_1_1gemm_1_1device_1_1Gemm_3_01ElementA___00_01LayoutA___00_01ElementB___00_01Layout4d0960ae6b1d1bf19e6239dbd002249c.html b/docs/classcutlass_1_1gemm_1_1device_1_1Gemm_3_01ElementA___00_01LayoutA___00_01ElementB___00_01Layout4d0960ae6b1d1bf19e6239dbd002249c.html
index f34be6e5..323ecfc2 100644
--- a/docs/classcutlass_1_1gemm_1_1device_1_1Gemm_3_01ElementA___00_01LayoutA___00_01ElementB___00_01Layout4d0960ae6b1d1bf19e6239dbd002249c.html
+++ b/docs/classcutlass_1_1gemm_1_1device_1_1Gemm_3_01ElementA___00_01LayoutA___00_01ElementB___00_01Layout4d0960ae6b1d1bf19e6239dbd002249c.html
@@ -108,7 +108,7 @@
 </div><!--header-->
 <div class="contents">
 
-<p>Parital specialization for column-major output exchanges problem size and operand.  
+<p>Partial specialization for column-major output exchanges problem size and operand.
 </p>
 
 <p><code>#include &lt;<a class="el" href="include_2cutlass_2gemm_2device_2gemm_8h_source.html">gemm.h</a>&gt;</code></p>
diff --git a/docs/command__line_8h_source.html b/docs/command__line_8h_source.html
index f98c9f1e..325a3034 100644
--- a/docs/command__line_8h_source.html
+++ b/docs/command__line_8h_source.html
@@ -98,7 +98,7 @@
 <div class="title">command_line.h</div>  </div>
 </div><!--header-->
 <div class="contents">
-<a href="command__line_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/******************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2011-2019, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * modification, are not permitted.</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> * ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> * WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE ARE</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> * DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE FOR ANY</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> * DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> * (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES;</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> * LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> * ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE OF THIS</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> ******************************************************************************/</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;</div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;</div><div class="line"><a name="l00027"></a><span class="lineno">   27</span>&#160;<span class="preprocessor">#include &lt;iostream&gt;</span></div><div class="line"><a name="l00028"></a><span class="lineno">   28</span>&#160;<span class="preprocessor">#include &lt;limits&gt;</span></div><div class="line"><a name="l00029"></a><span class="lineno">   29</span>&#160;<span class="preprocessor">#include &lt;sstream&gt;</span></div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;<span class="preprocessor">#include &lt;string&gt;</span></div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;<span class="preprocessor">#include &lt;vector&gt;</span></div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;</div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;<span class="preprocessor">#include &lt;cuda_runtime.h&gt;</span></div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;</div><div class="line"><a name="l00035"></a><span class="lineno">   35</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00036"></a><span class="lineno">   36</span>&#160;</div><div class="line"><a name="l00037"></a><span class="lineno">   37</span>&#160;<span class="comment">/******************************************************************************</span></div><div class="line"><a name="l00038"></a><span class="lineno">   38</span>&#160;<span class="comment"> * command_line</span></div><div class="line"><a name="l00039"></a><span class="lineno">   39</span>&#160;<span class="comment"> ******************************************************************************/</span></div><div class="line"><a name="l00040"></a><span class="lineno">   40</span>&#160;</div><div class="line"><a name="l00044"></a><span class="lineno"><a class="line" href="structcutlass_1_1CommandLine.html">   44</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1CommandLine.html">CommandLine</a> {</div><div class="line"><a name="l00045"></a><span class="lineno"><a class="line" href="structcutlass_1_1CommandLine.html#a1603f1c65c6d8d3d4262443b40e5c290">   45</a></span>&#160;  std::vector&lt;std::string&gt; <a class="code" href="structcutlass_1_1CommandLine.html#a1603f1c65c6d8d3d4262443b40e5c290">keys</a>;</div><div class="line"><a name="l00046"></a><span class="lineno"><a class="line" href="structcutlass_1_1CommandLine.html#ade127841e9730589f611b618e9440012">   46</a></span>&#160;  std::vector&lt;std::string&gt; <a class="code" href="structcutlass_1_1CommandLine.html#ade127841e9730589f611b618e9440012">values</a>;</div><div class="line"><a name="l00047"></a><span class="lineno"><a class="line" href="structcutlass_1_1CommandLine.html#a6a338671a8d323882f9d9463863eb1c1">   47</a></span>&#160;  std::vector&lt;std::string&gt; <a class="code" href="structcutlass_1_1CommandLine.html#a6a338671a8d323882f9d9463863eb1c1">args</a>;</div><div class="line"><a name="l00048"></a><span class="lineno">   48</span>&#160;</div><div class="line"><a name="l00052"></a><span class="lineno"><a class="line" href="structcutlass_1_1CommandLine.html#a7156975dc884e8b58b91c710495fc79d">   52</a></span>&#160;  <a class="code" href="structcutlass_1_1CommandLine.html#a7156975dc884e8b58b91c710495fc79d">CommandLine</a>(<span class="keywordtype">int</span> argc, <span class="keyword">const</span> <span class="keywordtype">char</span>** argv) {</div><div class="line"><a name="l00053"></a><span class="lineno">   53</span>&#160;    <span class="keyword">using namespace </span><a class="code" href="namespacestd.html">std</a>;</div><div class="line"><a name="l00054"></a><span class="lineno">   54</span>&#160;</div><div class="line"><a name="l00055"></a><span class="lineno">   55</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 1; i &lt; argc; i++) {</div><div class="line"><a name="l00056"></a><span class="lineno">   56</span>&#160;      <span class="keywordtype">string</span> <a class="code" href="namespacecutlass.html#a2d34a68d49bf2a35de81b6600425b645">arg</a> = argv[i];</div><div class="line"><a name="l00057"></a><span class="lineno">   57</span>&#160;</div><div class="line"><a name="l00058"></a><span class="lineno">   58</span>&#160;      <span class="keywordflow">if</span> ((arg[0] != <span class="charliteral">&#39;-&#39;</span>) || (arg[1] != <span class="charliteral">&#39;-&#39;</span>)) {</div><div class="line"><a name="l00059"></a><span class="lineno">   59</span>&#160;        args.push_back(arg);</div><div class="line"><a name="l00060"></a><span class="lineno">   60</span>&#160;        <span class="keywordflow">continue</span>;</div><div class="line"><a name="l00061"></a><span class="lineno">   61</span>&#160;      }</div><div class="line"><a name="l00062"></a><span class="lineno">   62</span>&#160;</div><div class="line"><a name="l00063"></a><span class="lineno">   63</span>&#160;      string::size_type pos;</div><div class="line"><a name="l00064"></a><span class="lineno">   64</span>&#160;      <span class="keywordtype">string</span> key, val;</div><div class="line"><a name="l00065"></a><span class="lineno">   65</span>&#160;      <span class="keywordflow">if</span> ((pos = arg.find(<span class="charliteral">&#39;=&#39;</span>)) == string::npos) {</div><div class="line"><a name="l00066"></a><span class="lineno">   66</span>&#160;        key = string(arg, 2, arg.length() - 2);</div><div class="line"><a name="l00067"></a><span class="lineno">   67</span>&#160;        val = <span class="stringliteral">&quot;&quot;</span>;</div><div class="line"><a name="l00068"></a><span class="lineno">   68</span>&#160;      } <span class="keywordflow">else</span> {</div><div class="line"><a name="l00069"></a><span class="lineno">   69</span>&#160;        key = string(arg, 2, pos - 2);</div><div class="line"><a name="l00070"></a><span class="lineno">   70</span>&#160;        val = string(arg, pos + 1, arg.length() - 1);</div><div class="line"><a name="l00071"></a><span class="lineno">   71</span>&#160;      }</div><div class="line"><a name="l00072"></a><span class="lineno">   72</span>&#160;</div><div class="line"><a name="l00073"></a><span class="lineno">   73</span>&#160;      keys.push_back(key);</div><div class="line"><a name="l00074"></a><span class="lineno">   74</span>&#160;      values.push_back(val);</div><div class="line"><a name="l00075"></a><span class="lineno">   75</span>&#160;    }</div><div class="line"><a name="l00076"></a><span class="lineno">   76</span>&#160;  }</div><div class="line"><a name="l00077"></a><span class="lineno">   77</span>&#160;</div><div class="line"><a name="l00081"></a><span class="lineno"><a class="line" href="structcutlass_1_1CommandLine.html#a5a20785501f9ed3d4a57241b08399552">   81</a></span>&#160;  <span class="keywordtype">bool</span> <a class="code" href="structcutlass_1_1CommandLine.html#a5a20785501f9ed3d4a57241b08399552">check_cmd_line_flag</a>(<span class="keyword">const</span> <span class="keywordtype">char</span>* arg_name)<span class="keyword"> const </span>{</div><div class="line"><a name="l00082"></a><span class="lineno">   82</span>&#160;    <span class="keyword">using namespace </span><a class="code" href="namespacestd.html">std</a>;</div><div class="line"><a name="l00083"></a><span class="lineno">   83</span>&#160;</div><div class="line"><a name="l00084"></a><span class="lineno">   84</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 0; i &lt; int(keys.size()); ++i) {</div><div class="line"><a name="l00085"></a><span class="lineno">   85</span>&#160;      <span class="keywordflow">if</span> (keys[i] == <span class="keywordtype">string</span>(arg_name)) <span class="keywordflow">return</span> <span class="keyword">true</span>;</div><div class="line"><a name="l00086"></a><span class="lineno">   86</span>&#160;    }</div><div class="line"><a name="l00087"></a><span class="lineno">   87</span>&#160;    <span class="keywordflow">return</span> <span class="keyword">false</span>;</div><div class="line"><a name="l00088"></a><span class="lineno">   88</span>&#160;  }</div><div class="line"><a name="l00089"></a><span class="lineno">   89</span>&#160;</div><div class="line"><a name="l00093"></a><span class="lineno">   93</span>&#160;  <span class="keyword">template</span> &lt;<span class="keyword">typename</span> value_t&gt;</div><div class="line"><a name="l00094"></a><span class="lineno"><a class="line" href="structcutlass_1_1CommandLine.html#a0bee40a3cc6078a08eec5d4ca4711f61">   94</a></span>&#160;  <span class="keywordtype">int</span> <a class="code" href="structcutlass_1_1CommandLine.html#a0bee40a3cc6078a08eec5d4ca4711f61">num_naked_args</a>()<span class="keyword"> const </span>{</div><div class="line"><a name="l00095"></a><span class="lineno">   95</span>&#160;    <span class="keywordflow">return</span> args.size();</div><div class="line"><a name="l00096"></a><span class="lineno">   96</span>&#160;  }</div><div class="line"><a name="l00097"></a><span class="lineno">   97</span>&#160;</div><div class="line"><a name="l00101"></a><span class="lineno">  101</span>&#160;  <span class="keyword">template</span> &lt;<span class="keyword">typename</span> value_t&gt;</div><div class="line"><a name="l00102"></a><span class="lineno"><a class="line" href="structcutlass_1_1CommandLine.html#a06962a53ee69752551c0353e1eb98d98">  102</a></span>&#160;  <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1CommandLine.html#a06962a53ee69752551c0353e1eb98d98">get_cmd_line_argument</a>(<span class="keywordtype">int</span> index, value_t&amp; val)<span class="keyword"> const </span>{</div><div class="line"><a name="l00103"></a><span class="lineno">  103</span>&#160;    <span class="keyword">using namespace </span><a class="code" href="namespacestd.html">std</a>;</div><div class="line"><a name="l00104"></a><span class="lineno">  104</span>&#160;    <span class="keywordflow">if</span> (index &lt; args.size()) {</div><div class="line"><a name="l00105"></a><span class="lineno">  105</span>&#160;      istringstream str_stream(args[index]);</div><div class="line"><a name="l00106"></a><span class="lineno">  106</span>&#160;      str_stream &gt;&gt; val;</div><div class="line"><a name="l00107"></a><span class="lineno">  107</span>&#160;    }</div><div class="line"><a name="l00108"></a><span class="lineno">  108</span>&#160;  }</div><div class="line"><a name="l00109"></a><span class="lineno">  109</span>&#160;</div><div class="line"><a name="l00113"></a><span class="lineno"><a class="line" href="structcutlass_1_1CommandLine.html#a9ac897e414cfeddad031b1384ffe815e">  113</a></span>&#160;  <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1CommandLine.html#a9ac897e414cfeddad031b1384ffe815e">get_cmd_line_argument</a>(<span class="keyword">const</span> <span class="keywordtype">char</span>* arg_name, <span class="keywordtype">bool</span>&amp; val, <span class="keywordtype">bool</span> _default = <span class="keyword">true</span>)<span class="keyword"> const </span>{</div><div class="line"><a name="l00114"></a><span class="lineno">  114</span>&#160;    val = _default;</div><div class="line"><a name="l00115"></a><span class="lineno">  115</span>&#160;    <span class="keywordflow">if</span> (<a class="code" href="structcutlass_1_1CommandLine.html#a5a20785501f9ed3d4a57241b08399552">check_cmd_line_flag</a>(arg_name)) {</div><div class="line"><a name="l00116"></a><span class="lineno">  116</span>&#160;      std::string value;</div><div class="line"><a name="l00117"></a><span class="lineno">  117</span>&#160;      <a class="code" href="structcutlass_1_1CommandLine.html#a06962a53ee69752551c0353e1eb98d98">get_cmd_line_argument</a>(arg_name, value);</div><div class="line"><a name="l00118"></a><span class="lineno">  118</span>&#160;</div><div class="line"><a name="l00119"></a><span class="lineno">  119</span>&#160;      val = !(value == <span class="stringliteral">&quot;0&quot;</span> || value == <span class="stringliteral">&quot;false&quot;</span>);</div><div class="line"><a name="l00120"></a><span class="lineno">  120</span>&#160;    }</div><div class="line"><a name="l00121"></a><span class="lineno">  121</span>&#160;  }</div><div class="line"><a name="l00122"></a><span class="lineno">  122</span>&#160;</div><div class="line"><a name="l00126"></a><span class="lineno">  126</span>&#160;  <span class="keyword">template</span> &lt;<span class="keyword">typename</span> value_t&gt;</div><div class="line"><a name="l00127"></a><span class="lineno"><a class="line" href="structcutlass_1_1CommandLine.html#a206ae1ef3a4cc1a10dabd9d651be50d0">  127</a></span>&#160;  <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1CommandLine.html#a206ae1ef3a4cc1a10dabd9d651be50d0">get_cmd_line_argument</a>(<span class="keyword">const</span> <span class="keywordtype">char</span>* arg_name,</div><div class="line"><a name="l00128"></a><span class="lineno">  128</span>&#160;                             value_t&amp; val,</div><div class="line"><a name="l00129"></a><span class="lineno">  129</span>&#160;                             value_t <span class="keyword">const</span>&amp; _default = value_t())<span class="keyword"> const </span>{</div><div class="line"><a name="l00130"></a><span class="lineno">  130</span>&#160;    <span class="keyword">using namespace </span><a class="code" href="namespacestd.html">std</a>;</div><div class="line"><a name="l00131"></a><span class="lineno">  131</span>&#160;</div><div class="line"><a name="l00132"></a><span class="lineno">  132</span>&#160;    val = _default;</div><div class="line"><a name="l00133"></a><span class="lineno">  133</span>&#160;</div><div class="line"><a name="l00134"></a><span class="lineno">  134</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 0; i &lt; int(keys.size()); ++i) {</div><div class="line"><a name="l00135"></a><span class="lineno">  135</span>&#160;      <span class="keywordflow">if</span> (keys[i] == <span class="keywordtype">string</span>(arg_name)) {</div><div class="line"><a name="l00136"></a><span class="lineno">  136</span>&#160;        istringstream str_stream(values[i]);</div><div class="line"><a name="l00137"></a><span class="lineno">  137</span>&#160;        str_stream &gt;&gt; val;</div><div class="line"><a name="l00138"></a><span class="lineno">  138</span>&#160;      }</div><div class="line"><a name="l00139"></a><span class="lineno">  139</span>&#160;    }</div><div class="line"><a name="l00140"></a><span class="lineno">  140</span>&#160;  }</div><div class="line"><a name="l00141"></a><span class="lineno">  141</span>&#160;</div><div class="line"><a name="l00145"></a><span class="lineno">  145</span>&#160;  <span class="keyword">template</span> &lt;<span class="keyword">typename</span> value_t&gt;</div><div class="line"><a name="l00146"></a><span class="lineno"><a class="line" href="structcutlass_1_1CommandLine.html#a604c5d891f1328b071290d5341119c2c">  146</a></span>&#160;  <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1CommandLine.html#a604c5d891f1328b071290d5341119c2c">get_cmd_line_arguments</a>(<span class="keyword">const</span> <span class="keywordtype">char</span>* arg_name,</div><div class="line"><a name="l00147"></a><span class="lineno">  147</span>&#160;                              std::vector&lt;value_t&gt;&amp; vals,</div><div class="line"><a name="l00148"></a><span class="lineno">  148</span>&#160;                              <span class="keywordtype">char</span> sep = <span class="charliteral">&#39;,&#39;</span>)<span class="keyword"> const </span>{</div><div class="line"><a name="l00149"></a><span class="lineno">  149</span>&#160;    <span class="keyword">using namespace </span><a class="code" href="namespacestd.html">std</a>;</div><div class="line"><a name="l00150"></a><span class="lineno">  150</span>&#160;</div><div class="line"><a name="l00151"></a><span class="lineno">  151</span>&#160;    <span class="keywordflow">if</span> (<a class="code" href="structcutlass_1_1CommandLine.html#a5a20785501f9ed3d4a57241b08399552">check_cmd_line_flag</a>(arg_name)) {</div><div class="line"><a name="l00152"></a><span class="lineno">  152</span>&#160;      <span class="comment">// Clear any default values</span></div><div class="line"><a name="l00153"></a><span class="lineno">  153</span>&#160;      vals.clear();</div><div class="line"><a name="l00154"></a><span class="lineno">  154</span>&#160;</div><div class="line"><a name="l00155"></a><span class="lineno">  155</span>&#160;      <span class="comment">// Recover from multi-value string</span></div><div class="line"><a name="l00156"></a><span class="lineno">  156</span>&#160;      <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 0; i &lt; keys.size(); ++i) {</div><div class="line"><a name="l00157"></a><span class="lineno">  157</span>&#160;        <span class="keywordflow">if</span> (keys[i] == <span class="keywordtype">string</span>(arg_name)) {</div><div class="line"><a name="l00158"></a><span class="lineno">  158</span>&#160;          <span class="keywordtype">string</span> val_string(values[i]);</div><div class="line"><a name="l00159"></a><span class="lineno">  159</span>&#160;          <a class="code" href="structcutlass_1_1CommandLine.html#a5f86e4b2bd8c44b739c83530d77c5590">seperate_string</a>(val_string, vals, sep);</div><div class="line"><a name="l00160"></a><span class="lineno">  160</span>&#160;        }</div><div class="line"><a name="l00161"></a><span class="lineno">  161</span>&#160;      }</div><div class="line"><a name="l00162"></a><span class="lineno">  162</span>&#160;    }</div><div class="line"><a name="l00163"></a><span class="lineno">  163</span>&#160;  }</div><div class="line"><a name="l00164"></a><span class="lineno">  164</span>&#160;</div><div class="line"><a name="l00169"></a><span class="lineno"><a class="line" href="structcutlass_1_1CommandLine.html#a38f905a17e6c6e7bd2d1bea9e0c72088">  169</a></span>&#160;  <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1CommandLine.html#a38f905a17e6c6e7bd2d1bea9e0c72088">get_cmd_line_argument_pairs</a>(<span class="keyword">const</span> <span class="keywordtype">char</span>* arg_name,</div><div class="line"><a name="l00170"></a><span class="lineno">  170</span>&#160;                                   std::vector&lt;std::pair&lt;std::string, std::string&gt; &gt;&amp; tokens,</div><div class="line"><a name="l00171"></a><span class="lineno">  171</span>&#160;                                   <span class="keywordtype">char</span> delim = <span class="charliteral">&#39;,&#39;</span>,</div><div class="line"><a name="l00172"></a><span class="lineno">  172</span>&#160;                                   <span class="keywordtype">char</span> sep = <span class="charliteral">&#39;:&#39;</span>)<span class="keyword"> const </span>{</div><div class="line"><a name="l00173"></a><span class="lineno">  173</span>&#160;    <span class="keywordflow">if</span> (<a class="code" href="structcutlass_1_1CommandLine.html#a5a20785501f9ed3d4a57241b08399552">check_cmd_line_flag</a>(arg_name)) {</div><div class="line"><a name="l00174"></a><span class="lineno">  174</span>&#160;      std::string value;</div><div class="line"><a name="l00175"></a><span class="lineno">  175</span>&#160;      <a class="code" href="structcutlass_1_1CommandLine.html#a06962a53ee69752551c0353e1eb98d98">get_cmd_line_argument</a>(arg_name, value);</div><div class="line"><a name="l00176"></a><span class="lineno">  176</span>&#160;</div><div class="line"><a name="l00177"></a><span class="lineno">  177</span>&#160;      <a class="code" href="structcutlass_1_1CommandLine.html#a1944da52162e04b12a82ce0c1ade676e">tokenize</a>(tokens, value, delim, sep);</div><div class="line"><a name="l00178"></a><span class="lineno">  178</span>&#160;    }</div><div class="line"><a name="l00179"></a><span class="lineno">  179</span>&#160;  }</div><div class="line"><a name="l00180"></a><span class="lineno">  180</span>&#160;</div><div class="line"><a name="l00185"></a><span class="lineno"><a class="line" href="structcutlass_1_1CommandLine.html#a935f23b162d87148cadb56f9a16e094e">  185</a></span>&#160;  <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1CommandLine.html#a935f23b162d87148cadb56f9a16e094e">get_cmd_line_argument_ranges</a>(<span class="keyword">const</span> <span class="keywordtype">char</span>* arg_name,</div><div class="line"><a name="l00186"></a><span class="lineno">  186</span>&#160;                                    std::vector&lt;std::vector&lt;std::string&gt; &gt;&amp; vals,</div><div class="line"><a name="l00187"></a><span class="lineno">  187</span>&#160;                                    <span class="keywordtype">char</span> delim = <span class="charliteral">&#39;,&#39;</span>,</div><div class="line"><a name="l00188"></a><span class="lineno">  188</span>&#160;                                    <span class="keywordtype">char</span> sep = <span class="charliteral">&#39;:&#39;</span>)<span class="keyword"> const </span>{</div><div class="line"><a name="l00189"></a><span class="lineno">  189</span>&#160;    std::vector&lt;std::string&gt; ranges;</div><div class="line"><a name="l00190"></a><span class="lineno">  190</span>&#160;    <a class="code" href="structcutlass_1_1CommandLine.html#a604c5d891f1328b071290d5341119c2c">get_cmd_line_arguments</a>(arg_name, ranges, delim);</div><div class="line"><a name="l00191"></a><span class="lineno">  191</span>&#160;</div><div class="line"><a name="l00192"></a><span class="lineno">  192</span>&#160;    <span class="keywordflow">for</span> (std::vector&lt;std::string&gt;::const_iterator range = ranges.begin();</div><div class="line"><a name="l00193"></a><span class="lineno">  193</span>&#160;      range != ranges.end(); ++range) {</div><div class="line"><a name="l00194"></a><span class="lineno">  194</span>&#160;</div><div class="line"><a name="l00195"></a><span class="lineno">  195</span>&#160;      std::vector&lt;std::string&gt; range_vals;</div><div class="line"><a name="l00196"></a><span class="lineno">  196</span>&#160;      <a class="code" href="structcutlass_1_1CommandLine.html#a5f86e4b2bd8c44b739c83530d77c5590">seperate_string</a>(*range, range_vals, sep);</div><div class="line"><a name="l00197"></a><span class="lineno">  197</span>&#160;      vals.push_back(range_vals);</div><div class="line"><a name="l00198"></a><span class="lineno">  198</span>&#160;    }</div><div class="line"><a name="l00199"></a><span class="lineno">  199</span>&#160;  }</div><div class="line"><a name="l00200"></a><span class="lineno">  200</span>&#160;</div><div class="line"><a name="l00204"></a><span class="lineno"><a class="line" href="structcutlass_1_1CommandLine.html#a228e1a273d223eec4b2f6d73135d3c1e">  204</a></span>&#160;  <span class="keywordtype">int</span> <a class="code" href="structcutlass_1_1CommandLine.html#a228e1a273d223eec4b2f6d73135d3c1e">parsed_argc</a>()<span class="keyword"> const </span>{ <span class="keywordflow">return</span> (<span class="keywordtype">int</span>)keys.size(); }</div><div class="line"><a name="l00205"></a><span class="lineno">  205</span>&#160;</div><div class="line"><a name="l00206"></a><span class="lineno">  206</span>&#160;  <span class="comment">//-------------------------------------------------------------------------</span></div><div class="line"><a name="l00207"></a><span class="lineno">  207</span>&#160;  <span class="comment">// Utility functions</span></div><div class="line"><a name="l00208"></a><span class="lineno">  208</span>&#160;  <span class="comment">//-------------------------------------------------------------------------</span></div><div class="line"><a name="l00209"></a><span class="lineno">  209</span>&#160;</div><div class="line"><a name="l00211"></a><span class="lineno"><a class="line" href="structcutlass_1_1CommandLine.html#a1944da52162e04b12a82ce0c1ade676e">  211</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1CommandLine.html#a1944da52162e04b12a82ce0c1ade676e">tokenize</a>(std::vector&lt;std::pair&lt;std::string, std::string&gt; &gt;&amp; tokens,</div><div class="line"><a name="l00212"></a><span class="lineno">  212</span>&#160;                       std::string <span class="keyword">const</span>&amp; str,</div><div class="line"><a name="l00213"></a><span class="lineno">  213</span>&#160;                       <span class="keywordtype">char</span> delim = <span class="charliteral">&#39;,&#39;</span>,</div><div class="line"><a name="l00214"></a><span class="lineno">  214</span>&#160;                       <span class="keywordtype">char</span> sep = <span class="charliteral">&#39;:&#39;</span>) {</div><div class="line"><a name="l00215"></a><span class="lineno">  215</span>&#160;    <span class="comment">// Home-built to avoid Boost dependency</span></div><div class="line"><a name="l00216"></a><span class="lineno">  216</span>&#160;    <span class="keywordtype">size_t</span> s_idx = 0;</div><div class="line"><a name="l00217"></a><span class="lineno">  217</span>&#160;    <span class="keywordtype">size_t</span> d_idx = std::string::npos;</div><div class="line"><a name="l00218"></a><span class="lineno">  218</span>&#160;    <span class="keywordflow">while</span> (s_idx &lt; str.size()) {</div><div class="line"><a name="l00219"></a><span class="lineno">  219</span>&#160;      d_idx = str.find_first_of(delim, s_idx);</div><div class="line"><a name="l00220"></a><span class="lineno">  220</span>&#160;</div><div class="line"><a name="l00221"></a><span class="lineno">  221</span>&#160;      <span class="keywordtype">size_t</span> end_idx = (d_idx != std::string::npos ? d_idx : str.size());</div><div class="line"><a name="l00222"></a><span class="lineno">  222</span>&#160;      <span class="keywordtype">size_t</span> sep_idx = str.find_first_of(sep, s_idx);</div><div class="line"><a name="l00223"></a><span class="lineno">  223</span>&#160;      <span class="keywordtype">size_t</span> offset = 1;</div><div class="line"><a name="l00224"></a><span class="lineno">  224</span>&#160;      <span class="keywordflow">if</span> (sep_idx == std::string::npos || sep_idx &gt;= end_idx) {</div><div class="line"><a name="l00225"></a><span class="lineno">  225</span>&#160;        sep_idx = end_idx;</div><div class="line"><a name="l00226"></a><span class="lineno">  226</span>&#160;        offset = 0;</div><div class="line"><a name="l00227"></a><span class="lineno">  227</span>&#160;      }</div><div class="line"><a name="l00228"></a><span class="lineno">  228</span>&#160;</div><div class="line"><a name="l00229"></a><span class="lineno">  229</span>&#160;      std::pair&lt;std::string, std::string&gt; item(</div><div class="line"><a name="l00230"></a><span class="lineno">  230</span>&#160;          str.substr(s_idx, sep_idx - s_idx),</div><div class="line"><a name="l00231"></a><span class="lineno">  231</span>&#160;          str.substr(sep_idx + offset, end_idx - sep_idx - offset));</div><div class="line"><a name="l00232"></a><span class="lineno">  232</span>&#160;</div><div class="line"><a name="l00233"></a><span class="lineno">  233</span>&#160;      tokens.push_back(item);</div><div class="line"><a name="l00234"></a><span class="lineno">  234</span>&#160;      s_idx = end_idx + 1;</div><div class="line"><a name="l00235"></a><span class="lineno">  235</span>&#160;    }</div><div class="line"><a name="l00236"></a><span class="lineno">  236</span>&#160;  }</div><div class="line"><a name="l00237"></a><span class="lineno">  237</span>&#160;</div><div class="line"><a name="l00239"></a><span class="lineno"><a class="line" href="structcutlass_1_1CommandLine.html#a440c25cfb006f218ff4705a43320a28b">  239</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1CommandLine.html#a440c25cfb006f218ff4705a43320a28b">tokenize</a>(std::vector&lt;std::string&gt;&amp; tokens,</div><div class="line"><a name="l00240"></a><span class="lineno">  240</span>&#160;                       std::string <span class="keyword">const</span>&amp; str,</div><div class="line"><a name="l00241"></a><span class="lineno">  241</span>&#160;                       <span class="keywordtype">char</span> delim = <span class="charliteral">&#39;,&#39;</span>,</div><div class="line"><a name="l00242"></a><span class="lineno">  242</span>&#160;                       <span class="keywordtype">char</span> sep = <span class="charliteral">&#39;:&#39;</span>) {</div><div class="line"><a name="l00243"></a><span class="lineno">  243</span>&#160;    <span class="keyword">typedef</span> std::vector&lt;std::pair&lt;std::string, std::string&gt; &gt; TokenVector;</div><div class="line"><a name="l00244"></a><span class="lineno">  244</span>&#160;    <span class="keyword">typedef</span> TokenVector::const_iterator token_iterator;</div><div class="line"><a name="l00245"></a><span class="lineno">  245</span>&#160;</div><div class="line"><a name="l00246"></a><span class="lineno">  246</span>&#160;    std::vector&lt;std::pair&lt;std::string, std::string&gt; &gt; token_pairs;</div><div class="line"><a name="l00247"></a><span class="lineno">  247</span>&#160;    <a class="code" href="structcutlass_1_1CommandLine.html#a1944da52162e04b12a82ce0c1ade676e">tokenize</a>(token_pairs, str, delim, sep);</div><div class="line"><a name="l00248"></a><span class="lineno">  248</span>&#160;    <span class="keywordflow">for</span> (token_iterator tok = token_pairs.begin(); tok != token_pairs.end(); ++tok) {</div><div class="line"><a name="l00249"></a><span class="lineno">  249</span>&#160;      tokens.push_back(tok-&gt;first);</div><div class="line"><a name="l00250"></a><span class="lineno">  250</span>&#160;    }</div><div class="line"><a name="l00251"></a><span class="lineno">  251</span>&#160;  }</div><div class="line"><a name="l00252"></a><span class="lineno">  252</span>&#160;</div><div class="line"><a name="l00253"></a><span class="lineno">  253</span>&#160;  <span class="keyword">template</span> &lt;<span class="keyword">typename</span> value_t&gt;</div><div class="line"><a name="l00254"></a><span class="lineno"><a class="line" href="structcutlass_1_1CommandLine.html#a5f86e4b2bd8c44b739c83530d77c5590">  254</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1CommandLine.html#a5f86e4b2bd8c44b739c83530d77c5590">seperate_string</a>(std::string <span class="keyword">const</span>&amp; str,</div><div class="line"><a name="l00255"></a><span class="lineno">  255</span>&#160;                              std::vector&lt;value_t&gt;&amp; vals,</div><div class="line"><a name="l00256"></a><span class="lineno">  256</span>&#160;                              <span class="keywordtype">char</span> sep = <span class="charliteral">&#39;,&#39;</span>) {</div><div class="line"><a name="l00257"></a><span class="lineno">  257</span>&#160;    std::istringstream str_stream(str);</div><div class="line"><a name="l00258"></a><span class="lineno">  258</span>&#160;    std::string::size_type old_pos = 0;</div><div class="line"><a name="l00259"></a><span class="lineno">  259</span>&#160;    std::string::size_type new_pos = 0;</div><div class="line"><a name="l00260"></a><span class="lineno">  260</span>&#160;</div><div class="line"><a name="l00261"></a><span class="lineno">  261</span>&#160;    <span class="comment">// Iterate &lt;sep&gt;-delimited values</span></div><div class="line"><a name="l00262"></a><span class="lineno">  262</span>&#160;    value_t val;</div><div class="line"><a name="l00263"></a><span class="lineno">  263</span>&#160;    <span class="keywordflow">while</span> ((new_pos = str.find(sep, old_pos)) != std::string::npos) {</div><div class="line"><a name="l00264"></a><span class="lineno">  264</span>&#160;      <span class="keywordflow">if</span> (new_pos != old_pos) {</div><div class="line"><a name="l00265"></a><span class="lineno">  265</span>&#160;        str_stream.width(new_pos - old_pos);</div><div class="line"><a name="l00266"></a><span class="lineno">  266</span>&#160;        str_stream &gt;&gt; val;</div><div class="line"><a name="l00267"></a><span class="lineno">  267</span>&#160;        vals.push_back(val);</div><div class="line"><a name="l00268"></a><span class="lineno">  268</span>&#160;      }</div><div class="line"><a name="l00269"></a><span class="lineno">  269</span>&#160;</div><div class="line"><a name="l00270"></a><span class="lineno">  270</span>&#160;      <span class="comment">// skip over delimiter</span></div><div class="line"><a name="l00271"></a><span class="lineno">  271</span>&#160;      str_stream.ignore(1);</div><div class="line"><a name="l00272"></a><span class="lineno">  272</span>&#160;      old_pos = new_pos + 1;</div><div class="line"><a name="l00273"></a><span class="lineno">  273</span>&#160;    }</div><div class="line"><a name="l00274"></a><span class="lineno">  274</span>&#160;</div><div class="line"><a name="l00275"></a><span class="lineno">  275</span>&#160;    <span class="comment">// Read last value</span></div><div class="line"><a name="l00276"></a><span class="lineno">  276</span>&#160;    str_stream &gt;&gt; val;</div><div class="line"><a name="l00277"></a><span class="lineno">  277</span>&#160;    vals.push_back(val);</div><div class="line"><a name="l00278"></a><span class="lineno">  278</span>&#160;  }</div><div class="line"><a name="l00279"></a><span class="lineno">  279</span>&#160;};</div><div class="line"><a name="l00280"></a><span class="lineno">  280</span>&#160;</div><div class="line"><a name="l00281"></a><span class="lineno">  281</span>&#160;}  <span class="comment">// namespace cutlass</span></div><div class="ttc" id="namespacecutlass_html"><div class="ttname"><a href="namespacecutlass.html">cutlass</a></div><div class="ttdef"><b>Definition:</b> aligned_buffer.h:35</div></div>
+<a href="command__line_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/******************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2011-2019, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * modification, are not permitted.</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> * ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> * WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE ARE</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> * DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE FOR ANY</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> * DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> * (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES;</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> * LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> * ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE OF THIS</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> ******************************************************************************/</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;</div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;</div><div class="line"><a name="l00027"></a><span class="lineno">   27</span>&#160;<span class="preprocessor">#include &lt;iostream&gt;</span></div><div class="line"><a name="l00028"></a><span class="lineno">   28</span>&#160;<span class="preprocessor">#include &lt;limits&gt;</span></div><div class="line"><a name="l00029"></a><span class="lineno">   29</span>&#160;<span class="preprocessor">#include &lt;sstream&gt;</span></div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;<span class="preprocessor">#include &lt;string&gt;</span></div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;<span class="preprocessor">#include &lt;vector&gt;</span></div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;</div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;<span class="preprocessor">#include &lt;cuda_runtime.h&gt;</span></div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;</div><div class="line"><a name="l00035"></a><span class="lineno">   35</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00036"></a><span class="lineno">   36</span>&#160;</div><div class="line"><a name="l00037"></a><span class="lineno">   37</span>&#160;<span class="comment">/******************************************************************************</span></div><div class="line"><a name="l00038"></a><span class="lineno">   38</span>&#160;<span class="comment"> * command_line</span></div><div class="line"><a name="l00039"></a><span class="lineno">   39</span>&#160;<span class="comment"> ******************************************************************************/</span></div><div class="line"><a name="l00040"></a><span class="lineno">   40</span>&#160;</div><div class="line"><a name="l00044"></a><span class="lineno"><a class="line" href="structcutlass_1_1CommandLine.html">   44</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1CommandLine.html">CommandLine</a> {</div><div class="line"><a name="l00045"></a><span class="lineno"><a class="line" href="structcutlass_1_1CommandLine.html#a1603f1c65c6d8d3d4262443b40e5c290">   45</a></span>&#160;  std::vector&lt;std::string&gt; <a class="code" href="structcutlass_1_1CommandLine.html#a1603f1c65c6d8d3d4262443b40e5c290">keys</a>;</div><div class="line"><a name="l00046"></a><span class="lineno"><a class="line" href="structcutlass_1_1CommandLine.html#ade127841e9730589f611b618e9440012">   46</a></span>&#160;  std::vector&lt;std::string&gt; <a class="code" href="structcutlass_1_1CommandLine.html#ade127841e9730589f611b618e9440012">values</a>;</div><div class="line"><a name="l00047"></a><span class="lineno"><a class="line" href="structcutlass_1_1CommandLine.html#a6a338671a8d323882f9d9463863eb1c1">   47</a></span>&#160;  std::vector&lt;std::string&gt; <a class="code" href="structcutlass_1_1CommandLine.html#a6a338671a8d323882f9d9463863eb1c1">args</a>;</div><div class="line"><a name="l00048"></a><span class="lineno">   48</span>&#160;</div><div class="line"><a name="l00052"></a><span class="lineno"><a class="line" href="structcutlass_1_1CommandLine.html#a7156975dc884e8b58b91c710495fc79d">   52</a></span>&#160;  <a class="code" href="structcutlass_1_1CommandLine.html#a7156975dc884e8b58b91c710495fc79d">CommandLine</a>(<span class="keywordtype">int</span> argc, <span class="keyword">const</span> <span class="keywordtype">char</span>** argv) {</div><div class="line"><a name="l00053"></a><span class="lineno">   53</span>&#160;    <span class="keyword">using namespace </span><a class="code" href="namespacestd.html">std</a>;</div><div class="line"><a name="l00054"></a><span class="lineno">   54</span>&#160;</div><div class="line"><a name="l00055"></a><span class="lineno">   55</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 1; i &lt; argc; i++) {</div><div class="line"><a name="l00056"></a><span class="lineno">   56</span>&#160;      <span class="keywordtype">string</span> <a class="code" href="namespacecutlass.html#a2d34a68d49bf2a35de81b6600425b645">arg</a> = argv[i];</div><div class="line"><a name="l00057"></a><span class="lineno">   57</span>&#160;</div><div class="line"><a name="l00058"></a><span class="lineno">   58</span>&#160;      <span class="keywordflow">if</span> ((arg[0] != <span class="charliteral">&#39;-&#39;</span>) || (arg[1] != <span class="charliteral">&#39;-&#39;</span>)) {</div><div class="line"><a name="l00059"></a><span class="lineno">   59</span>&#160;        args.push_back(arg);</div><div class="line"><a name="l00060"></a><span class="lineno">   60</span>&#160;        <span class="keywordflow">continue</span>;</div><div class="line"><a name="l00061"></a><span class="lineno">   61</span>&#160;      }</div><div class="line"><a name="l00062"></a><span class="lineno">   62</span>&#160;</div><div class="line"><a name="l00063"></a><span class="lineno">   63</span>&#160;      string::size_type pos;</div><div class="line"><a name="l00064"></a><span class="lineno">   64</span>&#160;      <span class="keywordtype">string</span> key, val;</div><div class="line"><a name="l00065"></a><span class="lineno">   65</span>&#160;      <span class="keywordflow">if</span> ((pos = arg.find(<span class="charliteral">&#39;=&#39;</span>)) == string::npos) {</div><div class="line"><a name="l00066"></a><span class="lineno">   66</span>&#160;        key = string(arg, 2, arg.length() - 2);</div><div class="line"><a name="l00067"></a><span class="lineno">   67</span>&#160;        val = <span class="stringliteral">&quot;&quot;</span>;</div><div class="line"><a name="l00068"></a><span class="lineno">   68</span>&#160;      } <span class="keywordflow">else</span> {</div><div class="line"><a name="l00069"></a><span class="lineno">   69</span>&#160;        key = string(arg, 2, pos - 2);</div><div class="line"><a name="l00070"></a><span class="lineno">   70</span>&#160;        val = string(arg, pos + 1, arg.length() - 1);</div><div class="line"><a name="l00071"></a><span class="lineno">   71</span>&#160;      }</div><div class="line"><a name="l00072"></a><span class="lineno">   72</span>&#160;</div><div class="line"><a name="l00073"></a><span class="lineno">   73</span>&#160;      keys.push_back(key);</div><div class="line"><a name="l00074"></a><span class="lineno">   74</span>&#160;      values.push_back(val);</div><div class="line"><a name="l00075"></a><span class="lineno">   75</span>&#160;    }</div><div class="line"><a name="l00076"></a><span class="lineno">   76</span>&#160;  }</div><div class="line"><a name="l00077"></a><span class="lineno">   77</span>&#160;</div><div class="line"><a name="l00081"></a><span class="lineno"><a class="line" href="structcutlass_1_1CommandLine.html#a5a20785501f9ed3d4a57241b08399552">   81</a></span>&#160;  <span class="keywordtype">bool</span> <a class="code" href="structcutlass_1_1CommandLine.html#a5a20785501f9ed3d4a57241b08399552">check_cmd_line_flag</a>(<span class="keyword">const</span> <span class="keywordtype">char</span>* arg_name)<span class="keyword"> const </span>{</div><div class="line"><a name="l00082"></a><span class="lineno">   82</span>&#160;    <span class="keyword">using namespace </span><a class="code" href="namespacestd.html">std</a>;</div><div class="line"><a name="l00083"></a><span class="lineno">   83</span>&#160;</div><div class="line"><a name="l00084"></a><span class="lineno">   84</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 0; i &lt; int(keys.size()); ++i) {</div><div class="line"><a name="l00085"></a><span class="lineno">   85</span>&#160;      <span class="keywordflow">if</span> (keys[i] == <span class="keywordtype">string</span>(arg_name)) <span class="keywordflow">return</span> <span class="keyword">true</span>;</div><div class="line"><a name="l00086"></a><span class="lineno">   86</span>&#160;    }</div><div class="line"><a name="l00087"></a><span class="lineno">   87</span>&#160;    <span class="keywordflow">return</span> <span class="keyword">false</span>;</div><div class="line"><a name="l00088"></a><span class="lineno">   88</span>&#160;  }</div><div class="line"><a name="l00089"></a><span class="lineno">   89</span>&#160;</div><div class="line"><a name="l00093"></a><span class="lineno">   93</span>&#160;  <span class="keyword">template</span> &lt;<span class="keyword">typename</span> value_t&gt;</div><div class="line"><a name="l00094"></a><span class="lineno"><a class="line" href="structcutlass_1_1CommandLine.html#a0bee40a3cc6078a08eec5d4ca4711f61">   94</a></span>&#160;  <span class="keywordtype">int</span> <a class="code" href="structcutlass_1_1CommandLine.html#a0bee40a3cc6078a08eec5d4ca4711f61">num_naked_args</a>()<span class="keyword"> const </span>{</div><div class="line"><a name="l00095"></a><span class="lineno">   95</span>&#160;    <span class="keywordflow">return</span> args.size();</div><div class="line"><a name="l00096"></a><span class="lineno">   96</span>&#160;  }</div><div class="line"><a name="l00097"></a><span class="lineno">   97</span>&#160;</div><div class="line"><a name="l00101"></a><span class="lineno">  101</span>&#160;  <span class="keyword">template</span> &lt;<span class="keyword">typename</span> value_t&gt;</div><div class="line"><a name="l00102"></a><span class="lineno"><a class="line" href="structcutlass_1_1CommandLine.html#a06962a53ee69752551c0353e1eb98d98">  102</a></span>&#160;  <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1CommandLine.html#a06962a53ee69752551c0353e1eb98d98">get_cmd_line_argument</a>(<span class="keywordtype">int</span> index, value_t&amp; val)<span class="keyword"> const </span>{</div><div class="line"><a name="l00103"></a><span class="lineno">  103</span>&#160;    <span class="keyword">using namespace </span><a class="code" href="namespacestd.html">std</a>;</div><div class="line"><a name="l00104"></a><span class="lineno">  104</span>&#160;    <span class="keywordflow">if</span> (index &lt; args.size()) {</div><div class="line"><a name="l00105"></a><span class="lineno">  105</span>&#160;      istringstream str_stream(args[index]);</div><div class="line"><a name="l00106"></a><span class="lineno">  106</span>&#160;      str_stream &gt;&gt; val;</div><div class="line"><a name="l00107"></a><span class="lineno">  107</span>&#160;    }</div><div class="line"><a name="l00108"></a><span class="lineno">  108</span>&#160;  }</div><div class="line"><a name="l00109"></a><span class="lineno">  109</span>&#160;</div><div class="line"><a name="l00113"></a><span class="lineno"><a class="line" href="structcutlass_1_1CommandLine.html#a9ac897e414cfeddad031b1384ffe815e">  113</a></span>&#160;  <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1CommandLine.html#a9ac897e414cfeddad031b1384ffe815e">get_cmd_line_argument</a>(<span class="keyword">const</span> <span class="keywordtype">char</span>* arg_name, <span class="keywordtype">bool</span>&amp; val, <span class="keywordtype">bool</span> _default = <span class="keyword">true</span>)<span class="keyword"> const </span>{</div><div class="line"><a name="l00114"></a><span class="lineno">  114</span>&#160;    val = _default;</div><div class="line"><a name="l00115"></a><span class="lineno">  115</span>&#160;    <span class="keywordflow">if</span> (<a class="code" href="structcutlass_1_1CommandLine.html#a5a20785501f9ed3d4a57241b08399552">check_cmd_line_flag</a>(arg_name)) {</div><div class="line"><a name="l00116"></a><span class="lineno">  116</span>&#160;      std::string value;</div><div class="line"><a name="l00117"></a><span class="lineno">  117</span>&#160;      <a class="code" href="structcutlass_1_1CommandLine.html#a06962a53ee69752551c0353e1eb98d98">get_cmd_line_argument</a>(arg_name, value);</div><div class="line"><a name="l00118"></a><span class="lineno">  118</span>&#160;</div><div class="line"><a name="l00119"></a><span class="lineno">  119</span>&#160;      val = !(value == <span class="stringliteral">&quot;0&quot;</span> || value == <span class="stringliteral">&quot;false&quot;</span>);</div><div class="line"><a name="l00120"></a><span class="lineno">  120</span>&#160;    }</div><div class="line"><a name="l00121"></a><span class="lineno">  121</span>&#160;  }</div><div class="line"><a name="l00122"></a><span class="lineno">  122</span>&#160;</div><div class="line"><a name="l00126"></a><span class="lineno">  126</span>&#160;  <span class="keyword">template</span> &lt;<span class="keyword">typename</span> value_t&gt;</div><div class="line"><a name="l00127"></a><span class="lineno"><a class="line" href="structcutlass_1_1CommandLine.html#a206ae1ef3a4cc1a10dabd9d651be50d0">  127</a></span>&#160;  <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1CommandLine.html#a206ae1ef3a4cc1a10dabd9d651be50d0">get_cmd_line_argument</a>(<span class="keyword">const</span> <span class="keywordtype">char</span>* arg_name,</div><div class="line"><a name="l00128"></a><span class="lineno">  128</span>&#160;                             value_t&amp; val,</div><div class="line"><a name="l00129"></a><span class="lineno">  129</span>&#160;                             value_t <span class="keyword">const</span>&amp; _default = value_t())<span class="keyword"> const </span>{</div><div class="line"><a name="l00130"></a><span class="lineno">  130</span>&#160;    <span class="keyword">using namespace </span><a class="code" href="namespacestd.html">std</a>;</div><div class="line"><a name="l00131"></a><span class="lineno">  131</span>&#160;</div><div class="line"><a name="l00132"></a><span class="lineno">  132</span>&#160;    val = _default;</div><div class="line"><a name="l00133"></a><span class="lineno">  133</span>&#160;</div><div class="line"><a name="l00134"></a><span class="lineno">  134</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 0; i &lt; int(keys.size()); ++i) {</div><div class="line"><a name="l00135"></a><span class="lineno">  135</span>&#160;      <span class="keywordflow">if</span> (keys[i] == <span class="keywordtype">string</span>(arg_name)) {</div><div class="line"><a name="l00136"></a><span class="lineno">  136</span>&#160;        istringstream str_stream(values[i]);</div><div class="line"><a name="l00137"></a><span class="lineno">  137</span>&#160;        str_stream &gt;&gt; val;</div><div class="line"><a name="l00138"></a><span class="lineno">  138</span>&#160;      }</div><div class="line"><a name="l00139"></a><span class="lineno">  139</span>&#160;    }</div><div class="line"><a name="l00140"></a><span class="lineno">  140</span>&#160;  }</div><div class="line"><a name="l00141"></a><span class="lineno">  141</span>&#160;</div><div class="line"><a name="l00145"></a><span class="lineno">  145</span>&#160;  <span class="keyword">template</span> &lt;<span class="keyword">typename</span> value_t&gt;</div><div class="line"><a name="l00146"></a><span class="lineno"><a class="line" href="structcutlass_1_1CommandLine.html#a604c5d891f1328b071290d5341119c2c">  146</a></span>&#160;  <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1CommandLine.html#a604c5d891f1328b071290d5341119c2c">get_cmd_line_arguments</a>(<span class="keyword">const</span> <span class="keywordtype">char</span>* arg_name,</div><div class="line"><a name="l00147"></a><span class="lineno">  147</span>&#160;                              std::vector&lt;value_t&gt;&amp; vals,</div><div class="line"><a name="l00148"></a><span class="lineno">  148</span>&#160;                              <span class="keywordtype">char</span> sep = <span class="charliteral">&#39;,&#39;</span>)<span class="keyword"> const </span>{</div><div class="line"><a name="l00149"></a><span class="lineno">  149</span>&#160;    <span class="keyword">using namespace </span><a class="code" href="namespacestd.html">std</a>;</div><div class="line"><a name="l00150"></a><span class="lineno">  150</span>&#160;</div><div class="line"><a name="l00151"></a><span class="lineno">  151</span>&#160;    <span class="keywordflow">if</span> (<a class="code" href="structcutlass_1_1CommandLine.html#a5a20785501f9ed3d4a57241b08399552">check_cmd_line_flag</a>(arg_name)) {</div><div class="line"><a name="l00152"></a><span class="lineno">  152</span>&#160;      <span class="comment">// Clear any default values</span></div><div class="line"><a name="l00153"></a><span class="lineno">  153</span>&#160;      vals.clear();</div><div class="line"><a name="l00154"></a><span class="lineno">  154</span>&#160;</div><div class="line"><a name="l00155"></a><span class="lineno">  155</span>&#160;      <span class="comment">// Recover from multi-value string</span></div><div class="line"><a name="l00156"></a><span class="lineno">  156</span>&#160;      <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 0; i &lt; keys.size(); ++i) {</div><div class="line"><a name="l00157"></a><span class="lineno">  157</span>&#160;        <span class="keywordflow">if</span> (keys[i] == <span class="keywordtype">string</span>(arg_name)) {</div><div class="line"><a name="l00158"></a><span class="lineno">  158</span>&#160;          <span class="keywordtype">string</span> val_string(values[i]);</div><div class="line"><a name="l00159"></a><span class="lineno">  159</span>&#160;          <a class="code" href="structcutlass_1_1CommandLine.html#a5f86e4b2bd8c44b739c83530d77c5590">separate_string</a>(val_string, vals, sep);</div><div class="line"><a name="l00160"></a><span class="lineno">  160</span>&#160;        }</div><div class="line"><a name="l00161"></a><span class="lineno">  161</span>&#160;      }</div><div class="line"><a name="l00162"></a><span class="lineno">  162</span>&#160;    }</div><div class="line"><a name="l00163"></a><span class="lineno">  163</span>&#160;  }</div><div class="line"><a name="l00164"></a><span class="lineno">  164</span>&#160;</div><div class="line"><a name="l00169"></a><span class="lineno"><a class="line" href="structcutlass_1_1CommandLine.html#a38f905a17e6c6e7bd2d1bea9e0c72088">  169</a></span>&#160;  <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1CommandLine.html#a38f905a17e6c6e7bd2d1bea9e0c72088">get_cmd_line_argument_pairs</a>(<span class="keyword">const</span> <span class="keywordtype">char</span>* arg_name,</div><div class="line"><a name="l00170"></a><span class="lineno">  170</span>&#160;                                   std::vector&lt;std::pair&lt;std::string, std::string&gt; &gt;&amp; tokens,</div><div class="line"><a name="l00171"></a><span class="lineno">  171</span>&#160;                                   <span class="keywordtype">char</span> delim = <span class="charliteral">&#39;,&#39;</span>,</div><div class="line"><a name="l00172"></a><span class="lineno">  172</span>&#160;                                   <span class="keywordtype">char</span> sep = <span class="charliteral">&#39;:&#39;</span>)<span class="keyword"> const </span>{</div><div class="line"><a name="l00173"></a><span class="lineno">  173</span>&#160;    <span class="keywordflow">if</span> (<a class="code" href="structcutlass_1_1CommandLine.html#a5a20785501f9ed3d4a57241b08399552">check_cmd_line_flag</a>(arg_name)) {</div><div class="line"><a name="l00174"></a><span class="lineno">  174</span>&#160;      std::string value;</div><div class="line"><a name="l00175"></a><span class="lineno">  175</span>&#160;      <a class="code" href="structcutlass_1_1CommandLine.html#a06962a53ee69752551c0353e1eb98d98">get_cmd_line_argument</a>(arg_name, value);</div><div class="line"><a name="l00176"></a><span class="lineno">  176</span>&#160;</div><div class="line"><a name="l00177"></a><span class="lineno">  177</span>&#160;      <a class="code" href="structcutlass_1_1CommandLine.html#a1944da52162e04b12a82ce0c1ade676e">tokenize</a>(tokens, value, delim, sep);</div><div class="line"><a name="l00178"></a><span class="lineno">  178</span>&#160;    }</div><div class="line"><a name="l00179"></a><span class="lineno">  179</span>&#160;  }</div><div class="line"><a name="l00180"></a><span class="lineno">  180</span>&#160;</div><div class="line"><a name="l00185"></a><span class="lineno"><a class="line" href="structcutlass_1_1CommandLine.html#a935f23b162d87148cadb56f9a16e094e">  185</a></span>&#160;  <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1CommandLine.html#a935f23b162d87148cadb56f9a16e094e">get_cmd_line_argument_ranges</a>(<span class="keyword">const</span> <span class="keywordtype">char</span>* arg_name,</div><div class="line"><a name="l00186"></a><span class="lineno">  186</span>&#160;                                    std::vector&lt;std::vector&lt;std::string&gt; &gt;&amp; vals,</div><div class="line"><a name="l00187"></a><span class="lineno">  187</span>&#160;                                    <span class="keywordtype">char</span> delim = <span class="charliteral">&#39;,&#39;</span>,</div><div class="line"><a name="l00188"></a><span class="lineno">  188</span>&#160;                                    <span class="keywordtype">char</span> sep = <span class="charliteral">&#39;:&#39;</span>)<span class="keyword"> const </span>{</div><div class="line"><a name="l00189"></a><span class="lineno">  189</span>&#160;    std::vector&lt;std::string&gt; ranges;</div><div class="line"><a name="l00190"></a><span class="lineno">  190</span>&#160;    <a class="code" href="structcutlass_1_1CommandLine.html#a604c5d891f1328b071290d5341119c2c">get_cmd_line_arguments</a>(arg_name, ranges, delim);</div><div class="line"><a name="l00191"></a><span class="lineno">  191</span>&#160;</div><div class="line"><a name="l00192"></a><span class="lineno">  192</span>&#160;    <span class="keywordflow">for</span> (std::vector&lt;std::string&gt;::const_iterator range = ranges.begin();</div><div class="line"><a name="l00193"></a><span class="lineno">  193</span>&#160;      range != ranges.end(); ++range) {</div><div class="line"><a name="l00194"></a><span class="lineno">  194</span>&#160;</div><div class="line"><a name="l00195"></a><span class="lineno">  195</span>&#160;      std::vector&lt;std::string&gt; range_vals;</div><div class="line"><a name="l00196"></a><span class="lineno">  196</span>&#160;      <a class="code" href="structcutlass_1_1CommandLine.html#a5f86e4b2bd8c44b739c83530d77c5590">separate_string</a>(*range, range_vals, sep);</div><div class="line"><a name="l00197"></a><span class="lineno">  197</span>&#160;      vals.push_back(range_vals);</div><div class="line"><a name="l00198"></a><span class="lineno">  198</span>&#160;    }</div><div class="line"><a name="l00199"></a><span class="lineno">  199</span>&#160;  }</div><div class="line"><a name="l00200"></a><span class="lineno">  200</span>&#160;</div><div class="line"><a name="l00204"></a><span class="lineno"><a class="line" href="structcutlass_1_1CommandLine.html#a228e1a273d223eec4b2f6d73135d3c1e">  204</a></span>&#160;  <span class="keywordtype">int</span> <a class="code" href="structcutlass_1_1CommandLine.html#a228e1a273d223eec4b2f6d73135d3c1e">parsed_argc</a>()<span class="keyword"> const </span>{ <span class="keywordflow">return</span> (<span class="keywordtype">int</span>)keys.size(); }</div><div class="line"><a name="l00205"></a><span class="lineno">  205</span>&#160;</div><div class="line"><a name="l00206"></a><span class="lineno">  206</span>&#160;  <span class="comment">//-------------------------------------------------------------------------</span></div><div class="line"><a name="l00207"></a><span class="lineno">  207</span>&#160;  <span class="comment">// Utility functions</span></div><div class="line"><a name="l00208"></a><span class="lineno">  208</span>&#160;  <span class="comment">//-------------------------------------------------------------------------</span></div><div class="line"><a name="l00209"></a><span class="lineno">  209</span>&#160;</div><div class="line"><a name="l00211"></a><span class="lineno"><a class="line" href="structcutlass_1_1CommandLine.html#a1944da52162e04b12a82ce0c1ade676e">  211</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1CommandLine.html#a1944da52162e04b12a82ce0c1ade676e">tokenize</a>(std::vector&lt;std::pair&lt;std::string, std::string&gt; &gt;&amp; tokens,</div><div class="line"><a name="l00212"></a><span class="lineno">  212</span>&#160;                       std::string <span class="keyword">const</span>&amp; str,</div><div class="line"><a name="l00213"></a><span class="lineno">  213</span>&#160;                       <span class="keywordtype">char</span> delim = <span class="charliteral">&#39;,&#39;</span>,</div><div class="line"><a name="l00214"></a><span class="lineno">  214</span>&#160;                       <span class="keywordtype">char</span> sep = <span class="charliteral">&#39;:&#39;</span>) {</div><div class="line"><a name="l00215"></a><span class="lineno">  215</span>&#160;    <span class="comment">// Home-built to avoid Boost dependency</span></div><div class="line"><a name="l00216"></a><span class="lineno">  216</span>&#160;    <span class="keywordtype">size_t</span> s_idx = 0;</div><div class="line"><a name="l00217"></a><span class="lineno">  217</span>&#160;    <span class="keywordtype">size_t</span> d_idx = std::string::npos;</div><div class="line"><a name="l00218"></a><span class="lineno">  218</span>&#160;    <span class="keywordflow">while</span> (s_idx &lt; str.size()) {</div><div class="line"><a name="l00219"></a><span class="lineno">  219</span>&#160;      d_idx = str.find_first_of(delim, s_idx);</div><div class="line"><a name="l00220"></a><span class="lineno">  220</span>&#160;</div><div class="line"><a name="l00221"></a><span class="lineno">  221</span>&#160;      <span class="keywordtype">size_t</span> end_idx = (d_idx != std::string::npos ? d_idx : str.size());</div><div class="line"><a name="l00222"></a><span class="lineno">  222</span>&#160;      <span class="keywordtype">size_t</span> sep_idx = str.find_first_of(sep, s_idx);</div><div class="line"><a name="l00223"></a><span class="lineno">  223</span>&#160;      <span class="keywordtype">size_t</span> offset = 1;</div><div class="line"><a name="l00224"></a><span class="lineno">  224</span>&#160;      <span class="keywordflow">if</span> (sep_idx == std::string::npos || sep_idx &gt;= end_idx) {</div><div class="line"><a name="l00225"></a><span class="lineno">  225</span>&#160;        sep_idx = end_idx;</div><div class="line"><a name="l00226"></a><span class="lineno">  226</span>&#160;        offset = 0;</div><div class="line"><a name="l00227"></a><span class="lineno">  227</span>&#160;      }</div><div class="line"><a name="l00228"></a><span class="lineno">  228</span>&#160;</div><div class="line"><a name="l00229"></a><span class="lineno">  229</span>&#160;      std::pair&lt;std::string, std::string&gt; item(</div><div class="line"><a name="l00230"></a><span class="lineno">  230</span>&#160;          str.substr(s_idx, sep_idx - s_idx),</div><div class="line"><a name="l00231"></a><span class="lineno">  231</span>&#160;          str.substr(sep_idx + offset, end_idx - sep_idx - offset));</div><div class="line"><a name="l00232"></a><span class="lineno">  232</span>&#160;</div><div class="line"><a name="l00233"></a><span class="lineno">  233</span>&#160;      tokens.push_back(item);</div><div class="line"><a name="l00234"></a><span class="lineno">  234</span>&#160;      s_idx = end_idx + 1;</div><div class="line"><a name="l00235"></a><span class="lineno">  235</span>&#160;    }</div><div class="line"><a name="l00236"></a><span class="lineno">  236</span>&#160;  }</div><div class="line"><a name="l00237"></a><span class="lineno">  237</span>&#160;</div><div class="line"><a name="l00239"></a><span class="lineno"><a class="line" href="structcutlass_1_1CommandLine.html#a440c25cfb006f218ff4705a43320a28b">  239</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1CommandLine.html#a440c25cfb006f218ff4705a43320a28b">tokenize</a>(std::vector&lt;std::string&gt;&amp; tokens,</div><div class="line"><a name="l00240"></a><span class="lineno">  240</span>&#160;                       std::string <span class="keyword">const</span>&amp; str,</div><div class="line"><a name="l00241"></a><span class="lineno">  241</span>&#160;                       <span class="keywordtype">char</span> delim = <span class="charliteral">&#39;,&#39;</span>,</div><div class="line"><a name="l00242"></a><span class="lineno">  242</span>&#160;                       <span class="keywordtype">char</span> sep = <span class="charliteral">&#39;:&#39;</span>) {</div><div class="line"><a name="l00243"></a><span class="lineno">  243</span>&#160;    <span class="keyword">typedef</span> std::vector&lt;std::pair&lt;std::string, std::string&gt; &gt; TokenVector;</div><div class="line"><a name="l00244"></a><span class="lineno">  244</span>&#160;    <span class="keyword">typedef</span> TokenVector::const_iterator token_iterator;</div><div class="line"><a name="l00245"></a><span class="lineno">  245</span>&#160;</div><div class="line"><a name="l00246"></a><span class="lineno">  246</span>&#160;    std::vector&lt;std::pair&lt;std::string, std::string&gt; &gt; token_pairs;</div><div class="line"><a name="l00247"></a><span class="lineno">  247</span>&#160;    <a class="code" href="structcutlass_1_1CommandLine.html#a1944da52162e04b12a82ce0c1ade676e">tokenize</a>(token_pairs, str, delim, sep);</div><div class="line"><a name="l00248"></a><span class="lineno">  248</span>&#160;    <span class="keywordflow">for</span> (token_iterator tok = token_pairs.begin(); tok != token_pairs.end(); ++tok) {</div><div class="line"><a name="l00249"></a><span class="lineno">  249</span>&#160;      tokens.push_back(tok-&gt;first);</div><div class="line"><a name="l00250"></a><span class="lineno">  250</span>&#160;    }</div><div class="line"><a name="l00251"></a><span class="lineno">  251</span>&#160;  }</div><div class="line"><a name="l00252"></a><span class="lineno">  252</span>&#160;</div><div class="line"><a name="l00253"></a><span class="lineno">  253</span>&#160;  <span class="keyword">template</span> &lt;<span class="keyword">typename</span> value_t&gt;</div><div class="line"><a name="l00254"></a><span class="lineno"><a class="line" href="structcutlass_1_1CommandLine.html#a5f86e4b2bd8c44b739c83530d77c5590">  254</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1CommandLine.html#a5f86e4b2bd8c44b739c83530d77c5590">separate_string</a>(std::string <span class="keyword">const</span>&amp; str,</div><div class="line"><a name="l00255"></a><span class="lineno">  255</span>&#160;                              std::vector&lt;value_t&gt;&amp; vals,</div><div class="line"><a name="l00256"></a><span class="lineno">  256</span>&#160;                              <span class="keywordtype">char</span> sep = <span class="charliteral">&#39;,&#39;</span>) {</div><div class="line"><a name="l00257"></a><span class="lineno">  257</span>&#160;    std::istringstream str_stream(str);</div><div class="line"><a name="l00258"></a><span class="lineno">  258</span>&#160;    std::string::size_type old_pos = 0;</div><div class="line"><a name="l00259"></a><span class="lineno">  259</span>&#160;    std::string::size_type new_pos = 0;</div><div class="line"><a name="l00260"></a><span class="lineno">  260</span>&#160;</div><div class="line"><a name="l00261"></a><span class="lineno">  261</span>&#160;    <span class="comment">// Iterate &lt;sep&gt;-delimited values</span></div><div class="line"><a name="l00262"></a><span class="lineno">  262</span>&#160;    value_t val;</div><div class="line"><a name="l00263"></a><span class="lineno">  263</span>&#160;    <span class="keywordflow">while</span> ((new_pos = str.find(sep, old_pos)) != std::string::npos) {</div><div class="line"><a name="l00264"></a><span class="lineno">  264</span>&#160;      <span class="keywordflow">if</span> (new_pos != old_pos) {</div><div class="line"><a name="l00265"></a><span class="lineno">  265</span>&#160;        str_stream.width(new_pos - old_pos);</div><div class="line"><a name="l00266"></a><span class="lineno">  266</span>&#160;        str_stream &gt;&gt; val;</div><div class="line"><a name="l00267"></a><span class="lineno">  267</span>&#160;        vals.push_back(val);</div><div class="line"><a name="l00268"></a><span class="lineno">  268</span>&#160;      }</div><div class="line"><a name="l00269"></a><span class="lineno">  269</span>&#160;</div><div class="line"><a name="l00270"></a><span class="lineno">  270</span>&#160;      <span class="comment">// skip over delimiter</span></div><div class="line"><a name="l00271"></a><span class="lineno">  271</span>&#160;      str_stream.ignore(1);</div><div class="line"><a name="l00272"></a><span class="lineno">  272</span>&#160;      old_pos = new_pos + 1;</div><div class="line"><a name="l00273"></a><span class="lineno">  273</span>&#160;    }</div><div class="line"><a name="l00274"></a><span class="lineno">  274</span>&#160;</div><div class="line"><a name="l00275"></a><span class="lineno">  275</span>&#160;    <span class="comment">// Read last value</span></div><div class="line"><a name="l00276"></a><span class="lineno">  276</span>&#160;    str_stream &gt;&gt; val;</div><div class="line"><a name="l00277"></a><span class="lineno">  277</span>&#160;    vals.push_back(val);</div><div class="line"><a name="l00278"></a><span class="lineno">  278</span>&#160;  }</div><div class="line"><a name="l00279"></a><span class="lineno">  279</span>&#160;};</div><div class="line"><a name="l00280"></a><span class="lineno">  280</span>&#160;</div><div class="line"><a name="l00281"></a><span class="lineno">  281</span>&#160;}  <span class="comment">// namespace cutlass</span></div><div class="ttc" id="namespacecutlass_html"><div class="ttname"><a href="namespacecutlass.html">cutlass</a></div><div class="ttdef"><b>Definition:</b> aligned_buffer.h:35</div></div>
 <div class="ttc" id="structcutlass_1_1CommandLine_html_a206ae1ef3a4cc1a10dabd9d651be50d0"><div class="ttname"><a href="structcutlass_1_1CommandLine.html#a206ae1ef3a4cc1a10dabd9d651be50d0">cutlass::CommandLine::get_cmd_line_argument</a></div><div class="ttdeci">void get_cmd_line_argument(const char *arg_name, value_t &amp;val, value_t const &amp;_default=value_t()) const </div><div class="ttdef"><b>Definition:</b> command_line.h:127</div></div>
 <div class="ttc" id="structcutlass_1_1CommandLine_html_a38f905a17e6c6e7bd2d1bea9e0c72088"><div class="ttname"><a href="structcutlass_1_1CommandLine.html#a38f905a17e6c6e7bd2d1bea9e0c72088">cutlass::CommandLine::get_cmd_line_argument_pairs</a></div><div class="ttdeci">void get_cmd_line_argument_pairs(const char *arg_name, std::vector&lt; std::pair&lt; std::string, std::string &gt; &gt; &amp;tokens, char delim= ',', char sep= ':') const </div><div class="ttdef"><b>Definition:</b> command_line.h:169</div></div>
 <div class="ttc" id="namespacestd_html"><div class="ttname"><a href="namespacestd.html">std</a></div><div class="ttdoc">STL namespace. </div></div>
@@ -116,7 +116,7 @@
 <div class="ttc" id="structcutlass_1_1CommandLine_html_a7156975dc884e8b58b91c710495fc79d"><div class="ttname"><a href="structcutlass_1_1CommandLine.html#a7156975dc884e8b58b91c710495fc79d">cutlass::CommandLine::CommandLine</a></div><div class="ttdeci">CommandLine(int argc, const char **argv)</div><div class="ttdef"><b>Definition:</b> command_line.h:52</div></div>
 <div class="ttc" id="structcutlass_1_1CommandLine_html_a6a338671a8d323882f9d9463863eb1c1"><div class="ttname"><a href="structcutlass_1_1CommandLine.html#a6a338671a8d323882f9d9463863eb1c1">cutlass::CommandLine::args</a></div><div class="ttdeci">std::vector&lt; std::string &gt; args</div><div class="ttdef"><b>Definition:</b> command_line.h:47</div></div>
 <div class="ttc" id="structcutlass_1_1CommandLine_html"><div class="ttname"><a href="structcutlass_1_1CommandLine.html">cutlass::CommandLine</a></div><div class="ttdef"><b>Definition:</b> command_line.h:44</div></div>
-<div class="ttc" id="structcutlass_1_1CommandLine_html_a5f86e4b2bd8c44b739c83530d77c5590"><div class="ttname"><a href="structcutlass_1_1CommandLine.html#a5f86e4b2bd8c44b739c83530d77c5590">cutlass::CommandLine::seperate_string</a></div><div class="ttdeci">static void seperate_string(std::string const &amp;str, std::vector&lt; value_t &gt; &amp;vals, char sep= ',')</div><div class="ttdef"><b>Definition:</b> command_line.h:254</div></div>
+<div class="ttc" id="structcutlass_1_1CommandLine_html_a5f86e4b2bd8c44b739c83530d77c5590"><div class="ttname"><a href="structcutlass_1_1CommandLine.html#a5f86e4b2bd8c44b739c83530d77c5590">cutlass::CommandLine::separate_string</a></div><div class="ttdeci">static void separate_string(std::string const &amp;str, std::vector&lt; value_t &gt; &amp;vals, char sep= ',')</div><div class="ttdef"><b>Definition:</b> command_line.h:254</div></div>
 <div class="ttc" id="structcutlass_1_1CommandLine_html_a228e1a273d223eec4b2f6d73135d3c1e"><div class="ttname"><a href="structcutlass_1_1CommandLine.html#a228e1a273d223eec4b2f6d73135d3c1e">cutlass::CommandLine::parsed_argc</a></div><div class="ttdeci">int parsed_argc() const </div><div class="ttdef"><b>Definition:</b> command_line.h:204</div></div>
 </div><!-- fragment --></div><!-- contents -->
 <!-- start footer part -->
diff --git a/docs/device_2gemm__batched_8h.html b/docs/device_2gemm__batched_8h.html
index e648c67e..3ef58bf1 100644
--- a/docs/device_2gemm__batched_8h.html
+++ b/docs/device_2gemm__batched_8h.html
@@ -130,7 +130,7 @@
 <tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Argument structure.  <a href="structcutlass_1_1gemm_1_1device_1_1GemmBatched_1_1Arguments.html#details">More...</a><br /></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">class &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1gemm_1_1device_1_1GemmBatched_3_01ElementA___00_01LayoutA___00_01ElementB___00_0c9bb6f4463ab6085e6008b5d5ad6abfd.html">cutlass::gemm::device::GemmBatched&lt; ElementA_, LayoutA_, ElementB_, LayoutB_, ElementC_, layout::ColumnMajor, ElementAccumulator_, OperatorClass_, ArchTag_, ThreadblockShape_, WarpShape_, InstructionShape_, EpilogueOutputOp_, ThreadblockSwizzle_, Stages, AlignmentA, AlignmentB, Operator_ &gt;</a></td></tr>
-<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Parital specialization for column-major output exchanges problem size and operand.  <a href="classcutlass_1_1gemm_1_1device_1_1GemmBatched_3_01ElementA___00_01LayoutA___00_01ElementB___00_0c9bb6f4463ab6085e6008b5d5ad6abfd.html#details">More...</a><br /></td></tr>
+<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Partial specialization for column-major output exchanges problem size and operand.  <a href="classcutlass_1_1gemm_1_1device_1_1GemmBatched_3_01ElementA___00_01LayoutA___00_01ElementB___00_0c9bb6f4463ab6085e6008b5d5ad6abfd.html#details">More...</a><br /></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1device_1_1GemmBatched_3_01ElementA___00_01LayoutA___00_01ElementB___00_213d78696663f4231cd52c6a277c60e5.html">cutlass::gemm::device::GemmBatched&lt; ElementA_, LayoutA_, ElementB_, LayoutB_, ElementC_, layout::ColumnMajor, ElementAccumulator_, OperatorClass_, ArchTag_, ThreadblockShape_, WarpShape_, InstructionShape_, EpilogueOutputOp_, ThreadblockSwizzle_, Stages, AlignmentA, AlignmentB, Operator_ &gt;::Arguments</a></td></tr>
 <tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Argument structure.  <a href="structcutlass_1_1gemm_1_1device_1_1GemmBatched_3_01ElementA___00_01LayoutA___00_01ElementB___00_213d78696663f4231cd52c6a277c60e5.html#details">More...</a><br /></td></tr>
diff --git a/docs/device_2kernel_2tensor__foreach_8h_source.html b/docs/device_2kernel_2tensor__foreach_8h_source.html
index a4839c25..21c8fb59 100644
--- a/docs/device_2kernel_2tensor__foreach_8h_source.html
+++ b/docs/device_2kernel_2tensor__foreach_8h_source.html
@@ -100,7 +100,7 @@
 <div class="contents">
 <a href="device_2kernel_2tensor__foreach_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2019, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00025"></a><span class="lineno">   25</span>&#160;</div><div class="line"><a name="l00026"></a><span class="lineno">   26</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00027"></a><span class="lineno">   27</span>&#160;</div><div class="line"><a name="l00028"></a><span class="lineno">   28</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="cutlass_8h.html">cutlass/cutlass.h</a>&quot;</span></div><div class="line"><a name="l00029"></a><span class="lineno">   29</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="coord_8h.html">cutlass/coord.h</a>&quot;</span></div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;</div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;<span class="keyword">namespace </span>reference {</div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;<span class="keyword">namespace </span>device {</div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;<span class="keyword">namespace </span>kernel {</div><div class="line"><a name="l00035"></a><span class="lineno">   35</span>&#160;</div><div class="line"><a name="l00037"></a><span class="lineno">   37</span>&#160;</div><div class="line"><a name="l00039"></a><span class="lineno"><a class="line" href="namespacecutlass_1_1reference_1_1device_1_1kernel_1_1detail.html">   39</a></span>&#160;<span class="keyword">namespace </span>detail {</div><div class="line"><a name="l00040"></a><span class="lineno">   40</span>&#160;</div><div class="line"><a name="l00042"></a><span class="lineno">   42</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Func, <span class="keywordtype">int</span> Rank, <span class="keywordtype">int</span> RankRemaining&gt;</div><div class="line"><a name="l00043"></a><span class="lineno"><a class="line" href="structcutlass_1_1reference_1_1device_1_1kernel_1_1detail_1_1TensorForEachHelper.html">   43</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1reference_1_1device_1_1kernel_1_1detail_1_1TensorForEachHelper.html">TensorForEachHelper</a> {</div><div class="line"><a name="l00044"></a><span class="lineno">   44</span>&#160;</div><div class="line"><a name="l00046"></a><span class="lineno">   46</span>&#160;  __inline__ __device__</div><div class="line"><a name="l00047"></a><span class="lineno"><a class="line" href="structcutlass_1_1reference_1_1device_1_1kernel_1_1detail_1_1TensorForEachHelper.html#a3f3002a3173247d60a18298ef3ff9dbf">   47</a></span>&#160;  <a class="code" href="structcutlass_1_1reference_1_1device_1_1kernel_1_1detail_1_1TensorForEachHelper.html#a3f3002a3173247d60a18298ef3ff9dbf">TensorForEachHelper</a>(Func &amp;func, <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;Rank&gt;</a> <span class="keyword">const</span> &amp;size, <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;Rank&gt;</a> &amp;coord, int64_t index) {</div><div class="line"><a name="l00048"></a><span class="lineno">   48</span>&#160;</div><div class="line"><a name="l00049"></a><span class="lineno">   49</span>&#160;    int64_t product = 1;</div><div class="line"><a name="l00050"></a><span class="lineno">   50</span>&#160;</div><div class="line"><a name="l00051"></a><span class="lineno">   51</span>&#160;    <a class="code" href="cutlass_8h.html#a4b1c9f25ab6eaa25e1f2258dd63e6ce4">CUTLASS_PRAGMA_UNROLL</a></div><div class="line"><a name="l00052"></a><span class="lineno">   52</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = Rank - RankRemaining; i &lt; Rank; ++i) {</div><div class="line"><a name="l00053"></a><span class="lineno">   53</span>&#160;      product *= size[i];</div><div class="line"><a name="l00054"></a><span class="lineno">   54</span>&#160;    }</div><div class="line"><a name="l00055"></a><span class="lineno">   55</span>&#160;</div><div class="line"><a name="l00056"></a><span class="lineno">   56</span>&#160;    coord[Rank - 1 - RankRemaining] = index / product;</div><div class="line"><a name="l00057"></a><span class="lineno">   57</span>&#160;    int64_t remaining = index % product;</div><div class="line"><a name="l00058"></a><span class="lineno">   58</span>&#160;    </div><div class="line"><a name="l00059"></a><span class="lineno">   59</span>&#160;    <a class="code" href="structcutlass_1_1reference_1_1device_1_1kernel_1_1detail_1_1TensorForEachHelper.html">TensorForEachHelper</a>&lt;Func, Rank, RankRemaining-1&gt;(func, size, coord, remaining);</div><div class="line"><a name="l00060"></a><span class="lineno">   60</span>&#160;  }</div><div class="line"><a name="l00061"></a><span class="lineno">   61</span>&#160;};</div><div class="line"><a name="l00062"></a><span class="lineno">   62</span>&#160;</div><div class="line"><a name="l00064"></a><span class="lineno">   64</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Func, <span class="keywordtype">int</span> Rank&gt;</div><div class="line"><a name="l00065"></a><span class="lineno"><a class="line" href="structcutlass_1_1reference_1_1device_1_1kernel_1_1detail_1_1TensorForEachHelper_3_01Func_00_01Rank_00_010_01_4.html">   65</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1reference_1_1device_1_1kernel_1_1detail_1_1TensorForEachHelper.html">TensorForEachHelper</a>&lt;Func, Rank, 0&gt; {</div><div class="line"><a name="l00066"></a><span class="lineno">   66</span>&#160;</div><div class="line"><a name="l00068"></a><span class="lineno">   68</span>&#160;  __inline__ __device__</div><div class="line"><a name="l00069"></a><span class="lineno"><a class="line" href="structcutlass_1_1reference_1_1device_1_1kernel_1_1detail_1_1TensorForEachHelper_3_01Func_00_01Rank_00_010_01_4.html#a89e10e059c3ffcfe2640cf6291353937">   69</a></span>&#160;  <a class="code" href="structcutlass_1_1reference_1_1device_1_1kernel_1_1detail_1_1TensorForEachHelper_3_01Func_00_01Rank_00_010_01_4.html#a89e10e059c3ffcfe2640cf6291353937">TensorForEachHelper</a>(Func &amp;func, <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;Rank&gt;</a> <span class="keyword">const</span> &amp;size, <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;Rank&gt;</a> &amp;coord, int64_t index) {</div><div class="line"><a name="l00070"></a><span class="lineno">   70</span>&#160;</div><div class="line"><a name="l00071"></a><span class="lineno">   71</span>&#160;    coord[Rank - 1] = index;</div><div class="line"><a name="l00072"></a><span class="lineno">   72</span>&#160;</div><div class="line"><a name="l00073"></a><span class="lineno">   73</span>&#160;    <span class="keywordflow">if</span> (coord &lt; size) {</div><div class="line"><a name="l00074"></a><span class="lineno">   74</span>&#160;      func(coord);</div><div class="line"><a name="l00075"></a><span class="lineno">   75</span>&#160;    }</div><div class="line"><a name="l00076"></a><span class="lineno">   76</span>&#160;  }</div><div class="line"><a name="l00077"></a><span class="lineno">   77</span>&#160;};</div><div class="line"><a name="l00078"></a><span class="lineno">   78</span>&#160;</div><div class="line"><a name="l00079"></a><span class="lineno">   79</span>&#160;} <span class="comment">// namespace detail</span></div><div class="line"><a name="l00080"></a><span class="lineno">   80</span>&#160;</div><div class="line"><a name="l00082"></a><span class="lineno">   82</span>&#160;</div><div class="line"><a name="l00084"></a><span class="lineno">   84</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Func, <span class="keywordtype">int</span> Rank, <span class="keyword">typename</span> Params&gt;</div><div class="line"><a name="l00085"></a><span class="lineno"><a class="line" href="namespacecutlass_1_1reference_1_1device_1_1kernel.html#ae22a592321cef9a9f586d3f094933e3f">   85</a></span>&#160;__global__ <span class="keywordtype">void</span> <a class="code" href="namespacecutlass_1_1reference_1_1device_1_1kernel.html#ae22a592321cef9a9f586d3f094933e3f">TensorForEach</a>(<a class="code" href="structcutlass_1_1Coord.html">Coord&lt;Rank&gt;</a> size, Params params = Params()) {</div><div class="line"><a name="l00086"></a><span class="lineno">   86</span>&#160;</div><div class="line"><a name="l00087"></a><span class="lineno">   87</span>&#160;  Func func(params);</div><div class="line"><a name="l00088"></a><span class="lineno">   88</span>&#160;</div><div class="line"><a name="l00089"></a><span class="lineno">   89</span>&#160;  int64_t index = threadIdx.x + blockIdx.x * blockDim.x;</div><div class="line"><a name="l00090"></a><span class="lineno">   90</span>&#160;  int64_t max_index = 1;</div><div class="line"><a name="l00091"></a><span class="lineno">   91</span>&#160;</div><div class="line"><a name="l00092"></a><span class="lineno">   92</span>&#160;  <a class="code" href="cutlass_8h.html#a4b1c9f25ab6eaa25e1f2258dd63e6ce4">CUTLASS_PRAGMA_UNROLL</a></div><div class="line"><a name="l00093"></a><span class="lineno">   93</span>&#160;  <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 0; i &lt; Rank; ++i) {</div><div class="line"><a name="l00094"></a><span class="lineno">   94</span>&#160;    max_index *= size[i];</div><div class="line"><a name="l00095"></a><span class="lineno">   95</span>&#160;  }</div><div class="line"><a name="l00096"></a><span class="lineno">   96</span>&#160;</div><div class="line"><a name="l00097"></a><span class="lineno">   97</span>&#160;  <a class="code" href="cutlass_8h.html#adb3bc73d74b4a4bf13099d5696db3352">CUTLASS_PRAGMA_NO_UNROLL</a></div><div class="line"><a name="l00098"></a><span class="lineno">   98</span>&#160;  <span class="keywordflow">while</span>  (index &lt; max_index) {</div><div class="line"><a name="l00099"></a><span class="lineno">   99</span>&#160;    <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;Rank&gt;</a> coord;</div><div class="line"><a name="l00100"></a><span class="lineno">  100</span>&#160;</div><div class="line"><a name="l00101"></a><span class="lineno">  101</span>&#160;    <a class="code" href="structcutlass_1_1reference_1_1device_1_1kernel_1_1detail_1_1TensorForEachHelper.html">detail::TensorForEachHelper</a>&lt;Func, Rank, Rank - 1&gt;(func, size, coord, index); </div><div class="line"><a name="l00102"></a><span class="lineno">  102</span>&#160;    index += blockDim.x * gridDim.x;</div><div class="line"><a name="l00103"></a><span class="lineno">  103</span>&#160;  }</div><div class="line"><a name="l00104"></a><span class="lineno">  104</span>&#160;}</div><div class="line"><a name="l00105"></a><span class="lineno">  105</span>&#160;</div><div class="line"><a name="l00107"></a><span class="lineno">  107</span>&#160;</div><div class="line"><a name="l00109"></a><span class="lineno">  109</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Func, <span class="keywordtype">int</span> Rank, <span class="keyword">typename</span> Params&gt;</div><div class="line"><a name="l00110"></a><span class="lineno"><a class="line" href="namespacecutlass_1_1reference_1_1device_1_1kernel.html#ab3b42b1c0e6f28c3b62b65a373db5fd7">  110</a></span>&#160;__global__ <span class="keywordtype">void</span> <a class="code" href="namespacecutlass_1_1reference_1_1device_1_1kernel.html#ab3b42b1c0e6f28c3b62b65a373db5fd7">TensorDiagonalForEach</a>(<a class="code" href="structcutlass_1_1Coord.html">Coord&lt;Rank&gt;</a> size, Params params, <span class="keywordtype">int</span> start, <span class="keywordtype">int</span> end) {</div><div class="line"><a name="l00111"></a><span class="lineno">  111</span>&#160;</div><div class="line"><a name="l00112"></a><span class="lineno">  112</span>&#160;  Func func(params);</div><div class="line"><a name="l00113"></a><span class="lineno">  113</span>&#160;</div><div class="line"><a name="l00114"></a><span class="lineno">  114</span>&#160;  int64_t index = threadIdx.x + blockIdx.x * blockDim.x + start;</div><div class="line"><a name="l00115"></a><span class="lineno">  115</span>&#160;</div><div class="line"><a name="l00116"></a><span class="lineno">  116</span>&#160;  <span class="keywordflow">if</span> (index &lt; end) {</div><div class="line"><a name="l00117"></a><span class="lineno">  117</span>&#160;    <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;Rank&gt;</a> coord;</div><div class="line"><a name="l00118"></a><span class="lineno">  118</span>&#160;</div><div class="line"><a name="l00119"></a><span class="lineno">  119</span>&#160;    <a class="code" href="cutlass_8h.html#a4b1c9f25ab6eaa25e1f2258dd63e6ce4">CUTLASS_PRAGMA_UNROLL</a></div><div class="line"><a name="l00120"></a><span class="lineno">  120</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 0; i &lt; Rank; ++i) {</div><div class="line"><a name="l00121"></a><span class="lineno">  121</span>&#160;      coord[i] = index;</div><div class="line"><a name="l00122"></a><span class="lineno">  122</span>&#160;    }</div><div class="line"><a name="l00123"></a><span class="lineno">  123</span>&#160;</div><div class="line"><a name="l00124"></a><span class="lineno">  124</span>&#160;    func(coord);</div><div class="line"><a name="l00125"></a><span class="lineno">  125</span>&#160;  }</div><div class="line"><a name="l00126"></a><span class="lineno">  126</span>&#160;}</div><div class="line"><a name="l00127"></a><span class="lineno">  127</span>&#160;</div><div class="line"><a name="l00129"></a><span class="lineno">  129</span>&#160;</div><div class="line"><a name="l00130"></a><span class="lineno">  130</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Element, <span class="keyword">typename</span> Func&gt;</div><div class="line"><a name="l00131"></a><span class="lineno"><a class="line" href="namespacecutlass_1_1reference_1_1device_1_1kernel.html#a0100d78891f9e00e75453ef8dc24daa6">  131</a></span>&#160;__global__ <span class="keywordtype">void</span> <a class="code" href="namespacecutlass_1_1reference_1_1device_1_1kernel.html#a0100d78891f9e00e75453ef8dc24daa6">BlockForEach</a>(</div><div class="line"><a name="l00132"></a><span class="lineno">  132</span>&#160;  Element *ptr, </div><div class="line"><a name="l00133"></a><span class="lineno">  133</span>&#160;  <span class="keywordtype">size_t</span> capacity, </div><div class="line"><a name="l00134"></a><span class="lineno">  134</span>&#160;  <span class="keyword">typename</span> Func::Params params) {</div><div class="line"><a name="l00135"></a><span class="lineno">  135</span>&#160;</div><div class="line"><a name="l00136"></a><span class="lineno">  136</span>&#160;  Func func(params);</div><div class="line"><a name="l00137"></a><span class="lineno">  137</span>&#160;</div><div class="line"><a name="l00138"></a><span class="lineno">  138</span>&#160;  <span class="keywordtype">size_t</span> index = threadIdx.x + blockIdx.x * blockDim.x;</div><div class="line"><a name="l00139"></a><span class="lineno">  139</span>&#160;</div><div class="line"><a name="l00140"></a><span class="lineno">  140</span>&#160;  <span class="keywordflow">for</span> (; index &lt; capacity; index += blockDim.x * gridDim.x) {</div><div class="line"><a name="l00141"></a><span class="lineno">  141</span>&#160;    ptr[index] = func();</div><div class="line"><a name="l00142"></a><span class="lineno">  142</span>&#160;  }</div><div class="line"><a name="l00143"></a><span class="lineno">  143</span>&#160;}</div><div class="line"><a name="l00144"></a><span class="lineno">  144</span>&#160;</div><div class="line"><a name="l00146"></a><span class="lineno">  146</span>&#160;</div><div class="line"><a name="l00147"></a><span class="lineno">  147</span>&#160;} <span class="comment">// namespace kernel</span></div><div class="line"><a name="l00148"></a><span class="lineno">  148</span>&#160;} <span class="comment">// namespace device</span></div><div class="line"><a name="l00149"></a><span class="lineno">  149</span>&#160;} <span class="comment">// namespace reference</span></div><div class="line"><a name="l00150"></a><span class="lineno">  150</span>&#160;} <span class="comment">// namespace cutlass</span></div><div class="line"><a name="l00151"></a><span class="lineno">  151</span>&#160;</div><div class="ttc" id="namespacecutlass_html"><div class="ttname"><a href="namespacecutlass.html">cutlass</a></div><div class="ttdef"><b>Definition:</b> aligned_buffer.h:35</div></div>
 <div class="ttc" id="coord_8h_html"><div class="ttname"><a href="coord_8h.html">coord.h</a></div><div class="ttdoc">A Coord is a coordinate of arbitrary rank into a tensor or matrix. </div></div>
-<div class="ttc" id="structcutlass_1_1reference_1_1device_1_1kernel_1_1detail_1_1TensorForEachHelper_3_01Func_00_01Rank_00_010_01_4_html_a89e10e059c3ffcfe2640cf6291353937"><div class="ttname"><a href="structcutlass_1_1reference_1_1device_1_1kernel_1_1detail_1_1TensorForEachHelper_3_01Func_00_01Rank_00_010_01_4.html#a89e10e059c3ffcfe2640cf6291353937">cutlass::reference::device::kernel::detail::TensorForEachHelper&lt; Func, Rank, 0 &gt;::TensorForEachHelper</a></div><div class="ttdeci">__inline__ __device__ TensorForEachHelper(Func &amp;func, Coord&lt; Rank &gt; const &amp;size, Coord&lt; Rank &gt; &amp;coord, int64_t index)</div><div class="ttdoc">Constructor for fastest chaning rank. </div><div class="ttdef"><b>Definition:</b> device/kernel/tensor_foreach.h:69</div></div>
+<div class="ttc" id="structcutlass_1_1reference_1_1device_1_1kernel_1_1detail_1_1TensorForEachHelper_3_01Func_00_01Rank_00_010_01_4_html_a89e10e059c3ffcfe2640cf6291353937"><div class="ttname"><a href="structcutlass_1_1reference_1_1device_1_1kernel_1_1detail_1_1TensorForEachHelper_3_01Func_00_01Rank_00_010_01_4.html#a89e10e059c3ffcfe2640cf6291353937">cutlass::reference::device::kernel::detail::TensorForEachHelper&lt; Func, Rank, 0 &gt;::TensorForEachHelper</a></div><div class="ttdeci">__inline__ __device__ TensorForEachHelper(Func &amp;func, Coord&lt; Rank &gt; const &amp;size, Coord&lt; Rank &gt; &amp;coord, int64_t index)</div><div class="ttdoc">Constructor for fastest changing rank. </div><div class="ttdef"><b>Definition:</b> device/kernel/tensor_foreach.h:69</div></div>
 <div class="ttc" id="cutlass_8h_html_a4b1c9f25ab6eaa25e1f2258dd63e6ce4"><div class="ttname"><a href="cutlass_8h.html#a4b1c9f25ab6eaa25e1f2258dd63e6ce4">CUTLASS_PRAGMA_UNROLL</a></div><div class="ttdeci">#define CUTLASS_PRAGMA_UNROLL</div><div class="ttdef"><b>Definition:</b> cutlass.h:110</div></div>
 <div class="ttc" id="namespacecutlass_1_1reference_1_1device_1_1kernel_html_a0100d78891f9e00e75453ef8dc24daa6"><div class="ttname"><a href="namespacecutlass_1_1reference_1_1device_1_1kernel.html#a0100d78891f9e00e75453ef8dc24daa6">cutlass::reference::device::kernel::BlockForEach</a></div><div class="ttdeci">__global__ void BlockForEach(Element *ptr, size_t capacity, typename Func::Params params)</div><div class="ttdef"><b>Definition:</b> device/kernel/tensor_foreach.h:131</div></div>
 <div class="ttc" id="cutlass_8h_html_adb3bc73d74b4a4bf13099d5696db3352"><div class="ttname"><a href="cutlass_8h.html#adb3bc73d74b4a4bf13099d5696db3352">CUTLASS_PRAGMA_NO_UNROLL</a></div><div class="ttdeci">#define CUTLASS_PRAGMA_NO_UNROLL</div><div class="ttdef"><b>Definition:</b> cutlass.h:111</div></div>
diff --git a/docs/device_2tensor__fill_8h.html b/docs/device_2tensor__fill_8h.html
index c2af8c44..5a99459c 100644
--- a/docs/device_2tensor__fill_8h.html
+++ b/docs/device_2tensor__fill_8h.html
@@ -237,7 +237,7 @@
 <tr class="separator:a6e23d479ebb3760d5846ed1b67e450e4"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:a6b0f21995c4fd5c33617550e6905c78e"><td class="memTemplParams" colspan="2">template&lt;typename Element , typename Layout &gt; </td></tr>
 <tr class="memitem:a6b0f21995c4fd5c33617550e6905c78e"><td class="memTemplItemLeft" align="right" valign="top">void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1reference_1_1device.html#a6b0f21995c4fd5c33617550e6905c78e">cutlass::reference::device::TensorFillIdentity</a> (TensorView&lt; Element, Layout &gt; view)</td></tr>
-<tr class="memdesc:a6b0f21995c4fd5c33617550e6905c78e"><td class="mdescLeft">&#160;</td><td class="mdescRight">Fills a tensor's digonal with 1 and 0 everywhere else.  <a href="namespacecutlass_1_1reference_1_1device.html#a6b0f21995c4fd5c33617550e6905c78e">More...</a><br /></td></tr>
+<tr class="memdesc:a6b0f21995c4fd5c33617550e6905c78e"><td class="mdescLeft">&#160;</td><td class="mdescRight">Fills a tensor's diagonal with 1 and 0 everywhere else.  <a href="namespacecutlass_1_1reference_1_1device.html#a6b0f21995c4fd5c33617550e6905c78e">More...</a><br /></td></tr>
 <tr class="separator:a6b0f21995c4fd5c33617550e6905c78e"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:aaff3d7919a2f2dce14eb254c17eead9a"><td class="memTemplParams" colspan="2">template&lt;typename Element , typename Layout &gt; </td></tr>
 <tr class="memitem:aaff3d7919a2f2dce14eb254c17eead9a"><td class="memTemplItemLeft" align="right" valign="top">void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1reference_1_1device.html#aaff3d7919a2f2dce14eb254c17eead9a">cutlass::reference::device::TensorUpdateDiagonal</a> (TensorView&lt; Element, Layout &gt; view, Element diag=Element(1))</td></tr>
diff --git a/docs/device_2tensor__fill_8h_source.html b/docs/device_2tensor__fill_8h_source.html
index dd5debda..908ccba8 100644
--- a/docs/device_2tensor__fill_8h_source.html
+++ b/docs/device_2tensor__fill_8h_source.html
@@ -125,7 +125,7 @@
 <div class="ttc" id="structcutlass_1_1reference_1_1device_1_1detail_1_1RandomGaussianFunc_1_1Params_html"><div class="ttname"><a href="structcutlass_1_1reference_1_1device_1_1detail_1_1RandomGaussianFunc_1_1Params.html">cutlass::reference::device::detail::RandomGaussianFunc::Params</a></div><div class="ttdoc">Parameters structure. </div><div class="ttdef"><b>Definition:</b> device/tensor_fill.h:99</div></div>
 <div class="ttc" id="structcutlass_1_1Distribution_html_a07cb089b346ef06e198f6043128264fb"><div class="ttname"><a href="structcutlass_1_1Distribution.html#a07cb089b346ef06e198f6043128264fb">cutlass::Distribution::kind</a></div><div class="ttdeci">Kind kind</div><div class="ttdoc">Active variant kind. </div><div class="ttdef"><b>Definition:</b> distribution.h:64</div></div>
 <div class="ttc" id="structcutlass_1_1reference_1_1device_1_1detail_1_1TensorFillRandomUniformFunc_1_1Params_html_a267e7ea4e77076cc9be7d639b3cef64d"><div class="ttname"><a href="structcutlass_1_1reference_1_1device_1_1detail_1_1TensorFillRandomUniformFunc_1_1Params.html#a267e7ea4e77076cc9be7d639b3cef64d">cutlass::reference::device::detail::TensorFillRandomUniformFunc::Params::Params</a></div><div class="ttdeci">Params(TensorView view_=TensorView(), typename RandomFunc::Params random_=RandomFunc::Params())</div><div class="ttdoc">Construction of Gaussian RNG functor. </div><div class="ttdef"><b>Definition:</b> device/tensor_fill.h:422</div></div>
-<div class="ttc" id="namespacecutlass_1_1reference_1_1device_html_a6b0f21995c4fd5c33617550e6905c78e"><div class="ttname"><a href="namespacecutlass_1_1reference_1_1device.html#a6b0f21995c4fd5c33617550e6905c78e">cutlass::reference::device::TensorFillIdentity</a></div><div class="ttdeci">void TensorFillIdentity(TensorView&lt; Element, Layout &gt; view)</div><div class="ttdoc">Fills a tensor&amp;#39;s digonal with 1 and 0 everywhere else. </div><div class="ttdef"><b>Definition:</b> device/tensor_fill.h:630</div></div>
+<div class="ttc" id="namespacecutlass_1_1reference_1_1device_html_a6b0f21995c4fd5c33617550e6905c78e"><div class="ttname"><a href="namespacecutlass_1_1reference_1_1device.html#a6b0f21995c4fd5c33617550e6905c78e">cutlass::reference::device::TensorFillIdentity</a></div><div class="ttdeci">void TensorFillIdentity(TensorView&lt; Element, Layout &gt; view)</div><div class="ttdoc">Fills a tensor&amp;#39;s diagonal with 1 and 0 everywhere else. </div><div class="ttdef"><b>Definition:</b> device/tensor_fill.h:630</div></div>
 <div class="ttc" id="classcutlass_1_1TensorView_html_a7d3914dd5042c9c40be9e21a7b4e9ece"><div class="ttname"><a href="classcutlass_1_1TensorView.html#a7d3914dd5042c9c40be9e21a7b4e9ece">cutlass::TensorView::extent</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE TensorCoord const &amp; extent() const </div><div class="ttdoc">Returns the extent of the view (the size along each logical dimension). </div><div class="ttdef"><b>Definition:</b> tensor_view.h:167</div></div>
 <div class="ttc" id="structcutlass_1_1reference_1_1device_1_1detail_1_1TensorUpdateDiagonalFunc_html"><div class="ttname"><a href="structcutlass_1_1reference_1_1device_1_1detail_1_1TensorUpdateDiagonalFunc.html">cutlass::reference::device::detail::TensorUpdateDiagonalFunc</a></div><div class="ttdoc">Computes a random Gaussian distribution. </div><div class="ttdef"><b>Definition:</b> device/tensor_fill.h:645</div></div>
 <div class="ttc" id="structcutlass_1_1reference_1_1device_1_1detail_1_1RandomUniformFunc_1_1Params_html_afe8637b103e25ec2e9b731389fa049be"><div class="ttname"><a href="structcutlass_1_1reference_1_1device_1_1detail_1_1RandomUniformFunc_1_1Params.html#afe8637b103e25ec2e9b731389fa049be">cutlass::reference::device::detail::RandomUniformFunc::Params::int_scale</a></div><div class="ttdeci">int int_scale</div><div class="ttdef"><b>Definition:</b> device/tensor_fill.h:315</div></div>
diff --git a/docs/device_2tensor__foreach_8h_source.html b/docs/device_2tensor__foreach_8h_source.html
index 90c5402e..0380fa93 100644
--- a/docs/device_2tensor__foreach_8h_source.html
+++ b/docs/device_2tensor__foreach_8h_source.html
@@ -98,7 +98,7 @@
 <div class="title">device/tensor_foreach.h</div>  </div>
 </div><!--header-->
 <div class="contents">
-<a href="device_2tensor__foreach_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2019, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00025"></a><span class="lineno">   25</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00026"></a><span class="lineno">   26</span>&#160;</div><div class="line"><a name="l00027"></a><span class="lineno">   27</span>&#160;<span class="preprocessor">#include &lt;stdexcept&gt;</span></div><div class="line"><a name="l00028"></a><span class="lineno">   28</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="cutlass_8h.html">cutlass/cutlass.h</a>&quot;</span></div><div class="line"><a name="l00029"></a><span class="lineno">   29</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="device_2kernel_2tensor__foreach_8h.html">cutlass/util/reference/device/kernel/tensor_foreach.h</a>&quot;</span></div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;</div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a>  {</div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;<span class="keyword">namespace </span>reference {</div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;<span class="keyword">namespace </span>device {</div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;</div><div class="line"><a name="l00036"></a><span class="lineno">   36</span>&#160;</div><div class="line"><a name="l00038"></a><span class="lineno">   38</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Func, <span class="keywordtype">int</span> Rank, <span class="keyword">typename</span> Params&gt;</div><div class="line"><a name="l00039"></a><span class="lineno"><a class="line" href="structcutlass_1_1reference_1_1device_1_1TensorForEach.html">   39</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1reference_1_1device_1_1TensorForEach.html">TensorForEach</a> {</div><div class="line"><a name="l00040"></a><span class="lineno">   40</span>&#160;</div><div class="line"><a name="l00042"></a><span class="lineno"><a class="line" href="structcutlass_1_1reference_1_1device_1_1TensorForEach.html#ad693751cf94aea83a14235a5ec7c7e92">   42</a></span>&#160;  <a class="code" href="structcutlass_1_1reference_1_1device_1_1TensorForEach.html#ad693751cf94aea83a14235a5ec7c7e92">TensorForEach</a>(<a class="code" href="structcutlass_1_1Coord.html">Coord&lt;Rank&gt;</a> size, Params params = Params(), <span class="keywordtype">int</span> grid_size = 0, <span class="keywordtype">int</span> block_size = 0) {</div><div class="line"><a name="l00043"></a><span class="lineno">   43</span>&#160;</div><div class="line"><a name="l00044"></a><span class="lineno">   44</span>&#160;    <span class="keywordflow">if</span> (!grid_size || !block_size) {</div><div class="line"><a name="l00045"></a><span class="lineno">   45</span>&#160;</div><div class="line"><a name="l00046"></a><span class="lineno">   46</span>&#160;      <span class="comment">// if grid_size or block_size are zero, query occupancy using the CUDA Occupancy API</span></div><div class="line"><a name="l00047"></a><span class="lineno">   47</span>&#160;      cudaError_t result = cudaOccupancyMaxPotentialBlockSize(</div><div class="line"><a name="l00048"></a><span class="lineno">   48</span>&#160;        &amp;grid_size,</div><div class="line"><a name="l00049"></a><span class="lineno">   49</span>&#160;        &amp;block_size,</div><div class="line"><a name="l00050"></a><span class="lineno">   50</span>&#160;        reinterpret_cast&lt;void const *&gt;(kernel::TensorForEach&lt;Func, Rank, Params&gt;));</div><div class="line"><a name="l00051"></a><span class="lineno">   51</span>&#160;</div><div class="line"><a name="l00052"></a><span class="lineno">   52</span>&#160;      <span class="keywordflow">if</span> (result != cudaSuccess) {</div><div class="line"><a name="l00053"></a><span class="lineno">   53</span>&#160;        <span class="keywordflow">throw</span> std::runtime_error(<span class="stringliteral">&quot;Failed to query occupancy.&quot;</span>);</div><div class="line"><a name="l00054"></a><span class="lineno">   54</span>&#160;      }</div><div class="line"><a name="l00055"></a><span class="lineno">   55</span>&#160;</div><div class="line"><a name="l00056"></a><span class="lineno">   56</span>&#160;      <span class="comment">// Limit block size. This has the effect of increasing the number of items processed by a</span></div><div class="line"><a name="l00057"></a><span class="lineno">   57</span>&#160;      <span class="comment">// single thread and reduces the impact of initialization overhead.</span></div><div class="line"><a name="l00058"></a><span class="lineno">   58</span>&#160;      block_size = (block_size &lt; 128 ? block_size : 128);</div><div class="line"><a name="l00059"></a><span class="lineno">   59</span>&#160;    }</div><div class="line"><a name="l00060"></a><span class="lineno">   60</span>&#160;</div><div class="line"><a name="l00061"></a><span class="lineno">   61</span>&#160;    dim3 grid(grid_size, 1, 1);</div><div class="line"><a name="l00062"></a><span class="lineno">   62</span>&#160;    dim3 block(block_size, 1, 1);</div><div class="line"><a name="l00063"></a><span class="lineno">   63</span>&#160;</div><div class="line"><a name="l00064"></a><span class="lineno">   64</span>&#160;    kernel::TensorForEach&lt;Func, Rank, Params&gt;&lt;&lt;&lt; grid, block &gt;&gt;&gt;(size, params);</div><div class="line"><a name="l00065"></a><span class="lineno">   65</span>&#160;  }</div><div class="line"><a name="l00066"></a><span class="lineno">   66</span>&#160;};</div><div class="line"><a name="l00067"></a><span class="lineno">   67</span>&#160;</div><div class="line"><a name="l00069"></a><span class="lineno">   69</span>&#160;</div><div class="line"><a name="l00071"></a><span class="lineno">   71</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Func, <span class="keywordtype">int</span> Rank, <span class="keyword">typename</span> Params&gt;</div><div class="line"><a name="l00072"></a><span class="lineno"><a class="line" href="structcutlass_1_1reference_1_1device_1_1TensorDiagonalForEach.html">   72</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1reference_1_1device_1_1TensorDiagonalForEach.html">TensorDiagonalForEach</a> {</div><div class="line"><a name="l00073"></a><span class="lineno">   73</span>&#160;</div><div class="line"><a name="l00075"></a><span class="lineno"><a class="line" href="structcutlass_1_1reference_1_1device_1_1TensorDiagonalForEach.html#adab64f903f234d0266400bd2416134ee">   75</a></span>&#160;  <a class="code" href="structcutlass_1_1reference_1_1device_1_1TensorDiagonalForEach.html#adab64f903f234d0266400bd2416134ee">TensorDiagonalForEach</a>(<a class="code" href="structcutlass_1_1Coord.html">Coord&lt;Rank&gt;</a> size, Params params = Params(), <span class="keywordtype">int</span> start = 0, <span class="keywordtype">int</span> end = -1, <span class="keywordtype">int</span> block_size = 128) { </div><div class="line"><a name="l00076"></a><span class="lineno">   76</span>&#160;</div><div class="line"><a name="l00077"></a><span class="lineno">   77</span>&#160;    <span class="keywordflow">if</span> (end &lt; 0) {</div><div class="line"><a name="l00078"></a><span class="lineno">   78</span>&#160;      end = size.min();</div><div class="line"><a name="l00079"></a><span class="lineno">   79</span>&#160;    }</div><div class="line"><a name="l00080"></a><span class="lineno">   80</span>&#160;</div><div class="line"><a name="l00081"></a><span class="lineno">   81</span>&#160;    dim3 block(block_size, 1, 1);</div><div class="line"><a name="l00082"></a><span class="lineno">   82</span>&#160;    dim3 grid((end - start + block_size - 1) / block_size, 1, 1);</div><div class="line"><a name="l00083"></a><span class="lineno">   83</span>&#160;</div><div class="line"><a name="l00084"></a><span class="lineno">   84</span>&#160;    kernel::TensorDiagonalForEach&lt;Func, Rank, Params&gt;&lt;&lt;&lt; grid, block &gt;&gt;&gt;(size, params, start, end);</div><div class="line"><a name="l00085"></a><span class="lineno">   85</span>&#160;  }</div><div class="line"><a name="l00086"></a><span class="lineno">   86</span>&#160;};</div><div class="line"><a name="l00087"></a><span class="lineno">   87</span>&#160;</div><div class="line"><a name="l00088"></a><span class="lineno">   88</span>&#160;</div><div class="line"><a name="l00090"></a><span class="lineno">   90</span>&#160;</div><div class="line"><a name="l00091"></a><span class="lineno">   91</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Element, <span class="keyword">typename</span> Func&gt;</div><div class="line"><a name="l00092"></a><span class="lineno"><a class="line" href="structcutlass_1_1reference_1_1device_1_1BlockForEach.html">   92</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1reference_1_1device_1_1BlockForEach.html">BlockForEach</a> {</div><div class="line"><a name="l00093"></a><span class="lineno">   93</span>&#160;</div><div class="line"><a name="l00095"></a><span class="lineno"><a class="line" href="structcutlass_1_1reference_1_1device_1_1BlockForEach.html#a161e212b9b7ddbac36888de97538e106">   95</a></span>&#160;  <a class="code" href="structcutlass_1_1reference_1_1device_1_1BlockForEach.html#a161e212b9b7ddbac36888de97538e106">BlockForEach</a>(</div><div class="line"><a name="l00096"></a><span class="lineno">   96</span>&#160;    Element *ptr, </div><div class="line"><a name="l00097"></a><span class="lineno">   97</span>&#160;    <span class="keywordtype">size_t</span> capacity,</div><div class="line"><a name="l00098"></a><span class="lineno">   98</span>&#160;    <span class="keyword">typename</span> Func::Params params = <span class="keyword">typename</span> Func::Params(), </div><div class="line"><a name="l00099"></a><span class="lineno">   99</span>&#160;    <span class="keywordtype">int</span> grid_size = 0, </div><div class="line"><a name="l00100"></a><span class="lineno">  100</span>&#160;    <span class="keywordtype">int</span> block_size = 0) {</div><div class="line"><a name="l00101"></a><span class="lineno">  101</span>&#160;</div><div class="line"><a name="l00102"></a><span class="lineno">  102</span>&#160;    <span class="keywordflow">if</span> (!grid_size || !block_size) {</div><div class="line"><a name="l00103"></a><span class="lineno">  103</span>&#160;</div><div class="line"><a name="l00104"></a><span class="lineno">  104</span>&#160;      <span class="comment">// if grid_size or block_size are zero, query occupancy using the CUDA Occupancy API</span></div><div class="line"><a name="l00105"></a><span class="lineno">  105</span>&#160;      cudaError_t result = cudaOccupancyMaxPotentialBlockSize(</div><div class="line"><a name="l00106"></a><span class="lineno">  106</span>&#160;        &amp;grid_size,</div><div class="line"><a name="l00107"></a><span class="lineno">  107</span>&#160;        &amp;block_size,</div><div class="line"><a name="l00108"></a><span class="lineno">  108</span>&#160;        reinterpret_cast&lt;void const *&gt;(kernel::BlockForEach&lt;Element, Func&gt;));</div><div class="line"><a name="l00109"></a><span class="lineno">  109</span>&#160;</div><div class="line"><a name="l00110"></a><span class="lineno">  110</span>&#160;      <span class="keywordflow">if</span> (result != cudaSuccess) {</div><div class="line"><a name="l00111"></a><span class="lineno">  111</span>&#160;        <span class="keywordflow">throw</span> std::runtime_error(<span class="stringliteral">&quot;Failed to query occupancy.&quot;</span>);</div><div class="line"><a name="l00112"></a><span class="lineno">  112</span>&#160;      }</div><div class="line"><a name="l00113"></a><span class="lineno">  113</span>&#160;</div><div class="line"><a name="l00114"></a><span class="lineno">  114</span>&#160;      <span class="comment">// Limit block size. This has the effect of increasing the number of items processed by a</span></div><div class="line"><a name="l00115"></a><span class="lineno">  115</span>&#160;      <span class="comment">// single thread and reduces the impact of initialization overhead.</span></div><div class="line"><a name="l00116"></a><span class="lineno">  116</span>&#160;      block_size = (block_size &lt; 128 ? block_size : 128);</div><div class="line"><a name="l00117"></a><span class="lineno">  117</span>&#160;    }</div><div class="line"><a name="l00118"></a><span class="lineno">  118</span>&#160;</div><div class="line"><a name="l00119"></a><span class="lineno">  119</span>&#160;    dim3 grid(grid_size, 1, 1);</div><div class="line"><a name="l00120"></a><span class="lineno">  120</span>&#160;    dim3 block(block_size, 1, 1);</div><div class="line"><a name="l00121"></a><span class="lineno">  121</span>&#160;</div><div class="line"><a name="l00122"></a><span class="lineno">  122</span>&#160;    kernel::BlockForEach&lt;Element, Func&gt;&lt;&lt;&lt; grid, block &gt;&gt;&gt;(ptr, capacity, params);</div><div class="line"><a name="l00123"></a><span class="lineno">  123</span>&#160;  }</div><div class="line"><a name="l00124"></a><span class="lineno">  124</span>&#160;};</div><div class="line"><a name="l00125"></a><span class="lineno">  125</span>&#160;</div><div class="line"><a name="l00127"></a><span class="lineno">  127</span>&#160;</div><div class="line"><a name="l00128"></a><span class="lineno">  128</span>&#160;} <span class="comment">// namespace device</span></div><div class="line"><a name="l00129"></a><span class="lineno">  129</span>&#160;} <span class="comment">// namespace reference</span></div><div class="line"><a name="l00130"></a><span class="lineno">  130</span>&#160;} <span class="comment">// namesace cutlass</span></div><div class="ttc" id="namespacecutlass_html"><div class="ttname"><a href="namespacecutlass.html">cutlass</a></div><div class="ttdef"><b>Definition:</b> aligned_buffer.h:35</div></div>
+<a href="device_2tensor__foreach_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2019, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00025"></a><span class="lineno">   25</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00026"></a><span class="lineno">   26</span>&#160;</div><div class="line"><a name="l00027"></a><span class="lineno">   27</span>&#160;<span class="preprocessor">#include &lt;stdexcept&gt;</span></div><div class="line"><a name="l00028"></a><span class="lineno">   28</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="cutlass_8h.html">cutlass/cutlass.h</a>&quot;</span></div><div class="line"><a name="l00029"></a><span class="lineno">   29</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="device_2kernel_2tensor__foreach_8h.html">cutlass/util/reference/device/kernel/tensor_foreach.h</a>&quot;</span></div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;</div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a>  {</div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;<span class="keyword">namespace </span>reference {</div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;<span class="keyword">namespace </span>device {</div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;</div><div class="line"><a name="l00036"></a><span class="lineno">   36</span>&#160;</div><div class="line"><a name="l00038"></a><span class="lineno">   38</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Func, <span class="keywordtype">int</span> Rank, <span class="keyword">typename</span> Params&gt;</div><div class="line"><a name="l00039"></a><span class="lineno"><a class="line" href="structcutlass_1_1reference_1_1device_1_1TensorForEach.html">   39</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1reference_1_1device_1_1TensorForEach.html">TensorForEach</a> {</div><div class="line"><a name="l00040"></a><span class="lineno">   40</span>&#160;</div><div class="line"><a name="l00042"></a><span class="lineno"><a class="line" href="structcutlass_1_1reference_1_1device_1_1TensorForEach.html#ad693751cf94aea83a14235a5ec7c7e92">   42</a></span>&#160;  <a class="code" href="structcutlass_1_1reference_1_1device_1_1TensorForEach.html#ad693751cf94aea83a14235a5ec7c7e92">TensorForEach</a>(<a class="code" href="structcutlass_1_1Coord.html">Coord&lt;Rank&gt;</a> size, Params params = Params(), <span class="keywordtype">int</span> grid_size = 0, <span class="keywordtype">int</span> block_size = 0) {</div><div class="line"><a name="l00043"></a><span class="lineno">   43</span>&#160;</div><div class="line"><a name="l00044"></a><span class="lineno">   44</span>&#160;    <span class="keywordflow">if</span> (!grid_size || !block_size) {</div><div class="line"><a name="l00045"></a><span class="lineno">   45</span>&#160;</div><div class="line"><a name="l00046"></a><span class="lineno">   46</span>&#160;      <span class="comment">// if grid_size or block_size are zero, query occupancy using the CUDA Occupancy API</span></div><div class="line"><a name="l00047"></a><span class="lineno">   47</span>&#160;      cudaError_t result = cudaOccupancyMaxPotentialBlockSize(</div><div class="line"><a name="l00048"></a><span class="lineno">   48</span>&#160;        &amp;grid_size,</div><div class="line"><a name="l00049"></a><span class="lineno">   49</span>&#160;        &amp;block_size,</div><div class="line"><a name="l00050"></a><span class="lineno">   50</span>&#160;        reinterpret_cast&lt;void const *&gt;(kernel::TensorForEach&lt;Func, Rank, Params&gt;));</div><div class="line"><a name="l00051"></a><span class="lineno">   51</span>&#160;</div><div class="line"><a name="l00052"></a><span class="lineno">   52</span>&#160;      <span class="keywordflow">if</span> (result != cudaSuccess) {</div><div class="line"><a name="l00053"></a><span class="lineno">   53</span>&#160;        <span class="keywordflow">throw</span> std::runtime_error(<span class="stringliteral">&quot;Failed to query occupancy.&quot;</span>);</div><div class="line"><a name="l00054"></a><span class="lineno">   54</span>&#160;      }</div><div class="line"><a name="l00055"></a><span class="lineno">   55</span>&#160;</div><div class="line"><a name="l00056"></a><span class="lineno">   56</span>&#160;      <span class="comment">// Limit block size. This has the effect of increasing the number of items processed by a</span></div><div class="line"><a name="l00057"></a><span class="lineno">   57</span>&#160;      <span class="comment">// single thread and reduces the impact of initialization overhead.</span></div><div class="line"><a name="l00058"></a><span class="lineno">   58</span>&#160;      block_size = (block_size &lt; 128 ? block_size : 128);</div><div class="line"><a name="l00059"></a><span class="lineno">   59</span>&#160;    }</div><div class="line"><a name="l00060"></a><span class="lineno">   60</span>&#160;</div><div class="line"><a name="l00061"></a><span class="lineno">   61</span>&#160;    dim3 grid(grid_size, 1, 1);</div><div class="line"><a name="l00062"></a><span class="lineno">   62</span>&#160;    dim3 block(block_size, 1, 1);</div><div class="line"><a name="l00063"></a><span class="lineno">   63</span>&#160;</div><div class="line"><a name="l00064"></a><span class="lineno">   64</span>&#160;    kernel::TensorForEach&lt;Func, Rank, Params&gt;&lt;&lt;&lt; grid, block &gt;&gt;&gt;(size, params);</div><div class="line"><a name="l00065"></a><span class="lineno">   65</span>&#160;  }</div><div class="line"><a name="l00066"></a><span class="lineno">   66</span>&#160;};</div><div class="line"><a name="l00067"></a><span class="lineno">   67</span>&#160;</div><div class="line"><a name="l00069"></a><span class="lineno">   69</span>&#160;</div><div class="line"><a name="l00071"></a><span class="lineno">   71</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Func, <span class="keywordtype">int</span> Rank, <span class="keyword">typename</span> Params&gt;</div><div class="line"><a name="l00072"></a><span class="lineno"><a class="line" href="structcutlass_1_1reference_1_1device_1_1TensorDiagonalForEach.html">   72</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1reference_1_1device_1_1TensorDiagonalForEach.html">TensorDiagonalForEach</a> {</div><div class="line"><a name="l00073"></a><span class="lineno">   73</span>&#160;</div><div class="line"><a name="l00075"></a><span class="lineno"><a class="line" href="structcutlass_1_1reference_1_1device_1_1TensorDiagonalForEach.html#adab64f903f234d0266400bd2416134ee">   75</a></span>&#160;  <a class="code" href="structcutlass_1_1reference_1_1device_1_1TensorDiagonalForEach.html#adab64f903f234d0266400bd2416134ee">TensorDiagonalForEach</a>(<a class="code" href="structcutlass_1_1Coord.html">Coord&lt;Rank&gt;</a> size, Params params = Params(), <span class="keywordtype">int</span> start = 0, <span class="keywordtype">int</span> end = -1, <span class="keywordtype">int</span> block_size = 128) { </div><div class="line"><a name="l00076"></a><span class="lineno">   76</span>&#160;</div><div class="line"><a name="l00077"></a><span class="lineno">   77</span>&#160;    <span class="keywordflow">if</span> (end &lt; 0) {</div><div class="line"><a name="l00078"></a><span class="lineno">   78</span>&#160;      end = size.min();</div><div class="line"><a name="l00079"></a><span class="lineno">   79</span>&#160;    }</div><div class="line"><a name="l00080"></a><span class="lineno">   80</span>&#160;</div><div class="line"><a name="l00081"></a><span class="lineno">   81</span>&#160;    dim3 block(block_size, 1, 1);</div><div class="line"><a name="l00082"></a><span class="lineno">   82</span>&#160;    dim3 grid((end - start + block_size - 1) / block_size, 1, 1);</div><div class="line"><a name="l00083"></a><span class="lineno">   83</span>&#160;</div><div class="line"><a name="l00084"></a><span class="lineno">   84</span>&#160;    kernel::TensorDiagonalForEach&lt;Func, Rank, Params&gt;&lt;&lt;&lt; grid, block &gt;&gt;&gt;(size, params, start, end);</div><div class="line"><a name="l00085"></a><span class="lineno">   85</span>&#160;  }</div><div class="line"><a name="l00086"></a><span class="lineno">   86</span>&#160;};</div><div class="line"><a name="l00087"></a><span class="lineno">   87</span>&#160;</div><div class="line"><a name="l00088"></a><span class="lineno">   88</span>&#160;</div><div class="line"><a name="l00090"></a><span class="lineno">   90</span>&#160;</div><div class="line"><a name="l00091"></a><span class="lineno">   91</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Element, <span class="keyword">typename</span> Func&gt;</div><div class="line"><a name="l00092"></a><span class="lineno"><a class="line" href="structcutlass_1_1reference_1_1device_1_1BlockForEach.html">   92</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1reference_1_1device_1_1BlockForEach.html">BlockForEach</a> {</div><div class="line"><a name="l00093"></a><span class="lineno">   93</span>&#160;</div><div class="line"><a name="l00095"></a><span class="lineno"><a class="line" href="structcutlass_1_1reference_1_1device_1_1BlockForEach.html#a161e212b9b7ddbac36888de97538e106">   95</a></span>&#160;  <a class="code" href="structcutlass_1_1reference_1_1device_1_1BlockForEach.html#a161e212b9b7ddbac36888de97538e106">BlockForEach</a>(</div><div class="line"><a name="l00096"></a><span class="lineno">   96</span>&#160;    Element *ptr, </div><div class="line"><a name="l00097"></a><span class="lineno">   97</span>&#160;    <span class="keywordtype">size_t</span> capacity,</div><div class="line"><a name="l00098"></a><span class="lineno">   98</span>&#160;    <span class="keyword">typename</span> Func::Params params = <span class="keyword">typename</span> Func::Params(), </div><div class="line"><a name="l00099"></a><span class="lineno">   99</span>&#160;    <span class="keywordtype">int</span> grid_size = 0, </div><div class="line"><a name="l00100"></a><span class="lineno">  100</span>&#160;    <span class="keywordtype">int</span> block_size = 0) {</div><div class="line"><a name="l00101"></a><span class="lineno">  101</span>&#160;</div><div class="line"><a name="l00102"></a><span class="lineno">  102</span>&#160;    <span class="keywordflow">if</span> (!grid_size || !block_size) {</div><div class="line"><a name="l00103"></a><span class="lineno">  103</span>&#160;</div><div class="line"><a name="l00104"></a><span class="lineno">  104</span>&#160;      <span class="comment">// if grid_size or block_size are zero, query occupancy using the CUDA Occupancy API</span></div><div class="line"><a name="l00105"></a><span class="lineno">  105</span>&#160;      cudaError_t result = cudaOccupancyMaxPotentialBlockSize(</div><div class="line"><a name="l00106"></a><span class="lineno">  106</span>&#160;        &amp;grid_size,</div><div class="line"><a name="l00107"></a><span class="lineno">  107</span>&#160;        &amp;block_size,</div><div class="line"><a name="l00108"></a><span class="lineno">  108</span>&#160;        reinterpret_cast&lt;void const *&gt;(kernel::BlockForEach&lt;Element, Func&gt;));</div><div class="line"><a name="l00109"></a><span class="lineno">  109</span>&#160;</div><div class="line"><a name="l00110"></a><span class="lineno">  110</span>&#160;      <span class="keywordflow">if</span> (result != cudaSuccess) {</div><div class="line"><a name="l00111"></a><span class="lineno">  111</span>&#160;        <span class="keywordflow">throw</span> std::runtime_error(<span class="stringliteral">&quot;Failed to query occupancy.&quot;</span>);</div><div class="line"><a name="l00112"></a><span class="lineno">  112</span>&#160;      }</div><div class="line"><a name="l00113"></a><span class="lineno">  113</span>&#160;</div><div class="line"><a name="l00114"></a><span class="lineno">  114</span>&#160;      <span class="comment">// Limit block size. This has the effect of increasing the number of items processed by a</span></div><div class="line"><a name="l00115"></a><span class="lineno">  115</span>&#160;      <span class="comment">// single thread and reduces the impact of initialization overhead.</span></div><div class="line"><a name="l00116"></a><span class="lineno">  116</span>&#160;      block_size = (block_size &lt; 128 ? block_size : 128);</div><div class="line"><a name="l00117"></a><span class="lineno">  117</span>&#160;    }</div><div class="line"><a name="l00118"></a><span class="lineno">  118</span>&#160;</div><div class="line"><a name="l00119"></a><span class="lineno">  119</span>&#160;    dim3 grid(grid_size, 1, 1);</div><div class="line"><a name="l00120"></a><span class="lineno">  120</span>&#160;    dim3 block(block_size, 1, 1);</div><div class="line"><a name="l00121"></a><span class="lineno">  121</span>&#160;</div><div class="line"><a name="l00122"></a><span class="lineno">  122</span>&#160;    kernel::BlockForEach&lt;Element, Func&gt;&lt;&lt;&lt; grid, block &gt;&gt;&gt;(ptr, capacity, params);</div><div class="line"><a name="l00123"></a><span class="lineno">  123</span>&#160;  }</div><div class="line"><a name="l00124"></a><span class="lineno">  124</span>&#160;};</div><div class="line"><a name="l00125"></a><span class="lineno">  125</span>&#160;</div><div class="line"><a name="l00127"></a><span class="lineno">  127</span>&#160;</div><div class="line"><a name="l00128"></a><span class="lineno">  128</span>&#160;} <span class="comment">// namespace device</span></div><div class="line"><a name="l00129"></a><span class="lineno">  129</span>&#160;} <span class="comment">// namespace reference</span></div><div class="line"><a name="l00130"></a><span class="lineno">  130</span>&#160;} <span class="comment">// namespace cutlass</span></div><div class="ttc" id="namespacecutlass_html"><div class="ttname"><a href="namespacecutlass.html">cutlass</a></div><div class="ttdef"><b>Definition:</b> aligned_buffer.h:35</div></div>
 <div class="ttc" id="structcutlass_1_1reference_1_1device_1_1TensorDiagonalForEach_html_adab64f903f234d0266400bd2416134ee"><div class="ttname"><a href="structcutlass_1_1reference_1_1device_1_1TensorDiagonalForEach.html#adab64f903f234d0266400bd2416134ee">cutlass::reference::device::TensorDiagonalForEach::TensorDiagonalForEach</a></div><div class="ttdeci">TensorDiagonalForEach(Coord&lt; Rank &gt; size, Params params=Params(), int start=0, int end=-1, int block_size=128)</div><div class="ttdoc">Constructor performs the operation. </div><div class="ttdef"><b>Definition:</b> device/tensor_foreach.h:75</div></div>
 <div class="ttc" id="structcutlass_1_1reference_1_1device_1_1TensorForEach_html_ad693751cf94aea83a14235a5ec7c7e92"><div class="ttname"><a href="structcutlass_1_1reference_1_1device_1_1TensorForEach.html#ad693751cf94aea83a14235a5ec7c7e92">cutlass::reference::device::TensorForEach::TensorForEach</a></div><div class="ttdeci">TensorForEach(Coord&lt; Rank &gt; size, Params params=Params(), int grid_size=0, int block_size=0)</div><div class="ttdoc">Constructor performs the operation. </div><div class="ttdef"><b>Definition:</b> device/tensor_foreach.h:42</div></div>
 <div class="ttc" id="structcutlass_1_1reference_1_1device_1_1TensorDiagonalForEach_html"><div class="ttname"><a href="structcutlass_1_1reference_1_1device_1_1TensorDiagonalForEach.html">cutlass::reference::device::TensorDiagonalForEach</a></div><div class="ttdoc">Launches a kernel calling a functor for each element along a tensor&amp;#39;s diagonal. </div><div class="ttdef"><b>Definition:</b> device/tensor_foreach.h:72</div></div>
diff --git a/docs/functions_func_s.html b/docs/functions_func_s.html
index 78581310..548b6d97 100644
--- a/docs/functions_func_s.html
+++ b/docs/functions_func_s.html
@@ -141,7 +141,7 @@ <h3><a class="anchor" id="index_s"></a>- s -</h3><ul>
 <li>Semaphore()
 : <a class="el" href="classcutlass_1_1Semaphore.html#a2ce4cd07fe773efa429f726cfbd98070">cutlass::Semaphore</a>
 </li>
-<li>seperate_string()
+<li>separate_string()
 : <a class="el" href="structcutlass_1_1CommandLine.html#a5f86e4b2bd8c44b739c83530d77c5590">cutlass::CommandLine</a>
 </li>
 <li>set()
diff --git a/docs/functions_s.html b/docs/functions_s.html
index 72c08b05..4b1ec8e0 100644
--- a/docs/functions_s.html
+++ b/docs/functions_s.html
@@ -172,7 +172,7 @@ <h3><a class="anchor" id="index_s"></a>- s -</h3><ul>
 <li>Semaphore()
 : <a class="el" href="classcutlass_1_1Semaphore.html#a2ce4cd07fe773efa429f726cfbd98070">cutlass::Semaphore</a>
 </li>
-<li>seperate_string()
+<li>separate_string()
 : <a class="el" href="structcutlass_1_1CommandLine.html#a5f86e4b2bd8c44b739c83530d77c5590">cutlass::CommandLine</a>
 </li>
 <li>sequential
diff --git a/docs/hierarchy.html b/docs/hierarchy.html
index 89ef0802..c9a5c204 100644
--- a/docs/hierarchy.html
+++ b/docs/hierarchy.html
@@ -312,23 +312,23 @@
 <tr id="row_197_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1reference_1_1host_1_1Gemm.html" target="_self">cutlass::reference::host::Gemm&lt; ElementA, LayoutA, ElementB, LayoutB, ElementC, LayoutC, ScalarType, ComputeType, InnerProductOp &gt;</a></td><td class="desc"></td></tr>
 <tr id="row_198_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1reference_1_1device_1_1Gemm_3_01ElementA_00_01LayoutA_00_01ElementB_00_01Layout4e016ab7cfc644acd7cb4ae770339773.html" target="_self">cutlass::reference::device::Gemm&lt; ElementA, LayoutA, ElementB, LayoutB, ElementC, LayoutC, ScalarType, AccumulatorType, arch::OpMultiplyAdd &gt;</a></td><td class="desc">Partial specialization for multiply-add </td></tr>
 <tr id="row_199_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1reference_1_1device_1_1Gemm_3_01ElementA_00_01LayoutA_00_01ElementB_00_01Layout30b72addd464a2ca4a26785cbfd77a8e.html" target="_self">cutlass::reference::device::Gemm&lt; ElementA, LayoutA, ElementB, LayoutB, ElementC, LayoutC, ScalarType, AccumulatorType, arch::OpMultiplyAddSaturate &gt;</a></td><td class="desc">Partial specialization for multiply-add-saturate </td></tr>
-<tr id="row_200_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1reference_1_1device_1_1Gemm_3_01ElementA_00_01LayoutA_00_01ElementB_00_01Layout660562b232f408218828ca5915b7e73a.html" target="_self">cutlass::reference::device::Gemm&lt; ElementA, LayoutA, ElementB, LayoutB, ElementC, LayoutC, ScalarType, AccumulatorType, arch::OpXorPopc &gt;</a></td><td class="desc">Parital specialization for XOR-popc </td></tr>
+<tr id="row_200_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1reference_1_1device_1_1Gemm_3_01ElementA_00_01LayoutA_00_01ElementB_00_01Layout660562b232f408218828ca5915b7e73a.html" target="_self">cutlass::reference::device::Gemm&lt; ElementA, LayoutA, ElementB, LayoutB, ElementC, LayoutC, ScalarType, AccumulatorType, arch::OpXorPopc &gt;</a></td><td class="desc">Partial specialization for XOR-popc </td></tr>
 <tr id="row_201_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1reference_1_1host_1_1Gemm_3_01ElementA_00_01LayoutA_00_01ElementB_00_01LayoutB_193dd3a37f00deff1e5dcd7c310afb1f.html" target="_self">cutlass::reference::host::Gemm&lt; ElementA, LayoutA, ElementB, LayoutB, ElementC, LayoutC, ScalarType, ComputeType, arch::OpMultiplyAdd &gt;</a></td><td class="desc">Partial specialization for multiply-add </td></tr>
 <tr id="row_202_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1reference_1_1host_1_1Gemm_3_01ElementA_00_01LayoutA_00_01ElementB_00_01LayoutB_55729eac7dbd6bf311ea36f680e83e93.html" target="_self">cutlass::reference::host::Gemm&lt; ElementA, LayoutA, ElementB, LayoutB, ElementC, LayoutC, ScalarType, ComputeType, arch::OpMultiplyAddSaturate &gt;</a></td><td class="desc">Partial specialization for multiply-add-saturate </td></tr>
-<tr id="row_203_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1reference_1_1host_1_1Gemm_3_01ElementA_00_01LayoutA_00_01ElementB_00_01LayoutB_4f3f32c4b336238abfd741e87bfced46.html" target="_self">cutlass::reference::host::Gemm&lt; ElementA, LayoutA, ElementB, LayoutB, ElementC, LayoutC, ScalarType, ComputeType, arch::OpXorPopc &gt;</a></td><td class="desc">Parital specialization for XOR-popc </td></tr>
-<tr id="row_204_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="classcutlass_1_1gemm_1_1device_1_1Gemm_3_01ElementA___00_01LayoutA___00_01ElementB___00_01Layout4d0960ae6b1d1bf19e6239dbd002249c.html" target="_self">cutlass::gemm::device::Gemm&lt; ElementA_, LayoutA_, ElementB_, LayoutB_, ElementC_, layout::ColumnMajor, ElementAccumulator_, OperatorClass_, ArchTag_, ThreadblockShape_, WarpShape_, InstructionShape_, EpilogueOutputOp_, ThreadblockSwizzle_, Stages, AlignmentA, AlignmentB, SplitKSerial, Operator_, IsBetaZero &gt;</a></td><td class="desc">Parital specialization for column-major output exchanges problem size and operand </td></tr>
+<tr id="row_203_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1reference_1_1host_1_1Gemm_3_01ElementA_00_01LayoutA_00_01ElementB_00_01LayoutB_4f3f32c4b336238abfd741e87bfced46.html" target="_self">cutlass::reference::host::Gemm&lt; ElementA, LayoutA, ElementB, LayoutB, ElementC, LayoutC, ScalarType, ComputeType, arch::OpXorPopc &gt;</a></td><td class="desc">Partial specialization for XOR-popc </td></tr>
+<tr id="row_204_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="classcutlass_1_1gemm_1_1device_1_1Gemm_3_01ElementA___00_01LayoutA___00_01ElementB___00_01Layout4d0960ae6b1d1bf19e6239dbd002249c.html" target="_self">cutlass::gemm::device::Gemm&lt; ElementA_, LayoutA_, ElementB_, LayoutB_, ElementC_, layout::ColumnMajor, ElementAccumulator_, OperatorClass_, ArchTag_, ThreadblockShape_, WarpShape_, InstructionShape_, EpilogueOutputOp_, ThreadblockSwizzle_, Stages, AlignmentA, AlignmentB, SplitKSerial, Operator_, IsBetaZero &gt;</a></td><td class="desc">Partial specialization for column-major output exchanges problem size and operand </td></tr>
 <tr id="row_205_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="classcutlass_1_1gemm_1_1device_1_1Gemm.html" target="_self">cutlass::gemm::device::Gemm&lt; ElementB, typename layout::LayoutTranspose&lt; LayoutB &gt;::type, ElementA, typename layout::LayoutTranspose&lt; LayoutA &gt;::type, ElementC, layout::RowMajor, ElementAccumulator, OperatorClass, ArchTag, ThreadblockShape, WarpShape, InstructionShape, EpilogueOutputOp, ThreadblockSwizzle, Stages, kAlignmentB, kAlignmentA, SplitKSerial, Operator, kIsBetaZero &gt;</a></td><td class="desc"></td></tr>
 <tr id="row_206_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1library_1_1GemmArguments.html" target="_self">cutlass::library::GemmArguments</a></td><td class="desc">Arguments for GEMM </td></tr>
 <tr id="row_207_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1library_1_1GemmArrayArguments.html" target="_self">cutlass::library::GemmArrayArguments</a></td><td class="desc">Arguments for GEMM - used by all the GEMM operations </td></tr>
 <tr id="row_208_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1library_1_1GemmArrayConfiguration.html" target="_self">cutlass::library::GemmArrayConfiguration</a></td><td class="desc">Configuration for batched GEMM in which multiple matrix products are computed </td></tr>
 <tr id="row_209_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="classcutlass_1_1gemm_1_1device_1_1GemmBatched.html" target="_self">cutlass::gemm::device::GemmBatched&lt; ElementA_, LayoutA_, ElementB_, LayoutB_, ElementC_, LayoutC_, ElementAccumulator_, OperatorClass_, ArchTag_, ThreadblockShape_, WarpShape_, InstructionShape_, EpilogueOutputOp_, ThreadblockSwizzle_, Stages, AlignmentA, AlignmentB, Operator_ &gt;</a></td><td class="desc"></td></tr>
 <tr id="row_210_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1kernel_1_1GemmBatched.html" target="_self">cutlass::gemm::kernel::GemmBatched&lt; Mma_, Epilogue_, ThreadblockSwizzle_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_211_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="classcutlass_1_1gemm_1_1device_1_1GemmBatched_3_01ElementA___00_01LayoutA___00_01ElementB___00_0c9bb6f4463ab6085e6008b5d5ad6abfd.html" target="_self">cutlass::gemm::device::GemmBatched&lt; ElementA_, LayoutA_, ElementB_, LayoutB_, ElementC_, layout::ColumnMajor, ElementAccumulator_, OperatorClass_, ArchTag_, ThreadblockShape_, WarpShape_, InstructionShape_, EpilogueOutputOp_, ThreadblockSwizzle_, Stages, AlignmentA, AlignmentB, Operator_ &gt;</a></td><td class="desc">Parital specialization for column-major output exchanges problem size and operand </td></tr>
+<tr id="row_211_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="classcutlass_1_1gemm_1_1device_1_1GemmBatched_3_01ElementA___00_01LayoutA___00_01ElementB___00_0c9bb6f4463ab6085e6008b5d5ad6abfd.html" target="_self">cutlass::gemm::device::GemmBatched&lt; ElementA_, LayoutA_, ElementB_, LayoutB_, ElementC_, layout::ColumnMajor, ElementAccumulator_, OperatorClass_, ArchTag_, ThreadblockShape_, WarpShape_, InstructionShape_, EpilogueOutputOp_, ThreadblockSwizzle_, Stages, AlignmentA, AlignmentB, Operator_ &gt;</a></td><td class="desc">Partial specialization for column-major output exchanges problem size and operand </td></tr>
 <tr id="row_212_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="classcutlass_1_1gemm_1_1device_1_1GemmBatched.html" target="_self">cutlass::gemm::device::GemmBatched&lt; ElementB, typename layout::LayoutTranspose&lt; LayoutB &gt;::type, ElementA, typename layout::LayoutTranspose&lt; LayoutA &gt;::type, ElementC, layout::RowMajor, ElementAccumulator, OperatorClass, ArchTag, ThreadblockShape, WarpShape, InstructionShape, EpilogueOutputOp, ThreadblockSwizzle, Stages, kAlignmentB, kAlignmentA &gt;</a></td><td class="desc"></td></tr>
 <tr id="row_213_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1library_1_1GemmBatchedConfiguration.html" target="_self">cutlass::library::GemmBatchedConfiguration</a></td><td class="desc">Configuration for batched GEMM in which multiple matrix products are computed </td></tr>
 <tr id="row_214_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1threadblock_1_1GemmBatchedIdentityThreadblockSwizzle.html" target="_self">cutlass::gemm::threadblock::GemmBatchedIdentityThreadblockSwizzle</a></td><td class="desc">Threadblock swizzling function for batched GEMMs </td></tr>
 <tr id="row_215_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="classcutlass_1_1gemm_1_1device_1_1GemmComplex.html" target="_self">cutlass::gemm::device::GemmComplex&lt; ElementA_, LayoutA_, ElementB_, LayoutB_, ElementC_, LayoutC_, ElementAccumulator_, OperatorClass_, ArchTag_, ThreadblockShape_, WarpShape_, InstructionShape_, EpilogueOutputOp_, ThreadblockSwizzle_, Stages, TransformA, TransformB, SplitKSerial &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_216_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="classcutlass_1_1gemm_1_1device_1_1GemmComplex_3_01ElementA___00_01LayoutA___00_01ElementB___00_07c56401b4df75709ae636675d9980a9a.html" target="_self">cutlass::gemm::device::GemmComplex&lt; ElementA_, LayoutA_, ElementB_, LayoutB_, ElementC_, layout::ColumnMajor, ElementAccumulator_, OperatorClass_, ArchTag_, ThreadblockShape_, WarpShape_, InstructionShape_, EpilogueOutputOp_, ThreadblockSwizzle_, Stages, TransformA, TransformB, SplitKSerial &gt;</a></td><td class="desc">Parital specialization for column-major output exchanges problem size and operand </td></tr>
+<tr id="row_216_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="classcutlass_1_1gemm_1_1device_1_1GemmComplex_3_01ElementA___00_01LayoutA___00_01ElementB___00_07c56401b4df75709ae636675d9980a9a.html" target="_self">cutlass::gemm::device::GemmComplex&lt; ElementA_, LayoutA_, ElementB_, LayoutB_, ElementC_, layout::ColumnMajor, ElementAccumulator_, OperatorClass_, ArchTag_, ThreadblockShape_, WarpShape_, InstructionShape_, EpilogueOutputOp_, ThreadblockSwizzle_, Stages, TransformA, TransformB, SplitKSerial &gt;</a></td><td class="desc">Partial specialization for column-major output exchanges problem size and operand </td></tr>
 <tr id="row_217_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="classcutlass_1_1gemm_1_1device_1_1GemmComplex.html" target="_self">cutlass::gemm::device::GemmComplex&lt; ElementB, typename layout::LayoutTranspose&lt; LayoutB &gt;::type, ElementA, typename layout::LayoutTranspose&lt; LayoutA &gt;::type, ElementC, layout::RowMajor, ElementAccumulator, OperatorClass, ArchTag, ThreadblockShape, WarpShape, InstructionShape, EpilogueOutputOp, ThreadblockSwizzle, Stages, TransformA, TransformB, SplitKSerial &gt;</a></td><td class="desc"></td></tr>
 <tr id="row_218_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1library_1_1GemmConfiguration.html" target="_self">cutlass::library::GemmConfiguration</a></td><td class="desc">Configuration for basic GEMM operations </td></tr>
 <tr id="row_219_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1threadblock_1_1GemmHorizontalThreadblockSwizzle.html" target="_self">cutlass::gemm::threadblock::GemmHorizontalThreadblockSwizzle</a></td><td class="desc">Threadblock swizzling function for GEMMs </td></tr>
diff --git a/docs/host_2tensor__fill_8h.html b/docs/host_2tensor__fill_8h.html
index cc013443..0bc5fab0 100644
--- a/docs/host_2tensor__fill_8h.html
+++ b/docs/host_2tensor__fill_8h.html
@@ -192,7 +192,7 @@
 <tr class="separator:a1c81144ca36832a48d04d1b5b6498080"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:a29548cb522d9c147cf34263ecac75d89"><td class="memTemplParams" colspan="2">template&lt;typename Element , typename Layout &gt; </td></tr>
 <tr class="memitem:a29548cb522d9c147cf34263ecac75d89"><td class="memTemplItemLeft" align="right" valign="top">void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1reference_1_1host.html#a29548cb522d9c147cf34263ecac75d89">cutlass::reference::host::TensorFillIdentity</a> (TensorView&lt; Element, Layout &gt; dst)</td></tr>
-<tr class="memdesc:a29548cb522d9c147cf34263ecac75d89"><td class="mdescLeft">&#160;</td><td class="mdescRight">Helper to fill a tensor's digonal with 1 and 0 everywhere else.  <a href="namespacecutlass_1_1reference_1_1host.html#a29548cb522d9c147cf34263ecac75d89">More...</a><br /></td></tr>
+<tr class="memdesc:a29548cb522d9c147cf34263ecac75d89"><td class="mdescLeft">&#160;</td><td class="mdescRight">Helper to fill a tensor's diagonal with 1 and 0 everywhere else.  <a href="namespacecutlass_1_1reference_1_1host.html#a29548cb522d9c147cf34263ecac75d89">More...</a><br /></td></tr>
 <tr class="separator:a29548cb522d9c147cf34263ecac75d89"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:acbf747241e8ac6ef9b1702b735a7913e"><td class="memTemplParams" colspan="2">template&lt;typename Element , typename Layout &gt; </td></tr>
 <tr class="memitem:acbf747241e8ac6ef9b1702b735a7913e"><td class="memTemplItemLeft" align="right" valign="top">void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1reference_1_1host.html#acbf747241e8ac6ef9b1702b735a7913e">cutlass::reference::host::TensorUpdateDiagonal</a> (TensorView&lt; Element, Layout &gt; dst, Element val=Element(1))</td></tr>
diff --git a/docs/host_2tensor__fill_8h_source.html b/docs/host_2tensor__fill_8h_source.html
index d90cc56a..12919ee0 100644
--- a/docs/host_2tensor__fill_8h_source.html
+++ b/docs/host_2tensor__fill_8h_source.html
@@ -132,7 +132,7 @@
 <div class="ttc" id="structcutlass_1_1reference_1_1host_1_1detail_1_1RandomGaussianFunc_html_a4c9943f36faab7d4928b1f130d0b784c"><div class="ttname"><a href="structcutlass_1_1reference_1_1host_1_1detail_1_1RandomGaussianFunc.html#a4c9943f36faab7d4928b1f130d0b784c">cutlass::reference::host::detail::RandomGaussianFunc::int_scale</a></div><div class="ttdeci">int int_scale</div><div class="ttdef"><b>Definition:</b> host/tensor_fill.h:115</div></div>
 <div class="ttc" id="structcutlass_1_1reference_1_1host_1_1detail_1_1TensorUpdateOffDiagonalFunc_html"><div class="ttname"><a href="structcutlass_1_1reference_1_1host_1_1detail_1_1TensorUpdateOffDiagonalFunc.html">cutlass::reference::host::detail::TensorUpdateOffDiagonalFunc</a></div><div class="ttdoc">&lt; Layout function </div><div class="ttdef"><b>Definition:</b> host/tensor_fill.h:597</div></div>
 <div class="ttc" id="structcutlass_1_1reference_1_1host_1_1detail_1_1RandomUniformFunc_3_01complex_3_01Element_01_4_01_4_html_ad0de7d4946af855288d7f9cccb9a18eb"><div class="ttname"><a href="structcutlass_1_1reference_1_1host_1_1detail_1_1RandomUniformFunc_3_01complex_3_01Element_01_4_01_4.html#ad0de7d4946af855288d7f9cccb9a18eb">cutlass::reference::host::detail::RandomUniformFunc&lt; complex&lt; Element &gt; &gt;::int_scale</a></div><div class="ttdeci">int int_scale</div><div class="ttdef"><b>Definition:</b> host/tensor_fill.h:357</div></div>
-<div class="ttc" id="namespacecutlass_1_1reference_1_1host_html_a29548cb522d9c147cf34263ecac75d89"><div class="ttname"><a href="namespacecutlass_1_1reference_1_1host.html#a29548cb522d9c147cf34263ecac75d89">cutlass::reference::host::TensorFillIdentity</a></div><div class="ttdeci">void TensorFillIdentity(TensorView&lt; Element, Layout &gt; dst)</div><div class="ttdoc">Helper to fill a tensor&amp;#39;s digonal with 1 and 0 everywhere else. </div><div class="ttdef"><b>Definition:</b> host/tensor_fill.h:564</div></div>
+<div class="ttc" id="namespacecutlass_1_1reference_1_1host_html_a29548cb522d9c147cf34263ecac75d89"><div class="ttname"><a href="namespacecutlass_1_1reference_1_1host.html#a29548cb522d9c147cf34263ecac75d89">cutlass::reference::host::TensorFillIdentity</a></div><div class="ttdeci">void TensorFillIdentity(TensorView&lt; Element, Layout &gt; dst)</div><div class="ttdoc">Helper to fill a tensor&amp;#39;s diagonal with 1 and 0 everywhere else. </div><div class="ttdef"><b>Definition:</b> host/tensor_fill.h:564</div></div>
 <div class="ttc" id="structcutlass_1_1reference_1_1host_1_1detail_1_1RandomUniformFunc_3_01complex_3_01Element_01_4_01_4_html_a6ef7020f1108432fe51853dffb7e727c"><div class="ttname"><a href="structcutlass_1_1reference_1_1host_1_1detail_1_1RandomUniformFunc_3_01complex_3_01Element_01_4_01_4.html#a6ef7020f1108432fe51853dffb7e727c">cutlass::reference::host::detail::RandomUniformFunc&lt; complex&lt; Element &gt; &gt;::operator()</a></div><div class="ttdeci">complex&lt; Element &gt; operator()() const </div><div class="ttdoc">Compute random value and update RNG state. </div><div class="ttdef"><b>Definition:</b> host/tensor_fill.h:375</div></div>
 <div class="ttc" id="namespacecutlass_html_a67f9e83dd59615eff837ea66984c121c"><div class="ttname"><a href="namespacecutlass.html#a67f9e83dd59615eff837ea66984c121c">cutlass::log</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE complex&lt; T &gt; log(complex&lt; T &gt; const &amp;z)</div><div class="ttdoc">Computes the complex exponential of z. </div><div class="ttdef"><b>Definition:</b> complex.h:381</div></div>
 <div class="ttc" id="structcutlass_1_1reference_1_1host_1_1detail_1_1TensorFillGaussianFunc_html_a4e447a80bd94cde69fa66f9e9d882b28"><div class="ttname"><a href="structcutlass_1_1reference_1_1host_1_1detail_1_1TensorFillGaussianFunc.html#a4e447a80bd94cde69fa66f9e9d882b28">cutlass::reference::host::detail::TensorFillGaussianFunc::operator()</a></div><div class="ttdeci">void operator()(Coord&lt; Layout::kRank &gt; const &amp;coord) const </div><div class="ttdoc">Compute random value and update RNG state. </div><div class="ttdef"><b>Definition:</b> host/tensor_fill.h:236</div></div>
diff --git a/docs/host_2tensor__foreach_8h_source.html b/docs/host_2tensor__foreach_8h_source.html
index 34c54721..4dee3539 100644
--- a/docs/host_2tensor__foreach_8h_source.html
+++ b/docs/host_2tensor__foreach_8h_source.html
@@ -104,7 +104,7 @@
 <div class="ttc" id="structcutlass_1_1reference_1_1host_1_1detail_1_1TensorForEachHelper_html_a1161a761c596e714982fe30141211cca"><div class="ttname"><a href="structcutlass_1_1reference_1_1host_1_1detail_1_1TensorForEachHelper.html#a1161a761c596e714982fe30141211cca">cutlass::reference::host::detail::TensorForEachHelper::kActiveRank</a></div><div class="ttdeci">static int const kActiveRank</div><div class="ttdoc">Index of the active rank. </div><div class="ttdef"><b>Definition:</b> host/tensor_foreach.h:44</div></div>
 <div class="ttc" id="structcutlass_1_1reference_1_1host_1_1detail_1_1TensorForEachHelper_html_aa63906bbecfe42eec1991c9176f066d9"><div class="ttname"><a href="structcutlass_1_1reference_1_1host_1_1detail_1_1TensorForEachHelper.html#aa63906bbecfe42eec1991c9176f066d9">cutlass::reference::host::detail::TensorForEachHelper::TensorForEachHelper</a></div><div class="ttdeci">TensorForEachHelper(Func &amp;func, Coord&lt; Rank &gt; const &amp;extent, Coord&lt; Rank &gt; &amp;coord)</div><div class="ttdoc">Constructor for general rank. </div><div class="ttdef"><b>Definition:</b> host/tensor_foreach.h:47</div></div>
 <div class="ttc" id="structcutlass_1_1reference_1_1host_1_1detail_1_1TensorForEachHelper_html"><div class="ttname"><a href="structcutlass_1_1reference_1_1host_1_1detail_1_1TensorForEachHelper.html">cutlass::reference::host::detail::TensorForEachHelper</a></div><div class="ttdoc">Helper to perform for-each operation. </div><div class="ttdef"><b>Definition:</b> host/tensor_foreach.h:41</div></div>
-<div class="ttc" id="structcutlass_1_1reference_1_1host_1_1detail_1_1TensorForEachHelper_3_01Func_00_01Rank_00_010_01_4_html_a5029a4405a9a5e64011addb43bb88120"><div class="ttname"><a href="structcutlass_1_1reference_1_1host_1_1detail_1_1TensorForEachHelper_3_01Func_00_01Rank_00_010_01_4.html#a5029a4405a9a5e64011addb43bb88120">cutlass::reference::host::detail::TensorForEachHelper&lt; Func, Rank, 0 &gt;::TensorForEachHelper</a></div><div class="ttdeci">TensorForEachHelper(Func &amp;func, Coord&lt; Rank &gt; const &amp;extent, Coord&lt; Rank &gt; &amp;coord)</div><div class="ttdoc">Constructor for fastest chaning rank. </div><div class="ttdef"><b>Definition:</b> host/tensor_foreach.h:67</div></div>
+<div class="ttc" id="structcutlass_1_1reference_1_1host_1_1detail_1_1TensorForEachHelper_3_01Func_00_01Rank_00_010_01_4_html_a5029a4405a9a5e64011addb43bb88120"><div class="ttname"><a href="structcutlass_1_1reference_1_1host_1_1detail_1_1TensorForEachHelper_3_01Func_00_01Rank_00_010_01_4.html#a5029a4405a9a5e64011addb43bb88120">cutlass::reference::host::detail::TensorForEachHelper&lt; Func, Rank, 0 &gt;::TensorForEachHelper</a></div><div class="ttdeci">TensorForEachHelper(Func &amp;func, Coord&lt; Rank &gt; const &amp;extent, Coord&lt; Rank &gt; &amp;coord)</div><div class="ttdoc">Constructor for fastest changing rank. </div><div class="ttdef"><b>Definition:</b> host/tensor_foreach.h:67</div></div>
 <div class="ttc" id="structcutlass_1_1Coord_html"><div class="ttname"><a href="structcutlass_1_1Coord.html">cutlass::Coord</a></div><div class="ttdoc">Statically-sized array specifying Coords within a tensor. </div><div class="ttdef"><b>Definition:</b> coord.h:43</div></div>
 <div class="ttc" id="namespacecutlass_1_1reference_1_1host_html_a3825b1aaaf5e5abf0de5f427e3481ada"><div class="ttname"><a href="namespacecutlass_1_1reference_1_1host.html#a3825b1aaaf5e5abf0de5f427e3481ada">cutlass::reference::host::TensorForEachLambda</a></div><div class="ttdeci">void TensorForEachLambda(Coord&lt; Rank &gt; extent, Func func)</div><div class="ttdoc">Iterates over the index space of a tensor and calls a C++ lambda. </div><div class="ttdef"><b>Definition:</b> host/tensor_foreach.h:98</div></div>
 <div class="ttc" id="namespacecutlass_1_1reference_1_1host_html_a8c798c04df572b34e3ed3976d69f993d"><div class="ttname"><a href="namespacecutlass_1_1reference_1_1host.html#a8c798c04df572b34e3ed3976d69f993d">cutlass::reference::host::TensorForEach</a></div><div class="ttdeci">void TensorForEach(Coord&lt; Rank &gt; extent, Func &amp;func)</div><div class="ttdoc">Iterates over the index space of a tensor. </div><div class="ttdef"><b>Definition:</b> host/tensor_foreach.h:87</div></div>
diff --git a/docs/include_2cutlass_2gemm_2device_2gemm_8h.html b/docs/include_2cutlass_2gemm_2device_2gemm_8h.html
index f1e5b09a..c3d18abc 100644
--- a/docs/include_2cutlass_2gemm_2device_2gemm_8h.html
+++ b/docs/include_2cutlass_2gemm_2device_2gemm_8h.html
@@ -130,7 +130,7 @@
 <tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Argument structure.  <a href="structcutlass_1_1gemm_1_1device_1_1Gemm_1_1Arguments.html#details">More...</a><br /></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">class &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1gemm_1_1device_1_1Gemm_3_01ElementA___00_01LayoutA___00_01ElementB___00_01Layout4d0960ae6b1d1bf19e6239dbd002249c.html">cutlass::gemm::device::Gemm&lt; ElementA_, LayoutA_, ElementB_, LayoutB_, ElementC_, layout::ColumnMajor, ElementAccumulator_, OperatorClass_, ArchTag_, ThreadblockShape_, WarpShape_, InstructionShape_, EpilogueOutputOp_, ThreadblockSwizzle_, Stages, AlignmentA, AlignmentB, SplitKSerial, Operator_, IsBetaZero &gt;</a></td></tr>
-<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Parital specialization for column-major output exchanges problem size and operand.  <a href="classcutlass_1_1gemm_1_1device_1_1Gemm_3_01ElementA___00_01LayoutA___00_01ElementB___00_01Layout4d0960ae6b1d1bf19e6239dbd002249c.html#details">More...</a><br /></td></tr>
+<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Partial specialization for column-major output exchanges problem size and operand.  <a href="classcutlass_1_1gemm_1_1device_1_1Gemm_3_01ElementA___00_01LayoutA___00_01ElementB___00_01Layout4d0960ae6b1d1bf19e6239dbd002249c.html#details">More...</a><br /></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1device_1_1Gemm_3_01ElementA___00_01LayoutA___00_01ElementB___00_01Layou1b211cc9c97c022d8fe10f2dd32c8709.html">cutlass::gemm::device::Gemm&lt; ElementA_, LayoutA_, ElementB_, LayoutB_, ElementC_, layout::ColumnMajor, ElementAccumulator_, OperatorClass_, ArchTag_, ThreadblockShape_, WarpShape_, InstructionShape_, EpilogueOutputOp_, ThreadblockSwizzle_, Stages, AlignmentA, AlignmentB, SplitKSerial, Operator_, IsBetaZero &gt;::Arguments</a></td></tr>
 <tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Argument structure.  <a href="structcutlass_1_1gemm_1_1device_1_1Gemm_3_01ElementA___00_01LayoutA___00_01ElementB___00_01Layou1b211cc9c97c022d8fe10f2dd32c8709.html#details">More...</a><br /></td></tr>
diff --git a/docs/include_2cutlass_2gemm_2device_2gemm__complex_8h.html b/docs/include_2cutlass_2gemm_2device_2gemm__complex_8h.html
index 7f21249e..fffdd34a 100644
--- a/docs/include_2cutlass_2gemm_2device_2gemm__complex_8h.html
+++ b/docs/include_2cutlass_2gemm_2device_2gemm__complex_8h.html
@@ -130,7 +130,7 @@
 <tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Argument structure.  <a href="structcutlass_1_1gemm_1_1device_1_1GemmComplex_1_1Arguments.html#details">More...</a><br /></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">class &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1gemm_1_1device_1_1GemmComplex_3_01ElementA___00_01LayoutA___00_01ElementB___00_07c56401b4df75709ae636675d9980a9a.html">cutlass::gemm::device::GemmComplex&lt; ElementA_, LayoutA_, ElementB_, LayoutB_, ElementC_, layout::ColumnMajor, ElementAccumulator_, OperatorClass_, ArchTag_, ThreadblockShape_, WarpShape_, InstructionShape_, EpilogueOutputOp_, ThreadblockSwizzle_, Stages, TransformA, TransformB, SplitKSerial &gt;</a></td></tr>
-<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Parital specialization for column-major output exchanges problem size and operand.  <a href="classcutlass_1_1gemm_1_1device_1_1GemmComplex_3_01ElementA___00_01LayoutA___00_01ElementB___00_07c56401b4df75709ae636675d9980a9a.html#details">More...</a><br /></td></tr>
+<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Partial specialization for column-major output exchanges problem size and operand.  <a href="classcutlass_1_1gemm_1_1device_1_1GemmComplex_3_01ElementA___00_01LayoutA___00_01ElementB___00_07c56401b4df75709ae636675d9980a9a.html#details">More...</a><br /></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1device_1_1GemmComplex_3_01ElementA___00_01LayoutA___00_01ElementB___00_a3923967cafb5cb9774c320dc24baa77.html">cutlass::gemm::device::GemmComplex&lt; ElementA_, LayoutA_, ElementB_, LayoutB_, ElementC_, layout::ColumnMajor, ElementAccumulator_, OperatorClass_, ArchTag_, ThreadblockShape_, WarpShape_, InstructionShape_, EpilogueOutputOp_, ThreadblockSwizzle_, Stages, TransformA, TransformB, SplitKSerial &gt;::Arguments</a></td></tr>
 <tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Argument structure.  <a href="structcutlass_1_1gemm_1_1device_1_1GemmComplex_3_01ElementA___00_01LayoutA___00_01ElementB___00_a3923967cafb5cb9774c320dc24baa77.html#details">More...</a><br /></td></tr>
diff --git a/docs/mma__pipelined_8h_source.html b/docs/mma__pipelined_8h_source.html
index d4952ffb..08ea72e9 100644
--- a/docs/mma__pipelined_8h_source.html
+++ b/docs/mma__pipelined_8h_source.html
@@ -98,7 +98,7 @@
 <div class="title">mma_pipelined.h</div>  </div>
 </div><!--header-->
 <div class="contents">
-<a href="mma__pipelined_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2019, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00029"></a><span class="lineno">   29</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;</div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="cutlass_8h.html">cutlass/cutlass.h</a>&quot;</span></div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="array_8h.html">cutlass/array.h</a>&quot;</span></div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="aligned__buffer_8h.html">cutlass/aligned_buffer.h</a>&quot;</span></div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="numeric__conversion_8h.html">cutlass/numeric_conversion.h</a>&quot;</span></div><div class="line"><a name="l00035"></a><span class="lineno">   35</span>&#160;</div><div class="line"><a name="l00036"></a><span class="lineno">   36</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="numeric__types_8h.html">cutlass/numeric_types.h</a>&quot;</span></div><div class="line"><a name="l00037"></a><span class="lineno">   37</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="matrix__shape_8h.html">cutlass/matrix_shape.h</a>&quot;</span></div><div class="line"><a name="l00038"></a><span class="lineno">   38</span>&#160;</div><div class="line"><a name="l00039"></a><span class="lineno">   39</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="include_2cutlass_2gemm_2gemm_8h.html">cutlass/gemm/gemm.h</a>&quot;</span></div><div class="line"><a name="l00040"></a><span class="lineno">   40</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="mma__base_8h.html">cutlass/gemm/threadblock/mma_base.h</a>&quot;</span></div><div class="line"><a name="l00041"></a><span class="lineno">   41</span>&#160;</div><div class="line"><a name="l00043"></a><span class="lineno">   43</span>&#160;</div><div class="line"><a name="l00044"></a><span class="lineno">   44</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00045"></a><span class="lineno">   45</span>&#160;<span class="keyword">namespace </span>gemm {</div><div class="line"><a name="l00046"></a><span class="lineno">   46</span>&#160;<span class="keyword">namespace </span>threadblock {</div><div class="line"><a name="l00047"></a><span class="lineno">   47</span>&#160;</div><div class="line"><a name="l00049"></a><span class="lineno">   49</span>&#160;</div><div class="line"><a name="l00051"></a><span class="lineno">   51</span>&#160;<span class="keyword">template</span> &lt;</div><div class="line"><a name="l00053"></a><span class="lineno">   53</span>&#160;  <span class="keyword">typename</span> Shape_,</div><div class="line"><a name="l00055"></a><span class="lineno">   55</span>&#160;  <span class="comment">//  (concept: ReadableTileIterator | ForwardTileIterator | MaskedTileIterator)</span></div><div class="line"><a name="l00056"></a><span class="lineno">   56</span>&#160;  <span class="keyword">typename</span> IteratorA_,</div><div class="line"><a name="l00059"></a><span class="lineno">   59</span>&#160;  <span class="keyword">typename</span> SmemIteratorA_,</div><div class="line"><a name="l00061"></a><span class="lineno">   61</span>&#160;  <span class="comment">//  (concept: ReadableTileIterator | ForwardTileIterator | MaskedTileIterator)</span></div><div class="line"><a name="l00062"></a><span class="lineno">   62</span>&#160;  <span class="keyword">typename</span> IteratorB_,</div><div class="line"><a name="l00065"></a><span class="lineno">   65</span>&#160;  <span class="keyword">typename</span> SmemIteratorB_,</div><div class="line"><a name="l00067"></a><span class="lineno">   67</span>&#160;  <span class="keyword">typename</span> ElementC_,</div><div class="line"><a name="l00069"></a><span class="lineno">   69</span>&#160;  <span class="keyword">typename</span> LayoutC_,</div><div class="line"><a name="l00071"></a><span class="lineno">   71</span>&#160;  <span class="keyword">typename</span> Policy_,</div><div class="line"><a name="l00073"></a><span class="lineno">   73</span>&#160;  <span class="keyword">typename</span> TransformA_ = NumericArrayConverter&lt;</div><div class="line"><a name="l00074"></a><span class="lineno">   74</span>&#160;    <span class="keyword">typename</span> SmemIteratorA_::Element, </div><div class="line"><a name="l00075"></a><span class="lineno">   75</span>&#160;    <span class="keyword">typename</span> IteratorA_::Element, </div><div class="line"><a name="l00076"></a><span class="lineno">   76</span>&#160;    IteratorA_::Fragment::kElements&gt;,</div><div class="line"><a name="l00079"></a><span class="lineno">   79</span>&#160;  <span class="keyword">typename</span> TransformB_ = NumericArrayConverter&lt;</div><div class="line"><a name="l00080"></a><span class="lineno">   80</span>&#160;    <span class="keyword">typename</span> SmemIteratorB_::Element, </div><div class="line"><a name="l00081"></a><span class="lineno">   81</span>&#160;    <span class="keyword">typename</span> IteratorB_::Element, </div><div class="line"><a name="l00082"></a><span class="lineno">   82</span>&#160;    IteratorB_::Fragment::kElements&gt;,</div><div class="line"><a name="l00084"></a><span class="lineno">   84</span>&#160;  <span class="keyword">typename</span> Enable = <span class="keywordtype">bool</span></div><div class="line"><a name="l00085"></a><span class="lineno">   85</span>&#160;&gt;</div><div class="line"><a name="l00086"></a><span class="lineno"><a class="line" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html">   86</a></span>&#160;<span class="keyword">class </span><a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html">MmaPipelined</a> : <span class="keyword">public</span> <a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaBase.html">MmaBase</a>&lt;Shape_, Policy_, 2&gt; {</div><div class="line"><a name="l00087"></a><span class="lineno">   87</span>&#160;<span class="keyword">public</span>:</div><div class="line"><a name="l00088"></a><span class="lineno">   88</span>&#160;</div><div class="line"><a name="l00090"></a><span class="lineno"><a class="line" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#a1ca2ed2c51ec508a6b6bb4af5f969076">   90</a></span>&#160;  <span class="keyword">using</span> <a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaBase.html">Base</a> = <a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaBase.html">MmaBase&lt;Shape_, Policy_, 2&gt;</a>;</div><div class="line"><a name="l00091"></a><span class="lineno">   91</span>&#160;</div><div class="line"><a name="l00092"></a><span class="lineno"><a class="line" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#af42727c7f832320ae88178d163421dca">   92</a></span>&#160;  <span class="keyword">using</span> <a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#af42727c7f832320ae88178d163421dca">Shape</a> = Shape_;             </div><div class="line"><a name="l00093"></a><span class="lineno"><a class="line" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#a258197bea0d4894569c627c56a64203a">   93</a></span>&#160;  <span class="keyword">using</span> <a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#a258197bea0d4894569c627c56a64203a">IteratorA</a> = IteratorA_;     </div><div class="line"><a name="l00094"></a><span class="lineno"><a class="line" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#a3989c584460e66c75a3f37ef91ecf06d">   94</a></span>&#160;  <span class="keyword">using</span> <a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#a3989c584460e66c75a3f37ef91ecf06d">IteratorB</a> = IteratorB_;     </div><div class="line"><a name="l00095"></a><span class="lineno"><a class="line" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#a102ddf57c1f46f5ed411b9d953e3f802">   95</a></span>&#160;  <span class="keyword">using</span> <a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#a102ddf57c1f46f5ed411b9d953e3f802">ElementC</a> = ElementC_;       </div><div class="line"><a name="l00096"></a><span class="lineno"><a class="line" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#a3bfd1d89c66d37d5a81d36262ad333d7">   96</a></span>&#160;  <span class="keyword">using</span> <a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#a3bfd1d89c66d37d5a81d36262ad333d7">LayoutC</a> = LayoutC_;         </div><div class="line"><a name="l00097"></a><span class="lineno"><a class="line" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#a09e5e5bfa35c1398346c452eb3deeb97">   97</a></span>&#160;  <span class="keyword">using</span> <a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#a09e5e5bfa35c1398346c452eb3deeb97">Policy</a> = Policy_;           </div><div class="line"><a name="l00098"></a><span class="lineno">   98</span>&#160;</div><div class="line"><a name="l00099"></a><span class="lineno"><a class="line" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#aba5cccb236e9a9368a9ae1e1df869e57">   99</a></span>&#160;  <span class="keyword">using</span> <a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#aba5cccb236e9a9368a9ae1e1df869e57">SmemIteratorA</a> = SmemIteratorA_;</div><div class="line"><a name="l00100"></a><span class="lineno"><a class="line" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#a0bbed549aeb0185a8486faa5fde22dd0">  100</a></span>&#160;  <span class="keyword">using</span> <a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#a0bbed549aeb0185a8486faa5fde22dd0">SmemIteratorB</a> = SmemIteratorB_;</div><div class="line"><a name="l00101"></a><span class="lineno">  101</span>&#160;</div><div class="line"><a name="l00102"></a><span class="lineno"><a class="line" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#abbab0f268458143773b2654f48b54c1c">  102</a></span>&#160;  <span class="keyword">using</span> <a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#abbab0f268458143773b2654f48b54c1c">TransformA</a> = TransformA_;</div><div class="line"><a name="l00103"></a><span class="lineno"><a class="line" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#a66d61ceb64d44f645a7ef8223ddac50d">  103</a></span>&#160;  <span class="keyword">using</span> <a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#a66d61ceb64d44f645a7ef8223ddac50d">TransformB</a> = TransformB_;</div><div class="line"><a name="l00104"></a><span class="lineno">  104</span>&#160;</div><div class="line"><a name="l00105"></a><span class="lineno">  105</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00106"></a><span class="lineno">  106</span>&#160;  <span class="comment">// Dependent types</span></div><div class="line"><a name="l00107"></a><span class="lineno">  107</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00108"></a><span class="lineno">  108</span>&#160;</div><div class="line"><a name="l00110"></a><span class="lineno"><a class="line" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#a8ab2e07ec7f4cf23ef158974fe3b8dbb">  110</a></span>&#160;  <span class="keyword">using</span> <a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#a8ab2e07ec7f4cf23ef158974fe3b8dbb">FragmentA</a> = <span class="keyword">typename</span> IteratorA::Fragment;</div><div class="line"><a name="l00111"></a><span class="lineno">  111</span>&#160;</div><div class="line"><a name="l00113"></a><span class="lineno"><a class="line" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#a8a6b28dec3f9687f46180d59ac9187fb">  113</a></span>&#160;  <span class="keyword">using</span> <a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#a8a6b28dec3f9687f46180d59ac9187fb">FragmentB</a> = <span class="keyword">typename</span> IteratorB::Fragment;</div><div class="line"><a name="l00114"></a><span class="lineno">  114</span>&#160;</div><div class="line"><a name="l00116"></a><span class="lineno"><a class="line" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#a2993390a8feebe3cf4bfb77a23c5ef33">  116</a></span>&#160;  <span class="keyword">using</span> <a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#a2993390a8feebe3cf4bfb77a23c5ef33">FragmentC</a> = <span class="keyword">typename</span> Policy::Operator::FragmentC;</div><div class="line"><a name="l00117"></a><span class="lineno">  117</span>&#160;</div><div class="line"><a name="l00119"></a><span class="lineno"><a class="line" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#abecfbe5eb8946865dc9bbf14a6fc8aff">  119</a></span>&#160;  <span class="keyword">using</span> <a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#abecfbe5eb8946865dc9bbf14a6fc8aff">Operator</a> = <span class="keyword">typename</span> Policy::Operator;</div><div class="line"><a name="l00120"></a><span class="lineno">  120</span>&#160;</div><div class="line"><a name="l00121"></a><span class="lineno">  121</span>&#160;  <span class="comment">// staticaly assert kStages for MmaPipelined is two (Double-buffered pipeline)</span></div><div class="line"><a name="l00122"></a><span class="lineno">  122</span>&#160;  <a class="code" href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a>((<a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaBase.html#ad1267d78374c170d9addd137310d2d9a">Base::kStages</a>==2), <span class="stringliteral">&quot;MmaPipelined requires kStages set to value 2&quot;</span>);</div><div class="line"><a name="l00123"></a><span class="lineno">  123</span>&#160;</div><div class="line"><a name="l00124"></a><span class="lineno">  124</span>&#160;<span class="keyword">private</span>:</div><div class="line"><a name="l00125"></a><span class="lineno">  125</span>&#160;</div><div class="line"><a name="l00126"></a><span class="lineno">  126</span>&#160;  <span class="keyword">using</span> WarpFragmentA = <span class="keyword">typename</span> Operator::FragmentA;</div><div class="line"><a name="l00127"></a><span class="lineno">  127</span>&#160;  <span class="keyword">using</span> WarpFragmentB = <span class="keyword">typename</span> Operator::FragmentB;</div><div class="line"><a name="l00128"></a><span class="lineno">  128</span>&#160;</div><div class="line"><a name="l00129"></a><span class="lineno">  129</span>&#160;<span class="keyword">protected</span>:</div><div class="line"><a name="l00130"></a><span class="lineno">  130</span>&#160;</div><div class="line"><a name="l00132"></a><span class="lineno"><a class="line" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#a9d3cbfd5a2bbe4d105df9555ddbeeb2d">  132</a></span>&#160;  <a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#aba5cccb236e9a9368a9ae1e1df869e57">SmemIteratorA</a> <a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#a9d3cbfd5a2bbe4d105df9555ddbeeb2d">smem_iterator_A_</a>;</div><div class="line"><a name="l00133"></a><span class="lineno">  133</span>&#160;</div><div class="line"><a name="l00135"></a><span class="lineno"><a class="line" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#aec92c64ede1c4233dac30d0b2ec9e394">  135</a></span>&#160;  <a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#a0bbed549aeb0185a8486faa5fde22dd0">SmemIteratorB</a> <a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#aec92c64ede1c4233dac30d0b2ec9e394">smem_iterator_B_</a>;</div><div class="line"><a name="l00136"></a><span class="lineno">  136</span>&#160;</div><div class="line"><a name="l00137"></a><span class="lineno">  137</span>&#160;<span class="keyword">public</span>:</div><div class="line"><a name="l00138"></a><span class="lineno">  138</span>&#160;</div><div class="line"><a name="l00140"></a><span class="lineno">  140</span>&#160;  CUTLASS_DEVICE</div><div class="line"><a name="l00141"></a><span class="lineno"><a class="line" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#ac8dc63b0f3ced3d8f615b56678e26400">  141</a></span>&#160;  <a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#ac8dc63b0f3ced3d8f615b56678e26400">MmaPipelined</a>(</div><div class="line"><a name="l00142"></a><span class="lineno">  142</span>&#160;    <span class="keyword">typename</span> Base::SharedStorage &amp;shared_storage,       </div><div class="line"><a name="l00143"></a><span class="lineno">  143</span>&#160;    <span class="keywordtype">int</span> thread_idx,                                     </div><div class="line"><a name="l00144"></a><span class="lineno">  144</span>&#160;    <span class="keywordtype">int</span> warp_idx,                                       </div><div class="line"><a name="l00145"></a><span class="lineno">  145</span>&#160;    <span class="keywordtype">int</span> lane_idx                                        </div><div class="line"><a name="l00146"></a><span class="lineno">  146</span>&#160;  ):</div><div class="line"><a name="l00147"></a><span class="lineno">  147</span>&#160;    <a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaBase.html">Base</a>(shared_storage, thread_idx, warp_idx, lane_idx),</div><div class="line"><a name="l00148"></a><span class="lineno">  148</span>&#160;    smem_iterator_A_(shared_storage.operand_A_ref(), thread_idx),</div><div class="line"><a name="l00149"></a><span class="lineno">  149</span>&#160;    smem_iterator_B_(shared_storage.operand_B_ref(), thread_idx) {</div><div class="line"><a name="l00150"></a><span class="lineno">  150</span>&#160;</div><div class="line"><a name="l00151"></a><span class="lineno">  151</span>&#160;    <span class="comment">// Compute warp location within threadblock tile by mapping the warp_id to</span></div><div class="line"><a name="l00152"></a><span class="lineno">  152</span>&#160;    <span class="comment">// three coordinates:</span></div><div class="line"><a name="l00153"></a><span class="lineno">  153</span>&#160;    <span class="comment">//   _m: the warp&#39;s position within the threadblock along the M dimension</span></div><div class="line"><a name="l00154"></a><span class="lineno">  154</span>&#160;    <span class="comment">//   _n: the warp&#39;s position within the threadblock along the N dimension</span></div><div class="line"><a name="l00155"></a><span class="lineno">  155</span>&#160;    <span class="comment">//   _k: the warp&#39;s position within the threadblock along the K dimension</span></div><div class="line"><a name="l00156"></a><span class="lineno">  156</span>&#160;</div><div class="line"><a name="l00157"></a><span class="lineno">  157</span>&#160;    <span class="keywordtype">int</span> warp_idx_mn = warp_idx % (<a class="code" href="structcutlass_1_1gemm_1_1GemmShape.html#a7a47fe0c44571a0a68a43c5a47cf676a">Base::WarpCount::kM</a> * <a class="code" href="structcutlass_1_1gemm_1_1GemmShape.html#a9fcbaa4b47b83d0c8a09979ad5c98a1e">Base::WarpCount::kN</a>);</div><div class="line"><a name="l00158"></a><span class="lineno">  158</span>&#160;    <span class="keywordtype">int</span> warp_idx_k = warp_idx / (<a class="code" href="structcutlass_1_1gemm_1_1GemmShape.html#a7a47fe0c44571a0a68a43c5a47cf676a">Base::WarpCount::kM</a> * <a class="code" href="structcutlass_1_1gemm_1_1GemmShape.html#a9fcbaa4b47b83d0c8a09979ad5c98a1e">Base::WarpCount::kN</a>);</div><div class="line"><a name="l00159"></a><span class="lineno">  159</span>&#160;</div><div class="line"><a name="l00160"></a><span class="lineno">  160</span>&#160;    <span class="keywordtype">int</span> warp_idx_m = warp_idx_mn % <a class="code" href="structcutlass_1_1gemm_1_1GemmShape.html#a7a47fe0c44571a0a68a43c5a47cf676a">Base::WarpCount::kM</a>;</div><div class="line"><a name="l00161"></a><span class="lineno">  161</span>&#160;    <span class="keywordtype">int</span> warp_idx_n = warp_idx_mn / <a class="code" href="structcutlass_1_1gemm_1_1GemmShape.html#a7a47fe0c44571a0a68a43c5a47cf676a">Base::WarpCount::kM</a>;</div><div class="line"><a name="l00162"></a><span class="lineno">  162</span>&#160;</div><div class="line"><a name="l00163"></a><span class="lineno">  163</span>&#160;    <span class="comment">// Add per-warp offsets in units of warp-level tiles</span></div><div class="line"><a name="l00164"></a><span class="lineno">  164</span>&#160;    this-&gt;<a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaBase.html#a98647e72bab767b280e69679bdf9947f">warp_tile_iterator_A_</a>.add_tile_offset({warp_idx_m, <a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaBase.html#a02f496a0fd1df929d8d4db9fea19160d">Base::kWarpGemmIterations</a> * warp_idx_k});</div><div class="line"><a name="l00165"></a><span class="lineno">  165</span>&#160;    this-&gt;<a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaBase.html#a3ccfb6c23f8be68463a081dc18a7b6f1">warp_tile_iterator_B_</a>.add_tile_offset({<a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaBase.html#a02f496a0fd1df929d8d4db9fea19160d">Base::kWarpGemmIterations</a> * warp_idx_k, warp_idx_n});</div><div class="line"><a name="l00166"></a><span class="lineno">  166</span>&#160;  }</div><div class="line"><a name="l00167"></a><span class="lineno">  167</span>&#160;</div><div class="line"><a name="l00169"></a><span class="lineno">  169</span>&#160;  CUTLASS_DEVICE</div><div class="line"><a name="l00170"></a><span class="lineno"><a class="line" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#a2e45872db16c8ebe01289d7cb74fe3d7">  170</a></span>&#160;  <span class="keywordtype">void</span> <a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#a2e45872db16c8ebe01289d7cb74fe3d7">operator()</a>(</div><div class="line"><a name="l00171"></a><span class="lineno">  171</span>&#160;    <span class="keywordtype">int</span> gemm_k_iterations,                            </div><div class="line"><a name="l00172"></a><span class="lineno">  172</span>&#160;    <a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#a2993390a8feebe3cf4bfb77a23c5ef33">FragmentC</a> &amp;accum,                                 </div><div class="line"><a name="l00173"></a><span class="lineno">  173</span>&#160;    <a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#a258197bea0d4894569c627c56a64203a">IteratorA</a> iterator_A,                             </div><div class="line"><a name="l00174"></a><span class="lineno">  174</span>&#160;    <a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#a3989c584460e66c75a3f37ef91ecf06d">IteratorB</a> iterator_B,                             </div><div class="line"><a name="l00175"></a><span class="lineno">  175</span>&#160;    <a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#a2993390a8feebe3cf4bfb77a23c5ef33">FragmentC</a> <span class="keyword">const</span> &amp;src_accum,                       </div><div class="line"><a name="l00176"></a><span class="lineno">  176</span>&#160;    <a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#abbab0f268458143773b2654f48b54c1c">TransformA</a> transform_A = <a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#abbab0f268458143773b2654f48b54c1c">TransformA</a>(),            </div><div class="line"><a name="l00177"></a><span class="lineno">  177</span>&#160;    <a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#a66d61ceb64d44f645a7ef8223ddac50d">TransformB</a> transform_B = <a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#a66d61ceb64d44f645a7ef8223ddac50d">TransformB</a>()) {          </div><div class="line"><a name="l00178"></a><span class="lineno">  178</span>&#160;</div><div class="line"><a name="l00179"></a><span class="lineno">  179</span>&#160;    <span class="comment">//</span></div><div class="line"><a name="l00180"></a><span class="lineno">  180</span>&#160;    <span class="comment">// Prologue</span></div><div class="line"><a name="l00181"></a><span class="lineno">  181</span>&#160;    <span class="comment">//</span></div><div class="line"><a name="l00182"></a><span class="lineno">  182</span>&#160;</div><div class="line"><a name="l00183"></a><span class="lineno">  183</span>&#160;    <span class="comment">// Perform accumulation in the &#39;d&#39; output operand</span></div><div class="line"><a name="l00184"></a><span class="lineno">  184</span>&#160;    accum = src_accum;</div><div class="line"><a name="l00185"></a><span class="lineno">  185</span>&#160;</div><div class="line"><a name="l00186"></a><span class="lineno">  186</span>&#160;    <a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#a8ab2e07ec7f4cf23ef158974fe3b8dbb">FragmentA</a> tb_frag_A;</div><div class="line"><a name="l00187"></a><span class="lineno">  187</span>&#160;    <a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#a8a6b28dec3f9687f46180d59ac9187fb">FragmentB</a> tb_frag_B;</div><div class="line"><a name="l00188"></a><span class="lineno">  188</span>&#160;</div><div class="line"><a name="l00189"></a><span class="lineno">  189</span>&#160;    tb_frag_A.clear();</div><div class="line"><a name="l00190"></a><span class="lineno">  190</span>&#160;    tb_frag_B.clear();</div><div class="line"><a name="l00191"></a><span class="lineno">  191</span>&#160;</div><div class="line"><a name="l00192"></a><span class="lineno">  192</span>&#160;    <span class="comment">// The last kblock is loaded in the prolog</span></div><div class="line"><a name="l00193"></a><span class="lineno">  193</span>&#160;    iterator_A.load(tb_frag_A);</div><div class="line"><a name="l00194"></a><span class="lineno">  194</span>&#160;    iterator_B.load(tb_frag_B);</div><div class="line"><a name="l00195"></a><span class="lineno">  195</span>&#160;</div><div class="line"><a name="l00196"></a><span class="lineno">  196</span>&#160;    ++iterator_A;</div><div class="line"><a name="l00197"></a><span class="lineno">  197</span>&#160;    ++iterator_B;</div><div class="line"><a name="l00198"></a><span class="lineno">  198</span>&#160;</div><div class="line"><a name="l00199"></a><span class="lineno">  199</span>&#160;    this-&gt;smem_iterator_A_.store(transform_A(tb_frag_A));</div><div class="line"><a name="l00200"></a><span class="lineno">  200</span>&#160;    this-&gt;smem_iterator_B_.store(transform_B(tb_frag_B));</div><div class="line"><a name="l00201"></a><span class="lineno">  201</span>&#160;</div><div class="line"><a name="l00202"></a><span class="lineno">  202</span>&#160;    ++this-&gt;<a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#a9d3cbfd5a2bbe4d105df9555ddbeeb2d">smem_iterator_A_</a>;</div><div class="line"><a name="l00203"></a><span class="lineno">  203</span>&#160;    ++this-&gt;<a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#aec92c64ede1c4233dac30d0b2ec9e394">smem_iterator_B_</a>;</div><div class="line"><a name="l00204"></a><span class="lineno">  204</span>&#160;</div><div class="line"><a name="l00205"></a><span class="lineno">  205</span>&#160;    __syncthreads();</div><div class="line"><a name="l00206"></a><span class="lineno">  206</span>&#160;</div><div class="line"><a name="l00207"></a><span class="lineno">  207</span>&#160;    <span class="comment">// Pair of fragments used to overlap shared memory loads and math instructions</span></div><div class="line"><a name="l00208"></a><span class="lineno">  208</span>&#160;    WarpFragmentA warp_frag_A[2];</div><div class="line"><a name="l00209"></a><span class="lineno">  209</span>&#160;    WarpFragmentB warp_frag_B[2];</div><div class="line"><a name="l00210"></a><span class="lineno">  210</span>&#160;</div><div class="line"><a name="l00211"></a><span class="lineno">  211</span>&#160;    this-&gt;<a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaBase.html#a98647e72bab767b280e69679bdf9947f">warp_tile_iterator_A_</a>.set_kgroup_index(0);</div><div class="line"><a name="l00212"></a><span class="lineno">  212</span>&#160;    this-&gt;<a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaBase.html#a3ccfb6c23f8be68463a081dc18a7b6f1">warp_tile_iterator_B_</a>.set_kgroup_index(0);</div><div class="line"><a name="l00213"></a><span class="lineno">  213</span>&#160;</div><div class="line"><a name="l00214"></a><span class="lineno">  214</span>&#160;    this-&gt;<a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaBase.html#a98647e72bab767b280e69679bdf9947f">warp_tile_iterator_A_</a>.load(warp_frag_A[0]);</div><div class="line"><a name="l00215"></a><span class="lineno">  215</span>&#160;    this-&gt;<a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaBase.html#a3ccfb6c23f8be68463a081dc18a7b6f1">warp_tile_iterator_B_</a>.load(warp_frag_B[0]);</div><div class="line"><a name="l00216"></a><span class="lineno">  216</span>&#160;</div><div class="line"><a name="l00217"></a><span class="lineno">  217</span>&#160;    ++this-&gt;<a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaBase.html#a98647e72bab767b280e69679bdf9947f">warp_tile_iterator_A_</a>;</div><div class="line"><a name="l00218"></a><span class="lineno">  218</span>&#160;    ++this-&gt;<a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaBase.html#a3ccfb6c23f8be68463a081dc18a7b6f1">warp_tile_iterator_B_</a>;</div><div class="line"><a name="l00219"></a><span class="lineno">  219</span>&#160;</div><div class="line"><a name="l00220"></a><span class="lineno">  220</span>&#160;    <a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#abecfbe5eb8946865dc9bbf14a6fc8aff">Operator</a> warp_mma;</div><div class="line"><a name="l00221"></a><span class="lineno">  221</span>&#160;</div><div class="line"><a name="l00222"></a><span class="lineno">  222</span>&#160;    <span class="keywordtype">int</span> smem_write_stage_idx = 1;</div><div class="line"><a name="l00223"></a><span class="lineno">  223</span>&#160;</div><div class="line"><a name="l00224"></a><span class="lineno">  224</span>&#160;    <span class="comment">// Avoid reading out of bounds</span></div><div class="line"><a name="l00225"></a><span class="lineno">  225</span>&#160;    <span class="keywordflow">if</span> (gemm_k_iterations &lt;= 1) {</div><div class="line"><a name="l00226"></a><span class="lineno">  226</span>&#160;      iterator_A.clear_mask();</div><div class="line"><a name="l00227"></a><span class="lineno">  227</span>&#160;      iterator_B.clear_mask();</div><div class="line"><a name="l00228"></a><span class="lineno">  228</span>&#160;    }</div><div class="line"><a name="l00229"></a><span class="lineno">  229</span>&#160;</div><div class="line"><a name="l00230"></a><span class="lineno">  230</span>&#160;    <span class="comment">// Issue loads during the first warp-level matrix multiply-add *AFTER* issuing </span></div><div class="line"><a name="l00231"></a><span class="lineno">  231</span>&#160;    <span class="comment">// shared memory loads (which have the tighest latency requirement).</span></div><div class="line"><a name="l00232"></a><span class="lineno">  232</span>&#160;</div><div class="line"><a name="l00233"></a><span class="lineno">  233</span>&#160;    <span class="comment">//</span></div><div class="line"><a name="l00234"></a><span class="lineno">  234</span>&#160;    <span class="comment">// Mainloop</span></div><div class="line"><a name="l00235"></a><span class="lineno">  235</span>&#160;    <span class="comment">//</span></div><div class="line"><a name="l00236"></a><span class="lineno">  236</span>&#160;</div><div class="line"><a name="l00237"></a><span class="lineno">  237</span>&#160;    <span class="comment">// Note: The main loop does not support Base::kWarpGemmIterations == 2.</span></div><div class="line"><a name="l00238"></a><span class="lineno">  238</span>&#160;    <a class="code" href="cutlass_8h.html#a8e18ced39c05ab3304bb4fcdc0cc9f71">CUTLASS_GEMM_LOOP</a></div><div class="line"><a name="l00239"></a><span class="lineno">  239</span>&#160;    <span class="keywordflow">for</span> (; gemm_k_iterations &gt; 0; --gemm_k_iterations) {</div><div class="line"><a name="l00240"></a><span class="lineno">  240</span>&#160;      <span class="comment">//</span></div><div class="line"><a name="l00241"></a><span class="lineno">  241</span>&#160;      <span class="comment">// Loop over GEMM K dimension</span></div><div class="line"><a name="l00242"></a><span class="lineno">  242</span>&#160;      <span class="comment">//</span></div><div class="line"><a name="l00243"></a><span class="lineno">  243</span>&#160;</div><div class="line"><a name="l00244"></a><span class="lineno">  244</span>&#160;      <a class="code" href="cutlass_8h.html#a4b1c9f25ab6eaa25e1f2258dd63e6ce4">CUTLASS_PRAGMA_UNROLL</a></div><div class="line"><a name="l00245"></a><span class="lineno">  245</span>&#160;      <span class="keywordflow">for</span> (<span class="keywordtype">int</span> warp_mma_k = 0; warp_mma_k &lt; <a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaBase.html#a02f496a0fd1df929d8d4db9fea19160d">Base::kWarpGemmIterations</a>; ++warp_mma_k) {</div><div class="line"><a name="l00246"></a><span class="lineno">  246</span>&#160;</div><div class="line"><a name="l00247"></a><span class="lineno">  247</span>&#160;        <span class="comment">// Load warp-level tiles from shared memory, wrapping to k offset if this is the last group</span></div><div class="line"><a name="l00248"></a><span class="lineno">  248</span>&#160;        <span class="comment">// as the case may be.</span></div><div class="line"><a name="l00249"></a><span class="lineno">  249</span>&#160;</div><div class="line"><a name="l00250"></a><span class="lineno">  250</span>&#160;        <span class="keywordflow">if</span> (warp_mma_k == Base::kWarpGemmIterations - 1) {</div><div class="line"><a name="l00251"></a><span class="lineno">  251</span>&#160;</div><div class="line"><a name="l00252"></a><span class="lineno">  252</span>&#160;          <span class="comment">// Write fragments to shared memory</span></div><div class="line"><a name="l00253"></a><span class="lineno">  253</span>&#160;          this-&gt;smem_iterator_A_.store(transform_A(tb_frag_A));</div><div class="line"><a name="l00254"></a><span class="lineno">  254</span>&#160;</div><div class="line"><a name="l00255"></a><span class="lineno">  255</span>&#160;          this-&gt;smem_iterator_B_.store(transform_B(tb_frag_B));</div><div class="line"><a name="l00256"></a><span class="lineno">  256</span>&#160;</div><div class="line"><a name="l00257"></a><span class="lineno">  257</span>&#160;          __syncthreads();</div><div class="line"><a name="l00258"></a><span class="lineno">  258</span>&#160;          </div><div class="line"><a name="l00259"></a><span class="lineno">  259</span>&#160;          ++this-&gt;<a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#aec92c64ede1c4233dac30d0b2ec9e394">smem_iterator_B_</a>;</div><div class="line"><a name="l00260"></a><span class="lineno">  260</span>&#160;          ++this-&gt;<a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#a9d3cbfd5a2bbe4d105df9555ddbeeb2d">smem_iterator_A_</a>;</div><div class="line"><a name="l00261"></a><span class="lineno">  261</span>&#160;</div><div class="line"><a name="l00262"></a><span class="lineno">  262</span>&#160;          <span class="comment">// Add negative offsets to return iterators to the &#39;start&#39; of the circular buffer in shared memory</span></div><div class="line"><a name="l00263"></a><span class="lineno">  263</span>&#160;          <span class="keywordflow">if</span> (smem_write_stage_idx == 1) {</div><div class="line"><a name="l00264"></a><span class="lineno">  264</span>&#160;            this-&gt;smem_iterator_A_.add_tile_offset({0, -<a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaBase.html#ad1267d78374c170d9addd137310d2d9a">Base::kStages</a>});</div><div class="line"><a name="l00265"></a><span class="lineno">  265</span>&#160;            this-&gt;smem_iterator_B_.add_tile_offset({-<a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaBase.html#ad1267d78374c170d9addd137310d2d9a">Base::kStages</a>, 0});</div><div class="line"><a name="l00266"></a><span class="lineno">  266</span>&#160;          }</div><div class="line"><a name="l00267"></a><span class="lineno">  267</span>&#160;          <span class="keywordflow">else</span> {</div><div class="line"><a name="l00268"></a><span class="lineno">  268</span>&#160;            this-&gt;<a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaBase.html#a98647e72bab767b280e69679bdf9947f">warp_tile_iterator_A_</a>.add_tile_offset(</div><div class="line"><a name="l00269"></a><span class="lineno">  269</span>&#160;                {0, -<a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaBase.html#ad1267d78374c170d9addd137310d2d9a">Base::kStages</a> * Policy::kPartitionsK * Base::kWarpGemmIterations});</div><div class="line"><a name="l00270"></a><span class="lineno">  270</span>&#160;            this-&gt;<a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaBase.html#a3ccfb6c23f8be68463a081dc18a7b6f1">warp_tile_iterator_B_</a>.add_tile_offset(</div><div class="line"><a name="l00271"></a><span class="lineno">  271</span>&#160;                {-<a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaBase.html#ad1267d78374c170d9addd137310d2d9a">Base::kStages</a> * Policy::kPartitionsK * <a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaBase.html#a02f496a0fd1df929d8d4db9fea19160d">Base::kWarpGemmIterations</a>,</div><div class="line"><a name="l00272"></a><span class="lineno">  272</span>&#160;                 0});</div><div class="line"><a name="l00273"></a><span class="lineno">  273</span>&#160;          }</div><div class="line"><a name="l00274"></a><span class="lineno">  274</span>&#160;</div><div class="line"><a name="l00275"></a><span class="lineno">  275</span>&#160;          smem_write_stage_idx ^= 1;</div><div class="line"><a name="l00276"></a><span class="lineno">  276</span>&#160;        }</div><div class="line"><a name="l00277"></a><span class="lineno">  277</span>&#160;</div><div class="line"><a name="l00278"></a><span class="lineno">  278</span>&#160;        this-&gt;<a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaBase.html#a98647e72bab767b280e69679bdf9947f">warp_tile_iterator_A_</a>.set_kgroup_index((warp_mma_k + 1) % Base::kWarpGemmIterations);</div><div class="line"><a name="l00279"></a><span class="lineno">  279</span>&#160;        this-&gt;<a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaBase.html#a3ccfb6c23f8be68463a081dc18a7b6f1">warp_tile_iterator_B_</a>.set_kgroup_index((warp_mma_k + 1) % Base::kWarpGemmIterations);</div><div class="line"><a name="l00280"></a><span class="lineno">  280</span>&#160;        </div><div class="line"><a name="l00281"></a><span class="lineno">  281</span>&#160;        this-&gt;<a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaBase.html#a98647e72bab767b280e69679bdf9947f">warp_tile_iterator_A_</a>.load(warp_frag_A[(warp_mma_k + 1) % 2]);</div><div class="line"><a name="l00282"></a><span class="lineno">  282</span>&#160;        this-&gt;<a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaBase.html#a3ccfb6c23f8be68463a081dc18a7b6f1">warp_tile_iterator_B_</a>.load(warp_frag_B[(warp_mma_k + 1) % 2]);</div><div class="line"><a name="l00283"></a><span class="lineno">  283</span>&#160;</div><div class="line"><a name="l00284"></a><span class="lineno">  284</span>&#160;        ++this-&gt;<a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaBase.html#a98647e72bab767b280e69679bdf9947f">warp_tile_iterator_A_</a>;</div><div class="line"><a name="l00285"></a><span class="lineno">  285</span>&#160;        ++this-&gt;<a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaBase.html#a3ccfb6c23f8be68463a081dc18a7b6f1">warp_tile_iterator_B_</a>;</div><div class="line"><a name="l00286"></a><span class="lineno">  286</span>&#160;</div><div class="line"><a name="l00287"></a><span class="lineno">  287</span>&#160;        <span class="keywordflow">if</span> (warp_mma_k == 0) {</div><div class="line"><a name="l00288"></a><span class="lineno">  288</span>&#160;</div><div class="line"><a name="l00289"></a><span class="lineno">  289</span>&#160;          iterator_A.load(tb_frag_A);</div><div class="line"><a name="l00290"></a><span class="lineno">  290</span>&#160;          iterator_B.load(tb_frag_B);</div><div class="line"><a name="l00291"></a><span class="lineno">  291</span>&#160;</div><div class="line"><a name="l00292"></a><span class="lineno">  292</span>&#160;          ++iterator_A;</div><div class="line"><a name="l00293"></a><span class="lineno">  293</span>&#160;          ++iterator_B;</div><div class="line"><a name="l00294"></a><span class="lineno">  294</span>&#160;</div><div class="line"><a name="l00295"></a><span class="lineno">  295</span>&#160;          <span class="comment">// Avoid reading out of bounds if this was the last loop iteration</span></div><div class="line"><a name="l00296"></a><span class="lineno">  296</span>&#160;          <span class="keywordflow">if</span> (gemm_k_iterations &lt;= 2) {</div><div class="line"><a name="l00297"></a><span class="lineno">  297</span>&#160;            iterator_A.clear_mask();</div><div class="line"><a name="l00298"></a><span class="lineno">  298</span>&#160;            iterator_B.clear_mask();</div><div class="line"><a name="l00299"></a><span class="lineno">  299</span>&#160;          }</div><div class="line"><a name="l00300"></a><span class="lineno">  300</span>&#160;        }</div><div class="line"><a name="l00301"></a><span class="lineno">  301</span>&#160;</div><div class="line"><a name="l00302"></a><span class="lineno">  302</span>&#160;        warp_mma(accum, warp_frag_A[warp_mma_k % 2], warp_frag_B[warp_mma_k % 2], accum);</div><div class="line"><a name="l00303"></a><span class="lineno">  303</span>&#160;      }</div><div class="line"><a name="l00304"></a><span class="lineno">  304</span>&#160;    }</div><div class="line"><a name="l00305"></a><span class="lineno">  305</span>&#160;</div><div class="line"><a name="l00306"></a><span class="lineno">  306</span>&#160;  }</div><div class="line"><a name="l00307"></a><span class="lineno">  307</span>&#160;};</div><div class="line"><a name="l00308"></a><span class="lineno">  308</span>&#160;</div><div class="line"><a name="l00310"></a><span class="lineno">  310</span>&#160;</div><div class="line"><a name="l00311"></a><span class="lineno">  311</span>&#160;} <span class="comment">// namespace threadblock</span></div><div class="line"><a name="l00312"></a><span class="lineno">  312</span>&#160;} <span class="comment">// namespace gemm</span></div><div class="line"><a name="l00313"></a><span class="lineno">  313</span>&#160;} <span class="comment">// namespace cutlass</span></div><div class="ttc" id="structcutlass_1_1gemm_1_1GemmShape_html_a7a47fe0c44571a0a68a43c5a47cf676a"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmShape.html#a7a47fe0c44571a0a68a43c5a47cf676a">cutlass::gemm::GemmShape::kM</a></div><div class="ttdeci">static int const kM</div><div class="ttdef"><b>Definition:</b> include/cutlass/gemm/gemm.h:58</div></div>
+<a href="mma__pipelined_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2019, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00029"></a><span class="lineno">   29</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;</div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="cutlass_8h.html">cutlass/cutlass.h</a>&quot;</span></div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="array_8h.html">cutlass/array.h</a>&quot;</span></div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="aligned__buffer_8h.html">cutlass/aligned_buffer.h</a>&quot;</span></div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="numeric__conversion_8h.html">cutlass/numeric_conversion.h</a>&quot;</span></div><div class="line"><a name="l00035"></a><span class="lineno">   35</span>&#160;</div><div class="line"><a name="l00036"></a><span class="lineno">   36</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="numeric__types_8h.html">cutlass/numeric_types.h</a>&quot;</span></div><div class="line"><a name="l00037"></a><span class="lineno">   37</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="matrix__shape_8h.html">cutlass/matrix_shape.h</a>&quot;</span></div><div class="line"><a name="l00038"></a><span class="lineno">   38</span>&#160;</div><div class="line"><a name="l00039"></a><span class="lineno">   39</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="include_2cutlass_2gemm_2gemm_8h.html">cutlass/gemm/gemm.h</a>&quot;</span></div><div class="line"><a name="l00040"></a><span class="lineno">   40</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="mma__base_8h.html">cutlass/gemm/threadblock/mma_base.h</a>&quot;</span></div><div class="line"><a name="l00041"></a><span class="lineno">   41</span>&#160;</div><div class="line"><a name="l00043"></a><span class="lineno">   43</span>&#160;</div><div class="line"><a name="l00044"></a><span class="lineno">   44</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00045"></a><span class="lineno">   45</span>&#160;<span class="keyword">namespace </span>gemm {</div><div class="line"><a name="l00046"></a><span class="lineno">   46</span>&#160;<span class="keyword">namespace </span>threadblock {</div><div class="line"><a name="l00047"></a><span class="lineno">   47</span>&#160;</div><div class="line"><a name="l00049"></a><span class="lineno">   49</span>&#160;</div><div class="line"><a name="l00051"></a><span class="lineno">   51</span>&#160;<span class="keyword">template</span> &lt;</div><div class="line"><a name="l00053"></a><span class="lineno">   53</span>&#160;  <span class="keyword">typename</span> Shape_,</div><div class="line"><a name="l00055"></a><span class="lineno">   55</span>&#160;  <span class="comment">//  (concept: ReadableTileIterator | ForwardTileIterator | MaskedTileIterator)</span></div><div class="line"><a name="l00056"></a><span class="lineno">   56</span>&#160;  <span class="keyword">typename</span> IteratorA_,</div><div class="line"><a name="l00059"></a><span class="lineno">   59</span>&#160;  <span class="keyword">typename</span> SmemIteratorA_,</div><div class="line"><a name="l00061"></a><span class="lineno">   61</span>&#160;  <span class="comment">//  (concept: ReadableTileIterator | ForwardTileIterator | MaskedTileIterator)</span></div><div class="line"><a name="l00062"></a><span class="lineno">   62</span>&#160;  <span class="keyword">typename</span> IteratorB_,</div><div class="line"><a name="l00065"></a><span class="lineno">   65</span>&#160;  <span class="keyword">typename</span> SmemIteratorB_,</div><div class="line"><a name="l00067"></a><span class="lineno">   67</span>&#160;  <span class="keyword">typename</span> ElementC_,</div><div class="line"><a name="l00069"></a><span class="lineno">   69</span>&#160;  <span class="keyword">typename</span> LayoutC_,</div><div class="line"><a name="l00071"></a><span class="lineno">   71</span>&#160;  <span class="keyword">typename</span> Policy_,</div><div class="line"><a name="l00073"></a><span class="lineno">   73</span>&#160;  <span class="keyword">typename</span> TransformA_ = NumericArrayConverter&lt;</div><div class="line"><a name="l00074"></a><span class="lineno">   74</span>&#160;    <span class="keyword">typename</span> SmemIteratorA_::Element, </div><div class="line"><a name="l00075"></a><span class="lineno">   75</span>&#160;    <span class="keyword">typename</span> IteratorA_::Element, </div><div class="line"><a name="l00076"></a><span class="lineno">   76</span>&#160;    IteratorA_::Fragment::kElements&gt;,</div><div class="line"><a name="l00079"></a><span class="lineno">   79</span>&#160;  <span class="keyword">typename</span> TransformB_ = NumericArrayConverter&lt;</div><div class="line"><a name="l00080"></a><span class="lineno">   80</span>&#160;    <span class="keyword">typename</span> SmemIteratorB_::Element, </div><div class="line"><a name="l00081"></a><span class="lineno">   81</span>&#160;    <span class="keyword">typename</span> IteratorB_::Element, </div><div class="line"><a name="l00082"></a><span class="lineno">   82</span>&#160;    IteratorB_::Fragment::kElements&gt;,</div><div class="line"><a name="l00084"></a><span class="lineno">   84</span>&#160;  <span class="keyword">typename</span> Enable = <span class="keywordtype">bool</span></div><div class="line"><a name="l00085"></a><span class="lineno">   85</span>&#160;&gt;</div><div class="line"><a name="l00086"></a><span class="lineno"><a class="line" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html">   86</a></span>&#160;<span class="keyword">class </span><a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html">MmaPipelined</a> : <span class="keyword">public</span> <a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaBase.html">MmaBase</a>&lt;Shape_, Policy_, 2&gt; {</div><div class="line"><a name="l00087"></a><span class="lineno">   87</span>&#160;<span class="keyword">public</span>:</div><div class="line"><a name="l00088"></a><span class="lineno">   88</span>&#160;</div><div class="line"><a name="l00090"></a><span class="lineno"><a class="line" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#a1ca2ed2c51ec508a6b6bb4af5f969076">   90</a></span>&#160;  <span class="keyword">using</span> <a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaBase.html">Base</a> = <a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaBase.html">MmaBase&lt;Shape_, Policy_, 2&gt;</a>;</div><div class="line"><a name="l00091"></a><span class="lineno">   91</span>&#160;</div><div class="line"><a name="l00092"></a><span class="lineno"><a class="line" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#af42727c7f832320ae88178d163421dca">   92</a></span>&#160;  <span class="keyword">using</span> <a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#af42727c7f832320ae88178d163421dca">Shape</a> = Shape_;             </div><div class="line"><a name="l00093"></a><span class="lineno"><a class="line" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#a258197bea0d4894569c627c56a64203a">   93</a></span>&#160;  <span class="keyword">using</span> <a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#a258197bea0d4894569c627c56a64203a">IteratorA</a> = IteratorA_;     </div><div class="line"><a name="l00094"></a><span class="lineno"><a class="line" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#a3989c584460e66c75a3f37ef91ecf06d">   94</a></span>&#160;  <span class="keyword">using</span> <a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#a3989c584460e66c75a3f37ef91ecf06d">IteratorB</a> = IteratorB_;     </div><div class="line"><a name="l00095"></a><span class="lineno"><a class="line" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#a102ddf57c1f46f5ed411b9d953e3f802">   95</a></span>&#160;  <span class="keyword">using</span> <a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#a102ddf57c1f46f5ed411b9d953e3f802">ElementC</a> = ElementC_;       </div><div class="line"><a name="l00096"></a><span class="lineno"><a class="line" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#a3bfd1d89c66d37d5a81d36262ad333d7">   96</a></span>&#160;  <span class="keyword">using</span> <a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#a3bfd1d89c66d37d5a81d36262ad333d7">LayoutC</a> = LayoutC_;         </div><div class="line"><a name="l00097"></a><span class="lineno"><a class="line" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#a09e5e5bfa35c1398346c452eb3deeb97">   97</a></span>&#160;  <span class="keyword">using</span> <a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#a09e5e5bfa35c1398346c452eb3deeb97">Policy</a> = Policy_;           </div><div class="line"><a name="l00098"></a><span class="lineno">   98</span>&#160;</div><div class="line"><a name="l00099"></a><span class="lineno"><a class="line" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#aba5cccb236e9a9368a9ae1e1df869e57">   99</a></span>&#160;  <span class="keyword">using</span> <a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#aba5cccb236e9a9368a9ae1e1df869e57">SmemIteratorA</a> = SmemIteratorA_;</div><div class="line"><a name="l00100"></a><span class="lineno"><a class="line" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#a0bbed549aeb0185a8486faa5fde22dd0">  100</a></span>&#160;  <span class="keyword">using</span> <a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#a0bbed549aeb0185a8486faa5fde22dd0">SmemIteratorB</a> = SmemIteratorB_;</div><div class="line"><a name="l00101"></a><span class="lineno">  101</span>&#160;</div><div class="line"><a name="l00102"></a><span class="lineno"><a class="line" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#abbab0f268458143773b2654f48b54c1c">  102</a></span>&#160;  <span class="keyword">using</span> <a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#abbab0f268458143773b2654f48b54c1c">TransformA</a> = TransformA_;</div><div class="line"><a name="l00103"></a><span class="lineno"><a class="line" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#a66d61ceb64d44f645a7ef8223ddac50d">  103</a></span>&#160;  <span class="keyword">using</span> <a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#a66d61ceb64d44f645a7ef8223ddac50d">TransformB</a> = TransformB_;</div><div class="line"><a name="l00104"></a><span class="lineno">  104</span>&#160;</div><div class="line"><a name="l00105"></a><span class="lineno">  105</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00106"></a><span class="lineno">  106</span>&#160;  <span class="comment">// Dependent types</span></div><div class="line"><a name="l00107"></a><span class="lineno">  107</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00108"></a><span class="lineno">  108</span>&#160;</div><div class="line"><a name="l00110"></a><span class="lineno"><a class="line" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#a8ab2e07ec7f4cf23ef158974fe3b8dbb">  110</a></span>&#160;  <span class="keyword">using</span> <a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#a8ab2e07ec7f4cf23ef158974fe3b8dbb">FragmentA</a> = <span class="keyword">typename</span> IteratorA::Fragment;</div><div class="line"><a name="l00111"></a><span class="lineno">  111</span>&#160;</div><div class="line"><a name="l00113"></a><span class="lineno"><a class="line" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#a8a6b28dec3f9687f46180d59ac9187fb">  113</a></span>&#160;  <span class="keyword">using</span> <a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#a8a6b28dec3f9687f46180d59ac9187fb">FragmentB</a> = <span class="keyword">typename</span> IteratorB::Fragment;</div><div class="line"><a name="l00114"></a><span class="lineno">  114</span>&#160;</div><div class="line"><a name="l00116"></a><span class="lineno"><a class="line" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#a2993390a8feebe3cf4bfb77a23c5ef33">  116</a></span>&#160;  <span class="keyword">using</span> <a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#a2993390a8feebe3cf4bfb77a23c5ef33">FragmentC</a> = <span class="keyword">typename</span> Policy::Operator::FragmentC;</div><div class="line"><a name="l00117"></a><span class="lineno">  117</span>&#160;</div><div class="line"><a name="l00119"></a><span class="lineno"><a class="line" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#abecfbe5eb8946865dc9bbf14a6fc8aff">  119</a></span>&#160;  <span class="keyword">using</span> <a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#abecfbe5eb8946865dc9bbf14a6fc8aff">Operator</a> = <span class="keyword">typename</span> Policy::Operator;</div><div class="line"><a name="l00120"></a><span class="lineno">  120</span>&#160;</div><div class="line"><a name="l00121"></a><span class="lineno">  121</span>&#160;  <span class="comment">// staticaly assert kStages for MmaPipelined is two (Double-buffered pipeline)</span></div><div class="line"><a name="l00122"></a><span class="lineno">  122</span>&#160;  <a class="code" href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a>((<a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaBase.html#ad1267d78374c170d9addd137310d2d9a">Base::kStages</a>==2), <span class="stringliteral">&quot;MmaPipelined requires kStages set to value 2&quot;</span>);</div><div class="line"><a name="l00123"></a><span class="lineno">  123</span>&#160;</div><div class="line"><a name="l00124"></a><span class="lineno">  124</span>&#160;<span class="keyword">private</span>:</div><div class="line"><a name="l00125"></a><span class="lineno">  125</span>&#160;</div><div class="line"><a name="l00126"></a><span class="lineno">  126</span>&#160;  <span class="keyword">using</span> WarpFragmentA = <span class="keyword">typename</span> Operator::FragmentA;</div><div class="line"><a name="l00127"></a><span class="lineno">  127</span>&#160;  <span class="keyword">using</span> WarpFragmentB = <span class="keyword">typename</span> Operator::FragmentB;</div><div class="line"><a name="l00128"></a><span class="lineno">  128</span>&#160;</div><div class="line"><a name="l00129"></a><span class="lineno">  129</span>&#160;<span class="keyword">protected</span>:</div><div class="line"><a name="l00130"></a><span class="lineno">  130</span>&#160;</div><div class="line"><a name="l00132"></a><span class="lineno"><a class="line" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#a9d3cbfd5a2bbe4d105df9555ddbeeb2d">  132</a></span>&#160;  <a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#aba5cccb236e9a9368a9ae1e1df869e57">SmemIteratorA</a> <a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#a9d3cbfd5a2bbe4d105df9555ddbeeb2d">smem_iterator_A_</a>;</div><div class="line"><a name="l00133"></a><span class="lineno">  133</span>&#160;</div><div class="line"><a name="l00135"></a><span class="lineno"><a class="line" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#aec92c64ede1c4233dac30d0b2ec9e394">  135</a></span>&#160;  <a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#a0bbed549aeb0185a8486faa5fde22dd0">SmemIteratorB</a> <a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#aec92c64ede1c4233dac30d0b2ec9e394">smem_iterator_B_</a>;</div><div class="line"><a name="l00136"></a><span class="lineno">  136</span>&#160;</div><div class="line"><a name="l00137"></a><span class="lineno">  137</span>&#160;<span class="keyword">public</span>:</div><div class="line"><a name="l00138"></a><span class="lineno">  138</span>&#160;</div><div class="line"><a name="l00140"></a><span class="lineno">  140</span>&#160;  CUTLASS_DEVICE</div><div class="line"><a name="l00141"></a><span class="lineno"><a class="line" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#ac8dc63b0f3ced3d8f615b56678e26400">  141</a></span>&#160;  <a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#ac8dc63b0f3ced3d8f615b56678e26400">MmaPipelined</a>(</div><div class="line"><a name="l00142"></a><span class="lineno">  142</span>&#160;    <span class="keyword">typename</span> Base::SharedStorage &amp;shared_storage,       </div><div class="line"><a name="l00143"></a><span class="lineno">  143</span>&#160;    <span class="keywordtype">int</span> thread_idx,                                     </div><div class="line"><a name="l00144"></a><span class="lineno">  144</span>&#160;    <span class="keywordtype">int</span> warp_idx,                                       </div><div class="line"><a name="l00145"></a><span class="lineno">  145</span>&#160;    <span class="keywordtype">int</span> lane_idx                                        </div><div class="line"><a name="l00146"></a><span class="lineno">  146</span>&#160;  ):</div><div class="line"><a name="l00147"></a><span class="lineno">  147</span>&#160;    <a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaBase.html">Base</a>(shared_storage, thread_idx, warp_idx, lane_idx),</div><div class="line"><a name="l00148"></a><span class="lineno">  148</span>&#160;    smem_iterator_A_(shared_storage.operand_A_ref(), thread_idx),</div><div class="line"><a name="l00149"></a><span class="lineno">  149</span>&#160;    smem_iterator_B_(shared_storage.operand_B_ref(), thread_idx) {</div><div class="line"><a name="l00150"></a><span class="lineno">  150</span>&#160;</div><div class="line"><a name="l00151"></a><span class="lineno">  151</span>&#160;    <span class="comment">// Compute warp location within threadblock tile by mapping the warp_id to</span></div><div class="line"><a name="l00152"></a><span class="lineno">  152</span>&#160;    <span class="comment">// three coordinates:</span></div><div class="line"><a name="l00153"></a><span class="lineno">  153</span>&#160;    <span class="comment">//   _m: the warp&#39;s position within the threadblock along the M dimension</span></div><div class="line"><a name="l00154"></a><span class="lineno">  154</span>&#160;    <span class="comment">//   _n: the warp&#39;s position within the threadblock along the N dimension</span></div><div class="line"><a name="l00155"></a><span class="lineno">  155</span>&#160;    <span class="comment">//   _k: the warp&#39;s position within the threadblock along the K dimension</span></div><div class="line"><a name="l00156"></a><span class="lineno">  156</span>&#160;</div><div class="line"><a name="l00157"></a><span class="lineno">  157</span>&#160;    <span class="keywordtype">int</span> warp_idx_mn = warp_idx % (<a class="code" href="structcutlass_1_1gemm_1_1GemmShape.html#a7a47fe0c44571a0a68a43c5a47cf676a">Base::WarpCount::kM</a> * <a class="code" href="structcutlass_1_1gemm_1_1GemmShape.html#a9fcbaa4b47b83d0c8a09979ad5c98a1e">Base::WarpCount::kN</a>);</div><div class="line"><a name="l00158"></a><span class="lineno">  158</span>&#160;    <span class="keywordtype">int</span> warp_idx_k = warp_idx / (<a class="code" href="structcutlass_1_1gemm_1_1GemmShape.html#a7a47fe0c44571a0a68a43c5a47cf676a">Base::WarpCount::kM</a> * <a class="code" href="structcutlass_1_1gemm_1_1GemmShape.html#a9fcbaa4b47b83d0c8a09979ad5c98a1e">Base::WarpCount::kN</a>);</div><div class="line"><a name="l00159"></a><span class="lineno">  159</span>&#160;</div><div class="line"><a name="l00160"></a><span class="lineno">  160</span>&#160;    <span class="keywordtype">int</span> warp_idx_m = warp_idx_mn % <a class="code" href="structcutlass_1_1gemm_1_1GemmShape.html#a7a47fe0c44571a0a68a43c5a47cf676a">Base::WarpCount::kM</a>;</div><div class="line"><a name="l00161"></a><span class="lineno">  161</span>&#160;    <span class="keywordtype">int</span> warp_idx_n = warp_idx_mn / <a class="code" href="structcutlass_1_1gemm_1_1GemmShape.html#a7a47fe0c44571a0a68a43c5a47cf676a">Base::WarpCount::kM</a>;</div><div class="line"><a name="l00162"></a><span class="lineno">  162</span>&#160;</div><div class="line"><a name="l00163"></a><span class="lineno">  163</span>&#160;    <span class="comment">// Add per-warp offsets in units of warp-level tiles</span></div><div class="line"><a name="l00164"></a><span class="lineno">  164</span>&#160;    this-&gt;<a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaBase.html#a98647e72bab767b280e69679bdf9947f">warp_tile_iterator_A_</a>.add_tile_offset({warp_idx_m, <a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaBase.html#a02f496a0fd1df929d8d4db9fea19160d">Base::kWarpGemmIterations</a> * warp_idx_k});</div><div class="line"><a name="l00165"></a><span class="lineno">  165</span>&#160;    this-&gt;<a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaBase.html#a3ccfb6c23f8be68463a081dc18a7b6f1">warp_tile_iterator_B_</a>.add_tile_offset({<a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaBase.html#a02f496a0fd1df929d8d4db9fea19160d">Base::kWarpGemmIterations</a> * warp_idx_k, warp_idx_n});</div><div class="line"><a name="l00166"></a><span class="lineno">  166</span>&#160;  }</div><div class="line"><a name="l00167"></a><span class="lineno">  167</span>&#160;</div><div class="line"><a name="l00169"></a><span class="lineno">  169</span>&#160;  CUTLASS_DEVICE</div><div class="line"><a name="l00170"></a><span class="lineno"><a class="line" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#a2e45872db16c8ebe01289d7cb74fe3d7">  170</a></span>&#160;  <span class="keywordtype">void</span> <a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#a2e45872db16c8ebe01289d7cb74fe3d7">operator()</a>(</div><div class="line"><a name="l00171"></a><span class="lineno">  171</span>&#160;    <span class="keywordtype">int</span> gemm_k_iterations,                            </div><div class="line"><a name="l00172"></a><span class="lineno">  172</span>&#160;    <a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#a2993390a8feebe3cf4bfb77a23c5ef33">FragmentC</a> &amp;accum,                                 </div><div class="line"><a name="l00173"></a><span class="lineno">  173</span>&#160;    <a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#a258197bea0d4894569c627c56a64203a">IteratorA</a> iterator_A,                             </div><div class="line"><a name="l00174"></a><span class="lineno">  174</span>&#160;    <a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#a3989c584460e66c75a3f37ef91ecf06d">IteratorB</a> iterator_B,                             </div><div class="line"><a name="l00175"></a><span class="lineno">  175</span>&#160;    <a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#a2993390a8feebe3cf4bfb77a23c5ef33">FragmentC</a> <span class="keyword">const</span> &amp;src_accum,                       </div><div class="line"><a name="l00176"></a><span class="lineno">  176</span>&#160;    <a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#abbab0f268458143773b2654f48b54c1c">TransformA</a> transform_A = <a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#abbab0f268458143773b2654f48b54c1c">TransformA</a>(),            </div><div class="line"><a name="l00177"></a><span class="lineno">  177</span>&#160;    <a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#a66d61ceb64d44f645a7ef8223ddac50d">TransformB</a> transform_B = <a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#a66d61ceb64d44f645a7ef8223ddac50d">TransformB</a>()) {          </div><div class="line"><a name="l00178"></a><span class="lineno">  178</span>&#160;</div><div class="line"><a name="l00179"></a><span class="lineno">  179</span>&#160;    <span class="comment">//</span></div><div class="line"><a name="l00180"></a><span class="lineno">  180</span>&#160;    <span class="comment">// Prologue</span></div><div class="line"><a name="l00181"></a><span class="lineno">  181</span>&#160;    <span class="comment">//</span></div><div class="line"><a name="l00182"></a><span class="lineno">  182</span>&#160;</div><div class="line"><a name="l00183"></a><span class="lineno">  183</span>&#160;    <span class="comment">// Perform accumulation in the &#39;d&#39; output operand</span></div><div class="line"><a name="l00184"></a><span class="lineno">  184</span>&#160;    accum = src_accum;</div><div class="line"><a name="l00185"></a><span class="lineno">  185</span>&#160;</div><div class="line"><a name="l00186"></a><span class="lineno">  186</span>&#160;    <a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#a8ab2e07ec7f4cf23ef158974fe3b8dbb">FragmentA</a> tb_frag_A;</div><div class="line"><a name="l00187"></a><span class="lineno">  187</span>&#160;    <a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#a8a6b28dec3f9687f46180d59ac9187fb">FragmentB</a> tb_frag_B;</div><div class="line"><a name="l00188"></a><span class="lineno">  188</span>&#160;</div><div class="line"><a name="l00189"></a><span class="lineno">  189</span>&#160;    tb_frag_A.clear();</div><div class="line"><a name="l00190"></a><span class="lineno">  190</span>&#160;    tb_frag_B.clear();</div><div class="line"><a name="l00191"></a><span class="lineno">  191</span>&#160;</div><div class="line"><a name="l00192"></a><span class="lineno">  192</span>&#160;    <span class="comment">// The last kblock is loaded in the prolog</span></div><div class="line"><a name="l00193"></a><span class="lineno">  193</span>&#160;    iterator_A.load(tb_frag_A);</div><div class="line"><a name="l00194"></a><span class="lineno">  194</span>&#160;    iterator_B.load(tb_frag_B);</div><div class="line"><a name="l00195"></a><span class="lineno">  195</span>&#160;</div><div class="line"><a name="l00196"></a><span class="lineno">  196</span>&#160;    ++iterator_A;</div><div class="line"><a name="l00197"></a><span class="lineno">  197</span>&#160;    ++iterator_B;</div><div class="line"><a name="l00198"></a><span class="lineno">  198</span>&#160;</div><div class="line"><a name="l00199"></a><span class="lineno">  199</span>&#160;    this-&gt;smem_iterator_A_.store(transform_A(tb_frag_A));</div><div class="line"><a name="l00200"></a><span class="lineno">  200</span>&#160;    this-&gt;smem_iterator_B_.store(transform_B(tb_frag_B));</div><div class="line"><a name="l00201"></a><span class="lineno">  201</span>&#160;</div><div class="line"><a name="l00202"></a><span class="lineno">  202</span>&#160;    ++this-&gt;<a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#a9d3cbfd5a2bbe4d105df9555ddbeeb2d">smem_iterator_A_</a>;</div><div class="line"><a name="l00203"></a><span class="lineno">  203</span>&#160;    ++this-&gt;<a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#aec92c64ede1c4233dac30d0b2ec9e394">smem_iterator_B_</a>;</div><div class="line"><a name="l00204"></a><span class="lineno">  204</span>&#160;</div><div class="line"><a name="l00205"></a><span class="lineno">  205</span>&#160;    __syncthreads();</div><div class="line"><a name="l00206"></a><span class="lineno">  206</span>&#160;</div><div class="line"><a name="l00207"></a><span class="lineno">  207</span>&#160;    <span class="comment">// Pair of fragments used to overlap shared memory loads and math instructions</span></div><div class="line"><a name="l00208"></a><span class="lineno">  208</span>&#160;    WarpFragmentA warp_frag_A[2];</div><div class="line"><a name="l00209"></a><span class="lineno">  209</span>&#160;    WarpFragmentB warp_frag_B[2];</div><div class="line"><a name="l00210"></a><span class="lineno">  210</span>&#160;</div><div class="line"><a name="l00211"></a><span class="lineno">  211</span>&#160;    this-&gt;<a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaBase.html#a98647e72bab767b280e69679bdf9947f">warp_tile_iterator_A_</a>.set_kgroup_index(0);</div><div class="line"><a name="l00212"></a><span class="lineno">  212</span>&#160;    this-&gt;<a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaBase.html#a3ccfb6c23f8be68463a081dc18a7b6f1">warp_tile_iterator_B_</a>.set_kgroup_index(0);</div><div class="line"><a name="l00213"></a><span class="lineno">  213</span>&#160;</div><div class="line"><a name="l00214"></a><span class="lineno">  214</span>&#160;    this-&gt;<a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaBase.html#a98647e72bab767b280e69679bdf9947f">warp_tile_iterator_A_</a>.load(warp_frag_A[0]);</div><div class="line"><a name="l00215"></a><span class="lineno">  215</span>&#160;    this-&gt;<a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaBase.html#a3ccfb6c23f8be68463a081dc18a7b6f1">warp_tile_iterator_B_</a>.load(warp_frag_B[0]);</div><div class="line"><a name="l00216"></a><span class="lineno">  216</span>&#160;</div><div class="line"><a name="l00217"></a><span class="lineno">  217</span>&#160;    ++this-&gt;<a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaBase.html#a98647e72bab767b280e69679bdf9947f">warp_tile_iterator_A_</a>;</div><div class="line"><a name="l00218"></a><span class="lineno">  218</span>&#160;    ++this-&gt;<a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaBase.html#a3ccfb6c23f8be68463a081dc18a7b6f1">warp_tile_iterator_B_</a>;</div><div class="line"><a name="l00219"></a><span class="lineno">  219</span>&#160;</div><div class="line"><a name="l00220"></a><span class="lineno">  220</span>&#160;    <a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#abecfbe5eb8946865dc9bbf14a6fc8aff">Operator</a> warp_mma;</div><div class="line"><a name="l00221"></a><span class="lineno">  221</span>&#160;</div><div class="line"><a name="l00222"></a><span class="lineno">  222</span>&#160;    <span class="keywordtype">int</span> smem_write_stage_idx = 1;</div><div class="line"><a name="l00223"></a><span class="lineno">  223</span>&#160;</div><div class="line"><a name="l00224"></a><span class="lineno">  224</span>&#160;    <span class="comment">// Avoid reading out of bounds</span></div><div class="line"><a name="l00225"></a><span class="lineno">  225</span>&#160;    <span class="keywordflow">if</span> (gemm_k_iterations &lt;= 1) {</div><div class="line"><a name="l00226"></a><span class="lineno">  226</span>&#160;      iterator_A.clear_mask();</div><div class="line"><a name="l00227"></a><span class="lineno">  227</span>&#160;      iterator_B.clear_mask();</div><div class="line"><a name="l00228"></a><span class="lineno">  228</span>&#160;    }</div><div class="line"><a name="l00229"></a><span class="lineno">  229</span>&#160;</div><div class="line"><a name="l00230"></a><span class="lineno">  230</span>&#160;    <span class="comment">// Issue loads during the first warp-level matrix multiply-add *AFTER* issuing </span></div><div class="line"><a name="l00231"></a><span class="lineno">  231</span>&#160;    <span class="comment">// shared memory loads (which have the tightest latency requirement).</span></div><div class="line"><a name="l00232"></a><span class="lineno">  232</span>&#160;</div><div class="line"><a name="l00233"></a><span class="lineno">  233</span>&#160;    <span class="comment">//</span></div><div class="line"><a name="l00234"></a><span class="lineno">  234</span>&#160;    <span class="comment">// Mainloop</span></div><div class="line"><a name="l00235"></a><span class="lineno">  235</span>&#160;    <span class="comment">//</span></div><div class="line"><a name="l00236"></a><span class="lineno">  236</span>&#160;</div><div class="line"><a name="l00237"></a><span class="lineno">  237</span>&#160;    <span class="comment">// Note: The main loop does not support Base::kWarpGemmIterations == 2.</span></div><div class="line"><a name="l00238"></a><span class="lineno">  238</span>&#160;    <a class="code" href="cutlass_8h.html#a8e18ced39c05ab3304bb4fcdc0cc9f71">CUTLASS_GEMM_LOOP</a></div><div class="line"><a name="l00239"></a><span class="lineno">  239</span>&#160;    <span class="keywordflow">for</span> (; gemm_k_iterations &gt; 0; --gemm_k_iterations) {</div><div class="line"><a name="l00240"></a><span class="lineno">  240</span>&#160;      <span class="comment">//</span></div><div class="line"><a name="l00241"></a><span class="lineno">  241</span>&#160;      <span class="comment">// Loop over GEMM K dimension</span></div><div class="line"><a name="l00242"></a><span class="lineno">  242</span>&#160;      <span class="comment">//</span></div><div class="line"><a name="l00243"></a><span class="lineno">  243</span>&#160;</div><div class="line"><a name="l00244"></a><span class="lineno">  244</span>&#160;      <a class="code" href="cutlass_8h.html#a4b1c9f25ab6eaa25e1f2258dd63e6ce4">CUTLASS_PRAGMA_UNROLL</a></div><div class="line"><a name="l00245"></a><span class="lineno">  245</span>&#160;      <span class="keywordflow">for</span> (<span class="keywordtype">int</span> warp_mma_k = 0; warp_mma_k &lt; <a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaBase.html#a02f496a0fd1df929d8d4db9fea19160d">Base::kWarpGemmIterations</a>; ++warp_mma_k) {</div><div class="line"><a name="l00246"></a><span class="lineno">  246</span>&#160;</div><div class="line"><a name="l00247"></a><span class="lineno">  247</span>&#160;        <span class="comment">// Load warp-level tiles from shared memory, wrapping to k offset if this is the last group</span></div><div class="line"><a name="l00248"></a><span class="lineno">  248</span>&#160;        <span class="comment">// as the case may be.</span></div><div class="line"><a name="l00249"></a><span class="lineno">  249</span>&#160;</div><div class="line"><a name="l00250"></a><span class="lineno">  250</span>&#160;        <span class="keywordflow">if</span> (warp_mma_k == Base::kWarpGemmIterations - 1) {</div><div class="line"><a name="l00251"></a><span class="lineno">  251</span>&#160;</div><div class="line"><a name="l00252"></a><span class="lineno">  252</span>&#160;          <span class="comment">// Write fragments to shared memory</span></div><div class="line"><a name="l00253"></a><span class="lineno">  253</span>&#160;          this-&gt;smem_iterator_A_.store(transform_A(tb_frag_A));</div><div class="line"><a name="l00254"></a><span class="lineno">  254</span>&#160;</div><div class="line"><a name="l00255"></a><span class="lineno">  255</span>&#160;          this-&gt;smem_iterator_B_.store(transform_B(tb_frag_B));</div><div class="line"><a name="l00256"></a><span class="lineno">  256</span>&#160;</div><div class="line"><a name="l00257"></a><span class="lineno">  257</span>&#160;          __syncthreads();</div><div class="line"><a name="l00258"></a><span class="lineno">  258</span>&#160;          </div><div class="line"><a name="l00259"></a><span class="lineno">  259</span>&#160;          ++this-&gt;<a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#aec92c64ede1c4233dac30d0b2ec9e394">smem_iterator_B_</a>;</div><div class="line"><a name="l00260"></a><span class="lineno">  260</span>&#160;          ++this-&gt;<a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#a9d3cbfd5a2bbe4d105df9555ddbeeb2d">smem_iterator_A_</a>;</div><div class="line"><a name="l00261"></a><span class="lineno">  261</span>&#160;</div><div class="line"><a name="l00262"></a><span class="lineno">  262</span>&#160;          <span class="comment">// Add negative offsets to return iterators to the &#39;start&#39; of the circular buffer in shared memory</span></div><div class="line"><a name="l00263"></a><span class="lineno">  263</span>&#160;          <span class="keywordflow">if</span> (smem_write_stage_idx == 1) {</div><div class="line"><a name="l00264"></a><span class="lineno">  264</span>&#160;            this-&gt;smem_iterator_A_.add_tile_offset({0, -<a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaBase.html#ad1267d78374c170d9addd137310d2d9a">Base::kStages</a>});</div><div class="line"><a name="l00265"></a><span class="lineno">  265</span>&#160;            this-&gt;smem_iterator_B_.add_tile_offset({-<a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaBase.html#ad1267d78374c170d9addd137310d2d9a">Base::kStages</a>, 0});</div><div class="line"><a name="l00266"></a><span class="lineno">  266</span>&#160;          }</div><div class="line"><a name="l00267"></a><span class="lineno">  267</span>&#160;          <span class="keywordflow">else</span> {</div><div class="line"><a name="l00268"></a><span class="lineno">  268</span>&#160;            this-&gt;<a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaBase.html#a98647e72bab767b280e69679bdf9947f">warp_tile_iterator_A_</a>.add_tile_offset(</div><div class="line"><a name="l00269"></a><span class="lineno">  269</span>&#160;                {0, -<a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaBase.html#ad1267d78374c170d9addd137310d2d9a">Base::kStages</a> * Policy::kPartitionsK * Base::kWarpGemmIterations});</div><div class="line"><a name="l00270"></a><span class="lineno">  270</span>&#160;            this-&gt;<a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaBase.html#a3ccfb6c23f8be68463a081dc18a7b6f1">warp_tile_iterator_B_</a>.add_tile_offset(</div><div class="line"><a name="l00271"></a><span class="lineno">  271</span>&#160;                {-<a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaBase.html#ad1267d78374c170d9addd137310d2d9a">Base::kStages</a> * Policy::kPartitionsK * <a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaBase.html#a02f496a0fd1df929d8d4db9fea19160d">Base::kWarpGemmIterations</a>,</div><div class="line"><a name="l00272"></a><span class="lineno">  272</span>&#160;                 0});</div><div class="line"><a name="l00273"></a><span class="lineno">  273</span>&#160;          }</div><div class="line"><a name="l00274"></a><span class="lineno">  274</span>&#160;</div><div class="line"><a name="l00275"></a><span class="lineno">  275</span>&#160;          smem_write_stage_idx ^= 1;</div><div class="line"><a name="l00276"></a><span class="lineno">  276</span>&#160;        }</div><div class="line"><a name="l00277"></a><span class="lineno">  277</span>&#160;</div><div class="line"><a name="l00278"></a><span class="lineno">  278</span>&#160;        this-&gt;<a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaBase.html#a98647e72bab767b280e69679bdf9947f">warp_tile_iterator_A_</a>.set_kgroup_index((warp_mma_k + 1) % Base::kWarpGemmIterations);</div><div class="line"><a name="l00279"></a><span class="lineno">  279</span>&#160;        this-&gt;<a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaBase.html#a3ccfb6c23f8be68463a081dc18a7b6f1">warp_tile_iterator_B_</a>.set_kgroup_index((warp_mma_k + 1) % Base::kWarpGemmIterations);</div><div class="line"><a name="l00280"></a><span class="lineno">  280</span>&#160;        </div><div class="line"><a name="l00281"></a><span class="lineno">  281</span>&#160;        this-&gt;<a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaBase.html#a98647e72bab767b280e69679bdf9947f">warp_tile_iterator_A_</a>.load(warp_frag_A[(warp_mma_k + 1) % 2]);</div><div class="line"><a name="l00282"></a><span class="lineno">  282</span>&#160;        this-&gt;<a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaBase.html#a3ccfb6c23f8be68463a081dc18a7b6f1">warp_tile_iterator_B_</a>.load(warp_frag_B[(warp_mma_k + 1) % 2]);</div><div class="line"><a name="l00283"></a><span class="lineno">  283</span>&#160;</div><div class="line"><a name="l00284"></a><span class="lineno">  284</span>&#160;        ++this-&gt;<a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaBase.html#a98647e72bab767b280e69679bdf9947f">warp_tile_iterator_A_</a>;</div><div class="line"><a name="l00285"></a><span class="lineno">  285</span>&#160;        ++this-&gt;<a class="code" href="classcutlass_1_1gemm_1_1threadblock_1_1MmaBase.html#a3ccfb6c23f8be68463a081dc18a7b6f1">warp_tile_iterator_B_</a>;</div><div class="line"><a name="l00286"></a><span class="lineno">  286</span>&#160;</div><div class="line"><a name="l00287"></a><span class="lineno">  287</span>&#160;        <span class="keywordflow">if</span> (warp_mma_k == 0) {</div><div class="line"><a name="l00288"></a><span class="lineno">  288</span>&#160;</div><div class="line"><a name="l00289"></a><span class="lineno">  289</span>&#160;          iterator_A.load(tb_frag_A);</div><div class="line"><a name="l00290"></a><span class="lineno">  290</span>&#160;          iterator_B.load(tb_frag_B);</div><div class="line"><a name="l00291"></a><span class="lineno">  291</span>&#160;</div><div class="line"><a name="l00292"></a><span class="lineno">  292</span>&#160;          ++iterator_A;</div><div class="line"><a name="l00293"></a><span class="lineno">  293</span>&#160;          ++iterator_B;</div><div class="line"><a name="l00294"></a><span class="lineno">  294</span>&#160;</div><div class="line"><a name="l00295"></a><span class="lineno">  295</span>&#160;          <span class="comment">// Avoid reading out of bounds if this was the last loop iteration</span></div><div class="line"><a name="l00296"></a><span class="lineno">  296</span>&#160;          <span class="keywordflow">if</span> (gemm_k_iterations &lt;= 2) {</div><div class="line"><a name="l00297"></a><span class="lineno">  297</span>&#160;            iterator_A.clear_mask();</div><div class="line"><a name="l00298"></a><span class="lineno">  298</span>&#160;            iterator_B.clear_mask();</div><div class="line"><a name="l00299"></a><span class="lineno">  299</span>&#160;          }</div><div class="line"><a name="l00300"></a><span class="lineno">  300</span>&#160;        }</div><div class="line"><a name="l00301"></a><span class="lineno">  301</span>&#160;</div><div class="line"><a name="l00302"></a><span class="lineno">  302</span>&#160;        warp_mma(accum, warp_frag_A[warp_mma_k % 2], warp_frag_B[warp_mma_k % 2], accum);</div><div class="line"><a name="l00303"></a><span class="lineno">  303</span>&#160;      }</div><div class="line"><a name="l00304"></a><span class="lineno">  304</span>&#160;    }</div><div class="line"><a name="l00305"></a><span class="lineno">  305</span>&#160;</div><div class="line"><a name="l00306"></a><span class="lineno">  306</span>&#160;  }</div><div class="line"><a name="l00307"></a><span class="lineno">  307</span>&#160;};</div><div class="line"><a name="l00308"></a><span class="lineno">  308</span>&#160;</div><div class="line"><a name="l00310"></a><span class="lineno">  310</span>&#160;</div><div class="line"><a name="l00311"></a><span class="lineno">  311</span>&#160;} <span class="comment">// namespace threadblock</span></div><div class="line"><a name="l00312"></a><span class="lineno">  312</span>&#160;} <span class="comment">// namespace gemm</span></div><div class="line"><a name="l00313"></a><span class="lineno">  313</span>&#160;} <span class="comment">// namespace cutlass</span></div><div class="ttc" id="structcutlass_1_1gemm_1_1GemmShape_html_a7a47fe0c44571a0a68a43c5a47cf676a"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmShape.html#a7a47fe0c44571a0a68a43c5a47cf676a">cutlass::gemm::GemmShape::kM</a></div><div class="ttdeci">static int const kM</div><div class="ttdef"><b>Definition:</b> include/cutlass/gemm/gemm.h:58</div></div>
 <div class="ttc" id="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined_html_a3bfd1d89c66d37d5a81d36262ad333d7"><div class="ttname"><a href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#a3bfd1d89c66d37d5a81d36262ad333d7">cutlass::gemm::threadblock::MmaPipelined::LayoutC</a></div><div class="ttdeci">LayoutC_ LayoutC</div><div class="ttdoc">Layout of accumulator matrix. </div><div class="ttdef"><b>Definition:</b> mma_pipelined.h:96</div></div>
 <div class="ttc" id="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined_html_a66d61ceb64d44f645a7ef8223ddac50d"><div class="ttname"><a href="classcutlass_1_1gemm_1_1threadblock_1_1MmaPipelined.html#a66d61ceb64d44f645a7ef8223ddac50d">cutlass::gemm::threadblock::MmaPipelined::TransformB</a></div><div class="ttdeci">TransformB_ TransformB</div><div class="ttdef"><b>Definition:</b> mma_pipelined.h:103</div></div>
 <div class="ttc" id="namespacecutlass_html"><div class="ttname"><a href="namespacecutlass.html">cutlass</a></div><div class="ttdef"><b>Definition:</b> aligned_buffer.h:35</div></div>
diff --git a/docs/namespacecutlass_1_1gemm_1_1device.html b/docs/namespacecutlass_1_1gemm_1_1device.html
index 7023f4f8..c0b27cbe 100644
--- a/docs/namespacecutlass_1_1gemm_1_1device.html
+++ b/docs/namespacecutlass_1_1gemm_1_1device.html
@@ -134,17 +134,17 @@
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">class &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1gemm_1_1device_1_1Gemm.html">Gemm</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">class &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1gemm_1_1device_1_1Gemm_3_01ElementA___00_01LayoutA___00_01ElementB___00_01Layout4d0960ae6b1d1bf19e6239dbd002249c.html">Gemm&lt; ElementA_, LayoutA_, ElementB_, LayoutB_, ElementC_, layout::ColumnMajor, ElementAccumulator_, OperatorClass_, ArchTag_, ThreadblockShape_, WarpShape_, InstructionShape_, EpilogueOutputOp_, ThreadblockSwizzle_, Stages, AlignmentA, AlignmentB, SplitKSerial, Operator_, IsBetaZero &gt;</a></td></tr>
-<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Parital specialization for column-major output exchanges problem size and operand.  <a href="classcutlass_1_1gemm_1_1device_1_1Gemm_3_01ElementA___00_01LayoutA___00_01ElementB___00_01Layout4d0960ae6b1d1bf19e6239dbd002249c.html#details">More...</a><br /></td></tr>
+<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Partial specialization for column-major output exchanges problem size and operand.  <a href="classcutlass_1_1gemm_1_1device_1_1Gemm_3_01ElementA___00_01LayoutA___00_01ElementB___00_01Layout4d0960ae6b1d1bf19e6239dbd002249c.html#details">More...</a><br /></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">class &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1gemm_1_1device_1_1GemmBatched.html">GemmBatched</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">class &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1gemm_1_1device_1_1GemmBatched_3_01ElementA___00_01LayoutA___00_01ElementB___00_0c9bb6f4463ab6085e6008b5d5ad6abfd.html">GemmBatched&lt; ElementA_, LayoutA_, ElementB_, LayoutB_, ElementC_, layout::ColumnMajor, ElementAccumulator_, OperatorClass_, ArchTag_, ThreadblockShape_, WarpShape_, InstructionShape_, EpilogueOutputOp_, ThreadblockSwizzle_, Stages, AlignmentA, AlignmentB, Operator_ &gt;</a></td></tr>
-<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Parital specialization for column-major output exchanges problem size and operand.  <a href="classcutlass_1_1gemm_1_1device_1_1GemmBatched_3_01ElementA___00_01LayoutA___00_01ElementB___00_0c9bb6f4463ab6085e6008b5d5ad6abfd.html#details">More...</a><br /></td></tr>
+<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Partial specialization for column-major output exchanges problem size and operand.  <a href="classcutlass_1_1gemm_1_1device_1_1GemmBatched_3_01ElementA___00_01LayoutA___00_01ElementB___00_0c9bb6f4463ab6085e6008b5d5ad6abfd.html#details">More...</a><br /></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">class &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1gemm_1_1device_1_1GemmComplex.html">GemmComplex</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">class &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1gemm_1_1device_1_1GemmComplex_3_01ElementA___00_01LayoutA___00_01ElementB___00_07c56401b4df75709ae636675d9980a9a.html">GemmComplex&lt; ElementA_, LayoutA_, ElementB_, LayoutB_, ElementC_, layout::ColumnMajor, ElementAccumulator_, OperatorClass_, ArchTag_, ThreadblockShape_, WarpShape_, InstructionShape_, EpilogueOutputOp_, ThreadblockSwizzle_, Stages, TransformA, TransformB, SplitKSerial &gt;</a></td></tr>
-<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Parital specialization for column-major output exchanges problem size and operand.  <a href="classcutlass_1_1gemm_1_1device_1_1GemmComplex_3_01ElementA___00_01LayoutA___00_01ElementB___00_07c56401b4df75709ae636675d9980a9a.html#details">More...</a><br /></td></tr>
+<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Partial specialization for column-major output exchanges problem size and operand.  <a href="classcutlass_1_1gemm_1_1device_1_1GemmComplex_3_01ElementA___00_01LayoutA___00_01ElementB___00_07c56401b4df75709ae636675d9980a9a.html#details">More...</a><br /></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">class &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1gemm_1_1device_1_1GemmSplitKParallel.html">GemmSplitKParallel</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
diff --git a/docs/namespacecutlass_1_1reference_1_1device.html b/docs/namespacecutlass_1_1reference_1_1device.html
index 86f21a00..54f5009f 100644
--- a/docs/namespacecutlass_1_1reference_1_1device.html
+++ b/docs/namespacecutlass_1_1reference_1_1device.html
@@ -125,7 +125,7 @@
 <tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Partial specialization for multiply-add-saturate.  <a href="structcutlass_1_1reference_1_1device_1_1Gemm_3_01ElementA_00_01LayoutA_00_01ElementB_00_01Layout30b72addd464a2ca4a26785cbfd77a8e.html#details">More...</a><br /></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1reference_1_1device_1_1Gemm_3_01ElementA_00_01LayoutA_00_01ElementB_00_01Layout660562b232f408218828ca5915b7e73a.html">Gemm&lt; ElementA, LayoutA, ElementB, LayoutB, ElementC, LayoutC, ScalarType, AccumulatorType, arch::OpXorPopc &gt;</a></td></tr>
-<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Parital specialization for XOR-popc.  <a href="structcutlass_1_1reference_1_1device_1_1Gemm_3_01ElementA_00_01LayoutA_00_01ElementB_00_01Layout660562b232f408218828ca5915b7e73a.html#details">More...</a><br /></td></tr>
+<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Partial specialization for XOR-popc.  <a href="structcutlass_1_1reference_1_1device_1_1Gemm_3_01ElementA_00_01LayoutA_00_01ElementB_00_01Layout660562b232f408218828ca5915b7e73a.html#details">More...</a><br /></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1reference_1_1device_1_1TensorDiagonalForEach.html">TensorDiagonalForEach</a></td></tr>
 <tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Launches a kernel calling a functor for each element along a tensor's diagonal.  <a href="structcutlass_1_1reference_1_1device_1_1TensorDiagonalForEach.html#details">More...</a><br /></td></tr>
@@ -183,7 +183,7 @@
 <tr class="separator:a6e23d479ebb3760d5846ed1b67e450e4"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:a6b0f21995c4fd5c33617550e6905c78e"><td class="memTemplParams" colspan="2">template&lt;typename Element , typename Layout &gt; </td></tr>
 <tr class="memitem:a6b0f21995c4fd5c33617550e6905c78e"><td class="memTemplItemLeft" align="right" valign="top">void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1reference_1_1device.html#a6b0f21995c4fd5c33617550e6905c78e">TensorFillIdentity</a> (<a class="el" href="classcutlass_1_1TensorView.html">TensorView</a>&lt; Element, Layout &gt; view)</td></tr>
-<tr class="memdesc:a6b0f21995c4fd5c33617550e6905c78e"><td class="mdescLeft">&#160;</td><td class="mdescRight">Fills a tensor's digonal with 1 and 0 everywhere else.  <a href="#a6b0f21995c4fd5c33617550e6905c78e">More...</a><br /></td></tr>
+<tr class="memdesc:a6b0f21995c4fd5c33617550e6905c78e"><td class="mdescLeft">&#160;</td><td class="mdescRight">Fills a tensor's diagonal with 1 and 0 everywhere else.  <a href="#a6b0f21995c4fd5c33617550e6905c78e">More...</a><br /></td></tr>
 <tr class="separator:a6b0f21995c4fd5c33617550e6905c78e"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:aaff3d7919a2f2dce14eb254c17eead9a"><td class="memTemplParams" colspan="2">template&lt;typename Element , typename Layout &gt; </td></tr>
 <tr class="memitem:aaff3d7919a2f2dce14eb254c17eead9a"><td class="memTemplItemLeft" align="right" valign="top">void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1reference_1_1device.html#aaff3d7919a2f2dce14eb254c17eead9a">TensorUpdateDiagonal</a> (<a class="el" href="classcutlass_1_1TensorView.html">TensorView</a>&lt; Element, Layout &gt; view, Element diag=Element(1))</td></tr>
diff --git a/docs/namespacecutlass_1_1reference_1_1host.html b/docs/namespacecutlass_1_1reference_1_1host.html
index 90f9a014..6d07d1f2 100644
--- a/docs/namespacecutlass_1_1reference_1_1host.html
+++ b/docs/namespacecutlass_1_1reference_1_1host.html
@@ -122,7 +122,7 @@
 <tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Partial specialization for multiply-add-saturate.  <a href="structcutlass_1_1reference_1_1host_1_1Gemm_3_01ElementA_00_01LayoutA_00_01ElementB_00_01LayoutB_55729eac7dbd6bf311ea36f680e83e93.html#details">More...</a><br /></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1reference_1_1host_1_1Gemm_3_01ElementA_00_01LayoutA_00_01ElementB_00_01LayoutB_4f3f32c4b336238abfd741e87bfced46.html">Gemm&lt; ElementA, LayoutA, ElementB, LayoutB, ElementC, LayoutC, ScalarType, ComputeType, arch::OpXorPopc &gt;</a></td></tr>
-<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Parital specialization for XOR-popc.  <a href="structcutlass_1_1reference_1_1host_1_1Gemm_3_01ElementA_00_01LayoutA_00_01ElementB_00_01LayoutB_4f3f32c4b336238abfd741e87bfced46.html#details">More...</a><br /></td></tr>
+<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Partial specialization for XOR-popc.  <a href="structcutlass_1_1reference_1_1host_1_1Gemm_3_01ElementA_00_01LayoutA_00_01ElementB_00_01LayoutB_4f3f32c4b336238abfd741e87bfced46.html#details">More...</a><br /></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table><table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="func-members"></a>
@@ -247,7 +247,7 @@
 <tr class="separator:a1c81144ca36832a48d04d1b5b6498080"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:a29548cb522d9c147cf34263ecac75d89"><td class="memTemplParams" colspan="2">template&lt;typename Element , typename Layout &gt; </td></tr>
 <tr class="memitem:a29548cb522d9c147cf34263ecac75d89"><td class="memTemplItemLeft" align="right" valign="top">void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1reference_1_1host.html#a29548cb522d9c147cf34263ecac75d89">TensorFillIdentity</a> (<a class="el" href="classcutlass_1_1TensorView.html">TensorView</a>&lt; Element, Layout &gt; dst)</td></tr>
-<tr class="memdesc:a29548cb522d9c147cf34263ecac75d89"><td class="mdescLeft">&#160;</td><td class="mdescRight">Helper to fill a tensor's digonal with 1 and 0 everywhere else.  <a href="#a29548cb522d9c147cf34263ecac75d89">More...</a><br /></td></tr>
+<tr class="memdesc:a29548cb522d9c147cf34263ecac75d89"><td class="mdescLeft">&#160;</td><td class="mdescRight">Helper to fill a tensor's diagonal with 1 and 0 everywhere else.  <a href="#a29548cb522d9c147cf34263ecac75d89">More...</a><br /></td></tr>
 <tr class="separator:a29548cb522d9c147cf34263ecac75d89"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:acbf747241e8ac6ef9b1702b735a7913e"><td class="memTemplParams" colspan="2">template&lt;typename Element , typename Layout &gt; </td></tr>
 <tr class="memitem:acbf747241e8ac6ef9b1702b735a7913e"><td class="memTemplItemLeft" align="right" valign="top">void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1reference_1_1host.html#acbf747241e8ac6ef9b1702b735a7913e">TensorUpdateDiagonal</a> (<a class="el" href="classcutlass_1_1TensorView.html">TensorView</a>&lt; Element, Layout &gt; dst, Element val=Element(1))</td></tr>
diff --git a/docs/search/all_12.js b/docs/search/all_12.js
index 0e091040..c9f8a45c 100644
--- a/docs/search/all_12.js
+++ b/docs/search/all_12.js
@@ -14,7 +14,7 @@ var searchData=
   ['semaphore',['Semaphore',['../classcutlass_1_1Semaphore.html',1,'cutlass']]],
   ['semaphore',['Semaphore',['../classcutlass_1_1Semaphore.html#a2ce4cd07fe773efa429f726cfbd98070',1,'cutlass::Semaphore::Semaphore()'],['../structcutlass_1_1gemm_1_1kernel_1_1Gemm_1_1Params.html#adec6d0c6d74e7f456196f453e302fbbb',1,'cutlass::gemm::kernel::Gemm::Params::semaphore()']]],
   ['semaphore_2eh',['semaphore.h',['../semaphore_8h.html',1,'']]],
-  ['seperate_5fstring',['seperate_string',['../structcutlass_1_1CommandLine.html#a5f86e4b2bd8c44b739c83530d77c5590',1,'cutlass::CommandLine']]],
+  ['separate_5fstring',['separate_string',['../structcutlass_1_1CommandLine.html#a5f86e4b2bd8c44b739c83530d77c5590',1,'cutlass::CommandLine']]],
   ['sequential',['sequential',['../structcutlass_1_1Distribution.html#ab86d975567ef141ff82067b1f41cd3ee',1,'cutlass::Distribution::sequential()'],['../structcutlass_1_1Distribution.html#a499f4023e0d42356ce71d38cc32bf92aa39d3cf55e90573c8d1dfb483cfb410dc',1,'cutlass::Distribution::Sequential()']]],
   ['set',['set',['../classcutlass_1_1PredicateVector_1_1Iterator.html#aadfd039b5622098c9e46706a27122575',1,'cutlass::PredicateVector::Iterator::set()'],['../structcutlass_1_1PredicateVector.html#a062fa8a8df725ef08ced2ffcca8336af',1,'cutlass::PredicateVector::set()'],['../classcutlass_1_1SubbyteReference.html#a6473e57520d8ee7afbd95c1e1641e05a',1,'cutlass::SubbyteReference::set()']]],
   ['set_5fgaussian',['set_gaussian',['../structcutlass_1_1Distribution.html#ad594b5ec1d577e8ef03d4d808a8220b1',1,'cutlass::Distribution']]],
diff --git a/docs/search/functions_12.js b/docs/search/functions_12.js
index f2b3bff9..6648b431 100644
--- a/docs/search/functions_12.js
+++ b/docs/search/functions_12.js
@@ -3,7 +3,7 @@ var searchData=
   ['scalar_5fop',['scalar_op',['../structcutlass_1_1minimum_3_01Array_3_01T_00_01N_01_4_01_4.html#a4b42227184cb7c796460062c46a84b57',1,'cutlass::minimum&lt; Array&lt; T, N &gt; &gt;']]],
   ['scalario',['ScalarIO',['../structcutlass_1_1ScalarIO.html#ad4166575521254088bf6c6300c351714',1,'cutlass::ScalarIO::ScalarIO()'],['../structcutlass_1_1ScalarIO.html#a5227e1e9ed24326ad4f8dc94d186186f',1,'cutlass::ScalarIO::ScalarIO(T value)']]],
   ['semaphore',['Semaphore',['../classcutlass_1_1Semaphore.html#a2ce4cd07fe773efa429f726cfbd98070',1,'cutlass::Semaphore']]],
-  ['seperate_5fstring',['seperate_string',['../structcutlass_1_1CommandLine.html#a5f86e4b2bd8c44b739c83530d77c5590',1,'cutlass::CommandLine']]],
+  ['separate_5fstring',['separate_string',['../structcutlass_1_1CommandLine.html#a5f86e4b2bd8c44b739c83530d77c5590',1,'cutlass::CommandLine']]],
   ['set',['set',['../classcutlass_1_1PredicateVector_1_1Iterator.html#aadfd039b5622098c9e46706a27122575',1,'cutlass::PredicateVector::Iterator::set()'],['../structcutlass_1_1PredicateVector.html#a062fa8a8df725ef08ced2ffcca8336af',1,'cutlass::PredicateVector::set()'],['../classcutlass_1_1SubbyteReference.html#a6473e57520d8ee7afbd95c1e1641e05a',1,'cutlass::SubbyteReference::set()']]],
   ['set_5fgaussian',['set_gaussian',['../structcutlass_1_1Distribution.html#ad594b5ec1d577e8ef03d4d808a8220b1',1,'cutlass::Distribution']]],
   ['set_5fidentity',['set_identity',['../structcutlass_1_1Distribution.html#aad2cf02af3d520544d89843cc4295858',1,'cutlass::Distribution']]],
diff --git a/docs/structcutlass_1_1CommandLine-members.html b/docs/structcutlass_1_1CommandLine-members.html
index 77668951..6a17b2f0 100644
--- a/docs/structcutlass_1_1CommandLine-members.html
+++ b/docs/structcutlass_1_1CommandLine-members.html
@@ -115,7 +115,7 @@
   <tr><td class="entry"><a class="el" href="structcutlass_1_1CommandLine.html#a1603f1c65c6d8d3d4262443b40e5c290">keys</a></td><td class="entry"><a class="el" href="structcutlass_1_1CommandLine.html">cutlass::CommandLine</a></td><td class="entry"></td></tr>
   <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1CommandLine.html#a0bee40a3cc6078a08eec5d4ca4711f61">num_naked_args</a>() const </td><td class="entry"><a class="el" href="structcutlass_1_1CommandLine.html">cutlass::CommandLine</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
   <tr><td class="entry"><a class="el" href="structcutlass_1_1CommandLine.html#a228e1a273d223eec4b2f6d73135d3c1e">parsed_argc</a>() const </td><td class="entry"><a class="el" href="structcutlass_1_1CommandLine.html">cutlass::CommandLine</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1CommandLine.html#a5f86e4b2bd8c44b739c83530d77c5590">seperate_string</a>(std::string const &amp;str, std::vector&lt; value_t &gt; &amp;vals, char sep= ',')</td><td class="entry"><a class="el" href="structcutlass_1_1CommandLine.html">cutlass::CommandLine</a></td><td class="entry"><span class="mlabel">inline</span><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1CommandLine.html#a5f86e4b2bd8c44b739c83530d77c5590">separate_string</a>(std::string const &amp;str, std::vector&lt; value_t &gt; &amp;vals, char sep= ',')</td><td class="entry"><a class="el" href="structcutlass_1_1CommandLine.html">cutlass::CommandLine</a></td><td class="entry"><span class="mlabel">inline</span><span class="mlabel">static</span></td></tr>
   <tr><td class="entry"><a class="el" href="structcutlass_1_1CommandLine.html#a1944da52162e04b12a82ce0c1ade676e">tokenize</a>(std::vector&lt; std::pair&lt; std::string, std::string &gt; &gt; &amp;tokens, std::string const &amp;str, char delim= ',', char sep= ':')</td><td class="entry"><a class="el" href="structcutlass_1_1CommandLine.html">cutlass::CommandLine</a></td><td class="entry"><span class="mlabel">inline</span><span class="mlabel">static</span></td></tr>
   <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1CommandLine.html#a440c25cfb006f218ff4705a43320a28b">tokenize</a>(std::vector&lt; std::string &gt; &amp;tokens, std::string const &amp;str, char delim= ',', char sep= ':')</td><td class="entry"><a class="el" href="structcutlass_1_1CommandLine.html">cutlass::CommandLine</a></td><td class="entry"><span class="mlabel">inline</span><span class="mlabel">static</span></td></tr>
   <tr><td class="entry"><a class="el" href="structcutlass_1_1CommandLine.html#ade127841e9730589f611b618e9440012">values</a></td><td class="entry"><a class="el" href="structcutlass_1_1CommandLine.html">cutlass::CommandLine</a></td><td class="entry"></td></tr>
diff --git a/docs/structcutlass_1_1CommandLine.html b/docs/structcutlass_1_1CommandLine.html
index 0bde0ec4..01cd35a2 100644
--- a/docs/structcutlass_1_1CommandLine.html
+++ b/docs/structcutlass_1_1CommandLine.html
@@ -151,7 +151,7 @@
 <tr class="memdesc:a440c25cfb006f218ff4705a43320a28b"><td class="mdescLeft">&#160;</td><td class="mdescRight">Tokenizes a comma-delimited list of string pairs delimited by ':'.  <a href="#a440c25cfb006f218ff4705a43320a28b">More...</a><br /></td></tr>
 <tr class="separator:a440c25cfb006f218ff4705a43320a28b"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:a5f86e4b2bd8c44b739c83530d77c5590"><td class="memTemplParams" colspan="2">template&lt;typename value_t &gt; </td></tr>
-<tr class="memitem:a5f86e4b2bd8c44b739c83530d77c5590"><td class="memTemplItemLeft" align="right" valign="top">static void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="structcutlass_1_1CommandLine.html#a5f86e4b2bd8c44b739c83530d77c5590">seperate_string</a> (std::string const &amp;str, std::vector&lt; value_t &gt; &amp;vals, char sep= ',')</td></tr>
+<tr class="memitem:a5f86e4b2bd8c44b739c83530d77c5590"><td class="memTemplItemLeft" align="right" valign="top">static void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="structcutlass_1_1CommandLine.html#a5f86e4b2bd8c44b739c83530d77c5590">separate_string</a> (std::string const &amp;str, std::vector&lt; value_t &gt; &amp;vals, char sep= ',')</td></tr>
 <tr class="separator:a5f86e4b2bd8c44b739c83530d77c5590"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table><table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-attribs"></a>
@@ -548,7 +548,7 @@ <h2 class="groupheader">Member Function Documentation</h2>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname">static void cutlass::CommandLine::seperate_string </td>
+          <td class="memname">static void cutlass::CommandLine::separate_string </td>
           <td>(</td>
           <td class="paramtype">std::string const &amp;&#160;</td>
           <td class="paramname"><em>str</em>, </td>
diff --git a/docs/structcutlass_1_1reference_1_1device_1_1Gemm_3_01ElementA_00_01LayoutA_00_01ElementB_00_01Layout660562b232f408218828ca5915b7e73a.html b/docs/structcutlass_1_1reference_1_1device_1_1Gemm_3_01ElementA_00_01LayoutA_00_01ElementB_00_01Layout660562b232f408218828ca5915b7e73a.html
index 37cb3e5d..2f4bf08e 100644
--- a/docs/structcutlass_1_1reference_1_1device_1_1Gemm_3_01ElementA_00_01LayoutA_00_01ElementB_00_01Layout660562b232f408218828ca5915b7e73a.html
+++ b/docs/structcutlass_1_1reference_1_1device_1_1Gemm_3_01ElementA_00_01LayoutA_00_01ElementB_00_01Layout660562b232f408218828ca5915b7e73a.html
@@ -104,7 +104,7 @@
 </div><!--header-->
 <div class="contents">
 
-<p>Parital specialization for XOR-popc.  
+<p>Partial specialization for XOR-popc.
 </p>
 
 <p><code>#include &lt;<a class="el" href="tools_2util_2include_2cutlass_2util_2reference_2device_2gemm_8h_source.html">gemm.h</a>&gt;</code></p>
diff --git a/docs/structcutlass_1_1reference_1_1device_1_1kernel_1_1detail_1_1TensorForEachHelper_3_01Func_00_01Rank_00_010_01_4.html b/docs/structcutlass_1_1reference_1_1device_1_1kernel_1_1detail_1_1TensorForEachHelper_3_01Func_00_01Rank_00_010_01_4.html
index 2c89af68..2daeadcc 100644
--- a/docs/structcutlass_1_1reference_1_1device_1_1kernel_1_1detail_1_1TensorForEachHelper_3_01Func_00_01Rank_00_010_01_4.html
+++ b/docs/structcutlass_1_1reference_1_1device_1_1kernel_1_1detail_1_1TensorForEachHelper_3_01Func_00_01Rank_00_010_01_4.html
@@ -112,7 +112,7 @@
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-methods"></a>
 Public Member Functions</h2></td></tr>
 <tr class="memitem:a89e10e059c3ffcfe2640cf6291353937"><td class="memItemLeft" align="right" valign="top">__inline__ __device__&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1reference_1_1device_1_1kernel_1_1detail_1_1TensorForEachHelper_3_01Func_00_01Rank_00_010_01_4.html#a89e10e059c3ffcfe2640cf6291353937">TensorForEachHelper</a> (Func &amp;func, <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; Rank &gt; const &amp;size, <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; Rank &gt; &amp;coord, int64_t index)</td></tr>
-<tr class="memdesc:a89e10e059c3ffcfe2640cf6291353937"><td class="mdescLeft">&#160;</td><td class="mdescRight">Constructor for fastest chaning rank.  <a href="#a89e10e059c3ffcfe2640cf6291353937">More...</a><br /></td></tr>
+<tr class="memdesc:a89e10e059c3ffcfe2640cf6291353937"><td class="mdescLeft">&#160;</td><td class="mdescRight">Constructor for fastest changing rank.  <a href="#a89e10e059c3ffcfe2640cf6291353937">More...</a><br /></td></tr>
 <tr class="separator:a89e10e059c3ffcfe2640cf6291353937"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table>
 <h2 class="groupheader">Constructor &amp; Destructor Documentation</h2>
diff --git a/docs/structcutlass_1_1reference_1_1host_1_1Gemm_3_01ElementA_00_01LayoutA_00_01ElementB_00_01LayoutB_4f3f32c4b336238abfd741e87bfced46.html b/docs/structcutlass_1_1reference_1_1host_1_1Gemm_3_01ElementA_00_01LayoutA_00_01ElementB_00_01LayoutB_4f3f32c4b336238abfd741e87bfced46.html
index 0840df59..7a83a97d 100644
--- a/docs/structcutlass_1_1reference_1_1host_1_1Gemm_3_01ElementA_00_01LayoutA_00_01ElementB_00_01LayoutB_4f3f32c4b336238abfd741e87bfced46.html
+++ b/docs/structcutlass_1_1reference_1_1host_1_1Gemm_3_01ElementA_00_01LayoutA_00_01ElementB_00_01LayoutB_4f3f32c4b336238abfd741e87bfced46.html
@@ -104,7 +104,7 @@
 </div><!--header-->
 <div class="contents">
 
-<p>Parital specialization for XOR-popc.  
+<p>Partial specialization for XOR-popc.
 </p>
 
 <p><code>#include &lt;<a class="el" href="tools_2util_2include_2cutlass_2util_2reference_2host_2gemm_8h_source.html">gemm.h</a>&gt;</code></p>
diff --git a/docs/structcutlass_1_1reference_1_1host_1_1detail_1_1TensorForEachHelper_3_01Func_00_01Rank_00_010_01_4.html b/docs/structcutlass_1_1reference_1_1host_1_1detail_1_1TensorForEachHelper_3_01Func_00_01Rank_00_010_01_4.html
index 2e440e45..6c63b40e 100644
--- a/docs/structcutlass_1_1reference_1_1host_1_1detail_1_1TensorForEachHelper_3_01Func_00_01Rank_00_010_01_4.html
+++ b/docs/structcutlass_1_1reference_1_1host_1_1detail_1_1TensorForEachHelper_3_01Func_00_01Rank_00_010_01_4.html
@@ -113,7 +113,7 @@
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-methods"></a>
 Public Member Functions</h2></td></tr>
 <tr class="memitem:a5029a4405a9a5e64011addb43bb88120"><td class="memItemLeft" align="right" valign="top">&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1reference_1_1host_1_1detail_1_1TensorForEachHelper_3_01Func_00_01Rank_00_010_01_4.html#a5029a4405a9a5e64011addb43bb88120">TensorForEachHelper</a> (Func &amp;func, <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; Rank &gt; const &amp;extent, <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; Rank &gt; &amp;coord)</td></tr>
-<tr class="memdesc:a5029a4405a9a5e64011addb43bb88120"><td class="mdescLeft">&#160;</td><td class="mdescRight">Constructor for fastest chaning rank.  <a href="#a5029a4405a9a5e64011addb43bb88120">More...</a><br /></td></tr>
+<tr class="memdesc:a5029a4405a9a5e64011addb43bb88120"><td class="mdescLeft">&#160;</td><td class="mdescRight">Constructor for fastest changing rank.  <a href="#a5029a4405a9a5e64011addb43bb88120">More...</a><br /></td></tr>
 <tr class="separator:a5029a4405a9a5e64011addb43bb88120"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table><table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-static-attribs"></a>
diff --git a/docs/tools_2util_2include_2cutlass_2util_2reference_2device_2gemm_8h.html b/docs/tools_2util_2include_2cutlass_2util_2reference_2device_2gemm_8h.html
index 2a0a978e..cc752855 100644
--- a/docs/tools_2util_2include_2cutlass_2util_2reference_2device_2gemm_8h.html
+++ b/docs/tools_2util_2include_2cutlass_2util_2reference_2device_2gemm_8h.html
@@ -134,7 +134,7 @@
 <tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Partial specialization for multiply-add-saturate.  <a href="structcutlass_1_1reference_1_1device_1_1Gemm_3_01ElementA_00_01LayoutA_00_01ElementB_00_01Layout30b72addd464a2ca4a26785cbfd77a8e.html#details">More...</a><br /></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1reference_1_1device_1_1Gemm_3_01ElementA_00_01LayoutA_00_01ElementB_00_01Layout660562b232f408218828ca5915b7e73a.html">cutlass::reference::device::Gemm&lt; ElementA, LayoutA, ElementB, LayoutB, ElementC, LayoutC, ScalarType, AccumulatorType, arch::OpXorPopc &gt;</a></td></tr>
-<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Parital specialization for XOR-popc.  <a href="structcutlass_1_1reference_1_1device_1_1Gemm_3_01ElementA_00_01LayoutA_00_01ElementB_00_01Layout660562b232f408218828ca5915b7e73a.html#details">More...</a><br /></td></tr>
+<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Partial specialization for XOR-popc.  <a href="structcutlass_1_1reference_1_1device_1_1Gemm_3_01ElementA_00_01LayoutA_00_01ElementB_00_01Layout660562b232f408218828ca5915b7e73a.html#details">More...</a><br /></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table><table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="namespaces"></a>
diff --git a/docs/tools_2util_2include_2cutlass_2util_2reference_2host_2gemm_8h.html b/docs/tools_2util_2include_2cutlass_2util_2reference_2host_2gemm_8h.html
index d20a0784..b0bfdbc2 100644
--- a/docs/tools_2util_2include_2cutlass_2util_2reference_2host_2gemm_8h.html
+++ b/docs/tools_2util_2include_2cutlass_2util_2reference_2host_2gemm_8h.html
@@ -141,7 +141,7 @@
 <tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Partial specialization for multiply-add-saturate.  <a href="structcutlass_1_1reference_1_1host_1_1Gemm_3_01ElementA_00_01LayoutA_00_01ElementB_00_01LayoutB_55729eac7dbd6bf311ea36f680e83e93.html#details">More...</a><br /></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1reference_1_1host_1_1Gemm_3_01ElementA_00_01LayoutA_00_01ElementB_00_01LayoutB_4f3f32c4b336238abfd741e87bfced46.html">cutlass::reference::host::Gemm&lt; ElementA, LayoutA, ElementB, LayoutB, ElementC, LayoutC, ScalarType, ComputeType, arch::OpXorPopc &gt;</a></td></tr>
-<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Parital specialization for XOR-popc.  <a href="structcutlass_1_1reference_1_1host_1_1Gemm_3_01ElementA_00_01LayoutA_00_01ElementB_00_01LayoutB_4f3f32c4b336238abfd741e87bfced46.html#details">More...</a><br /></td></tr>
+<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Partial specialization for XOR-popc.  <a href="structcutlass_1_1reference_1_1host_1_1Gemm_3_01ElementA_00_01LayoutA_00_01ElementB_00_01LayoutB_4f3f32c4b336238abfd741e87bfced46.html#details">More...</a><br /></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table><table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="namespaces"></a>
diff --git a/docs/wmma__sm75_8h_source.html b/docs/wmma__sm75_8h_source.html
index 72ad72f9..6ff6405d 100644
--- a/docs/wmma__sm75_8h_source.html
+++ b/docs/wmma__sm75_8h_source.html
@@ -98,7 +98,7 @@
 <div class="title">wmma_sm75.h</div>  </div>
 </div><!--header-->
 <div class="contents">
-<a href="wmma__sm75_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2019, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00029"></a><span class="lineno">   29</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;</div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;<span class="preprocessor">#include &lt;assert.h&gt;</span></div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="layout_2matrix_8h.html">cutlass/layout/matrix.h</a>&quot;</span></div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;</div><div class="line"><a name="l00035"></a><span class="lineno">   35</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00036"></a><span class="lineno">   36</span>&#160;<span class="keyword">namespace </span>arch {</div><div class="line"><a name="l00037"></a><span class="lineno">   37</span>&#160;</div><div class="line"><a name="l00039"></a><span class="lineno">   39</span>&#160;<span class="comment">//</span></div><div class="line"><a name="l00040"></a><span class="lineno">   40</span>&#160;<span class="comment">// WMMA template structure defines nvcuda::wmma::fragments and static assert for</span></div><div class="line"><a name="l00041"></a><span class="lineno">   41</span>&#160;<span class="comment">// wmma native instruction sizes supported for cutlass::int4b_t (experimental::s4).</span></div><div class="line"><a name="l00042"></a><span class="lineno">   42</span>&#160;<span class="comment">//</span></div><div class="line"><a name="l00044"></a><span class="lineno">   44</span>&#160;<span class="comment"></span><span class="keyword">template</span> &lt;</div><div class="line"><a name="l00045"></a><span class="lineno">   45</span>&#160;<span class="keyword">typename</span> Shape_, </div><div class="line"><a name="l00046"></a><span class="lineno">   46</span>&#160;<span class="keyword">typename</span> LayoutA_, </div><div class="line"><a name="l00047"></a><span class="lineno">   47</span>&#160;<span class="keyword">typename</span> LayoutB_,</div><div class="line"><a name="l00048"></a><span class="lineno">   48</span>&#160;<span class="keyword">typename</span> LayoutC_&gt;</div><div class="line"><a name="l00049"></a><span class="lineno"><a class="line" href="structcutlass_1_1arch_1_1Wmma_3_01Shape___00_01cutlass_1_1int4b__t_00_01LayoutA___00_01cutlass_16fd808a90b3cf9d7cfc99f30888ca3fe.html">   49</a></span>&#160;<span class="keyword">struct </span>Wmma&lt;</div><div class="line"><a name="l00050"></a><span class="lineno">   50</span>&#160;  Shape_,                                   </div><div class="line"><a name="l00051"></a><span class="lineno">   51</span>&#160;  <a class="code" href="namespacecutlass.html">cutlass</a>::<a class="code" href="structcutlass_1_1integer__subbyte.html">int4b_t</a>,                         </div><div class="line"><a name="l00052"></a><span class="lineno">   52</span>&#160;  LayoutA_,                                 </div><div class="line"><a name="l00053"></a><span class="lineno">   53</span>&#160;  <a class="code" href="structcutlass_1_1integer__subbyte.html">cutlass::int4b_t</a>,                         </div><div class="line"><a name="l00054"></a><span class="lineno">   54</span>&#160;  LayoutB_,                                 </div><div class="line"><a name="l00055"></a><span class="lineno">   55</span>&#160;  int32_t,                                  </div><div class="line"><a name="l00056"></a><span class="lineno">   56</span>&#160;  LayoutC_,                                 </div><div class="line"><a name="l00057"></a><span class="lineno">   57</span>&#160;  cutlass::arch::OpMultiplyAdd              </div><div class="line"><a name="l00058"></a><span class="lineno">   58</span>&#160;&gt; {</div><div class="line"><a name="l00059"></a><span class="lineno">   59</span>&#160;<span class="preprocessor">#if defined(CUTLASS_ARCH_WMMA_SM75_ENABLED)</span></div><div class="line"><a name="l00060"></a><span class="lineno">   60</span>&#160;  <span class="keyword">using</span> Shape = Shape_;</div><div class="line"><a name="l00061"></a><span class="lineno">   61</span>&#160;  <span class="keyword">using</span> ElementA = <a class="code" href="namespacecutlass.html#a30f409bb0c8a88a3307e5c7cd31f2384">cutlass::int4b_t</a>;</div><div class="line"><a name="l00062"></a><span class="lineno">   62</span>&#160;  <span class="keyword">using</span> LayoutA = LayoutA_;</div><div class="line"><a name="l00063"></a><span class="lineno">   63</span>&#160;  <span class="keyword">using</span> ElementB = <a class="code" href="namespacecutlass.html#a30f409bb0c8a88a3307e5c7cd31f2384">cutlass::int4b_t</a>;</div><div class="line"><a name="l00064"></a><span class="lineno">   64</span>&#160;  <span class="keyword">using</span> LayoutB = LayoutB_;</div><div class="line"><a name="l00065"></a><span class="lineno">   65</span>&#160;  <span class="keyword">using</span> ElementC = int32_t;</div><div class="line"><a name="l00066"></a><span class="lineno">   66</span>&#160;  <span class="keyword">using</span> LayoutC = LayoutC_;</div><div class="line"><a name="l00067"></a><span class="lineno">   67</span>&#160;  <span class="keyword">using</span> Operator = cutlass::arch::OpMultiplyAdd;</div><div class="line"><a name="l00068"></a><span class="lineno">   68</span>&#160;</div><div class="line"><a name="l00069"></a><span class="lineno">   69</span>&#160;  <span class="comment">// check supported wmma shape for the given multiplicand data types</span></div><div class="line"><a name="l00070"></a><span class="lineno">   70</span>&#160;  <a class="code" href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a>(</div><div class="line"><a name="l00071"></a><span class="lineno">   71</span>&#160;    <a class="code" href="structcutlass_1_1platform_1_1is__same.html">platform::is_same</a>&lt;<a class="code" href="structcutlass_1_1gemm_1_1GemmShape.html">cutlass::gemm::GemmShape&lt;8, 8, 32&gt;</a>, Shape&gt;::value,</div><div class="line"><a name="l00072"></a><span class="lineno">   72</span>&#160;    <span class="stringliteral">&quot;Supported list of wmma operator shape for s8 multiplicands is: 8x8x32&quot;</span>);</div><div class="line"><a name="l00073"></a><span class="lineno">   73</span>&#160;</div><div class="line"><a name="l00074"></a><span class="lineno">   74</span>&#160;</div><div class="line"><a name="l00075"></a><span class="lineno">   75</span>&#160;  <span class="comment">// Wmma Fragment</span></div><div class="line"><a name="l00076"></a><span class="lineno">   76</span>&#160;  <span class="keyword">using</span> FragmentA = nvcuda::wmma::fragment&lt;</div><div class="line"><a name="l00077"></a><span class="lineno">   77</span>&#160;          nvcuda::wmma::matrix_a,</div><div class="line"><a name="l00078"></a><span class="lineno">   78</span>&#160;          Shape::kM,</div><div class="line"><a name="l00079"></a><span class="lineno">   79</span>&#160;          Shape::kN,</div><div class="line"><a name="l00080"></a><span class="lineno">   80</span>&#160;          Shape::kK,</div><div class="line"><a name="l00081"></a><span class="lineno">   81</span>&#160;          <span class="keyword">typename</span> CutlassToWmmaDataType&lt;ElementA&gt;::Type,</div><div class="line"><a name="l00082"></a><span class="lineno">   82</span>&#160;          <span class="keyword">typename</span> CutlassToWmmaLayout&lt;LayoutA&gt;::Layout&gt;;</div><div class="line"><a name="l00083"></a><span class="lineno">   83</span>&#160;</div><div class="line"><a name="l00084"></a><span class="lineno">   84</span>&#160;  <span class="keyword">using</span> FragmentB = nvcuda::wmma::fragment&lt;</div><div class="line"><a name="l00085"></a><span class="lineno">   85</span>&#160;          nvcuda::wmma::matrix_b,</div><div class="line"><a name="l00086"></a><span class="lineno">   86</span>&#160;          Shape::kM,</div><div class="line"><a name="l00087"></a><span class="lineno">   87</span>&#160;          Shape::kN,</div><div class="line"><a name="l00088"></a><span class="lineno">   88</span>&#160;          Shape::kK,</div><div class="line"><a name="l00089"></a><span class="lineno">   89</span>&#160;          <span class="keyword">typename</span> CutlassToWmmaDataType&lt;ElementB&gt;::Type,</div><div class="line"><a name="l00090"></a><span class="lineno">   90</span>&#160;          <span class="keyword">typename</span> CutlassToWmmaLayout&lt;LayoutB&gt;::Layout&gt;;</div><div class="line"><a name="l00091"></a><span class="lineno">   91</span>&#160;</div><div class="line"><a name="l00092"></a><span class="lineno">   92</span>&#160;  <span class="keyword">using</span> FragmentC = nvcuda::wmma::fragment&lt;</div><div class="line"><a name="l00093"></a><span class="lineno">   93</span>&#160;          nvcuda::wmma::accumulator,</div><div class="line"><a name="l00094"></a><span class="lineno">   94</span>&#160;          Shape::kM,</div><div class="line"><a name="l00095"></a><span class="lineno">   95</span>&#160;          Shape::kN,</div><div class="line"><a name="l00096"></a><span class="lineno">   96</span>&#160;          Shape::kK,</div><div class="line"><a name="l00097"></a><span class="lineno">   97</span>&#160;          <span class="keyword">typename</span> CutlassToWmmaDataType&lt;ElementC&gt;::Type&gt;;</div><div class="line"><a name="l00098"></a><span class="lineno">   98</span>&#160;</div><div class="line"><a name="l00100"></a><span class="lineno">  100</span>&#160;  CUTLASS_DEVICE</div><div class="line"><a name="l00101"></a><span class="lineno">  101</span>&#160;  <span class="keywordtype">void</span> operator()(</div><div class="line"><a name="l00102"></a><span class="lineno">  102</span>&#160;    FragmentC &amp;D, </div><div class="line"><a name="l00103"></a><span class="lineno">  103</span>&#160;    FragmentA <span class="keyword">const</span> &amp;A, </div><div class="line"><a name="l00104"></a><span class="lineno">  104</span>&#160;    FragmentB <span class="keyword">const</span> &amp;B, </div><div class="line"><a name="l00105"></a><span class="lineno">  105</span>&#160;    FragmentC <span class="keyword">const</span> &amp;C)<span class="keyword"> const </span>{</div><div class="line"><a name="l00106"></a><span class="lineno">  106</span>&#160;      nvcuda::wmma::mma_sync(D, A, B, C);</div><div class="line"><a name="l00107"></a><span class="lineno">  107</span>&#160;  }</div><div class="line"><a name="l00108"></a><span class="lineno">  108</span>&#160;</div><div class="line"><a name="l00109"></a><span class="lineno">  109</span>&#160;<span class="preprocessor">#else</span></div><div class="line"><a name="l00110"></a><span class="lineno">  110</span>&#160;    <a class="code" href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a>(<span class="keyword">false</span>, <span class="stringliteral">&quot;wmma.mma.sync interger type multiplicands is avialable only for SM75 and beyond&quot;</span>);</div><div class="line"><a name="l00111"></a><span class="lineno">  111</span>&#160;<span class="preprocessor">#endif</span></div><div class="line"><a name="l00112"></a><span class="lineno">  112</span>&#160;</div><div class="line"><a name="l00113"></a><span class="lineno">  113</span>&#160;};</div><div class="line"><a name="l00114"></a><span class="lineno">  114</span>&#160;</div><div class="line"><a name="l00116"></a><span class="lineno">  116</span>&#160;<span class="comment">//</span></div><div class="line"><a name="l00117"></a><span class="lineno">  117</span>&#160;<span class="comment">// WMMA template structure defines nvcuda::wmma::fragments and static assert for</span></div><div class="line"><a name="l00118"></a><span class="lineno">  118</span>&#160;<span class="comment">// wmma native instruction sizes supported for cutlass::uint1b_t (experimental::b1)</span></div><div class="line"><a name="l00119"></a><span class="lineno">  119</span>&#160;<span class="comment">// (nvcuda::wmma targetting SASS instruction BMMA)</span></div><div class="line"><a name="l00120"></a><span class="lineno">  120</span>&#160;<span class="comment">//</span></div><div class="line"><a name="l00122"></a><span class="lineno">  122</span>&#160;<span class="comment"></span><span class="keyword">template</span> &lt;</div><div class="line"><a name="l00123"></a><span class="lineno">  123</span>&#160;<span class="keyword">typename</span> Shape_, </div><div class="line"><a name="l00124"></a><span class="lineno">  124</span>&#160;<span class="keyword">typename</span> LayoutA_, </div><div class="line"><a name="l00125"></a><span class="lineno">  125</span>&#160;<span class="keyword">typename</span> LayoutB_,</div><div class="line"><a name="l00126"></a><span class="lineno">  126</span>&#160;<span class="keyword">typename</span> LayoutC_&gt;</div><div class="line"><a name="l00127"></a><span class="lineno"><a class="line" href="structcutlass_1_1arch_1_1Wmma_3_01Shape___00_01cutlass_1_1uint1b__t_00_01LayoutA___00_01cutlass_c80a7ea4d219cd9b13b560b493338028.html">  127</a></span>&#160;<span class="keyword">struct </span>Wmma&lt;</div><div class="line"><a name="l00128"></a><span class="lineno">  128</span>&#160;  Shape_,                                   </div><div class="line"><a name="l00129"></a><span class="lineno">  129</span>&#160;  <a class="code" href="namespacecutlass.html">cutlass</a>::<a class="code" href="structcutlass_1_1integer__subbyte.html">uint1b_t</a>,                        </div><div class="line"><a name="l00130"></a><span class="lineno">  130</span>&#160;  LayoutA_,                                 </div><div class="line"><a name="l00131"></a><span class="lineno">  131</span>&#160;  <a class="code" href="structcutlass_1_1integer__subbyte.html">cutlass::uint1b_t</a>,                        </div><div class="line"><a name="l00132"></a><span class="lineno">  132</span>&#160;  LayoutB_,                                 </div><div class="line"><a name="l00133"></a><span class="lineno">  133</span>&#160;  int32_t,                                  </div><div class="line"><a name="l00134"></a><span class="lineno">  134</span>&#160;  LayoutC_,                                 </div><div class="line"><a name="l00135"></a><span class="lineno">  135</span>&#160;  cutlass::arch::OpXorPopc                  </div><div class="line"><a name="l00136"></a><span class="lineno">  136</span>&#160;&gt; {</div><div class="line"><a name="l00137"></a><span class="lineno">  137</span>&#160;<span class="preprocessor">#if defined(CUTLASS_ARCH_WMMA_SM75_ENABLED)</span></div><div class="line"><a name="l00138"></a><span class="lineno">  138</span>&#160;  <span class="keyword">using</span> Shape = Shape_;</div><div class="line"><a name="l00139"></a><span class="lineno">  139</span>&#160;  <span class="keyword">using</span> ElementA = <a class="code" href="namespacecutlass.html#a09a3695d6126aed7a7c01f431fa34b7d">cutlass::uint1b_t</a>;</div><div class="line"><a name="l00140"></a><span class="lineno">  140</span>&#160;  <span class="keyword">using</span> LayoutA = LayoutA_;</div><div class="line"><a name="l00141"></a><span class="lineno">  141</span>&#160;  <span class="keyword">using</span> ElementB = <a class="code" href="namespacecutlass.html#a09a3695d6126aed7a7c01f431fa34b7d">cutlass::uint1b_t</a>;</div><div class="line"><a name="l00142"></a><span class="lineno">  142</span>&#160;  <span class="keyword">using</span> LayoutB = LayoutB_;</div><div class="line"><a name="l00143"></a><span class="lineno">  143</span>&#160;  <span class="keyword">using</span> ElementC = int32_t;</div><div class="line"><a name="l00144"></a><span class="lineno">  144</span>&#160;  <span class="keyword">using</span> LayoutC = LayoutC_;</div><div class="line"><a name="l00145"></a><span class="lineno">  145</span>&#160;  <span class="keyword">using</span> Operator = cutlass::arch::OpXorPopc;</div><div class="line"><a name="l00146"></a><span class="lineno">  146</span>&#160;</div><div class="line"><a name="l00147"></a><span class="lineno">  147</span>&#160;  <span class="comment">// check supported wmma shape for the given multiplicand data types</span></div><div class="line"><a name="l00148"></a><span class="lineno">  148</span>&#160;  <a class="code" href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a>(</div><div class="line"><a name="l00149"></a><span class="lineno">  149</span>&#160;    <a class="code" href="structcutlass_1_1platform_1_1is__same.html">platform::is_same</a>&lt;<a class="code" href="structcutlass_1_1gemm_1_1GemmShape.html">cutlass::gemm::GemmShape&lt;8, 8, 128&gt;</a>, Shape&gt;::value,</div><div class="line"><a name="l00150"></a><span class="lineno">  150</span>&#160;    <span class="stringliteral">&quot;Supported list of wmma operator shape for b1 multiplicands is: 8x8x128&quot;</span>);</div><div class="line"><a name="l00151"></a><span class="lineno">  151</span>&#160;</div><div class="line"><a name="l00152"></a><span class="lineno">  152</span>&#160;</div><div class="line"><a name="l00153"></a><span class="lineno">  153</span>&#160;  <span class="comment">// Wmma Fragment</span></div><div class="line"><a name="l00154"></a><span class="lineno">  154</span>&#160;  <span class="keyword">using</span> FragmentA = nvcuda::wmma::fragment&lt;</div><div class="line"><a name="l00155"></a><span class="lineno">  155</span>&#160;          nvcuda::wmma::matrix_a,</div><div class="line"><a name="l00156"></a><span class="lineno">  156</span>&#160;          Shape::kM,</div><div class="line"><a name="l00157"></a><span class="lineno">  157</span>&#160;          Shape::kN,</div><div class="line"><a name="l00158"></a><span class="lineno">  158</span>&#160;          Shape::kK,</div><div class="line"><a name="l00159"></a><span class="lineno">  159</span>&#160;          <span class="keyword">typename</span> CutlassToWmmaDataType&lt;ElementA&gt;::Type,</div><div class="line"><a name="l00160"></a><span class="lineno">  160</span>&#160;          <span class="keyword">typename</span> CutlassToWmmaLayout&lt;LayoutA&gt;::Layout&gt;;</div><div class="line"><a name="l00161"></a><span class="lineno">  161</span>&#160;</div><div class="line"><a name="l00162"></a><span class="lineno">  162</span>&#160;  <span class="keyword">using</span> FragmentB = nvcuda::wmma::fragment&lt;</div><div class="line"><a name="l00163"></a><span class="lineno">  163</span>&#160;          nvcuda::wmma::matrix_b,</div><div class="line"><a name="l00164"></a><span class="lineno">  164</span>&#160;          Shape::kM,</div><div class="line"><a name="l00165"></a><span class="lineno">  165</span>&#160;          Shape::kN,</div><div class="line"><a name="l00166"></a><span class="lineno">  166</span>&#160;          Shape::kK,</div><div class="line"><a name="l00167"></a><span class="lineno">  167</span>&#160;          <span class="keyword">typename</span> CutlassToWmmaDataType&lt;ElementB&gt;::Type,</div><div class="line"><a name="l00168"></a><span class="lineno">  168</span>&#160;          <span class="keyword">typename</span> CutlassToWmmaLayout&lt;LayoutB&gt;::Layout&gt;;</div><div class="line"><a name="l00169"></a><span class="lineno">  169</span>&#160;</div><div class="line"><a name="l00170"></a><span class="lineno">  170</span>&#160;  <span class="keyword">using</span> FragmentC = nvcuda::wmma::fragment&lt;</div><div class="line"><a name="l00171"></a><span class="lineno">  171</span>&#160;          nvcuda::wmma::accumulator,</div><div class="line"><a name="l00172"></a><span class="lineno">  172</span>&#160;          Shape::kM,</div><div class="line"><a name="l00173"></a><span class="lineno">  173</span>&#160;          Shape::kN,</div><div class="line"><a name="l00174"></a><span class="lineno">  174</span>&#160;          Shape::kK,</div><div class="line"><a name="l00175"></a><span class="lineno">  175</span>&#160;          <span class="keyword">typename</span> CutlassToWmmaDataType&lt;ElementC&gt;::Type&gt;;</div><div class="line"><a name="l00176"></a><span class="lineno">  176</span>&#160;  </div><div class="line"><a name="l00178"></a><span class="lineno">  178</span>&#160;  CUTLASS_DEVICE</div><div class="line"><a name="l00179"></a><span class="lineno">  179</span>&#160;  <span class="keywordtype">void</span> operator()(</div><div class="line"><a name="l00180"></a><span class="lineno">  180</span>&#160;    FragmentC &amp;D, </div><div class="line"><a name="l00181"></a><span class="lineno">  181</span>&#160;    FragmentA <span class="keyword">const</span> &amp;A, </div><div class="line"><a name="l00182"></a><span class="lineno">  182</span>&#160;    FragmentB <span class="keyword">const</span> &amp;B, </div><div class="line"><a name="l00183"></a><span class="lineno">  183</span>&#160;    FragmentC <span class="keyword">const</span> &amp;C)<span class="keyword"> const </span>{</div><div class="line"><a name="l00184"></a><span class="lineno">  184</span>&#160;</div><div class="line"><a name="l00185"></a><span class="lineno">  185</span>&#160;      nvcuda::wmma::bmma_sync(D, A, B, C, nvcuda::wmma::experimental::bmmaBitOpXOR, </div><div class="line"><a name="l00186"></a><span class="lineno">  186</span>&#160;                                          nvcuda::wmma::experimental::bmmaAccumulateOpPOPC);</div><div class="line"><a name="l00187"></a><span class="lineno">  187</span>&#160;  }</div><div class="line"><a name="l00188"></a><span class="lineno">  188</span>&#160;</div><div class="line"><a name="l00189"></a><span class="lineno">  189</span>&#160;<span class="preprocessor">#else</span></div><div class="line"><a name="l00190"></a><span class="lineno">  190</span>&#160;    <a class="code" href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a>(<span class="keyword">false</span>, <span class="stringliteral">&quot;wmma.mma.sync interger type multiplicands is avialable only for SM75 and beyond&quot;</span>);</div><div class="line"><a name="l00191"></a><span class="lineno">  191</span>&#160;<span class="preprocessor">#endif</span></div><div class="line"><a name="l00192"></a><span class="lineno">  192</span>&#160;</div><div class="line"><a name="l00193"></a><span class="lineno">  193</span>&#160;};</div><div class="line"><a name="l00194"></a><span class="lineno">  194</span>&#160;</div><div class="line"><a name="l00195"></a><span class="lineno">  195</span>&#160;} <span class="comment">// namespace arch</span></div><div class="line"><a name="l00196"></a><span class="lineno">  196</span>&#160;} <span class="comment">// namespace cutlass</span></div><div class="ttc" id="namespacecutlass_html"><div class="ttname"><a href="namespacecutlass.html">cutlass</a></div><div class="ttdef"><b>Definition:</b> aligned_buffer.h:35</div></div>
+<a href="wmma__sm75_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2019, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00029"></a><span class="lineno">   29</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;</div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;<span class="preprocessor">#include &lt;assert.h&gt;</span></div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="layout_2matrix_8h.html">cutlass/layout/matrix.h</a>&quot;</span></div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;</div><div class="line"><a name="l00035"></a><span class="lineno">   35</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00036"></a><span class="lineno">   36</span>&#160;<span class="keyword">namespace </span>arch {</div><div class="line"><a name="l00037"></a><span class="lineno">   37</span>&#160;</div><div class="line"><a name="l00039"></a><span class="lineno">   39</span>&#160;<span class="comment">//</span></div><div class="line"><a name="l00040"></a><span class="lineno">   40</span>&#160;<span class="comment">// WMMA template structure defines nvcuda::wmma::fragments and static assert for</span></div><div class="line"><a name="l00041"></a><span class="lineno">   41</span>&#160;<span class="comment">// wmma native instruction sizes supported for cutlass::int4b_t (experimental::s4).</span></div><div class="line"><a name="l00042"></a><span class="lineno">   42</span>&#160;<span class="comment">//</span></div><div class="line"><a name="l00044"></a><span class="lineno">   44</span>&#160;<span class="comment"></span><span class="keyword">template</span> &lt;</div><div class="line"><a name="l00045"></a><span class="lineno">   45</span>&#160;<span class="keyword">typename</span> Shape_, </div><div class="line"><a name="l00046"></a><span class="lineno">   46</span>&#160;<span class="keyword">typename</span> LayoutA_, </div><div class="line"><a name="l00047"></a><span class="lineno">   47</span>&#160;<span class="keyword">typename</span> LayoutB_,</div><div class="line"><a name="l00048"></a><span class="lineno">   48</span>&#160;<span class="keyword">typename</span> LayoutC_&gt;</div><div class="line"><a name="l00049"></a><span class="lineno"><a class="line" href="structcutlass_1_1arch_1_1Wmma_3_01Shape___00_01cutlass_1_1int4b__t_00_01LayoutA___00_01cutlass_16fd808a90b3cf9d7cfc99f30888ca3fe.html">   49</a></span>&#160;<span class="keyword">struct </span>Wmma&lt;</div><div class="line"><a name="l00050"></a><span class="lineno">   50</span>&#160;  Shape_,                                   </div><div class="line"><a name="l00051"></a><span class="lineno">   51</span>&#160;  <a class="code" href="namespacecutlass.html">cutlass</a>::<a class="code" href="structcutlass_1_1integer__subbyte.html">int4b_t</a>,                         </div><div class="line"><a name="l00052"></a><span class="lineno">   52</span>&#160;  LayoutA_,                                 </div><div class="line"><a name="l00053"></a><span class="lineno">   53</span>&#160;  <a class="code" href="structcutlass_1_1integer__subbyte.html">cutlass::int4b_t</a>,                         </div><div class="line"><a name="l00054"></a><span class="lineno">   54</span>&#160;  LayoutB_,                                 </div><div class="line"><a name="l00055"></a><span class="lineno">   55</span>&#160;  int32_t,                                  </div><div class="line"><a name="l00056"></a><span class="lineno">   56</span>&#160;  LayoutC_,                                 </div><div class="line"><a name="l00057"></a><span class="lineno">   57</span>&#160;  cutlass::arch::OpMultiplyAdd              </div><div class="line"><a name="l00058"></a><span class="lineno">   58</span>&#160;&gt; {</div><div class="line"><a name="l00059"></a><span class="lineno">   59</span>&#160;<span class="preprocessor">#if defined(CUTLASS_ARCH_WMMA_SM75_ENABLED)</span></div><div class="line"><a name="l00060"></a><span class="lineno">   60</span>&#160;  <span class="keyword">using</span> Shape = Shape_;</div><div class="line"><a name="l00061"></a><span class="lineno">   61</span>&#160;  <span class="keyword">using</span> ElementA = <a class="code" href="namespacecutlass.html#a30f409bb0c8a88a3307e5c7cd31f2384">cutlass::int4b_t</a>;</div><div class="line"><a name="l00062"></a><span class="lineno">   62</span>&#160;  <span class="keyword">using</span> LayoutA = LayoutA_;</div><div class="line"><a name="l00063"></a><span class="lineno">   63</span>&#160;  <span class="keyword">using</span> ElementB = <a class="code" href="namespacecutlass.html#a30f409bb0c8a88a3307e5c7cd31f2384">cutlass::int4b_t</a>;</div><div class="line"><a name="l00064"></a><span class="lineno">   64</span>&#160;  <span class="keyword">using</span> LayoutB = LayoutB_;</div><div class="line"><a name="l00065"></a><span class="lineno">   65</span>&#160;  <span class="keyword">using</span> ElementC = int32_t;</div><div class="line"><a name="l00066"></a><span class="lineno">   66</span>&#160;  <span class="keyword">using</span> LayoutC = LayoutC_;</div><div class="line"><a name="l00067"></a><span class="lineno">   67</span>&#160;  <span class="keyword">using</span> Operator = cutlass::arch::OpMultiplyAdd;</div><div class="line"><a name="l00068"></a><span class="lineno">   68</span>&#160;</div><div class="line"><a name="l00069"></a><span class="lineno">   69</span>&#160;  <span class="comment">// check supported wmma shape for the given multiplicand data types</span></div><div class="line"><a name="l00070"></a><span class="lineno">   70</span>&#160;  <a class="code" href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a>(</div><div class="line"><a name="l00071"></a><span class="lineno">   71</span>&#160;    <a class="code" href="structcutlass_1_1platform_1_1is__same.html">platform::is_same</a>&lt;<a class="code" href="structcutlass_1_1gemm_1_1GemmShape.html">cutlass::gemm::GemmShape&lt;8, 8, 32&gt;</a>, Shape&gt;::value,</div><div class="line"><a name="l00072"></a><span class="lineno">   72</span>&#160;    <span class="stringliteral">&quot;Supported list of wmma operator shape for s8 multiplicands is: 8x8x32&quot;</span>);</div><div class="line"><a name="l00073"></a><span class="lineno">   73</span>&#160;</div><div class="line"><a name="l00074"></a><span class="lineno">   74</span>&#160;</div><div class="line"><a name="l00075"></a><span class="lineno">   75</span>&#160;  <span class="comment">// Wmma Fragment</span></div><div class="line"><a name="l00076"></a><span class="lineno">   76</span>&#160;  <span class="keyword">using</span> FragmentA = nvcuda::wmma::fragment&lt;</div><div class="line"><a name="l00077"></a><span class="lineno">   77</span>&#160;          nvcuda::wmma::matrix_a,</div><div class="line"><a name="l00078"></a><span class="lineno">   78</span>&#160;          Shape::kM,</div><div class="line"><a name="l00079"></a><span class="lineno">   79</span>&#160;          Shape::kN,</div><div class="line"><a name="l00080"></a><span class="lineno">   80</span>&#160;          Shape::kK,</div><div class="line"><a name="l00081"></a><span class="lineno">   81</span>&#160;          <span class="keyword">typename</span> CutlassToWmmaDataType&lt;ElementA&gt;::Type,</div><div class="line"><a name="l00082"></a><span class="lineno">   82</span>&#160;          <span class="keyword">typename</span> CutlassToWmmaLayout&lt;LayoutA&gt;::Layout&gt;;</div><div class="line"><a name="l00083"></a><span class="lineno">   83</span>&#160;</div><div class="line"><a name="l00084"></a><span class="lineno">   84</span>&#160;  <span class="keyword">using</span> FragmentB = nvcuda::wmma::fragment&lt;</div><div class="line"><a name="l00085"></a><span class="lineno">   85</span>&#160;          nvcuda::wmma::matrix_b,</div><div class="line"><a name="l00086"></a><span class="lineno">   86</span>&#160;          Shape::kM,</div><div class="line"><a name="l00087"></a><span class="lineno">   87</span>&#160;          Shape::kN,</div><div class="line"><a name="l00088"></a><span class="lineno">   88</span>&#160;          Shape::kK,</div><div class="line"><a name="l00089"></a><span class="lineno">   89</span>&#160;          <span class="keyword">typename</span> CutlassToWmmaDataType&lt;ElementB&gt;::Type,</div><div class="line"><a name="l00090"></a><span class="lineno">   90</span>&#160;          <span class="keyword">typename</span> CutlassToWmmaLayout&lt;LayoutB&gt;::Layout&gt;;</div><div class="line"><a name="l00091"></a><span class="lineno">   91</span>&#160;</div><div class="line"><a name="l00092"></a><span class="lineno">   92</span>&#160;  <span class="keyword">using</span> FragmentC = nvcuda::wmma::fragment&lt;</div><div class="line"><a name="l00093"></a><span class="lineno">   93</span>&#160;          nvcuda::wmma::accumulator,</div><div class="line"><a name="l00094"></a><span class="lineno">   94</span>&#160;          Shape::kM,</div><div class="line"><a name="l00095"></a><span class="lineno">   95</span>&#160;          Shape::kN,</div><div class="line"><a name="l00096"></a><span class="lineno">   96</span>&#160;          Shape::kK,</div><div class="line"><a name="l00097"></a><span class="lineno">   97</span>&#160;          <span class="keyword">typename</span> CutlassToWmmaDataType&lt;ElementC&gt;::Type&gt;;</div><div class="line"><a name="l00098"></a><span class="lineno">   98</span>&#160;</div><div class="line"><a name="l00100"></a><span class="lineno">  100</span>&#160;  CUTLASS_DEVICE</div><div class="line"><a name="l00101"></a><span class="lineno">  101</span>&#160;  <span class="keywordtype">void</span> operator()(</div><div class="line"><a name="l00102"></a><span class="lineno">  102</span>&#160;    FragmentC &amp;D, </div><div class="line"><a name="l00103"></a><span class="lineno">  103</span>&#160;    FragmentA <span class="keyword">const</span> &amp;A, </div><div class="line"><a name="l00104"></a><span class="lineno">  104</span>&#160;    FragmentB <span class="keyword">const</span> &amp;B, </div><div class="line"><a name="l00105"></a><span class="lineno">  105</span>&#160;    FragmentC <span class="keyword">const</span> &amp;C)<span class="keyword"> const </span>{</div><div class="line"><a name="l00106"></a><span class="lineno">  106</span>&#160;      nvcuda::wmma::mma_sync(D, A, B, C);</div><div class="line"><a name="l00107"></a><span class="lineno">  107</span>&#160;  }</div><div class="line"><a name="l00108"></a><span class="lineno">  108</span>&#160;</div><div class="line"><a name="l00109"></a><span class="lineno">  109</span>&#160;<span class="preprocessor">#else</span></div><div class="line"><a name="l00110"></a><span class="lineno">  110</span>&#160;    <a class="code" href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a>(<span class="keyword">false</span>, <span class="stringliteral">&quot;wmma.mma.sync interger type multiplicands is avialable only for SM75 and beyond&quot;</span>);</div><div class="line"><a name="l00111"></a><span class="lineno">  111</span>&#160;<span class="preprocessor">#endif</span></div><div class="line"><a name="l00112"></a><span class="lineno">  112</span>&#160;</div><div class="line"><a name="l00113"></a><span class="lineno">  113</span>&#160;};</div><div class="line"><a name="l00114"></a><span class="lineno">  114</span>&#160;</div><div class="line"><a name="l00116"></a><span class="lineno">  116</span>&#160;<span class="comment">//</span></div><div class="line"><a name="l00117"></a><span class="lineno">  117</span>&#160;<span class="comment">// WMMA template structure defines nvcuda::wmma::fragments and static assert for</span></div><div class="line"><a name="l00118"></a><span class="lineno">  118</span>&#160;<span class="comment">// wmma native instruction sizes supported for cutlass::uint1b_t (experimental::b1)</span></div><div class="line"><a name="l00119"></a><span class="lineno">  119</span>&#160;<span class="comment">// (nvcuda::wmma targeting SASS instruction BMMA)</span></div><div class="line"><a name="l00120"></a><span class="lineno">  120</span>&#160;<span class="comment">//</span></div><div class="line"><a name="l00122"></a><span class="lineno">  122</span>&#160;<span class="comment"></span><span class="keyword">template</span> &lt;</div><div class="line"><a name="l00123"></a><span class="lineno">  123</span>&#160;<span class="keyword">typename</span> Shape_, </div><div class="line"><a name="l00124"></a><span class="lineno">  124</span>&#160;<span class="keyword">typename</span> LayoutA_, </div><div class="line"><a name="l00125"></a><span class="lineno">  125</span>&#160;<span class="keyword">typename</span> LayoutB_,</div><div class="line"><a name="l00126"></a><span class="lineno">  126</span>&#160;<span class="keyword">typename</span> LayoutC_&gt;</div><div class="line"><a name="l00127"></a><span class="lineno"><a class="line" href="structcutlass_1_1arch_1_1Wmma_3_01Shape___00_01cutlass_1_1uint1b__t_00_01LayoutA___00_01cutlass_c80a7ea4d219cd9b13b560b493338028.html">  127</a></span>&#160;<span class="keyword">struct </span>Wmma&lt;</div><div class="line"><a name="l00128"></a><span class="lineno">  128</span>&#160;  Shape_,                                   </div><div class="line"><a name="l00129"></a><span class="lineno">  129</span>&#160;  <a class="code" href="namespacecutlass.html">cutlass</a>::<a class="code" href="structcutlass_1_1integer__subbyte.html">uint1b_t</a>,                        </div><div class="line"><a name="l00130"></a><span class="lineno">  130</span>&#160;  LayoutA_,                                 </div><div class="line"><a name="l00131"></a><span class="lineno">  131</span>&#160;  <a class="code" href="structcutlass_1_1integer__subbyte.html">cutlass::uint1b_t</a>,                        </div><div class="line"><a name="l00132"></a><span class="lineno">  132</span>&#160;  LayoutB_,                                 </div><div class="line"><a name="l00133"></a><span class="lineno">  133</span>&#160;  int32_t,                                  </div><div class="line"><a name="l00134"></a><span class="lineno">  134</span>&#160;  LayoutC_,                                 </div><div class="line"><a name="l00135"></a><span class="lineno">  135</span>&#160;  cutlass::arch::OpXorPopc                  </div><div class="line"><a name="l00136"></a><span class="lineno">  136</span>&#160;&gt; {</div><div class="line"><a name="l00137"></a><span class="lineno">  137</span>&#160;<span class="preprocessor">#if defined(CUTLASS_ARCH_WMMA_SM75_ENABLED)</span></div><div class="line"><a name="l00138"></a><span class="lineno">  138</span>&#160;  <span class="keyword">using</span> Shape = Shape_;</div><div class="line"><a name="l00139"></a><span class="lineno">  139</span>&#160;  <span class="keyword">using</span> ElementA = <a class="code" href="namespacecutlass.html#a09a3695d6126aed7a7c01f431fa34b7d">cutlass::uint1b_t</a>;</div><div class="line"><a name="l00140"></a><span class="lineno">  140</span>&#160;  <span class="keyword">using</span> LayoutA = LayoutA_;</div><div class="line"><a name="l00141"></a><span class="lineno">  141</span>&#160;  <span class="keyword">using</span> ElementB = <a class="code" href="namespacecutlass.html#a09a3695d6126aed7a7c01f431fa34b7d">cutlass::uint1b_t</a>;</div><div class="line"><a name="l00142"></a><span class="lineno">  142</span>&#160;  <span class="keyword">using</span> LayoutB = LayoutB_;</div><div class="line"><a name="l00143"></a><span class="lineno">  143</span>&#160;  <span class="keyword">using</span> ElementC = int32_t;</div><div class="line"><a name="l00144"></a><span class="lineno">  144</span>&#160;  <span class="keyword">using</span> LayoutC = LayoutC_;</div><div class="line"><a name="l00145"></a><span class="lineno">  145</span>&#160;  <span class="keyword">using</span> Operator = cutlass::arch::OpXorPopc;</div><div class="line"><a name="l00146"></a><span class="lineno">  146</span>&#160;</div><div class="line"><a name="l00147"></a><span class="lineno">  147</span>&#160;  <span class="comment">// check supported wmma shape for the given multiplicand data types</span></div><div class="line"><a name="l00148"></a><span class="lineno">  148</span>&#160;  <a class="code" href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a>(</div><div class="line"><a name="l00149"></a><span class="lineno">  149</span>&#160;    <a class="code" href="structcutlass_1_1platform_1_1is__same.html">platform::is_same</a>&lt;<a class="code" href="structcutlass_1_1gemm_1_1GemmShape.html">cutlass::gemm::GemmShape&lt;8, 8, 128&gt;</a>, Shape&gt;::value,</div><div class="line"><a name="l00150"></a><span class="lineno">  150</span>&#160;    <span class="stringliteral">&quot;Supported list of wmma operator shape for b1 multiplicands is: 8x8x128&quot;</span>);</div><div class="line"><a name="l00151"></a><span class="lineno">  151</span>&#160;</div><div class="line"><a name="l00152"></a><span class="lineno">  152</span>&#160;</div><div class="line"><a name="l00153"></a><span class="lineno">  153</span>&#160;  <span class="comment">// Wmma Fragment</span></div><div class="line"><a name="l00154"></a><span class="lineno">  154</span>&#160;  <span class="keyword">using</span> FragmentA = nvcuda::wmma::fragment&lt;</div><div class="line"><a name="l00155"></a><span class="lineno">  155</span>&#160;          nvcuda::wmma::matrix_a,</div><div class="line"><a name="l00156"></a><span class="lineno">  156</span>&#160;          Shape::kM,</div><div class="line"><a name="l00157"></a><span class="lineno">  157</span>&#160;          Shape::kN,</div><div class="line"><a name="l00158"></a><span class="lineno">  158</span>&#160;          Shape::kK,</div><div class="line"><a name="l00159"></a><span class="lineno">  159</span>&#160;          <span class="keyword">typename</span> CutlassToWmmaDataType&lt;ElementA&gt;::Type,</div><div class="line"><a name="l00160"></a><span class="lineno">  160</span>&#160;          <span class="keyword">typename</span> CutlassToWmmaLayout&lt;LayoutA&gt;::Layout&gt;;</div><div class="line"><a name="l00161"></a><span class="lineno">  161</span>&#160;</div><div class="line"><a name="l00162"></a><span class="lineno">  162</span>&#160;  <span class="keyword">using</span> FragmentB = nvcuda::wmma::fragment&lt;</div><div class="line"><a name="l00163"></a><span class="lineno">  163</span>&#160;          nvcuda::wmma::matrix_b,</div><div class="line"><a name="l00164"></a><span class="lineno">  164</span>&#160;          Shape::kM,</div><div class="line"><a name="l00165"></a><span class="lineno">  165</span>&#160;          Shape::kN,</div><div class="line"><a name="l00166"></a><span class="lineno">  166</span>&#160;          Shape::kK,</div><div class="line"><a name="l00167"></a><span class="lineno">  167</span>&#160;          <span class="keyword">typename</span> CutlassToWmmaDataType&lt;ElementB&gt;::Type,</div><div class="line"><a name="l00168"></a><span class="lineno">  168</span>&#160;          <span class="keyword">typename</span> CutlassToWmmaLayout&lt;LayoutB&gt;::Layout&gt;;</div><div class="line"><a name="l00169"></a><span class="lineno">  169</span>&#160;</div><div class="line"><a name="l00170"></a><span class="lineno">  170</span>&#160;  <span class="keyword">using</span> FragmentC = nvcuda::wmma::fragment&lt;</div><div class="line"><a name="l00171"></a><span class="lineno">  171</span>&#160;          nvcuda::wmma::accumulator,</div><div class="line"><a name="l00172"></a><span class="lineno">  172</span>&#160;          Shape::kM,</div><div class="line"><a name="l00173"></a><span class="lineno">  173</span>&#160;          Shape::kN,</div><div class="line"><a name="l00174"></a><span class="lineno">  174</span>&#160;          Shape::kK,</div><div class="line"><a name="l00175"></a><span class="lineno">  175</span>&#160;          <span class="keyword">typename</span> CutlassToWmmaDataType&lt;ElementC&gt;::Type&gt;;</div><div class="line"><a name="l00176"></a><span class="lineno">  176</span>&#160;  </div><div class="line"><a name="l00178"></a><span class="lineno">  178</span>&#160;  CUTLASS_DEVICE</div><div class="line"><a name="l00179"></a><span class="lineno">  179</span>&#160;  <span class="keywordtype">void</span> operator()(</div><div class="line"><a name="l00180"></a><span class="lineno">  180</span>&#160;    FragmentC &amp;D, </div><div class="line"><a name="l00181"></a><span class="lineno">  181</span>&#160;    FragmentA <span class="keyword">const</span> &amp;A, </div><div class="line"><a name="l00182"></a><span class="lineno">  182</span>&#160;    FragmentB <span class="keyword">const</span> &amp;B, </div><div class="line"><a name="l00183"></a><span class="lineno">  183</span>&#160;    FragmentC <span class="keyword">const</span> &amp;C)<span class="keyword"> const </span>{</div><div class="line"><a name="l00184"></a><span class="lineno">  184</span>&#160;</div><div class="line"><a name="l00185"></a><span class="lineno">  185</span>&#160;      nvcuda::wmma::bmma_sync(D, A, B, C, nvcuda::wmma::experimental::bmmaBitOpXOR, </div><div class="line"><a name="l00186"></a><span class="lineno">  186</span>&#160;                                          nvcuda::wmma::experimental::bmmaAccumulateOpPOPC);</div><div class="line"><a name="l00187"></a><span class="lineno">  187</span>&#160;  }</div><div class="line"><a name="l00188"></a><span class="lineno">  188</span>&#160;</div><div class="line"><a name="l00189"></a><span class="lineno">  189</span>&#160;<span class="preprocessor">#else</span></div><div class="line"><a name="l00190"></a><span class="lineno">  190</span>&#160;    <a class="code" href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a>(<span class="keyword">false</span>, <span class="stringliteral">&quot;wmma.mma.sync interger type multiplicands is avialable only for SM75 and beyond&quot;</span>);</div><div class="line"><a name="l00191"></a><span class="lineno">  191</span>&#160;<span class="preprocessor">#endif</span></div><div class="line"><a name="l00192"></a><span class="lineno">  192</span>&#160;</div><div class="line"><a name="l00193"></a><span class="lineno">  193</span>&#160;};</div><div class="line"><a name="l00194"></a><span class="lineno">  194</span>&#160;</div><div class="line"><a name="l00195"></a><span class="lineno">  195</span>&#160;} <span class="comment">// namespace arch</span></div><div class="line"><a name="l00196"></a><span class="lineno">  196</span>&#160;} <span class="comment">// namespace cutlass</span></div><div class="ttc" id="namespacecutlass_html"><div class="ttname"><a href="namespacecutlass.html">cutlass</a></div><div class="ttdef"><b>Definition:</b> aligned_buffer.h:35</div></div>
 <div class="ttc" id="structcutlass_1_1platform_1_1is__same_html"><div class="ttname"><a href="structcutlass_1_1platform_1_1is__same.html">cutlass::platform::is_same</a></div><div class="ttdoc">std::is_same (false specialization) </div><div class="ttdef"><b>Definition:</b> platform.h:394</div></div>
 <div class="ttc" id="namespacecutlass_html_a09a3695d6126aed7a7c01f431fa34b7d"><div class="ttname"><a href="namespacecutlass.html#a09a3695d6126aed7a7c01f431fa34b7d">cutlass::uint1b_t</a></div><div class="ttdeci">integer_subbyte&lt; 1, false &gt; uint1b_t</div><div class="ttdoc">1-bit Unsigned integer type </div><div class="ttdef"><b>Definition:</b> integer_subbyte.h:152</div></div>
 <div class="ttc" id="structcutlass_1_1integer__subbyte_html"><div class="ttname"><a href="structcutlass_1_1integer__subbyte.html">cutlass::integer_subbyte</a></div><div class="ttdoc">4-bit signed integer type </div><div class="ttdef"><b>Definition:</b> integer_subbyte.h:42</div></div>
diff --git a/examples/00_basic_gemm/basic_gemm.cu b/examples/00_basic_gemm/basic_gemm.cu
index 57df36be..baa5e059 100644
--- a/examples/00_basic_gemm/basic_gemm.cu
+++ b/examples/00_basic_gemm/basic_gemm.cu
@@ -47,7 +47,7 @@
   or utilities within CUTLASS. Such utilities are demonstrated elsewhere in other examples and are
   prevalent in the CUTLASS unit tests.
 
-  This example has delibrately been kept similar to the basic_gemm example from cutass-1.3 to 
+  This example has delibrately been kept similar to the basic_gemm example from cutlass-1.3 to
   highlight the minimum amount of differences needed to transition to cutlass-2.0.
 
   Cutlass-1.3 sgemm: https://github.com/NVIDIA/cutlass/blob/master/examples/00_basic_gemm/basic_gemm.cu
diff --git a/examples/07_volta_tensorop_gemm/volta_tensorop_gemm.cu b/examples/07_volta_tensorop_gemm/volta_tensorop_gemm.cu
index c38f040d..6560f83d 100644
--- a/examples/07_volta_tensorop_gemm/volta_tensorop_gemm.cu
+++ b/examples/07_volta_tensorop_gemm/volta_tensorop_gemm.cu
@@ -75,7 +75,7 @@ Now that we setup the properties of data, we have to setup properties of computa
 Second, we create template variables of tile sizes for thread-block, warp and mma-op to 128x128x32,
 64x64x32, 8x8x4 (MxNxK) respectively. When passed to instantiate CUTLASS GEMM kernel, it internally
 deduce the amount of threads needed per thread-block, amount of shared memory, storing data in
-bank-conflict free manner, and ton of other variables required to compose, intialize and launch a
+bank-conflict free manner, and ton of other variables required to compose, initialize and launch a
 high performance GEMM kernel. This is the beauty of CUTLASS, it relieves developer from
 understanding and coding complicated hardware optimizations which can easily go wrong.
 
@@ -107,7 +107,7 @@ is done which threadblock launched on an SM, CUDA SM architecture of GPU you wan
 These are all put together to create a template variable which describes CUTLASS GEMM kernel using
 cutlass::gemm::device::Gemm template.
 
-The next step is to intialize physical data, instantiate and initialize CUTLASS kernel and run it.
+The next step is to initialize physical data, instantiate and initialize CUTLASS kernel and run it.
 We use CUTLASS utilities to initialize, fill, compare matrices as they are simple and doesn't come
 in the way of learning CUTLASS.
 
@@ -115,7 +115,7 @@ Once all the matrices are initialized and filled with data, create arguments tup
 kernel which takes problem size (M = 5120, N = 4096 and K = 4096), matrices, alpha, beta and the
 important one, split k-dimension factor. Along with that, we query CUTLASS if any scratch-space
 memory required by the kernel we instantiated. If yes, we create it and pass it along with other
-arguments created to intialize CUTLASS kernel then, the kernel is launched.
+arguments created to initialize CUTLASS kernel then, the kernel is launched.
 
 In this example, we later on launch a reference gemm kernel (from CUTLASS utilities) to compare if
 the output from CUTLASS kernel is same as reference GEMM kernel.
diff --git a/examples/08_turing_tensorop_gemm/turing_tensorop_gemm.cu b/examples/08_turing_tensorop_gemm/turing_tensorop_gemm.cu
index bcff579b..f627b842 100644
--- a/examples/08_turing_tensorop_gemm/turing_tensorop_gemm.cu
+++ b/examples/08_turing_tensorop_gemm/turing_tensorop_gemm.cu
@@ -74,7 +74,7 @@ Now that we setup the properties of data, we have to setup properties of computa
 Second, we create template variables of tile sizes for thread-block, warp and mma-op to 128x256x64,
 64x64x16, 8x8x16 (MxNxK) respectively. When passed to instantiate CUTLASS GEMM kernel, it internally
 deduce the amount of threads needed per thread-block, amount of shared memory, storing data in
-bank-conflict free manner, and ton of other variables required to compose, intialize and launch a
+bank-conflict free manner, and ton of other variables required to compose, initialize and launch a
 high performance GEMM kernel. This is the beauty of CUTLASS, it relieves developer from
 understanding and coding complicated hardware optimizations which can easily go wrong.
 
@@ -106,7 +106,7 @@ is done which threadblock launched on an SM, CUDA SM architecture of GPU you wan
 These are all put together to create a template variable which describes CUTLASS GEMM kernel using
 cutlass::gemm::device::Gemm template.
 
-The next step is to intialize physical data, instantiate and initialize CUTLASS kernel and run it.
+The next step is to initialize physical data, instantiate and initialize CUTLASS kernel and run it.
 We use CUTLASS utilities to initialize, fill, compare matrices as they are simple and doesn't come
 in the way of learning CUTLASS.
 
@@ -114,7 +114,7 @@ Once all the matrices are initialized and filled with data, create arguments tup
 kernel which takes problem size (M = 5120, N = 4096 and K = 4096), matrices, alpha, beta and the
 important one, split k-dimension factor. Along with that, we query CUTLASS if any scratch-space
 memory required by the kernel we instantiated. If yes, we create it and pass it along with other
-arguments created to intialize CUTLASS kernel then, the kernel is launched.
+arguments created to initialize CUTLASS kernel then, the kernel is launched.
 
 In this example, we later on launch a reference gemm kernel (from CUTLASS utilities) to compare if
 the output from CUTLASS kernel is same as reference GEMM kernel.
diff --git a/examples/09_turing_tensorop_conv2dfprop/turing_tensorop_conv2dfprop.cu b/examples/09_turing_tensorop_conv2dfprop/turing_tensorop_conv2dfprop.cu
index e39784ee..bfa4f8f3 100644
--- a/examples/09_turing_tensorop_conv2dfprop/turing_tensorop_conv2dfprop.cu
+++ b/examples/09_turing_tensorop_conv2dfprop/turing_tensorop_conv2dfprop.cu
@@ -76,7 +76,7 @@ Now that we setup the properties of data, we have to setup properties of computa
 Second, we create template variables of tile sizes for thread-block, warp and mma-op to 128x128x128,
 64x64x128, 8x8x32 (MxNxK) respectively. When passed to instantiate CUTLASS Implicit GEMM kernel, it
 internally deduces the amount of threads needed per thread-block, amount of shared memory, storing
-data in bank-conflict free manner, and ton of other variables required to compose, intialize and
+data in bank-conflict free manner, and ton of other variables required to compose, initialize and
 launch a high performance Implicit GEMM kernel. This is the beauty of CUTLASS, it relieves developer
 from understanding and coding complicated hardware optimizations which can easily go wrong.
 
@@ -108,7 +108,7 @@ is done which threadblock launched on an SM, CUDA SM architecture of GPU you wan
 These are all put together to create a template variable which describes CUTLASS Implicit GEMM
 kernel using cutlass::conv::device::ImplicitGemm template.
 
-The next step is to intialize physical data, instantiate and initialize CUTLASS kernel and run it.
+The next step is to initialize physical data, instantiate and initialize CUTLASS kernel and run it.
 We use CUTLASS utilities to initialize, fill, compare tensors as they are simple and doesn't come
 in the way of learning CUTLASS.
 
@@ -117,7 +117,7 @@ kernel which takes problem size (N = 1, H = 64, W = 64, C = 128), filter size (K
 R = 3, S = 3, C = 128 ), padding, strides, dilation, tensors, alpha, beta and the
 important one, split k-dimension factor. Along with that, we query CUTLASS if any scratch-space
 memory required by the kernel we instantiated. If yes, we create it and pass it along with other
-arguments created to intialize CUTLASS kernel then, the kernel is launched.
+arguments created to initialize CUTLASS kernel then, the kernel is launched.
 
 In this example, we later on launch a reference convolution kernel (from CUTLASS utilities) to
 compare if the output from CUTLASS kernel is same as the reference implicit GEMM kernel.
diff --git a/examples/13_two_tensor_op_fusion/threadblock/b2b_implicit_gemm_pipelined.h b/examples/13_two_tensor_op_fusion/threadblock/b2b_implicit_gemm_pipelined.h
index 36d4563a..b3dfd6f4 100644
--- a/examples/13_two_tensor_op_fusion/threadblock/b2b_implicit_gemm_pipelined.h
+++ b/examples/13_two_tensor_op_fusion/threadblock/b2b_implicit_gemm_pipelined.h
@@ -321,7 +321,7 @@ class B2bImplicitGemmPipelined :
     int smem_write_stage_idx = 1;
 
     // Issue loads during the first warp-level matrix multiply-add *AFTER* issuing 
-    // shared memory loads (which have the tighest latency requirement).
+    // shared memory loads (which have the tightest latency requirement).
 
     //
     // Mainloop
@@ -461,7 +461,7 @@ class B2bImplicitGemmPipelined :
     int gemm_k_iterations_1 = FragmentIteratorA1::Policy::kIterations / Base::kWarpGemmIterations1;
 
     // Issue loads during the first warp-level matrix multiply-add *AFTER* issuing 
-    // shared memory loads (which have the tighest latency requirement).
+    // shared memory loads (which have the tightest latency requirement).
 
     //
     // Mainloop
diff --git a/examples/13_two_tensor_op_fusion/threadblock/b2b_implicit_gemm_pipelined_smem_accumulator.h b/examples/13_two_tensor_op_fusion/threadblock/b2b_implicit_gemm_pipelined_smem_accumulator.h
index 828426b1..c1799fa3 100644
--- a/examples/13_two_tensor_op_fusion/threadblock/b2b_implicit_gemm_pipelined_smem_accumulator.h
+++ b/examples/13_two_tensor_op_fusion/threadblock/b2b_implicit_gemm_pipelined_smem_accumulator.h
@@ -341,7 +341,7 @@ class B2bImplicitGemmPipelinedSmemAccumulator :
     int smem_write_stage_idx = 1;
 
     // Issue loads during the first warp-level matrix multiply-add *AFTER* issuing 
-    // shared memory loads (which have the tighest latency requirement).
+    // shared memory loads (which have the tightest latency requirement).
 
     //
     // Mainloop
diff --git a/examples/13_two_tensor_op_fusion/threadblock/b2b_mma_pipelined.h b/examples/13_two_tensor_op_fusion/threadblock/b2b_mma_pipelined.h
index c36d1332..7afa503a 100644
--- a/examples/13_two_tensor_op_fusion/threadblock/b2b_mma_pipelined.h
+++ b/examples/13_two_tensor_op_fusion/threadblock/b2b_mma_pipelined.h
@@ -325,7 +325,7 @@ class B2bMmaPipelined :
     iterator_B0.clear_mask(gemm_k_iterations_0 <= 1);
 
     // Issue loads during the first warp-level matrix multiply-add *AFTER* issuing 
-    // shared memory loads (which have the tighest latency requirement).
+    // shared memory loads (which have the tightest latency requirement).
 
     //
     // Mainloop
diff --git a/examples/13_two_tensor_op_fusion/threadblock/b2b_mma_pipelined_smem_accumulator.h b/examples/13_two_tensor_op_fusion/threadblock/b2b_mma_pipelined_smem_accumulator.h
index 351fae37..b78892e1 100644
--- a/examples/13_two_tensor_op_fusion/threadblock/b2b_mma_pipelined_smem_accumulator.h
+++ b/examples/13_two_tensor_op_fusion/threadblock/b2b_mma_pipelined_smem_accumulator.h
@@ -346,7 +346,7 @@ class B2bMmaPipelinedSmemAccumulator :
     iterator_B0.clear_mask(gemm_k_iterations_0 <= 1);
 
     // Issue loads during the first warp-level matrix multiply-add *AFTER* issuing 
-    // shared memory loads (which have the tighest latency requirement).
+    // shared memory loads (which have the tightest latency requirement).
 
     //
     // Mainloop
diff --git a/examples/16_ampere_tensorop_conv2dfprop/ampere_tensorop_conv2dfprop.cu b/examples/16_ampere_tensorop_conv2dfprop/ampere_tensorop_conv2dfprop.cu
index 378b4898..b30d9086 100644
--- a/examples/16_ampere_tensorop_conv2dfprop/ampere_tensorop_conv2dfprop.cu
+++ b/examples/16_ampere_tensorop_conv2dfprop/ampere_tensorop_conv2dfprop.cu
@@ -73,7 +73,7 @@ Now that we setup the properties of data, we have to setup properties of computa
 Second, we create template variables of tile sizes for thread-block, warp and mma-op to 128x128x64,
 64x64x64, 16x8x16 (MxNxK) respectively. When passed to instantiate CUTLASS Implicit GEMM kernel, it
 internally deduces the amount of threads needed per thread-block, amount of shared memory, storing
-data in bank-conflict free manner, and ton of other variables required to compose, intialize and
+data in bank-conflict free manner, and ton of other variables required to compose, initialize and
 launch a high performance Implicit GEMM kernel. This is the beauty of CUTLASS, it relieves developer
 from understanding and coding complicated hardware optimizations which can easily go wrong.
 
@@ -95,7 +95,7 @@ is done which threadblock launched on an SM, CUDA SM architecture of GPU you wan
 These are all put together to create a template variable which describes CUTLASS Implicit GEMM
 kernel using cutlass::conv::device::ImplicitGemm template.
 
-The next step is to intialize physical data, instantiate and initialize CUTLASS kernel and run it.
+The next step is to initialize physical data, instantiate and initialize CUTLASS kernel and run it.
 We use CUTLASS utilities to initialize, fill, compare tensors as they are simple and doesn't come
 in the way of learning CUTLASS.
 
@@ -104,7 +104,7 @@ kernel which takes problem size (N = 1, H = 64, W = 64, C = 128), filter size (K
 R = 3, S = 3, C = 128 ), padding, strides, dilation, tensors, alpha, beta and the
 important one, split k-dimension factor. Along with that, we query CUTLASS if any scratch-space
 memory required by the kernel we instantiated. If yes, we create it and pass it along with other
-arguments created to intialize CUTLASS kernel then, the kernel is launched.
+arguments created to initialize CUTLASS kernel then, the kernel is launched.
 
 In this example, we later on launch a reference convolution kernel (from CUTLASS utilities) to
 compare if the output from CUTLASS kernel is same as the reference implicit GEMM kernel.
diff --git a/examples/23_ampere_gemm_operand_reduction_fusion/ampere_gemm_operand_reduction_fusion.cu b/examples/23_ampere_gemm_operand_reduction_fusion/ampere_gemm_operand_reduction_fusion.cu
index 81a3e15a..49bfe2f8 100644
--- a/examples/23_ampere_gemm_operand_reduction_fusion/ampere_gemm_operand_reduction_fusion.cu
+++ b/examples/23_ampere_gemm_operand_reduction_fusion/ampere_gemm_operand_reduction_fusion.cu
@@ -36,7 +36,7 @@ computing GEMM.  So the output also contains either a Mx1 or 1XN vector.  It onl
 core instructions.
 
 Most of the reduction is done in gemm/warp level, see gemm/warp/mma_with_reduction_tensor_op.h
-A few bit of reduction is done in the epilouge before storing the vector, see
+A few bit of reduction is done in the epilogue before storing the vector, see
 epilogue/threadblock/epilogue_gemm_k_reduction.h 
 */
 
diff --git a/examples/41_fused_multi_head_attention/fused_multihead_attention_fixed_seqlen.cu b/examples/41_fused_multi_head_attention/fused_multihead_attention_fixed_seqlen.cu
index d3ffef76..a0604018 100644
--- a/examples/41_fused_multi_head_attention/fused_multihead_attention_fixed_seqlen.cu
+++ b/examples/41_fused_multi_head_attention/fused_multihead_attention_fixed_seqlen.cu
@@ -1088,7 +1088,7 @@ int main(int argc, char const **args) {
 
   // Determine kernel configuration based on head size.
   // If head size is less than or equal to 64, each block operates over 64 queries and
-  // 64 keys, and parital results can be stored in the register file.
+  // 64 keys, and partial results can be stored in the register file.
   // If head size is greater than 64, each block operates over 32 queries and 128 keys,
   // and partial results are stored in shared memory.
   if (options.head_size_v > 64) {
diff --git a/examples/41_fused_multi_head_attention/fused_multihead_attention_variable_seqlen.cu b/examples/41_fused_multi_head_attention/fused_multihead_attention_variable_seqlen.cu
index f3e2879f..f2568e3a 100644
--- a/examples/41_fused_multi_head_attention/fused_multihead_attention_variable_seqlen.cu
+++ b/examples/41_fused_multi_head_attention/fused_multihead_attention_variable_seqlen.cu
@@ -1173,7 +1173,7 @@ int main(int argc, char const **args) {
 
   // Determine kernel configuration based on head size.
   // If head size is less than or equal to 64, each block operates over 64 queries and
-  // 64 keys, and parital results can be stored in the register file.
+  // 64 keys, and partial results can be stored in the register file.
   // If head size is greater than 64, each block operates over 32 queries and 128 keys,
   // and partial results are stored in shared memory.
   if (options.head_size_v > 64) {
diff --git a/examples/41_fused_multi_head_attention/gemm/custom_mma_pipelined.h b/examples/41_fused_multi_head_attention/gemm/custom_mma_pipelined.h
index 73112e9a..f074fdbd 100644
--- a/examples/41_fused_multi_head_attention/gemm/custom_mma_pipelined.h
+++ b/examples/41_fused_multi_head_attention/gemm/custom_mma_pipelined.h
@@ -310,7 +310,7 @@ class CustomMmaPipelined : public CustomMmaBase<Shape_, Policy_, 2> {
     iterator_B.clear_mask(gemm_k_iterations <= 1);
 
     // Issue loads during the first warp-level matrix multiply-add *AFTER*
-    // issuing shared memory loads (which have the tighest latency requirement).
+    // issuing shared memory loads (which have the tightest latency requirement).
 
     //
     // Mainloop
diff --git a/examples/41_fused_multi_head_attention/gemm/mma_from_smem.h b/examples/41_fused_multi_head_attention/gemm/mma_from_smem.h
index 993af37a..bc67806b 100644
--- a/examples/41_fused_multi_head_attention/gemm/mma_from_smem.h
+++ b/examples/41_fused_multi_head_attention/gemm/mma_from_smem.h
@@ -600,7 +600,7 @@ class MmaPipelinedFromSharedMemory : public MmaBaseFromSharedMemory<
     iterator_B.clear_mask(gemm_k_iterations <= 1);
 
     // Issue loads during the first warp-level matrix multiply-add *AFTER*
-    // issuing shared memory loads (which have the tighest latency requirement).
+    // issuing shared memory loads (which have the tightest latency requirement).
 
     //
     // Mainloop
diff --git a/examples/41_fused_multi_head_attention/iterators/predicated_tile_access_iterator_residual_last.h b/examples/41_fused_multi_head_attention/iterators/predicated_tile_access_iterator_residual_last.h
index b9c38cc3..d49bf83e 100644
--- a/examples/41_fused_multi_head_attention/iterators/predicated_tile_access_iterator_residual_last.h
+++ b/examples/41_fused_multi_head_attention/iterators/predicated_tile_access_iterator_residual_last.h
@@ -181,7 +181,7 @@ class PredicatedTileAccessIteratorResidualLast<
   BytePointer pointer_;
 
   /// Below is used when Gather is turned on.  We need to record strided_offset
-  /// and contiguous_offset seperated to compute the offset by using
+  /// and contiguous_offset separated to compute the offset by using
   ///
   /// offset = contiguous_offset + indices[strided_offset]
   ///
diff --git a/examples/44_multi_gemm_ir_and_codegen/ir_gen/gen_threadblock.py b/examples/44_multi_gemm_ir_and_codegen/ir_gen/gen_threadblock.py
index 7512dc1c..bb3c76fc 100644
--- a/examples/44_multi_gemm_ir_and_codegen/ir_gen/gen_threadblock.py
+++ b/examples/44_multi_gemm_ir_and_codegen/ir_gen/gen_threadblock.py
@@ -86,14 +86,14 @@ def gen_using_MmaCore(self, stage):
                                                 "OperatorClass", str(stage), "Operator")
         return gen_code
 
-    def gen_using_FusedAddBiasEpilouge(self):
+    def gen_using_FusedAddBiasEpilogue(self):
         gen_code = ""
         for i in range(self.b2b_num - 1):
-            code_using = helper.var_idx("using FusedAddBiasEpilouge", i)
-            epilouge_name = "typename cutlass::epilogue::threadblock::DefaultFusedBiasActEpilogueTensorOp"
+            code_using = helper.var_idx("using FusedAddBiasEpilogue", i)
+            epilogue_name = "typename cutlass::epilogue::threadblock::DefaultFusedBiasActEpilogueTensorOp"
             template_args = helper.var_idx("<ThreadblockShape", i) + helper.var_idx(",typename MmaCore", i) + helper.var_idx("::MmaPolicy::Operator, 1, EpilogueOutputOp", i) + ", 2>::Epilogue"
 
-            gen_code += code_using + " = " + epilouge_name + template_args + ";\n"
+            gen_code += code_using + " = " + epilogue_name + template_args + ";\n"
 
         return gen_code        
         
@@ -161,12 +161,12 @@ def gen_threadblockmma(self):
         MmaPipelined_param_list += "ElementAccumulator0, layout::RowMajor, "
 
         for i in range(self.b2b_num - 1):
-            epilouge_name = "EpilogueOutputOp" + str(i)
-            MmaPipelined_param_list += epilouge_name + ", "
+            epilogue_name = "EpilogueOutputOp" + str(i)
+            MmaPipelined_param_list += epilogue_name + ", "
 
         for i in range(self.b2b_num - 1):
-            epilouge_name = "FusedAddBiasEpilouge" + str(i)
-            MmaPipelined_param_list += epilouge_name + ", "
+            epilogue_name = "FusedAddBiasEpilogue" + str(i)
+            MmaPipelined_param_list += epilogue_name + ", "
 
         for i in range(self.b2b_num):
             MmaPolicy = "typename MmaCore" + str(i) + "::MmaPolicy"
@@ -198,7 +198,7 @@ def gen_code(self):
         mmacore_codebody = self.gen_using_MmaCore(2)
         iterator_codebody = self.gen_using_Iterator()
         fragment_iterator_codebody = self.gen_fragment_iterator()
-        epilogue_iterator_codebody = self.gen_using_FusedAddBiasEpilouge()
+        epilogue_iterator_codebody = self.gen_using_FusedAddBiasEpilogue()
         threadBlockMma = self.gen_threadblockmma()
         specialized_code = mmacore_codebody + iterator_codebody + fragment_iterator_codebody + epilogue_iterator_codebody + threadBlockMma
 
@@ -352,7 +352,7 @@ def gen_first_gemm_1stage(b2b_num):
     }\n\
 \n\
     // Issue loads during the first warp-level matrix multiply-add *AFTER* issuing \n\
-    // shared memory loads (which have the tighest latency requirement).\n\
+    // shared memory loads (which have the tightest latency requirement).\n\
 \n\
     //\n\
     // Mainloop\n\
@@ -459,7 +459,7 @@ def gen_first_gemm_2stage(b2b_num):
     }\n\
 \n\
     // Issue loads during the first warp-level matrix multiply-add *AFTER* issuing \n\
-    // shared memory loads (which have the tighest latency requirement).\n\
+    // shared memory loads (which have the tightest latency requirement).\n\
     iterator_A.load(tb_frag_A);\n\
 \n\
     //\n\
@@ -490,7 +490,7 @@ def gen_first_gemm_2stage(b2b_num):
           __syncthreads();\n\
 \n\
           // Issue loads during the first warp-level matrix multiply-add *AFTER* issuing \n\
-          // shared memory loads (which have the tighest latency requirement).\n\
+          // shared memory loads (which have the tightest latency requirement).\n\
           iterator_A.load(tb_frag_A);\n\
           \n\
           ++this->smem_iterator_B0_;\n\
@@ -549,12 +549,12 @@ def gemm_teamplate(id):
                 code = "// " + str(id + 1) + " Gemm" 
                 code += "    /// Iterator to load a warp-scoped tile of A1 operand from intermediate accumulator tile\n"
                 
-                code += "    " + helper.var_idx("FragmentC", id - 1) + helper.var_idx(" after_epilouge_accu", id - 1) + ";\n"
+                code += "    " + helper.var_idx("FragmentC", id - 1) + helper.var_idx(" after_epilogue_accu", id - 1) + ";\n"
                 code += "    " + helper.var_idx("epilogue_", id - 1) + helper.var_idx("(output_op_", id - 1) + helper.var_idx(", accum", id - 1) \
-                               + helper.var_idx(", after_epilouge_accu", id - 1) + helper.var_idx(", iterator_C", id - 1) +");\n"
+                               + helper.var_idx(", after_epilogue_accu", id - 1) + helper.var_idx(", iterator_C", id - 1) +");\n"
                 
                 #    FragmentIteratorA1 warp_tile_iterator_A1_(accum0); 
-                code += "    " + helper.var_idx("FragmentIteratorA", id) + helper.var_idx(" warp_tile_iterator_A", id) +"_(" + helper.var_idx("after_epilouge_accu", id - 1) + ");\n"
+                code += "    " + helper.var_idx("FragmentIteratorA", id) + helper.var_idx(" warp_tile_iterator_A", id) +"_(" + helper.var_idx("after_epilogue_accu", id - 1) + ");\n"
                 #    FragmentB1 tb_frag_B1;
                 code += "    " +  helper.var_idx("FragmentB", id) + " " + helper.var_idx("tb_frag_B", id) + ";\n"
                 #    tb_frag_B1.clear();
@@ -990,7 +990,7 @@ def __init__(self, template_param, gen_class_name, b2b_num, output_dir, cutlass_
 
 
         self.gen_b2b_mma_base = gen_b2b_mma_base(template_param, gen_class_name, b2b_num, cutlass_deps_root, project_root)
-        self.gen_b2b_mma_piplined = gen_b2b_mme_pipelined(template_param, gen_class_name, b2b_num, cutlass_deps_root, project_root)
+        self.gen_b2b_mma_pipelined = gen_b2b_mme_pipelined(template_param, gen_class_name, b2b_num, cutlass_deps_root, project_root)
         self.gen_default_b2b_mma = gen_default_b2b_mma(template_param, gen_class_name, b2b_num, cutlass_deps_root, project_root)
 
 
@@ -1001,7 +1001,7 @@ def gen_code(self, first_use_1stage):
 
         with open(self.file_dir + "b2b_mma_base.h", "w+") as f:
             f.write(base_code)        
-        pipeline_code = self.gen_b2b_mma_piplined.gen_code(first_use_1stage = first_use_1stage)
+        pipeline_code = self.gen_b2b_mma_pipelined.gen_code(first_use_1stage = first_use_1stage)
         print("[INFO]: Gen kernel code [b2b_mma_pipelined.h]output Dir: is ", self.file_dir)
 
         with open(self.file_dir + "b2b_mma_pipelined.h", "w+") as f:
diff --git a/examples/44_multi_gemm_ir_and_codegen/ir_gen/gen_verify.py b/examples/44_multi_gemm_ir_and_codegen/ir_gen/gen_verify.py
index 9eb6fa9c..ede9c1f8 100644
--- a/examples/44_multi_gemm_ir_and_codegen/ir_gen/gen_verify.py
+++ b/examples/44_multi_gemm_ir_and_codegen/ir_gen/gen_verify.py
@@ -45,7 +45,7 @@ def __init__(self, fuse_gemm_info, gen_class_name, user_header_file, output_dir
         self.user_header_file = ""
         for header in user_header_file: 
             self.user_header_file += "#include \"" + header + "\"\n"
-        self.seperate_cutlass = gen_basic.gen_volta_turing_fuse_act_impl(fuse_gemm_info, gen_class_name, user_header_file, output_dir)
+        self.separate_cutlass = gen_basic.gen_volta_turing_fuse_act_impl(fuse_gemm_info, gen_class_name, user_header_file, output_dir)
         self.gen_params()
         self.output_dir = output_dir
 
@@ -53,14 +53,14 @@ def __init__(self, fuse_gemm_info, gen_class_name, user_header_file, output_dir
     def gen_code(self):
         code = ""
         code += self.user_header_file
-        code += self.seperate_cutlass.gen_using(False)  #False -> Turing, True -> Volta
+        code += self.separate_cutlass.gen_using(False)  #False -> Turing, True -> Volta
 
         code_body = ""
         for i in range(self.b2b_num):
             code_body += "    " + helper.var_idx("Gemm", i) + helper.var_idx(" gemm_op_", i) + ";\n"
             code_body += "    " + helper.var_idx("gemm_op_", i) + helper.var_idx(".initialize(Arguments_", i) + ", nullptr);\n"
 
-        code_body += self.seperate_cutlass.gen_run()
+        code_body += self.separate_cutlass.gen_run()
 
         code += ir.gen_func(self.name, self.params, code_body)
         helper.write_2_headfile("cutlass_verify.h", self.output_dir, code)
@@ -87,6 +87,6 @@ def get_params(self, declartion = True):
 
     def gen_initialize():
         code = ""
-        initialize_code = self.seperate_cutlass.gen_initialize()
+        initialize_code = self.separate_cutlass.gen_initialize()
 
         code = ir.gen_func("initialize", [[]])
diff --git a/examples/44_multi_gemm_ir_and_codegen/ir_gen/helper.py b/examples/44_multi_gemm_ir_and_codegen/ir_gen/helper.py
index f221c2b6..e271a975 100644
--- a/examples/44_multi_gemm_ir_and_codegen/ir_gen/helper.py
+++ b/examples/44_multi_gemm_ir_and_codegen/ir_gen/helper.py
@@ -83,23 +83,23 @@ def list_2_string(input_list, ):
     return rtn_string
 
 
-def get_epilouge_info(layer_info):
+def get_epilogue_info(layer_info):
     return layer_info['epilogue']
 
 def get_epilogue_tp(layer_info):
-    epilogue_info = get_epilouge_info(layer_info)
+    epilogue_info = get_epilogue_info(layer_info)
     return epilogue_info['tp']
 
 def get_epilogue_add_bias_or_not(layer_info):
-    epilogue_info = get_epilouge_info(layer_info)
+    epilogue_info = get_epilogue_info(layer_info)
     return epilogue_info['bias']['addbias']
 
 def get_epilogue_add_bias_tp(layer_info):
-    epilogue_info = get_epilouge_info(layer_info)
+    epilogue_info = get_epilogue_info(layer_info)
     return epilogue_info['bias']['bias_tp']
 
 def get_epilogue_args(layer_info):
-    epilogue_info = get_epilouge_info(layer_info)
+    epilogue_info = get_epilogue_info(layer_info)
     return epilogue_info['args']
 
 def get_epilogue_bias_shape(layer_info):
diff --git a/examples/49_hopper_gemm_schedules_with_collective_builder/49_hopper_gemm_schedules_with_collective_builder.cu b/examples/49_hopper_gemm_schedules_with_collective_builder/49_hopper_gemm_schedules_with_collective_builder.cu
index 1d92bef9..ccf74a65 100644
--- a/examples/49_hopper_gemm_schedules_with_collective_builder/49_hopper_gemm_schedules_with_collective_builder.cu
+++ b/examples/49_hopper_gemm_schedules_with_collective_builder/49_hopper_gemm_schedules_with_collective_builder.cu
@@ -33,7 +33,7 @@
     \brief Hopper GEMM example leveraging collective operation builders.
 
     This example showcases the use of CUTLASS's CollectiveBuilder to easily construct performant kernels
-    targetting the NVIDIA Hopper architecture.
+    targeting the NVIDIA Hopper architecture.
 
     Background and motivation
     -------------------------
@@ -45,7 +45,7 @@
     However, DefaultGemmConfigurations leave multiple opportunities for improvement, which are addressed
     in CUTLASS 3:
       (1) DefaultGemmConfigurations do not allow one to use a more-performant set of parameters without
-          specifying every parameter. For example, the DefaultGemmConfigurations for GEMMs targetting
+          specifying every parameter. For example, the DefaultGemmConfigurations for GEMMs targeting
           Ampere specify that three pipeline stages should be used regardless of the sizes of operands.
           If one wished to increase this value, one would also need to specify all other template parameters.
           This leaves a gap between a high-level ease-of-use interface and a lower-level detailed interface.
@@ -55,7 +55,7 @@
 
     Alongside these opportunities for improvement, the Hopper architecture offers new features that increase
     the number of valid configurations of a kernel. In addition to the many template parameters already available
-    in CUTLASS 2 kernels, CUTLASS 3 kernels targetting Hopper also have various scheduling modes to select from that control:
+    in CUTLASS 2 kernels, CUTLASS 3 kernels targeting Hopper also have various scheduling modes to select from that control:
       (1) how data is to be loaded (e.g., using the Hopper TMA feature or Ampere cp.async)
       (2) how work is to be divided among warps in a thread block (e.g., whether to use "warp specialization")
       (3) whether persistent thread blocks should be used
@@ -64,13 +64,13 @@
     Introduction to the CollectiveBuilder
     -------------------------------------
     CUTLASS 3 introduces the CollectiveBuilder to further ease the process of selecting template parameters
-    for kernels targetting Hopper. Similar to the DefaultGemmConfigurations used in CUTLASS 2, the CollectiveBuilder
+    for kernels targeting Hopper. Similar to the DefaultGemmConfigurations used in CUTLASS 2, the CollectiveBuilder
     takes in a small set of template parameters (e.g., the data types of operands A and B). It then automatically
     determines the data loading strategy to use depending on whether the Hopper TMA feature can be used with the provided
     parameters. If one does not indicate a particular scheduling policy or stage count to use (by using `Auto` template
     parameters), the CollectiveBuilder will also automatically select these.
 
-    Unlike DefaultGemmConfigurations a parital specialization of the CollectiveBuilder is not needed for many
+    Unlike DefaultGemmConfigurations a partial specialization of the CollectiveBuilder is not needed for many
     configurations of operand types. Instead the CollectiveBuilder "builds" a configuration based on generic
     properties of the specified operands, layouts, and other parameters. For example, when the stage count
     is set to `Auto`, the CollectiveBuilder may automatically calculate the maximum number of stages that
@@ -90,7 +90,7 @@
     Details of this example
     -----------------------
     This example walks through the use of the CollectiveBuilder with various schedules and stage counts specified.
-    This example also illustrates how CUTLASS 3 GEMMs targetting Hopper automatically support batched GEMMs by simply
+    This example also illustrates how CUTLASS 3 GEMMs targeting Hopper automatically support batched GEMMs by simply
     extending the problem size with an additional tensor rank.
 
     Example usage:
@@ -162,7 +162,7 @@ struct Options {
 
     out << "49_hopper_gemm_schedules_with_collective_builder\n\n"
       << "  This example showcases the use of CUTLASS's collective operation builders to easily construct\n"
-      << "  performant kernels targetting NVIDIA's Hopper architecture.\n\n"
+      << "  performant kernels targeting NVIDIA's Hopper architecture.\n\n"
       << "Options:\n\n"
       << "  --help                      If specified, displays this usage statement\n\n"
       << "  --m=<int>                   Sets the M extent of the GEMM\n"
diff --git a/include/cute/atom/copy_traits_sm90_tma.hpp b/include/cute/atom/copy_traits_sm90_tma.hpp
index 18e22bf6..f414ebc4 100644
--- a/include/cute/atom/copy_traits_sm90_tma.hpp
+++ b/include/cute/atom/copy_traits_sm90_tma.hpp
@@ -718,7 +718,7 @@ make_tma_copy(CopyOp,
               << "\nswizzle        " << smem_swizzle
               << "\nl2Promotion    " << tma_l2Promotion
               << "\noobFill        " << tma_oobFill << std::endl;
-    std::cerr << "Error: Failed to intialize the TMA descriptor " << result << std::endl;
+    std::cerr << "Error: Failed to initialize the TMA descriptor " << result << std::endl;
     assert(false);
   }
 #endif // (__CUDACC_VER_MAJOR__ >= 12)
diff --git a/include/cutlass/arch/mma.h b/include/cutlass/arch/mma.h
index 7d4d693a..537f215a 100644
--- a/include/cutlass/arch/mma.h
+++ b/include/cutlass/arch/mma.h
@@ -98,11 +98,11 @@ struct OpClassSimt {};
 
 /////////////////////////////////////////////////////////////////////////////////////////////////
 
-/// Tag classifing operators as Tensor Core operations.
+/// Tag classifying operators as Tensor Core operations.
 struct OpClassTensorOp {};
 
 /////////////////////////////////////////////////////////////////////////////////////////////////
-/// Tag classifing operators as WMMA Tensor Core operations
+/// Tag classifying operators as WMMA Tensor Core operations
 struct OpClassWmmaTensorOp {};
 
 /////////////////////////////////////////////////////////////////////////////////////////////////
diff --git a/include/cutlass/conv/threadblock/conv2d_dgrad_output_gradient_tile_access_iterator_optimized.h b/include/cutlass/conv/threadblock/conv2d_dgrad_output_gradient_tile_access_iterator_optimized.h
index 38d94acc..03e77c04 100644
--- a/include/cutlass/conv/threadblock/conv2d_dgrad_output_gradient_tile_access_iterator_optimized.h
+++ b/include/cutlass/conv/threadblock/conv2d_dgrad_output_gradient_tile_access_iterator_optimized.h
@@ -230,7 +230,7 @@ class Conv2dDgradOutputGradientTileAccessIteratorOptimized <
       offset_p[s] = (mapped_h + problem_size_.pad_h - filter_r) / problem_size_.stride_h;
       offset_q[s] = (mapped_w + problem_size_.pad_w - filter_s) / problem_size_.stride_w;
 
-      // Intialize pointers for gemm_k=0
+      // Initialize pointers for gemm_k=0
       TensorCoord coord{offset_n[s], offset_p[s], offset_q[s], filter_k_};
 
       pointer_[s] += params_.layout(coord) * sizeof_bits<Element>::value / 8;
@@ -341,7 +341,7 @@ class Conv2dDgradOutputGradientTileAccessIteratorOptimized <
 
         next_idx = 1;
 
-        // Restore bytes in q coordinate (Mma in filter s dimenstion)
+        // Restore bytes in q coordinate (Mma in filter s dimension)
         reset_bytes = reset_bytes_s_;
 
       } else {
@@ -351,7 +351,7 @@ class Conv2dDgradOutputGradientTileAccessIteratorOptimized <
 
         next_idx = 2;
 
-        // Restore bytes in p and q coordinate (Mma in filter s and r dimenstion)
+        // Restore bytes in p and q coordinate (Mma in filter s and r dimension)
         reset_bytes = reset_bytes_r_;
       }
 #else
diff --git a/include/cutlass/conv/threadblock/conv2d_wgrad_activation_tile_access_iterator_analytic.h b/include/cutlass/conv/threadblock/conv2d_wgrad_activation_tile_access_iterator_analytic.h
index 6e73115c..c72356be 100644
--- a/include/cutlass/conv/threadblock/conv2d_wgrad_activation_tile_access_iterator_analytic.h
+++ b/include/cutlass/conv/threadblock/conv2d_wgrad_activation_tile_access_iterator_analytic.h
@@ -195,7 +195,7 @@ class Conv2dWgradActivationTileAccessIteratorAnalytic {
       s = filter_s_[iteration_contiguous_];
     }  
     else {
-      /// Multiple access to support non-128b alignment in contiguous dimenstion
+      /// Multiple access to support non-128b alignment in contiguous dimension
       c = (filter_c_[iteration_contiguous_] + iteration_vector_ * AccessType::kElements) % problem_size_.C;
       int wrap_c = (filter_c_[iteration_contiguous_] + iteration_vector_ * AccessType::kElements) / problem_size_.C;
       s = (filter_s_[iteration_contiguous_] + wrap_c) % problem_size_.S;
diff --git a/include/cutlass/conv/threadblock/conv2d_wgrad_activation_tile_access_iterator_optimized.h b/include/cutlass/conv/threadblock/conv2d_wgrad_activation_tile_access_iterator_optimized.h
index 88717359..16cd2564 100644
--- a/include/cutlass/conv/threadblock/conv2d_wgrad_activation_tile_access_iterator_optimized.h
+++ b/include/cutlass/conv/threadblock/conv2d_wgrad_activation_tile_access_iterator_optimized.h
@@ -212,7 +212,7 @@ class Conv2dWgradActivationTileAccessIteratorOptimized {
 
     if (kAccessesPerVector > 1) {
       // This code section is only to support non-128b alignment
-      // Multiple access to support non-128b alignment in contiguous dimenstion
+      // Multiple access to support non-128b alignment in contiguous dimension
       int wrap_c;
       params_.c_divmod(wrap_c, c, c + iteration_vector_ * AccessType::kElements);
 
diff --git a/include/cutlass/conv/threadblock/depthwise_fprop_pipelined.h b/include/cutlass/conv/threadblock/depthwise_fprop_pipelined.h
index fd43e404..1f82769b 100644
--- a/include/cutlass/conv/threadblock/depthwise_fprop_pipelined.h
+++ b/include/cutlass/conv/threadblock/depthwise_fprop_pipelined.h
@@ -241,7 +241,7 @@ class DepthwiseFpropPipelined : public gemm::threadblock::MmaBase<Shape_, Policy
     int rs_plane_idx = 0;
 
     // Issue loads during the first warp-level matrix multiply-add *AFTER* issuing 
-    // shared memory loads (which have the tighest latency requirement).
+    // shared memory loads (which have the tightest latency requirement).
 
     //
     // Mainloop
diff --git a/include/cutlass/conv/threadblock/implicit_gemm_pipelined.h b/include/cutlass/conv/threadblock/implicit_gemm_pipelined.h
index 4a36ef55..1a319263 100644
--- a/include/cutlass/conv/threadblock/implicit_gemm_pipelined.h
+++ b/include/cutlass/conv/threadblock/implicit_gemm_pipelined.h
@@ -238,7 +238,7 @@ class ImplicitGemmPipelined : public gemm::threadblock::MmaBase<Shape_, Policy_,
     int smem_write_stage_idx = 1;
 
     // Issue loads during the first warp-level matrix multiply-add *AFTER* issuing 
-    // shared memory loads (which have the tighest latency requirement).
+    // shared memory loads (which have the tightest latency requirement).
 
     //
     // Mainloop
diff --git a/include/cutlass/conv/threadblock/threadblock_swizzle.h b/include/cutlass/conv/threadblock/threadblock_swizzle.h
index 0ed0b24e..3cbcc8b5 100644
--- a/include/cutlass/conv/threadblock/threadblock_swizzle.h
+++ b/include/cutlass/conv/threadblock/threadblock_swizzle.h
@@ -67,7 +67,7 @@ static int get_strided_dgrad_tile_m(
   // CUTLASS strided dgrad performance for stride > filter, i.e., stride={2x2} and filter={1x1})
   //
   // * Optimization * 
-  // Only launch CTAs in M dimenstion which contribute to a row in Dx output
+  // Only launch CTAs in M dimension which contribute to a row in Dx output
   // 
   // 
   // * Constraints *
@@ -107,7 +107,7 @@ struct StridedDgradHorizontalThreadblockSwizzle :
     // compute number of tiles in m dimension
     int tile_m = get_strided_dgrad_tile_m(problem_size, tile_size.m());
 
-    // compute number of tiles in n dimenstion 
+    // compute number of tiles in n dimension
     int tile_n = (implicit_gemm_problem_size.n() + tile_size.n() - 1) / tile_size.n();
 
     return gemm::GemmCoord(
@@ -148,7 +148,7 @@ struct StridedDgradIdentityThreadblockSwizzle :
     // compute number of tiles in m dimension
     int tile_m = get_strided_dgrad_tile_m(problem_size, tile_size.m());
 
-    // compute number of tiles in n dimenstion 
+    // compute number of tiles in n dimension
     int tile_n = (implicit_gemm_problem_size.n() + tile_size.n() - 1) / tile_size.n();
 
     return gemm::GemmCoord(
diff --git a/include/cutlass/epilogue/threadblock/default_epilogue_complex_tensor_op.h b/include/cutlass/epilogue/threadblock/default_epilogue_complex_tensor_op.h
index 1b258164..2ec93389 100644
--- a/include/cutlass/epilogue/threadblock/default_epilogue_complex_tensor_op.h
+++ b/include/cutlass/epilogue/threadblock/default_epilogue_complex_tensor_op.h
@@ -77,7 +77,7 @@ namespace threadblock {
 //  D = dr + j di = (ar*br - ai*bi) + j (ar*bi + ai*br) 
 /////////////////////////////////////////////////////////////////////////////////////////////////
 template <
-  /// Epilouge Shape
+  /// Epilogue Shape
   typename Shape_,
   /// Warp-level mma operator
   typename WarpMmaTensorOp_,
diff --git a/include/cutlass/epilogue/threadblock/default_epilogue_complex_tensor_op_blas3.h b/include/cutlass/epilogue/threadblock/default_epilogue_complex_tensor_op_blas3.h
index 966d44cc..0b2da7d2 100644
--- a/include/cutlass/epilogue/threadblock/default_epilogue_complex_tensor_op_blas3.h
+++ b/include/cutlass/epilogue/threadblock/default_epilogue_complex_tensor_op_blas3.h
@@ -78,7 +78,7 @@ namespace threadblock {
 //  D = dr + j di = (ar*br - ai*bi) + j (ar*bi + ai*br) 
 /////////////////////////////////////////////////////////////////////////////////////////////////
 template <
-  /// Epilouge Shape
+  /// Epilogue Shape
   typename Shape_,
   /// Warp-level mma operator
   typename WarpMmaTensorOp_,
diff --git a/include/cutlass/epilogue/threadblock/predicated_tile_iterator_direct_conv.h b/include/cutlass/epilogue/threadblock/predicated_tile_iterator_direct_conv.h
index a641f608..ada7c467 100644
--- a/include/cutlass/epilogue/threadblock/predicated_tile_iterator_direct_conv.h
+++ b/include/cutlass/epilogue/threadblock/predicated_tile_iterator_direct_conv.h
@@ -198,7 +198,7 @@ class PredicatedTileIteratorDirectConv {
   /// A thread's starting column
   Index thread_start_column_;
 
-  /// Initial thread ouput location
+  /// Initial thread output location
   int thread_start_n_, thread_start_p_, thread_start_q_;
 
   /// Current threadblock tile index
diff --git a/include/cutlass/epilogue/threadblock/predicated_tile_iterator_strided_dgrad.h b/include/cutlass/epilogue/threadblock/predicated_tile_iterator_strided_dgrad.h
index 1e8c71ec..654d09c3 100644
--- a/include/cutlass/epilogue/threadblock/predicated_tile_iterator_strided_dgrad.h
+++ b/include/cutlass/epilogue/threadblock/predicated_tile_iterator_strided_dgrad.h
@@ -186,10 +186,10 @@ class PredicatedTileIteratorStridedDgrad {
   /// Extent of the matrix tile in rows
   Index extent_row_;
 
-  /// Starting Dx h and w dimenstion for strided dgrad mapping
+  /// Starting Dx h and w dimension for strided dgrad mapping
   int start_h_, start_w_;
 
-  /// Effective Dy P and Q dimenstions for strided dgrad mapping
+  /// Effective Dy P and Q dimensions for strided dgrad mapping
   int p_, q_;
 
   /// A thread's starting row position (assuming steady-state predicates have been computed)
diff --git a/include/cutlass/gemm/device/ell_gemm.h b/include/cutlass/gemm/device/ell_gemm.h
index d8698a7c..630ab7be 100644
--- a/include/cutlass/gemm/device/ell_gemm.h
+++ b/include/cutlass/gemm/device/ell_gemm.h
@@ -547,7 +547,7 @@ class EllGemm {
 
 ////////////////////////////////////////////////////////////////////////////////
 
-/// Parital specialization for column-major output exchanges problem size and operand.
+/// Partial specialization for column-major output exchanges problem size and operand.
 template <
     /// Element type for A matrix operand
     typename ElementA_,
diff --git a/include/cutlass/gemm/device/gemm.h b/include/cutlass/gemm/device/gemm.h
index 68fa29bf..482c4b4a 100644
--- a/include/cutlass/gemm/device/gemm.h
+++ b/include/cutlass/gemm/device/gemm.h
@@ -521,7 +521,7 @@ class Gemm {
 
 ////////////////////////////////////////////////////////////////////////////////
 
-/// Parital specialization for column-major output exchanges problem size and operand.
+/// Partial specialization for column-major output exchanges problem size and operand.
 template <
     /// Element type for A matrix operand
     typename ElementA_,
diff --git a/include/cutlass/gemm/device/gemm_array.h b/include/cutlass/gemm/device/gemm_array.h
index dd244f88..a937da48 100644
--- a/include/cutlass/gemm/device/gemm_array.h
+++ b/include/cutlass/gemm/device/gemm_array.h
@@ -476,7 +476,7 @@ class GemmArray {
 
 ////////////////////////////////////////////////////////////////////////////////
 
-/// Parital specialization for column-major output exchanges problem size and operand.
+/// Partial specialization for column-major output exchanges problem size and operand.
 template <
   /// Element type for A matrix operand
   typename ElementA_,
diff --git a/include/cutlass/gemm/device/gemm_batched.h b/include/cutlass/gemm/device/gemm_batched.h
index 6f510e90..a27f0b8a 100644
--- a/include/cutlass/gemm/device/gemm_batched.h
+++ b/include/cutlass/gemm/device/gemm_batched.h
@@ -454,7 +454,7 @@ class GemmBatched {
 
 ////////////////////////////////////////////////////////////////////////////////
 
-/// Parital specialization for column-major output exchanges problem size and operand.
+/// Partial specialization for column-major output exchanges problem size and operand.
 template <
   /// Element type for A matrix operand
   typename ElementA_,
diff --git a/include/cutlass/gemm/device/gemm_complex.h b/include/cutlass/gemm/device/gemm_complex.h
index 5bd856fe..5e44d624 100644
--- a/include/cutlass/gemm/device/gemm_complex.h
+++ b/include/cutlass/gemm/device/gemm_complex.h
@@ -475,7 +475,7 @@ class GemmComplex {
 
 ////////////////////////////////////////////////////////////////////////////////
 
-/// Parital specialization for column-major output exchanges problem size and operand.
+/// Partial specialization for column-major output exchanges problem size and operand.
 template <
   /// Element type for A matrix operand
   typename ElementA_,
diff --git a/include/cutlass/gemm/device/gemm_layernorm_mainloop_fusion.h b/include/cutlass/gemm/device/gemm_layernorm_mainloop_fusion.h
index 3ebb2a74..d7228609 100644
--- a/include/cutlass/gemm/device/gemm_layernorm_mainloop_fusion.h
+++ b/include/cutlass/gemm/device/gemm_layernorm_mainloop_fusion.h
@@ -194,7 +194,7 @@ class GemmLayernormMainloopFusion :
 
 ////////////////////////////////////////////////////////////////////////////////
 
-/// Parital specialization for column-major output exchanges problem size and operand.
+/// Partial specialization for column-major output exchanges problem size and operand.
 template <
     /// Element type for A matrix operand
     typename ElementA_,
diff --git a/include/cutlass/gemm/device/gemm_universal.h b/include/cutlass/gemm/device/gemm_universal.h
index 6c19b8a1..87a8c955 100644
--- a/include/cutlass/gemm/device/gemm_universal.h
+++ b/include/cutlass/gemm/device/gemm_universal.h
@@ -219,7 +219,7 @@ class GemmUniversal :
 
 ////////////////////////////////////////////////////////////////////////////////
 
-/// Parital specialization for column-major output exchanges problem size and operand.
+/// Partial specialization for column-major output exchanges problem size and operand.
 template <
     /// Element type for A matrix operand
     typename ElementA_,
diff --git a/include/cutlass/gemm/device/gemm_universal_with_broadcast.h b/include/cutlass/gemm/device/gemm_universal_with_broadcast.h
index 34b3f6c7..54b7d61c 100644
--- a/include/cutlass/gemm/device/gemm_universal_with_broadcast.h
+++ b/include/cutlass/gemm/device/gemm_universal_with_broadcast.h
@@ -198,7 +198,7 @@ class GemmUniversalWithBroadcast :
 
 ////////////////////////////////////////////////////////////////////////////////
 
-/// Parital specialization for column-major output exchanges problem size and operand.
+/// Partial specialization for column-major output exchanges problem size and operand.
 template <
     /// Element type for A matrix operand
     typename ElementA_,
diff --git a/include/cutlass/gemm/device/gemm_with_k_reduction.h b/include/cutlass/gemm/device/gemm_with_k_reduction.h
index c671d7c6..c637a579 100644
--- a/include/cutlass/gemm/device/gemm_with_k_reduction.h
+++ b/include/cutlass/gemm/device/gemm_with_k_reduction.h
@@ -211,7 +211,7 @@ class GemmWithKReduction :
 
 ////////////////////////////////////////////////////////////////////////////////
 
-/// Parital specialization for column-major output exchanges problem size and operand.
+/// Partial specialization for column-major output exchanges problem size and operand.
 template <
     /// Element type for A matrix operand
     typename ElementA_,
diff --git a/include/cutlass/gemm/device/rank_2k.h b/include/cutlass/gemm/device/rank_2k.h
index d333ffa2..a81298d4 100644
--- a/include/cutlass/gemm/device/rank_2k.h
+++ b/include/cutlass/gemm/device/rank_2k.h
@@ -348,7 +348,7 @@ class Rank2K {
 };
 ////////////////////////////////////////////////////////////////////////////////
 
-/// Parital specialization for column-major output exchange operand.
+/// Partial specialization for column-major output exchange operand.
 template <
     /// Element type for A matrix operand
     typename ElementA_,
diff --git a/include/cutlass/gemm/device/rank_k.h b/include/cutlass/gemm/device/rank_k.h
index a2101a79..394e7668 100644
--- a/include/cutlass/gemm/device/rank_k.h
+++ b/include/cutlass/gemm/device/rank_k.h
@@ -325,7 +325,7 @@ class RankK {
 };
 ////////////////////////////////////////////////////////////////////////////////
 
-/// Parital specialization for column-major output exchange operand.
+/// Partial specialization for column-major output exchange operand.
 template <
     /// Element type for A matrix operand
     typename ElementA_,
diff --git a/include/cutlass/gemm/device/symm.h b/include/cutlass/gemm/device/symm.h
index 57bfeec5..23563b56 100755
--- a/include/cutlass/gemm/device/symm.h
+++ b/include/cutlass/gemm/device/symm.h
@@ -408,7 +408,7 @@ class Symm {
    call GEMM mainloop for with RowMajor efficient-epilogue
 ********************************************************************************************************/
 
-/// Parital specialization for column-major output exchanges problem size and operand.
+/// Partial specialization for column-major output exchanges problem size and operand.
 template <
     /// Element type for A matrix operand
     typename ElementA_,
diff --git a/include/cutlass/gemm/device/trmm.h b/include/cutlass/gemm/device/trmm.h
index 34816db4..cd4ea3d4 100644
--- a/include/cutlass/gemm/device/trmm.h
+++ b/include/cutlass/gemm/device/trmm.h
@@ -563,7 +563,7 @@ For the mainloop and trmm kernel, `A` and `B` points to left-side and right-side
    call GEMM mainloop for with RowMajor efficient-epilogue
 ********************************************************************************************************/
 
-/// Parital specialization for column-major output exchanges problem size and operand.
+/// Partial specialization for column-major output exchanges problem size and operand.
 template <
     /// Element type for A matrix operand
     typename ElementA_,
diff --git a/include/cutlass/gemm/kernel/default_gemm_with_broadcast.h b/include/cutlass/gemm/kernel/default_gemm_with_broadcast.h
index e3ef316b..dfe62d35 100644
--- a/include/cutlass/gemm/kernel/default_gemm_with_broadcast.h
+++ b/include/cutlass/gemm/kernel/default_gemm_with_broadcast.h
@@ -137,7 +137,7 @@ struct DefaultGemmWithBroadcast {
 
 /////////////////////////////////////////////////////////////////////////////////////////////////
 
-/// Parital specialization: ArchTag = cutlass::arch::Sm70
+/// Partial specialization: ArchTag = cutlass::arch::Sm70
 ///
 ///
 template <
diff --git a/include/cutlass/gemm/kernel/default_gemm_with_reduction.h b/include/cutlass/gemm/kernel/default_gemm_with_reduction.h
index 6e9e647c..789b4bde 100644
--- a/include/cutlass/gemm/kernel/default_gemm_with_reduction.h
+++ b/include/cutlass/gemm/kernel/default_gemm_with_reduction.h
@@ -138,7 +138,7 @@ struct DefaultGemmWithReduction {
 
 /////////////////////////////////////////////////////////////////////////////////////////////////
 
-/// Parital specialization: ArchTag = cutlass::arch::Sm70
+/// Partial specialization: ArchTag = cutlass::arch::Sm70
 ///
 ///
 template <
diff --git a/include/cutlass/gemm/kernel/rank_2k_grouped_problem_visitor.h b/include/cutlass/gemm/kernel/rank_2k_grouped_problem_visitor.h
index 92cc2a73..aee9c71c 100644
--- a/include/cutlass/gemm/kernel/rank_2k_grouped_problem_visitor.h
+++ b/include/cutlass/gemm/kernel/rank_2k_grouped_problem_visitor.h
@@ -138,7 +138,7 @@
             i = i_macro
             j = j_macro
 
-    Handling cases with grid dimensions that aren't multiples of eachother
+    Handling cases with grid dimensions that aren't multiples of each other
     ----------------------------------------------------------------------
     Even though threadblock shapes M and N are typically multiples of one another, the grid
     for a given problem may not have dimensions of the same ratio as that of the threadblock.
diff --git a/include/cutlass/gemm/kernel/sm90_gemm_tma.hpp b/include/cutlass/gemm/kernel/sm90_gemm_tma.hpp
index bd82ed11..305654d8 100644
--- a/include/cutlass/gemm/kernel/sm90_gemm_tma.hpp
+++ b/include/cutlass/gemm/kernel/sm90_gemm_tma.hpp
@@ -196,7 +196,7 @@ class GemmUniversal<
     // Any Tensor Op MMA Atom in the WGMMA ISA is arch conditional to sm90a.
     #if ! defined(__CUDA_ARCH_FEAT_SM90_ALL)
       if constexpr(size<0>(typename TiledMma::AtomShape_MNK{}) == 64) {
-        printf("ERROR : Arch conditional MMA instruction used without targetting sm90a compute capability. Aborting.\n");
+        printf("ERROR : Arch conditional MMA instruction used without targeting sm90a compute capability. Aborting.\n");
         return;
       }
     #endif
diff --git a/include/cutlass/gemm/kernel/sm90_gemm_tma_warpspecialized.hpp b/include/cutlass/gemm/kernel/sm90_gemm_tma_warpspecialized.hpp
index 9fc719e2..f3a4a55c 100644
--- a/include/cutlass/gemm/kernel/sm90_gemm_tma_warpspecialized.hpp
+++ b/include/cutlass/gemm/kernel/sm90_gemm_tma_warpspecialized.hpp
@@ -186,7 +186,7 @@ class GemmUniversal<
     // Any Tensor Op MMA Atom in the WGMMA ISA is arch conditional to sm90a.
     #if ! defined(__CUDA_ARCH_FEAT_SM90_ALL)
       if constexpr(size<0>(typename TiledMma::AtomShape_MNK{}) == 64) {
-        printf("ERROR : Arch conditional MMA instruction used without targetting sm90a compute capability. Aborting.\n");
+        printf("ERROR : Arch conditional MMA instruction used without targeting sm90a compute capability. Aborting.\n");
         return;
       }
     #endif
diff --git a/include/cutlass/gemm/kernel/sm90_gemm_tma_warpspecialized_persistent.hpp b/include/cutlass/gemm/kernel/sm90_gemm_tma_warpspecialized_persistent.hpp
index 498bfad4..6fa93945 100644
--- a/include/cutlass/gemm/kernel/sm90_gemm_tma_warpspecialized_persistent.hpp
+++ b/include/cutlass/gemm/kernel/sm90_gemm_tma_warpspecialized_persistent.hpp
@@ -258,7 +258,7 @@ class GemmUniversal<
     // Any Tensor Op MMA Atom in the WGMMA ISA is arch conditional to sm90a.
     #if ! defined(__CUDA_ARCH_FEAT_SM90_ALL)
       if constexpr(size<0>(typename TiledMma::AtomShape_MNK{}) == 64) {
-        printf("ERROR : Arch conditional MMA instruction used without targetting sm90a compute capability. Aborting.\n");
+        printf("ERROR : Arch conditional MMA instruction used without targeting sm90a compute capability. Aborting.\n");
         return;
       }
     #endif
diff --git a/include/cutlass/gemm/threadblock/ell_mma_pipelined.h b/include/cutlass/gemm/threadblock/ell_mma_pipelined.h
index 10ff6dfa..8b1c2c43 100644
--- a/include/cutlass/gemm/threadblock/ell_mma_pipelined.h
+++ b/include/cutlass/gemm/threadblock/ell_mma_pipelined.h
@@ -271,7 +271,7 @@ class EllMmaPipelined : public MmaBase<Shape_, Policy_, 2> {
     }
 
     // Issue loads during the first warp-level matrix multiply-add *AFTER* issuing 
-    // shared memory loads (which have the tighest latency requirement).
+    // shared memory loads (which have the tightest latency requirement).
 
     //
     // Mainloop
diff --git a/include/cutlass/gemm/threadblock/mma_planar_complex_pipelined.h b/include/cutlass/gemm/threadblock/mma_planar_complex_pipelined.h
index 160c5480..d6beec45 100644
--- a/include/cutlass/gemm/threadblock/mma_planar_complex_pipelined.h
+++ b/include/cutlass/gemm/threadblock/mma_planar_complex_pipelined.h
@@ -321,7 +321,7 @@ class MmaPlanarComplexPipelined :
     iterator_B_imag.clear_mask(gemm_k_iterations <= 1);
 
     // Issue loads during the first warp-level matrix multiply-add *AFTER* issuing 
-    // shared memory loads (which have the tighest latency requirement).
+    // shared memory loads (which have the tightest latency requirement).
 
     //
     // Mainloop
diff --git a/include/cutlass/reduction/kernel/tensor_reduce_affine_contiguous.h b/include/cutlass/reduction/kernel/tensor_reduce_affine_contiguous.h
index d139ed46..5a0b9f47 100644
--- a/include/cutlass/reduction/kernel/tensor_reduce_affine_contiguous.h
+++ b/include/cutlass/reduction/kernel/tensor_reduce_affine_contiguous.h
@@ -83,7 +83,7 @@ struct TensorReductionAffineContiguousParams {
   uint64_t outer_count;                          /// Number of elements in outer index space
 
   ElementOutput * destination;                  /// Pointer to output tensor of rank kReducedRank
-  ElementSource const * source;                 /// Poitner to source pointer of rank kRank
+  ElementSource const * source;                 /// Pointer to source pointer of rank kRank
   ReductionOp reduction_op;                     /// Reduction operator
   ElementCompute reduction_identity;            /// Identity element used by reduction operator
   ElementCompute *device_workspace;             /// Pointer to device workspace for inter-CTA reductions
diff --git a/include/cutlass/reduction/kernel/tensor_reduce_affine_strided.h b/include/cutlass/reduction/kernel/tensor_reduce_affine_strided.h
index 9d5b0458..574c836d 100644
--- a/include/cutlass/reduction/kernel/tensor_reduce_affine_strided.h
+++ b/include/cutlass/reduction/kernel/tensor_reduce_affine_strided.h
@@ -85,7 +85,7 @@ struct TensorReductionAffineStridedParams {
   uint64_t outer_count;                          /// Number of elements in outer index space
 
   ElementOutput * destination;                  /// Pointer to output tensor of rank kReducedRank
-  ElementSource const * source;                 /// Poitner to source pointer of rank kRank
+  ElementSource const * source;                 /// Pointer to source pointer of rank kRank
   ReductionOp reduction_op;                     /// Reduction operator
   ElementCompute reduction_identity;            /// Identity element for reduction operator
   ElementCompute *device_workspace;             /// Pointer to device workspace for inter-CTA reductions
diff --git a/include/cutlass/transform/threadblock/predicated_tile_access_iterator.h b/include/cutlass/transform/threadblock/predicated_tile_access_iterator.h
index 29fa8af8..1026bad2 100644
--- a/include/cutlass/transform/threadblock/predicated_tile_access_iterator.h
+++ b/include/cutlass/transform/threadblock/predicated_tile_access_iterator.h
@@ -399,7 +399,7 @@ class PredicatedTileAccessIterator<Shape_, Element_, layout::PitchLinear,
   bool is_residue_tile_;
 
   /// Below is used when Gather is turned on.  We need to record strided_offset
-  /// and contiguous_offset seperated to compute the offset by using
+  /// and contiguous_offset separated to compute the offset by using
   ///
   /// offset = contiguous_offset + indices[strided_offset]
   ///
diff --git a/include/cutlass/transform/threadblock/regular_tile_iterator_tensor_op_sm70.h b/include/cutlass/transform/threadblock/regular_tile_iterator_tensor_op_sm70.h
index 883faa55..3d6fff9e 100644
--- a/include/cutlass/transform/threadblock/regular_tile_iterator_tensor_op_sm70.h
+++ b/include/cutlass/transform/threadblock/regular_tile_iterator_tensor_op_sm70.h
@@ -1079,7 +1079,7 @@ class RegularTileIterator<
   //
 
   /// The crosswised elements will be stored in a line.
-  /// line_size is size of crosswised dimention plus padding.
+  /// line_size is size of crosswised dimension plus padding.
   /// in units of AccessType
   Index line_size;
 
diff --git a/media/docs/implicit_gemm_convolution.md b/media/docs/implicit_gemm_convolution.md
index cc3d79db..ed2c84e8 100644
--- a/media/docs/implicit_gemm_convolution.md
+++ b/media/docs/implicit_gemm_convolution.md
@@ -347,7 +347,7 @@ creating GEMM-B tile in shared memory.
 The improvements covered by optimized iterators are: 
 - (a) Precomputing kernel-invariant pointer deltas on the host 
 - (b) Computing cta-invariant mask predicates on device-side iterator ctors
-- (c) Use of [fast divmod](/include/cutlass/fast_math.h) to map GEMM dimenstions to convolution tensors. 
+- (c) Use of [fast divmod](/include/cutlass/fast_math.h) to map GEMM dimensions to convolution tensors. 
 For example, _optimized_ activation iterator uses fast divmod to map GEMM _M_ to NPQ 
 for activation iterator
 
diff --git a/media/docs/quickstart.md b/media/docs/quickstart.md
index a320ad34..1b8e827f 100644
--- a/media/docs/quickstart.md
+++ b/media/docs/quickstart.md
@@ -587,7 +587,8 @@ To instantiate all operations supporting all tile sizes, data types, and alignme
 ```bash
 $ cmake .. -DCUTLASS_NVCC_ARCHS='70;75;80' -DCUTLASS_LIBRARY_KERNELS=all
 ```
-The above command line generates about twenty thousand kernels targetting NVIDIA Ampere, Turing, and Volta architectures. 
+
+The above command line generates about twenty thousand kernels targeting NVIDIA Ampere, Turing, and Volta architectures. 
 Compiling thousands of kernels for three different architectures is time consuming. Additionaly, this would also result 
 in a large binary size and on some platforms linker to fail on building the library.
 
@@ -641,13 +642,13 @@ $ cmake .. -DCUTLASS_NVCC_ARCHS='80' -DCUTLASS_LIBRARY_KERNELS=s16816fprop,s1681
 $ cmake .. -DCUTLASS_NVCC_ARCHS='50;60;61;70;75;80' -DCUTLASS_LIBRARY_KERNELS=sfprop
 ```
 
-**Example.** All forward propagation (fprop) convolution kernels with FP32 accumulation and FP16 input targetting NVIDIA Ampere's 16816 Tensor Core operation
+**Example.** All forward propagation (fprop) convolution kernels with FP32 accumulation and FP16 input targeting NVIDIA Ampere's 16816 Tensor Core operation
 ```bash
 $ cmake .. -DCUTLASS_NVCC_ARCHS='80' -DCUTLASS_LIBRARY_KERNELS=s16816fprop_*_f16
 ```
 
 **Example.** All backward weight gradient (wgrad) convolution kernels with FP32 accumulation, FP16 input, and optimized global memory iterator 
-targetting NVIDIA Ampere, Turing, and Volta Tensor Core operations
+targeting NVIDIA Ampere, Turing, and Volta Tensor Core operations
 ```bash
 $ cmake .. -DCUTLASS_NVCC_ARCHS='70;75;80' -DCUTLASS_LIBRARY_KERNELS=tensorop*s*wgrad_optimized_f16
 ```
diff --git a/test/unit/conv/device/conv2d_testbed.h b/test/unit/conv/device/conv2d_testbed.h
index 582b4337..221d8c09 100644
--- a/test/unit/conv/device/conv2d_testbed.h
+++ b/test/unit/conv/device/conv2d_testbed.h
@@ -573,7 +573,7 @@ bool TestSpecificConv2d(
 /////////////////////////////////////////////////////////////////////////////////////////////////////////
 // TestAllConv: Runs cutlass::conv::device::ImplicitGemmConvolution operator and compares it with reference
 // TestAllConv runs conv operator on default conv problem sizes from test::conv::device::TestbedConv2dProblemSizes
-// Additionaly, each conv2d test can provide conv problem sizes (conv_test_sizes) and blacklist of sizes 
+// Additionally, each conv2d test can provide conv problem sizes (conv_test_sizes) and blacklist of sizes
 // (conv_blacklist_sizes)
 /////////////////////////////////////////////////////////////////////////////////////////////////////////////
 template <typename ImplicitGemm>
diff --git a/test/unit/conv/device/conv2d_testbed_interleaved.h b/test/unit/conv/device/conv2d_testbed_interleaved.h
index 79f00d15..201d4fe7 100644
--- a/test/unit/conv/device/conv2d_testbed_interleaved.h
+++ b/test/unit/conv/device/conv2d_testbed_interleaved.h
@@ -517,7 +517,7 @@ class InterleavedTestbedConv2d {
 /////////////////////////////////////////////////////////////////////////////////////////////////////////
 // TestAllConv: Runs cutlass::conv::device::ImplicitGemmConvolution operator and compares it with reference
 // TestAllConv runs conv operator on default conv problem sizes from test::conv::device::TestbedConv2dProblemSizes
-// Additionaly, each conv2d test can provide conv problem sizes (conv_test_sizes) and blacklist of sizes 
+// Additionally, each conv2d test can provide conv problem sizes (conv_test_sizes) and blacklist of sizes
 // (conv_blacklist_sizes)
 /////////////////////////////////////////////////////////////////////////////////////////////////////////////
 template <typename ImplicitGemm, int InterleavedK>
diff --git a/test/unit/conv/device/conv2d_with_broadcast_testbed.h b/test/unit/conv/device/conv2d_with_broadcast_testbed.h
index d678e3b5..1b771607 100644
--- a/test/unit/conv/device/conv2d_with_broadcast_testbed.h
+++ b/test/unit/conv/device/conv2d_with_broadcast_testbed.h
@@ -502,7 +502,7 @@ class TestbedConv2dWithBroadcast {
 /////////////////////////////////////////////////////////////////////////////////////////////////////////
 // TestAllConv: Runs cutlass::conv::device::ImplicitGemmConvolution operator and compares it with reference
 // TestAllConv runs conv operator on default conv problem sizes from test::conv::device::TestbedConv2dProblemSizes
-// Additionaly, each conv2d test can provide conv problem sizes (conv_test_sizes) and blacklist of sizes 
+// Additionally, each conv2d test can provide conv problem sizes (conv_test_sizes) and blacklist of sizes
 // (conv_blacklist_sizes)
 /////////////////////////////////////////////////////////////////////////////////////////////////////////////
 template <typename ImplicitGemm,
diff --git a/test/unit/conv/device/conv2d_with_reduction_testbed.h b/test/unit/conv/device/conv2d_with_reduction_testbed.h
index 4064648b..5d7f357f 100644
--- a/test/unit/conv/device/conv2d_with_reduction_testbed.h
+++ b/test/unit/conv/device/conv2d_with_reduction_testbed.h
@@ -464,7 +464,7 @@ class TestbedConv2dWithReduction {
 /////////////////////////////////////////////////////////////////////////////////////////////////////////
 // TestAllConv: Runs cutlass::conv::device::ImplicitGemmConvolution operator and compares it with reference
 // TestAllConv runs conv operator on default conv problem sizes from test::conv::device::TestbedConv2dProblemSizes
-// Additionaly, each conv2d test can provide conv problem sizes (conv_test_sizes) and blacklist of sizes 
+// Additionally, each conv2d test can provide conv problem sizes (conv_test_sizes) and blacklist of sizes
 // (conv_blacklist_sizes)
 /////////////////////////////////////////////////////////////////////////////////////////////////////////////
 template <typename ImplicitGemm>
diff --git a/test/unit/conv/device/conv3d_testbed.h b/test/unit/conv/device/conv3d_testbed.h
index a5fa1861..60b12d6f 100644
--- a/test/unit/conv/device/conv3d_testbed.h
+++ b/test/unit/conv/device/conv3d_testbed.h
@@ -522,7 +522,7 @@ class TestbedConv3d {
 /////////////////////////////////////////////////////////////////////////////////////////////////////////
 // TestAllConv: Runs cutlass::conv::device::ImplicitGemmConvolution operator and compares it with reference
 // TestAllConv runs conv operator on default conv problem sizes from test::conv::device::TestbedConv2dProblemSizes
-// Additionaly, each conv3d test can provide conv problem sizes (conv_test_sizes) and blacklist of sizes 
+// Additionally, each conv3d test can provide conv problem sizes (conv_test_sizes) and blacklist of sizes
 // (conv_blacklist_sizes)
 /////////////////////////////////////////////////////////////////////////////////////////////////////////////
 
diff --git a/test/unit/gemm/device/default_gemm_configuration.hpp b/test/unit/gemm/device/default_gemm_configuration.hpp
index f84e9297..76422b15 100644
--- a/test/unit/gemm/device/default_gemm_configuration.hpp
+++ b/test/unit/gemm/device/default_gemm_configuration.hpp
@@ -638,7 +638,7 @@ struct DefaultGemmConfigurationToCutlass3Types<
     GmemTiledCopyB, SmemLayoutAtomB, SmemCopyAtomB, cute::identity   // B
   >;
 
-  // Epilouge
+  // Epilogue
   using CollectiveEpilogue = epilogue::collective::DefaultEpilogue<
     TagToStrideC_t<LayoutC>,
     TagToStrideC_t<LayoutC>,
diff --git a/tools/library/include/cutlass/library/handle.h b/tools/library/include/cutlass/library/handle.h
index 8125989d..8a0dfcba 100644
--- a/tools/library/include/cutlass/library/handle.h
+++ b/tools/library/include/cutlass/library/handle.h
@@ -321,13 +321,13 @@ class Handle {
     NumericTypeID element_C,                  /// Data type of C and D matrix
 
     void const * const * ptr_C_real,          /// Pointer to array containing pointers to real part of C matrices
-    void const * const * ptr_C_imag,          /// Pointer to array containing poitners to imaginary part of C matrices
+    void const * const * ptr_C_imag,          /// Pointer to array containing pointers to imaginary part of C matrices
 
     int64_t ldc_real,                         /// Leading dimension of real part of C matrix
     int64_t ldc_imag,                         /// Leading dimension of imaginary part of C matrix
 
     void * const * ptr_D_real,                /// Pointer to array containing pointers to real part of D matrices
-    void * const * ptr_D_imag,                /// Pointer to array containing poitners to imaginary part of D matrices
+    void * const * ptr_D_imag,                /// Pointer to array containing pointers to imaginary part of D matrices
 
     int64_t ldd_real,                         /// Leading dimension of real part of D matrix
     int64_t ldd_imag                          /// Leading dimension of imaginary part of D matrix
diff --git a/tools/library/include/cutlass/library/library.h b/tools/library/include/cutlass/library/library.h
index 6bb3f799..dbd70c44 100644
--- a/tools/library/include/cutlass/library/library.h
+++ b/tools/library/include/cutlass/library/library.h
@@ -518,7 +518,7 @@ struct GemmDescription : public OperationDescription {
 
 /////////////////////////////////////////////////////////////////////////////////////////////////
 
-/// Desciprion for structured sparse GEMMs.
+/// Description for structured sparse GEMMs.
 struct SparseGemmDescription : public GemmDescription {
 
   /// Description structure for structured sparse GEMM
@@ -1160,7 +1160,7 @@ struct GemmGroupedArguments {
 // OperationKind: kSparseGemm
 //
 
-/// Computes GEMM assumine one of the inputs has 2:4 structured sparsity.
+/// Computes GEMM assuming one of the inputs has 2:4 structured sparsity.
 struct SparseGemmConfiguration {
 
   GemmUniversalMode mode;
@@ -1187,7 +1187,7 @@ struct SparseGemmArguments {
   void const *B;                    /// pointer to B matrix
   void const *C;                    /// pointer to C matrix
   void *D;                          /// pointer to D matrix
-  void const *E;                    /// pointer to E matric (metadata)
+  void const *E;                    /// pointer to E matrix (metadata)
 
   void const *alpha;                /// pointer to alpha scalar
   void const *beta;                 /// pointer to beta scalar
@@ -1465,7 +1465,7 @@ struct ConvArguments {
   /// pointer to implicit gemm matrix C
   void const *C;
 
-  /// pointer to implicit gemm desitination matrix D
+  /// pointer to implicit gemm destination matrix D
   void *D;
 
   /// Host or device pointer to alpha scalar
@@ -1487,16 +1487,16 @@ struct ConvArguments {
 //
 struct ReductionConfiguration {
 
-  /// Redcution problem size
+  /// Reduction problem size
   MatrixCoord problem_size;
 
   /// Number of partitions to reduce
   int partitions;
 
-  /// Number of lements between each partition
+  /// Number of elements between each partition
   int64_t partition_stride;
 
-  /// leading dimension of 'w'orksace operand
+  /// leading dimension of 'w'orkspace operand
   int64_t ldw; 
 
   /// leading dimension of 's'ource operand
diff --git a/tools/library/scripts/generator.py b/tools/library/scripts/generator.py
index 401370d1..8f64de9c 100644
--- a/tools/library/scripts/generator.py
+++ b/tools/library/scripts/generator.py
@@ -89,7 +89,7 @@ def CreateGemmOperator(manifest, layouts, tile_descriptions, data_type, \
   return operations
 
 
-# Generates 3.0 API based GemmUniversal API kernels. Alignment constraits are folded in with layouts
+# Generates 3.0 API based GemmUniversal API kernels. Alignment constraints are folded in with layouts
 def CreateGemmUniversal3xOperator(
     manifest, layouts, tile_descriptions, data_type,
     complex_transforms=None,
@@ -4831,7 +4831,7 @@ def GenerateSM90(manifest, cuda_version):
   parser.add_argument("--architectures", default='53;60;61;70;75;80', help="Target compute architectures")
   parser.add_argument("--kernels", default='', help='Comma delimited list to filter kernels by name.')
   parser.add_argument("--ignore-kernels", default='', help='Comma delimited list of kernels to exclude from build.')
-  parser.add_argument("--filter-by-cc", default='True', type=str, help='If enabled, kernels whose comupte capability range is not satisfied by the build target are excluded.')
+  parser.add_argument("--filter-by-cc", default='True', type=str, help='If enabled, kernels whose compute capability range is not satisfied by the build target are excluded.')
   parser.add_argument("--cuda-version", default="11.0.0", help="Semantic version string of CUDA Toolkit")
   parser.add_argument('--kernel-filter-file',   type=str, default=None, required=False, help='Full path of filter file')
   parser.add_argument('--selected-kernel-list',   type=str, default=None, required=False,
diff --git a/tools/library/scripts/pycutlass/README.md b/tools/library/scripts/pycutlass/README.md
index dd2e7d0e..8d0dbaef 100644
--- a/tools/library/scripts/pycutlass/README.md
+++ b/tools/library/scripts/pycutlass/README.md
@@ -83,7 +83,7 @@ The tiling size of above operations can also be customized.
 ### Using Docker
 We recommend using one of our provided Docker images for using PyCUTLASS.
 
-**To run CUTLASS 3 GEMM kernels targetting the NVIDIA Hopper architecture via PyCUTLASS,** you can use an included [Dockerfile](docker/Dockerfile-cuda12.0) based on the NGC CUDA 12.0 container:
+**To run CUTLASS 3 GEMM kernels targeting the NVIDIA Hopper architecture via PyCUTLASS,** you can use an included [Dockerfile](docker/Dockerfile-cuda12.0) based on the NGC CUDA 12.0 container:
 ```shell
 docker build -t pycutlass-cuda12.0:latest -f docker/Dockerfile-cuda12.0 .
 docker run --gpus all -it --rm pycutlass-cuda12.0:latest
@@ -91,7 +91,7 @@ docker run --gpus all -it --rm pycutlass-cuda12.0:latest
 Note that this Docker container does not include CuPy or PyTorch, and, thus, will not be able to run PyCUTLASS examples that
 leverage these packages.
 
-**To run CUTLASS 2.x kernels targetting pre-SM90 architectures via PyCUTLASS,** you can use an included [Dockerfile](docker/Dockerfile-cuda11.8-pytorch) based on an NGC PyTorch container:
+**To run CUTLASS 2.x kernels targeting pre-SM90 architectures via PyCUTLASS,** you can use an included [Dockerfile](docker/Dockerfile-cuda11.8-pytorch) based on an NGC PyTorch container:
 ```shell
 docker build -t pycutlass-cuda11.8-pytorch:latest -f docker/Dockerfile-cuda11.8-pytorch .
 docker run --gpus all -it --rm pycutlass-cuda11.8-pytorch:latest
diff --git a/tools/library/scripts/pycutlass/docs/source/md/basic_idea.md b/tools/library/scripts/pycutlass/docs/source/md/basic_idea.md
index 655caa39..a417afd9 100644
--- a/tools/library/scripts/pycutlass/docs/source/md/basic_idea.md
+++ b/tools/library/scripts/pycutlass/docs/source/md/basic_idea.md
@@ -10,7 +10,7 @@ PyCUTLASS handles the following things when launch the CUTLASS kernels
 
 ## Memory management
 
-PyCUTLASS uses [RMM](https://github.com/rapidsai/rmm) to manage device memory. At the begining of the program, call
+PyCUTLASS uses [RMM](https://github.com/rapidsai/rmm) to manage device memory. At the beginning of the program, call
 ```python
 pycutlass.get_memory_pool({init_pool_size_in_bytes}, {max_pool_size_in_bytes})
 ```
@@ -41,7 +41,7 @@ The `{instruction_shape}` and `{opclass}` defines the instruction size and type.
 |Opclass                   | element_a/element_b | element_acc     | instruction_shape | math_operation            |
 | --                       | --                  | --              | --                | --                        |
 | cutlass.OpClass.TensorOp | cutlass.float64     | cutlass.float64 | [8, 8, 4]         | MathOperation.multiply_add|
-|                          | cutass.float32 cutlass.tfloat32, cutlass.float16 cutlass.bfloat16 | cutlass.float32 | [16, 8, 8] | MathOperation.multiply_add MathOperation.multiply_add_fast_f32 MathOperation.multiply_add_fast_f16 MathOperation.multiply_add_fast_bf16 |
+|                          | cutlass.float32 cutlass.tfloat32, cutlass.float16 cutlass.bfloat16 | cutlass.float32 | [16, 8, 8] | MathOperation.multiply_add MathOperation.multiply_add_fast_f32 MathOperation.multiply_add_fast_f16 MathOperation.multiply_add_fast_bf16 |
 |        | cutlass.float16 | cutlass.float16/cutlass.float32|[16, 8, 16]| MathOperation.multiply_add |
 |        | cutlass.bfloat_16 | cutlass.float32 | [16, 8, 16]|MathOperation.multiply_add |
 |        | cutlass.int8 | cutlass.int32 | [16, 8, 32] | MathOperation.multiply_add_saturate|
@@ -178,7 +178,7 @@ import pycutlass
 
 pycutlass.compiler.add_module([operation,])
 ```
-Several operations can be compiled togather. The `nvcc` at `$CUDA_INSTALL_PATH/bin` is used by default as the compiler backend. But you can also switch to [CUDA Python](https://nvidia.github.io/cuda-python/overview.html)'s `nvrtc` with 
+Several operations can be compiled together. The `nvcc` at `$CUDA_INSTALL_PATH/bin` is used by default as the compiler backend. But you can also switch to [CUDA Python](https://nvidia.github.io/cuda-python/overview.html)'s `nvrtc` with 
 ```python
 pycutlass.compiler.nvrtc()
 ```
@@ -249,7 +249,7 @@ arguments = Conv2dArguments(
 * `split_k_mode`: currently we support `cutlass.conv.SplitKMode.Serial` and `cutlass.conv.SplitKMode.Parallel`.
 * `split_k_slice`: number of split-k slices
 
-For ordianry conv2d, just use `cutlass.conv.SplitKMode.Serial` with `split_k_slice=1`.
+For ordinary conv2d, just use `cutlass.conv.SplitKMode.Serial` with `split_k_slice=1`.
 
 ### Getting output_op
 The way to create output_op is listed below
diff --git a/tools/library/scripts/pycutlass/src/cpp/include/arch.h b/tools/library/scripts/pycutlass/src/cpp/include/arch.h
index 21f97713..93a313d5 100644
--- a/tools/library/scripts/pycutlass/src/cpp/include/arch.h
+++ b/tools/library/scripts/pycutlass/src/cpp/include/arch.h
@@ -51,9 +51,9 @@ void bind_opcode(py::module &m) {
         .value("Simt", cutlass::OpcodeClass::kSimt, 
             R"pbdoc(Tag classifying math operators as thread-level operations)pbdoc")
         .value("TensorOp", cutlass::OpcodeClass::kTensorOp, 
-            R"pbdoc(Tag classifing operators as Tensor Core operations)pbdoc")
+            R"pbdoc(Tag classifying operators as Tensor Core operations)pbdoc")
         .value("WmmaTensorOp", cutlass::OpcodeClass::kWmmaTensorOp, 
-            R"pbdoc(Tag classifing operators as WMMA Tensor Core operations)pbdoc")
+            R"pbdoc(Tag classifying operators as WMMA Tensor Core operations)pbdoc")
         .value("SparseTensorOp", cutlass::OpcodeClass::kSparseTensorOp, 
-            R"pbdoc(Tag classifing operators as sparseTensor Core operations)pbdoc");
+            R"pbdoc(Tag classifying operators as sparseTensor Core operations)pbdoc");
 }
diff --git a/tools/library/scripts/pycutlass/src/cpp/include/conv/conv_problem_size.h b/tools/library/scripts/pycutlass/src/cpp/include/conv/conv_problem_size.h
index ab4a067f..cfc6e64e 100644
--- a/tools/library/scripts/pycutlass/src/cpp/include/conv/conv_problem_size.h
+++ b/tools/library/scripts/pycutlass/src/cpp/include/conv/conv_problem_size.h
@@ -42,7 +42,7 @@ namespace py = pybind11;
 void bind_conv_problem_size(py::module &m) {
     //
     // Conv2d Problem Size: 
-    // include/cutlass/conv/conv2d_problem_sizd.h
+    // include/cutlass/conv/conv2d_problem_size.h
     //
     py::class_<cutlass::conv::Conv2dProblemSize>(m, "Conv2dProblemSize")
          // constructors
diff --git a/tools/library/scripts/pycutlass/src/cpp/include/epilogue/epilogue_visitor_op/visitor_op_binary.h b/tools/library/scripts/pycutlass/src/cpp/include/epilogue/epilogue_visitor_op/visitor_op_binary.h
index d9fa4458..7486e56f 100644
--- a/tools/library/scripts/pycutlass/src/cpp/include/epilogue/epilogue_visitor_op/visitor_op_binary.h
+++ b/tools/library/scripts/pycutlass/src/cpp/include/epilogue/epilogue_visitor_op/visitor_op_binary.h
@@ -87,7 +87,7 @@ class VisitorOpBinary{
     using BinaryOp = BinaryOp_<ElementCompute, kElementsPerAccess>;
 
     static_assert(kElementsPerAccess==VisitAccessTypeA::kElements, "kElementsPerAccess mismatches with Visitor A");
-    static_assert(kElementsPerAccess==VisitAccessTypeB::kElements, "kElementsPerAccess misnatches with Visitor B");
+    static_assert(kElementsPerAccess==VisitAccessTypeB::kElements, "kElementsPerAccess mismatches with Visitor B");
 
     /// SMEM buffer class required in the epilogue visitor
     struct SharedStorage {
diff --git a/tools/library/scripts/pycutlass/src/cpp/include/epilogue/epilogue_visitor_op/visitor_op_column_reduction.h b/tools/library/scripts/pycutlass/src/cpp/include/epilogue/epilogue_visitor_op/visitor_op_column_reduction.h
index 624d7e68..289119c9 100644
--- a/tools/library/scripts/pycutlass/src/cpp/include/epilogue/epilogue_visitor_op/visitor_op_column_reduction.h
+++ b/tools/library/scripts/pycutlass/src/cpp/include/epilogue/epilogue_visitor_op/visitor_op_column_reduction.h
@@ -55,7 +55,7 @@ template <
     typename ElementReduction_,             ///< Data type of the output reduction in device memory
     typename ElementReductionAccumulator_ , ///< Data type to accumulate reduction in smem and register
     typename OutputTileIterator_,           ///< Tile Iterator type
-    typename Visitor_                       ///< preceeding visitor op
+    typename Visitor_                       ///< preceding visitor op
 >
 class VisitorOpColumnReduction {
 public:
@@ -83,7 +83,7 @@ class VisitorOpColumnReduction {
     /// Fragment type of accumulator
     using AccumulatorAccessType = Array<ElementAccumulator, kElementsPerAccess>;
 
-    /// Fragment type of redcution
+    /// Fragment type of reduction
     using ReductionAccumulatorAccessType = Array<ElementReductionAccumulator, kElementsPerAccess>;
 
     /// Thread map used by output tile iterators
diff --git a/tools/library/scripts/pycutlass/src/cpp/include/epilogue/epilogue_visitor_op/visitor_op_linear_combination.h b/tools/library/scripts/pycutlass/src/cpp/include/epilogue/epilogue_visitor_op/visitor_op_linear_combination.h
index 1e2b8e61..259656e7 100644
--- a/tools/library/scripts/pycutlass/src/cpp/include/epilogue/epilogue_visitor_op/visitor_op_linear_combination.h
+++ b/tools/library/scripts/pycutlass/src/cpp/include/epilogue/epilogue_visitor_op/visitor_op_linear_combination.h
@@ -86,7 +86,7 @@ class VisitorOpLinearCombination{
     using CombinationOp = cutlass::plus<VisitAccessType>;
 
     static_assert(kElementsPerAccess==VisitAccessTypeA::kElements, "kElementsPerAccess mismatches with Visitor A");
-    static_assert(kElementsPerAccess==VisitAccessTypeB::kElements, "kElementsPerAccess misnatches with Visitor B");
+    static_assert(kElementsPerAccess==VisitAccessTypeB::kElements, "kElementsPerAccess mismatches with Visitor B");
 
     /// SMEM buffer class required in the epilogue visitor
     struct SharedStorage {
diff --git a/tools/library/scripts/pycutlass/src/cpp/include/epilogue/epilogue_visitor_op/visitor_op_row_reduction.h b/tools/library/scripts/pycutlass/src/cpp/include/epilogue/epilogue_visitor_op/visitor_op_row_reduction.h
index 27b03f84..72f65c52 100644
--- a/tools/library/scripts/pycutlass/src/cpp/include/epilogue/epilogue_visitor_op/visitor_op_row_reduction.h
+++ b/tools/library/scripts/pycutlass/src/cpp/include/epilogue/epilogue_visitor_op/visitor_op_row_reduction.h
@@ -56,7 +56,7 @@ template <
     typename ElementReduction_,             ///< Data type of the output reduction in device memory
     typename ElementReductionAccumulator_ , ///< Data type to accumulate reduction in smem and register
     typename OutputTileIterator_,           ///< Tile Iterator type
-    typename Visitor_                       ///< preceeding visitor op
+    typename Visitor_                       ///< preceding visitor op
 >
 class VisitorOpRowReduction {
 public:
@@ -82,7 +82,7 @@ class VisitorOpRowReduction {
     /// Fragment type of accumulator
     using AccumulatorAccessType = Array<ElementAccumulator, kElementsPerAccess>;
 
-    /// Fragment type of redcution
+    /// Fragment type of reduction
     using ReductionAccumulatorAccessType = Array<ElementReductionAccumulator, kElementsPerAccess>;
 
     /// Thread map used by output tile iterators
diff --git a/tools/library/scripts/pycutlass/src/cpp/include/gemm/gemm.h b/tools/library/scripts/pycutlass/src/cpp/include/gemm/gemm.h
index 36987b5d..6eb6abfd 100644
--- a/tools/library/scripts/pycutlass/src/cpp/include/gemm/gemm.h
+++ b/tools/library/scripts/pycutlass/src/cpp/include/gemm/gemm.h
@@ -52,7 +52,7 @@ void bind_gemm(py::module &m) {
         .value("Array", cutlass::gemm::GemmUniversalMode::kArray)
         .value("Invalid", cutlass::gemm::GemmUniversalMode::kInvalid);
     
-    /// GemmCoord is a structure that specifies a location within the coordiate space of a GEMM problem
+    /// GemmCoord is a structure that specifies a location within the coordinate space of a GEMM problem
     py::class_<cutlass::gemm::GemmCoord>(m, "GemmCoord")
         .def(py::init<int, int, int>())
         .def("m", py::overload_cast<>(&cutlass::gemm::GemmCoord::m))
diff --git a/tools/library/scripts/pycutlass/src/cpp/include/swizzling.h b/tools/library/scripts/pycutlass/src/cpp/include/swizzling.h
index 43991e46..970cd6d3 100644
--- a/tools/library/scripts/pycutlass/src/cpp/include/swizzling.h
+++ b/tools/library/scripts/pycutlass/src/cpp/include/swizzling.h
@@ -88,7 +88,7 @@ void bind_identity_swizzle(py::module & m, std::string name) {
             R"pbdoc(Computes CUDA grid dimensions given a size in units of logical tiles)pbdoc")
         .def("tag", [](const T & swizzle){
             return demangle(typeid(T).name());
-        }, R"pbdoc(Returns the c++ name of the swizzling for code emittion)pbdoc");
+        }, R"pbdoc(Returns the c++ name of the swizzling for code emission)pbdoc");
 }
 
 template<typename T>
@@ -109,7 +109,7 @@ void bind_swizzle(py::module & m, std::string name, std::string doc) {
             R"pbdoc(Computes CUDA grid dimensions given a size in units of logical tiles)pbdoc")
         .def("tag", [](const T & swizzle){
             return demangle(typeid(T).name());
-        }, R"pbdoc(Returns the c++ name of the swizzling for code emittion)pbdoc");
+        }, R"pbdoc(Returns the c++ name of the swizzling for code emission)pbdoc");
 }
 
 template<typename T>
@@ -132,7 +132,7 @@ void bind_dgrad_swizzle(py::module & m, std::string name) {
             R"pbdoc(Computes CUDA grid dimensions given a size in units of logical tiles)pbdoc")
         .def("tag", [](const T & swizzle){
             return demangle(typeid(T).name());
-        }, R"pbdoc(Returns the c++ name of the swizzling for code emittion)pbdoc");
+        }, R"pbdoc(Returns the c++ name of the swizzling for code emission)pbdoc");
 }
 
 void bind_threadblock_swizzle(py::module &m) {
diff --git a/tools/library/scripts/pycutlass/src/cpp/include/tensor_ref_view.h b/tools/library/scripts/pycutlass/src/cpp/include/tensor_ref_view.h
index 09a4adde..f99d6339 100644
--- a/tools/library/scripts/pycutlass/src/cpp/include/tensor_ref_view.h
+++ b/tools/library/scripts/pycutlass/src/cpp/include/tensor_ref_view.h
@@ -20,7 +20,7 @@
  * AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
  * IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE ARE
  * DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT HOLDER OR CONTRIBUTORS BE LIABLE
- * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSE<cutlass::TensorRef<QUENTIAL
+ * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
  * DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR
  * SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
  * CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
diff --git a/tools/library/scripts/pycutlass/src/pycutlass/builder/collective_op_builder.py b/tools/library/scripts/pycutlass/src/pycutlass/builder/collective_op_builder.py
index 3e915261..13f52435 100644
--- a/tools/library/scripts/pycutlass/src/pycutlass/builder/collective_op_builder.py
+++ b/tools/library/scripts/pycutlass/src/pycutlass/builder/collective_op_builder.py
@@ -97,7 +97,7 @@ def cluster_shape_to_tma(dim):
 
 def make_cpasync_gmem_tiled_copy(thread_count, element, alignment, gmma_layout, dim_mn, dim_k):
     """
-    Returns a `make_tiled_copy` call for a given configuraiton
+    Returns a `make_tiled_copy` call for a given configuration
 
     :param thread_count: number of threads in the threadblock
     :type thread_count: int
@@ -296,7 +296,7 @@ def common_values(op, stage_count, transform_A, transform_B):
 
 def build_gmma_tma(op):
     """
-    Builds a collective operation declaration targetting TMA GMMA kernels
+    Builds a collective operation declaration targeting TMA GMMA kernels
 
     :param op: GEMM operation for which to build a collective operation
     :type op: pycutlass.GemmOperation
@@ -335,7 +335,7 @@ def build_gmma_tma(op):
 
 def build_gmma_cpasync(op):
     """
-    Builds a collective operation declaration targetting cp.async GMMA kernels
+    Builds a collective operation declaration targeting cp.async GMMA kernels
 
     :param op: GEMM operation for which to build a collective operation
     :type op: pycutlass.GemmOperation
@@ -377,7 +377,7 @@ def build_gmma_cpasync(op):
 
 def build(operation):
     """
-    Builds a collective operation declaration targetting cp.async or TMA for GMMA kernels
+    Builds a collective operation declaration targeting cp.async or TMA for GMMA kernels
 
     :param operation: GEMM operation for which to build a collective operation
     :type operation: pycutlass.GemmOperation
diff --git a/tools/library/scripts/pycutlass/src/pycutlass/c_types.py b/tools/library/scripts/pycutlass/src/pycutlass/c_types.py
index e5e98514..f625da8f 100644
--- a/tools/library/scripts/pycutlass/src/pycutlass/c_types.py
+++ b/tools/library/scripts/pycutlass/src/pycutlass/c_types.py
@@ -150,7 +150,7 @@ class _GemmArguments(ctypes.Structure):
             ("ldc", ctypes.c_longlong),
             ("ldd", ctypes.c_longlong),
             ("ptr_gather_A_indices", ctypes.c_void_p),
-            ("ptr_gether_B_indices", ctypes.c_void_p),
+            ("ptr_gather_B_indices", ctypes.c_void_p),
             ("ptr_scatter_D_indices", ctypes.c_void_p)
         ]
 
diff --git a/tools/library/scripts/pycutlass/src/pycutlass/gemm_operation.py b/tools/library/scripts/pycutlass/src/pycutlass/gemm_operation.py
index bf59e43a..75b43862 100644
--- a/tools/library/scripts/pycutlass/src/pycutlass/gemm_operation.py
+++ b/tools/library/scripts/pycutlass/src/pycutlass/gemm_operation.py
@@ -278,7 +278,7 @@ def initialize(self):
         # get launch configuration
         launch_config = self.operation.rt_module.plan(self)
 
-        # get the host and evice workspace
+        # get the host and device workspace
         device_workspace_size = \
             self.operation.rt_module.get_device_workspace_size(self)
 
@@ -293,7 +293,7 @@ def initialize(self):
         device_workspace = 0
         if (workspace_ptr is not None and 
             self.gemm_mode == cutlass.gemm.Mode.GemmSplitKParallel):
-            # in GEMM splik-K parallel, the D pointer is redirected
+            # in GEMM split-K parallel, the D pointer is redirected
             # to the workspace
             self.ptr_D = cuda.CUdeviceptr(workspace_ptr)
         elif (workspace_ptr is not None and 
@@ -350,7 +350,7 @@ def __init__(
         A: 'Tensor', B: 'Tensor', C: 'Tensor', D: 'Tensor',
         gemm_mode: 'cutlass.gemm.Mode'=cutlass.gemm.Mode.Gemm, **kwargs):
         if gemm_mode not in [cutlass.gemm.Mode.Gemm, cutlass.gemm.Mode.Batched]:
-            raise Exception("Unsupporged GEMM mode {}.".format(gemm_mode))
+            raise Exception("Unsupported GEMM mode {}.".format(gemm_mode))
 
         super().__init__(operation, problem_size, A, B, C, D, gemm_mode, **kwargs)
 
@@ -387,7 +387,7 @@ def get_arguments(self):
         )
 
     def initialize(self):
-        # get the host and evice workspace
+        # get the host and device workspace
         device_workspace_size = \
             self.operation.rt_module.get_device_workspace_size(self)
 
@@ -402,7 +402,7 @@ def initialize(self):
         device_workspace = 0
         if (workspace_ptr is not None and 
             self.gemm_mode == cutlass.gemm.Mode.GemmSplitKParallel):
-            # in GEMM splik-K parallel, the D pointer is redirected
+            # in GEMM split-K parallel, the D pointer is redirected
             # to the workspace
             self.ptr_D = cuda.CUdeviceptr(workspace_ptr)
         elif (workspace_ptr is not None and 
@@ -610,7 +610,7 @@ def initialize(self):
         # get launch configuration
         launch_config = self.operation.rt_module.plan(self)
 
-        # get the host and evice workspace
+        # get the host and device workspace
         device_workspace_size = \
             self.operation.rt_module.get_device_workspace_size(self)
 
@@ -1072,7 +1072,7 @@ def __init__(
         self.api = api
         self.prefix = "3x" if self.api == ApiVersion.v3x else ""
 
-        # use deep copy to avoid overwritting the original TensorDescription
+        # use deep copy to avoid overwriting the original TensorDescription
         if self.api != ApiVersion.v3x and C.layout == cutlass.ColumnMajor:
             #: Operand A
             self.A: TensorDescription = copy.deepcopy(B)
@@ -1300,7 +1300,7 @@ def __init__(self, arch, tile_description: TileDescription, A: TensorDescription
         super(GemmOperationGrouped, self).__init__(GemmKind.Grouped, arch, tile_description,
                                                    A, B, C, epilogue_functor, swizzling_functor, **kwargs)
         assert "precompute_mode" in kwargs.keys(
-        ), "missing keyword arguement 'precompute_mode'."
+        ), "missing keyword argument 'precompute_mode'."
         self.precompute_mode = kwargs["precompute_mode"]
         self.rt_module = GemmRTGrouped(self)
         self.argument_type = self.rt_module.argument_type
diff --git a/tools/library/scripts/pycutlass/src/pycutlass/library.py b/tools/library/scripts/pycutlass/src/pycutlass/library.py
index b18f2be2..08280340 100644
--- a/tools/library/scripts/pycutlass/src/pycutlass/library.py
+++ b/tools/library/scripts/pycutlass/src/pycutlass/library.py
@@ -713,7 +713,7 @@ def __init__(self, threadblock_shape, stages, warp_count, math_instruction, clus
         """
         :param threadblock_shape: shape of a threadblock tyle
         :type threadblock_shape: list or tuple
-        :param stages: number of pipline stages in the operation. For SM90 kernels, this can be set to `None` and the maximum
+        :param stages: number of pipeline stages in the operation. For SM90 kernels, this can be set to `None` and the maximum
                        number of stages that can be supported for an operation on a given architecture will be computed at a later time
         :type stages: int or None
         :param warp_count: number of warps in each [M, N, K] dimension of a threadblock tile
diff --git a/tools/library/scripts/pycutlass/src/pycutlass/reduction_operation.py b/tools/library/scripts/pycutlass/src/pycutlass/reduction_operation.py
index 7c60ce27..d6d2d6a4 100644
--- a/tools/library/scripts/pycutlass/src/pycutlass/reduction_operation.py
+++ b/tools/library/scripts/pycutlass/src/pycutlass/reduction_operation.py
@@ -108,7 +108,7 @@ def get_tensor_ref(extent: 'tuple[int]', device_ptr: cuda.CUdeviceptr, layout: c
         if layout == cutlass.RowMajor:
             return TensorRef2D_(int(device_ptr), extent[1])
         else:
-            raise ValueError("unknonwn layout type")
+            raise ValueError("unknown layout type")
 
     def get_arguments(self):
         ref_workspace = ReductionArguments.get_tensor_ref(
@@ -320,7 +320,7 @@ def configuration_name(self):
 
     #
     def procedural_name(self):
-        ''' The full procedural name indicates architeture, extended name, tile size'''
+        ''' The full procedural name indicates architecture, extended name, tile size'''
         return self.configuration_name()
 
     def run(self, arguments: ReductionArguments) -> cuda.CUresult:
diff --git a/tools/library/scripts/pycutlass/src/pycutlass/test/conv2d_testbed.py b/tools/library/scripts/pycutlass/src/pycutlass/test/conv2d_testbed.py
index 63ae6da9..43f2cee5 100644
--- a/tools/library/scripts/pycutlass/src/pycutlass/test/conv2d_testbed.py
+++ b/tools/library/scripts/pycutlass/src/pycutlass/test/conv2d_testbed.py
@@ -498,7 +498,7 @@ def run(self, problem_size, split_k_mode=cutlass.conv.SplitKMode.Serial,
 ########################################################################################################
 # TestAllConv: Runs cutlass::conv::device::ImplicitGemmConvolution operator and compares it with reference
 # TestAllConv runs conv operator on default conv problem sizes from test::conv::device::TestbedConv2dProblemSizes
-# Additionaly, each conv2d test can provide conv problem sizes (conv_test_sizes) and blacklist of sizes 
+# Additionally, each conv2d test can provide conv problem sizes (conv_test_sizes) and blacklist of sizes
 # (conv_blacklist_sizes)
 ############################################################################################################
 
diff --git a/tools/library/scripts/pycutlass/src/pycutlass/test/gemm_testbed.py b/tools/library/scripts/pycutlass/src/pycutlass/test/gemm_testbed.py
index 4fb46c1f..ab3ae5ad 100644
--- a/tools/library/scripts/pycutlass/src/pycutlass/test/gemm_testbed.py
+++ b/tools/library/scripts/pycutlass/src/pycutlass/test/gemm_testbed.py
@@ -489,7 +489,7 @@ def test_all_gemm(operation: 'GemmOperationUniversal', testcase="universal"):
     else:
         alignment = 128 // minimum_operand_element_size
 
-    # int8_t gemm alignment constrainst
+    # int8_t gemm alignment constraints
     if opcode_class == cutlass.OpClass.Simt and operation.A.element == cutlass.int8 and operation.A.layout == cutlass.ColumnMajor:
         alignment_m = 4
     else:
diff --git a/tools/library/scripts/pycutlass/src/pycutlass/test/utils.py b/tools/library/scripts/pycutlass/src/pycutlass/test/utils.py
index 55281bec..f1a25f92 100644
--- a/tools/library/scripts/pycutlass/src/pycutlass/test/utils.py
+++ b/tools/library/scripts/pycutlass/src/pycutlass/test/utils.py
@@ -63,7 +63,7 @@ def get_name(layouts, alignments, element_output,
     Generates a procedural name for a test case.
 
     :param layouts: indexable container of layouts of A, B, and C operands
-    :param alignments: indexable container of alingments of A, B, and C operands
+    :param alignments: indexable container of alignments of A, B, and C operands
     :param element_output: data type of the output element
     :param element_accumulator: data type used in accumulation
     :param element_epilogue: data type used in computing the epilogue
diff --git a/tools/library/scripts/pycutlass/test/gemm/gemm_bf16_sm90.py b/tools/library/scripts/pycutlass/test/gemm/gemm_bf16_sm90.py
index 9237326a..8d91979e 100644
--- a/tools/library/scripts/pycutlass/test/gemm/gemm_bf16_sm90.py
+++ b/tools/library/scripts/pycutlass/test/gemm/gemm_bf16_sm90.py
@@ -52,7 +52,7 @@ def add_test(cls, layouts, alignments, element_output, element_accumulator, elem
     :param cls: class to which the generated method will be added
     :type cls: type
     :param layouts: indexable container of layouts of A, B, and C operands
-    :param alignments: indexable container of alingments of A, B, and C operands
+    :param alignments: indexable container of alignments of A, B, and C operands
     :param element_output: data type of the output element
     :param element_accumulator: data type used in accumulation
     :param element_epilogue: data type used in computing the epilogue
diff --git a/tools/library/scripts/pycutlass/test/gemm/gemm_f16_sm90.py b/tools/library/scripts/pycutlass/test/gemm/gemm_f16_sm90.py
index 81540b35..79339cae 100644
--- a/tools/library/scripts/pycutlass/test/gemm/gemm_f16_sm90.py
+++ b/tools/library/scripts/pycutlass/test/gemm/gemm_f16_sm90.py
@@ -42,7 +42,7 @@
 from pycutlass.utils.device import device_cc
 
 
-# Partial specialziation for naming tests
+# Partial specialization for naming tests
 name_fn = partial(get_name, element_a=cutlass.float16, element_b=cutlass.float16, arch=90)
 
 
@@ -54,7 +54,7 @@ def add_test(cls, layouts, alignments, element_output, element_accumulator, elem
     :param cls: class to which the generated method will be added
     :type cls: type
     :param layouts: indexable container of layouts of A, B, and C operands
-    :param alignments: indexable container of alingments of A, B, and C operands
+    :param alignments: indexable container of alignments of A, B, and C operands
     :param element_output: data type of the output element
     :param element_accumulator: data type used in accumulation
     :param element_epilogue: data type used in computing the epilogue
diff --git a/tools/library/scripts/pycutlass/test/gemm/gemm_f64_sm90.py b/tools/library/scripts/pycutlass/test/gemm/gemm_f64_sm90.py
index 4140ed4a..d4d6fdc1 100644
--- a/tools/library/scripts/pycutlass/test/gemm/gemm_f64_sm90.py
+++ b/tools/library/scripts/pycutlass/test/gemm/gemm_f64_sm90.py
@@ -52,7 +52,7 @@ def add_test(cls, layouts, alignments, element_output, element_accumulator, elem
     :param cls: class to which the generated method will be added
     :type cls: type
     :param layouts: indexable container of layouts of A, B, and C operands
-    :param alignments: indexable container of alingments of A, B, and C operands
+    :param alignments: indexable container of alignments of A, B, and C operands
     :param element_output: data type of the output element
     :param element_accumulator: data type used in accumulation
     :param element_epilogue: data type used in computing the epilogue
diff --git a/tools/library/scripts/pycutlass/test/gemm/gemm_s8_sm90.py b/tools/library/scripts/pycutlass/test/gemm/gemm_s8_sm90.py
index e06d538f..682ab7d5 100644
--- a/tools/library/scripts/pycutlass/test/gemm/gemm_s8_sm90.py
+++ b/tools/library/scripts/pycutlass/test/gemm/gemm_s8_sm90.py
@@ -52,7 +52,7 @@ def add_test(cls, layouts, alignments, element_output, element_accumulator, elem
     :param cls: class to which the generated method will be added
     :type cls: type
     :param layouts: indexable container of layouts of A, B, and C operands
-    :param alignments: indexable container of alingments of A, B, and C operands
+    :param alignments: indexable container of alignments of A, B, and C operands
     :param element_output: data type of the output element
     :param element_accumulator: data type used in accumulation
     :param element_epilogue: data type used in computing the epilogue
diff --git a/tools/library/src/conv2d_operation.h b/tools/library/src/conv2d_operation.h
index 5d06e721..d1b1e841 100644
--- a/tools/library/src/conv2d_operation.h
+++ b/tools/library/src/conv2d_operation.h
@@ -358,7 +358,7 @@ class Conv2dOperation : public Conv2dOperationBase<Operator_> {
               << operator_args.problem_size << std::endl
               << "  split_k_mode: "
               << (operator_args.split_k_mode == cutlass::conv::SplitKMode::kSerial ? "serial" : "parallel") << std::endl
-              << "  epilouge (alpha, beta): "
+              << "  epilogue (alpha, beta): "
               << operator_args.output_op.alpha << ", " 
               << operator_args.output_op.beta << std::endl
               << "  ref_A (ptr, {stride}): " 
@@ -610,7 +610,7 @@ class DirectConv2dOperation : public Conv2dOperation<Operator_> {
               << operator_args.problem_size << std::endl
               << "  split_k_mode: "
               << (operator_args.split_k_mode == cutlass::conv::SplitKMode::kSerial ? "serial" : "parallel") << std::endl
-              << "  epilouge (alpha, beta): "
+              << "  epilogue (alpha, beta): "
               << operator_args.output_op.alpha << ", " 
               << operator_args.output_op.beta << std::endl
               << "  ref_A (ptr, {stride}): " 
diff --git a/tools/library/src/conv3d_operation.h b/tools/library/src/conv3d_operation.h
index 0e2a1c6b..a7a0bace 100644
--- a/tools/library/src/conv3d_operation.h
+++ b/tools/library/src/conv3d_operation.h
@@ -349,7 +349,7 @@ class Conv3dOperation : public Conv3dOperationBase<Operator_> {
               << operator_args.problem_size << std::endl
               << "  split_k_mode: "
               << (operator_args.split_k_mode == cutlass::conv::SplitKMode::kSerial ? "serial" : "parallel") << std::endl
-              << "  epilouge (alpha, beta): " 
+              << "  epilogue (alpha, beta): "
               << operator_args.output_op.alpha << ", " 
               << operator_args.output_op.beta << std::endl
               << "  ref_A (ptr, {stride}): " 
diff --git a/tools/library/src/handle.cu b/tools/library/src/handle.cu
index fdfe2516..90f61126 100644
--- a/tools/library/src/handle.cu
+++ b/tools/library/src/handle.cu
@@ -908,13 +908,13 @@ Status Handle::gemm_planar_complex_array(
   NumericTypeID element_C,                  /// Data type of C and D matrix
 
   void const * const * ptr_C_real,          /// Pointer to array containing pointers to real part of C matrices
-  void const * const * ptr_C_imag,          /// Pointer to array containing poitners to imaginary part of C matrices
+  void const * const * ptr_C_imag,          /// Pointer to array containing pointers to imaginary part of C matrices
 
   int64_t ldc_real,                             /// Leading dimension of real part of C matrix
   int64_t ldc_imag,                             /// Leading dimension of imaginary part of C matrix
 
   void * const * ptr_D_real,                /// Pointer to array containing pointers to real part of D matrices
-  void * const * ptr_D_imag,                /// Pointer to array containing poitners to imaginary part of D matrices
+  void * const * ptr_D_imag,                /// Pointer to array containing pointers to imaginary part of D matrices
 
   int64_t ldd_real,                             /// Leading dimension of real part of D matrix
   int64_t ldd_imag                              /// Leading dimension of imaginary part of D matrix
diff --git a/tools/library/src/rank_2k_operation.h b/tools/library/src/rank_2k_operation.h
index d6e0dcae..901f2ea6 100644
--- a/tools/library/src/rank_2k_operation.h
+++ b/tools/library/src/rank_2k_operation.h
@@ -347,7 +347,7 @@ class Rank2KOperation : public Rank2KOperationBase<Operator_> {
     std::cout << "Rank2KOperation::OperatorArguments" << std::endl
               << "  problem_size:" << std::endl 
               << operator_args.problem_size << std::endl
-              << "  epilouge (alpha, beta): "
+              << "  epilogue (alpha, beta): "
               << operator_args.epilogue.alpha << ", " 
               << operator_args.epilogue.beta << std::endl
               << "  ref_A (ptr, {stride}): " 
diff --git a/tools/library/src/reduction/reduction_operation.h b/tools/library/src/reduction/reduction_operation.h
index 846ca02e..4a6909cc 100644
--- a/tools/library/src/reduction/reduction_operation.h
+++ b/tools/library/src/reduction/reduction_operation.h
@@ -266,7 +266,7 @@ class ReductionOperation : public Operation {
               << operator_args.partitions << std::endl 
               << "  partition_stride: " 
               << operator_args.partition_stride << std::endl
-              << "  epilouge (alpha, beta): " 
+              << "  epilogue (alpha, beta): "
               << operator_args.output.alpha << ", " 
               << operator_args.output.beta << std::endl
               << "  workspace (ptr, stride): "
diff --git a/tools/library/src/reference/conv_reference_operation.h b/tools/library/src/reference/conv_reference_operation.h
index 3a294a23..0b108c2b 100644
--- a/tools/library/src/reference/conv_reference_operation.h
+++ b/tools/library/src/reference/conv_reference_operation.h
@@ -74,7 +74,7 @@ template <
 >
 struct ConvReferenceDispatcher;
 
-/// Dispatcher for Conv2d (partially specialied for kConvDim == 2)
+/// Dispatcher for Conv2d (partially specialized for kConvDim == 2)
 template <
   Provider kProvider,
   conv::Operator kConvolutionalOperator,
diff --git a/tools/library/src/symm_operation.h b/tools/library/src/symm_operation.h
index d7554edd..59bb5214 100644
--- a/tools/library/src/symm_operation.h
+++ b/tools/library/src/symm_operation.h
@@ -353,7 +353,7 @@ class SymmOperation : public SymmOperationBase<Operator_> {
     std::cout << "SymmOperation::OperatorArguments" << std::endl
               << "  problem_size:" << std::endl 
               << operator_args.problem_size << std::endl
-              << "  epilouge (alpha, beta): "
+              << "  epilogue (alpha, beta): "
               << operator_args.epilogue.alpha << ", " 
               << operator_args.epilogue.beta << std::endl
               << "  ref_A (ptr, {stride}): " 
diff --git a/tools/library/src/util.cu b/tools/library/src/util.cu
index a4e234ab..36334576 100644
--- a/tools/library/src/util.cu
+++ b/tools/library/src/util.cu
@@ -428,7 +428,7 @@ static struct {
   NumericTypeID enumerant;
 }
 NumericTypeID_enumerants[] = {
-  {"unknown", "<unkown>", NumericTypeID::kUnknown},
+  {"unknown", "<unknown>", NumericTypeID::kUnknown},
   {"void", "Void", NumericTypeID::kVoid},
   {"b1", "B1", NumericTypeID::kB1},
   {"u2", "U2", NumericTypeID::kU2},
@@ -465,7 +465,7 @@ NumericTypeID_enumerants[] = {
   {"cs16", "CS16", NumericTypeID::kCS16},
   {"cs32", "CS32", NumericTypeID::kCS32},
   {"cs64", "CS64", NumericTypeID::kCS64},
-  {"*", "<unkown/enumerate all>", NumericTypeID::kUnknown}
+  {"*", "<unknown/enumerate all>", NumericTypeID::kUnknown}
 };
 
 /// Converts a NumericTypeID enumerant to a string
@@ -958,7 +958,7 @@ static struct {
   ConvKind enumerant;
 }
 ConvKind_enumerants[] = {
-  {"unknown", "<unkown>", ConvKind::kUnknown},
+  {"unknown", "<unknown>", ConvKind::kUnknown},
   {"fprop", "<fprop>", ConvKind::kFprop},
   {"dgrad", "<dgrad>", ConvKind::kDgrad},
   {"wgrad", "<wgrad>", ConvKind::kWgrad},
diff --git a/tools/profiler/src/conv2d_operation_profiler.cu b/tools/profiler/src/conv2d_operation_profiler.cu
index 0693058b..dfbce274 100644
--- a/tools/profiler/src/conv2d_operation_profiler.cu
+++ b/tools/profiler/src/conv2d_operation_profiler.cu
@@ -270,7 +270,7 @@ Status Conv2dOperationProfiler::initialize_configuration(
   }
 
   ////////////////////////  Convolution output dimensions p and q ////////////////////////
-  // Cutlass convolutions support arbitrary output sizes and not constriant by          //
+  // Cutlass convolutions support arbitrary output sizes and not constrained by         //
   // input, filter, padding, striding, dilation sizes.                                  //
   // cuDNN sets the output dimensions (p, q)  using following equations:                //
   //                                                                                    //
@@ -502,7 +502,7 @@ void Conv2dOperationProfiler::initialize_result_(
   // Bytes of activation, filter, and output tensors
   result.bytes = problem_.bytes(operation_desc);
 
-  // Theoritical flops required for the computation
+  // Theoretical flops required for the computation
   result.flops = problem_.flops(operation_desc);
 
   // Measured runtime
@@ -510,7 +510,7 @@ void Conv2dOperationProfiler::initialize_result_(
 
 }
 
-/// Initialize reduction problem dimenstions and library::Operation
+/// Initialize reduction problem dimensions and library::Operation
 bool Conv2dOperationProfiler::initialize_reduction_configuration_(
   Options const &options,  
   PerformanceReport &report,
@@ -535,7 +535,7 @@ bool Conv2dOperationProfiler::initialize_reduction_configuration_(
   /// This chooses the appropriate stride element of the row-major C tensor.
   int const & tensor_c_stride_idx = (conv_kind == library::ConvKind::kWgrad ? 2 : 0);
 
-  /// intialize library::ReductionConfiguration
+  /// initialize library::ReductionConfiguration
   conv_workspace_.reduction_configuration.problem_size     = problem_.eq_gemm_size(conv_kind).mn();
   conv_workspace_.reduction_configuration.partitions       = int(problem_.split_k_slices);
   conv_workspace_.reduction_configuration.partition_stride = problem_.eq_gemm_size(conv_kind).mn().product();
@@ -773,7 +773,7 @@ bool Conv2dOperationProfiler::verify_cutlass(
     conv_workspace_.arguments.alpha = problem_.alpha_one.data();
     conv_workspace_.arguments.beta = problem_.beta_zero.data();
 
-    /// intialize library::ReductionArguments
+    /// initialize library::ReductionArguments
     conv_workspace_.reduction_arguments.workspace           = conv_workspace_.device_workspace.data();
     conv_workspace_.reduction_arguments.source              = conv_workspace_.C->data();
     conv_workspace_.reduction_arguments.destination         = conv_workspace_.Computed->data();
@@ -961,7 +961,7 @@ bool Conv2dOperationProfiler::verify_with_host_reference_(
       conv_desc.tile_description.math_instruction.element_accumulator, 
       conv_desc.element_epilogue);
 
-#if 0 // debug print to check which host refererence instance is selected
+#if 0 // debug print to check which host reference instance is selected
     std::cout << conv2d_key << "\n";
 #endif
 
@@ -982,7 +982,7 @@ bool Conv2dOperationProfiler::verify_with_host_reference_(
       return true;
     }
 
-    // host refernce has only one instances in Conv2dOperationVectorMap
+    // host reference has only one instances in Conv2dOperationVectorMap
     library::Operation const *reference_op = cc_it->second[0];
 
     //
@@ -1009,7 +1009,7 @@ bool Conv2dOperationProfiler::verify_with_host_reference_(
     conv_workspace_.arguments.pointer_mode = library::ScalarPointerMode::kHost;
 
     //
-    // Intialize host reference operation
+    // Initialize host reference operation
     //
     std::vector<uint8_t> host_workspace_reference_op;
 
@@ -1114,11 +1114,11 @@ bool Conv2dOperationProfiler::verify_with_device_reference_(
       return true;
     }
 
-    // device refernce has only one instances in Conv2dOperationVectorMap
+    // device reference has only one instances in Conv2dOperationVectorMap
     library::Operation const *reference_op = cc_it->second[0];
   
     //
-    // Intialize device reference operation
+    // Initialize device reference operation
     //
     std::vector<uint8_t> host_workspace_reference_op;
 
@@ -1205,7 +1205,7 @@ bool Conv2dOperationProfiler::profile(
       conv_workspace_.arguments.alpha = problem_.alpha_one.data();
       conv_workspace_.arguments.beta = problem_.beta_zero.data();
 
-      /// intialize library::ReductionArguments
+      /// initialize library::ReductionArguments
       conv_workspace_.reduction_arguments.workspace           = conv_workspace_.device_workspace.data();
       conv_workspace_.reduction_arguments.source              = conv_workspace_.C->data();
       conv_workspace_.reduction_arguments.destination         = conv_workspace_.Computed->data();
@@ -1276,7 +1276,7 @@ Status Conv2dOperationProfiler::profile_cutlass_(
       // update library::ConvArguments for parallel split-k reduction
       conv_arguments->D = conv_workspace_.device_workspace.data();
 
-      /// intialize library::ReductionArguments
+      /// initialize library::ReductionArguments
       conv_workspace_.reduction_arguments.workspace           = conv_workspace_.device_workspace.data();
       conv_workspace_.reduction_arguments.source              = conv_workspace_.C->batch_data(problem_idx);
       conv_workspace_.reduction_arguments.destination         = conv_workspace_.Computed->batch_data(problem_idx);
@@ -1329,7 +1329,7 @@ Status Conv2dOperationProfiler::profile_cutlass_(
       // update library::ConvArguments for parallel split-k reduction
       conv_arguments->D = conv_workspace_.device_workspace.data();
 
-      /// intialize library::ReductionArguments
+      /// initialize library::ReductionArguments
       conv_workspace_.reduction_arguments.workspace           = conv_workspace_.device_workspace.data();
       conv_workspace_.reduction_arguments.source              = conv_workspace_.C->batch_data(problem_idx);
       conv_workspace_.reduction_arguments.destination         = conv_workspace_.Computed->batch_data(problem_idx);
diff --git a/tools/profiler/src/conv2d_operation_profiler.h b/tools/profiler/src/conv2d_operation_profiler.h
index f432c7e5..8b285ecb 100644
--- a/tools/profiler/src/conv2d_operation_profiler.h
+++ b/tools/profiler/src/conv2d_operation_profiler.h
@@ -189,7 +189,7 @@ class Conv2dOperationProfiler : public OperationProfiler {
       }
     }
 
-    // Returns leading dimenstion for equivalent gemm matrix A
+    // Returns leading dimension for equivalent gemm matrix A
     int64_t eq_gemm_lda(library::ConvKind const &conv_kind) const {
 
       switch (conv_kind) {
@@ -200,7 +200,7 @@ class Conv2dOperationProfiler : public OperationProfiler {
       }
     }
 
-    // Returns leading dimenstion for equivalent gemm matrix B
+    // Returns leading dimension for equivalent gemm matrix B
     int64_t eq_gemm_ldb(library::ConvKind const &conv_kind) const {
 
       switch (conv_kind) {
@@ -211,7 +211,7 @@ class Conv2dOperationProfiler : public OperationProfiler {
       }
     }
 
-    // Returns leading dimenstion for equivalent gemm matrix C
+    // Returns leading dimension for equivalent gemm matrix C
     int64_t eq_gemm_ldc(library::ConvKind const &conv_kind) const {
 
       switch (conv_kind) {
@@ -436,7 +436,7 @@ class Conv2dOperationProfiler : public OperationProfiler {
     void *device_workspace);
  
  
-  /// Initialize reduction problem dimenstions and library::Operation
+  /// Initialize reduction problem dimensions and library::Operation
   bool initialize_reduction_configuration_(
     Options const &options,  
     PerformanceReport &report,
diff --git a/tools/profiler/src/conv3d_operation_profiler.cu b/tools/profiler/src/conv3d_operation_profiler.cu
index 34fee856..da9c3653 100644
--- a/tools/profiler/src/conv3d_operation_profiler.cu
+++ b/tools/profiler/src/conv3d_operation_profiler.cu
@@ -284,7 +284,7 @@ Status Conv3dOperationProfiler::initialize_configuration(
   }
 
   ////////////////////////  Convolution output dimensions p and q ////////////////////////
-  // Cutlass convolutions support arbitrary output sizes and not constriant by          //
+  // Cutlass convolutions support arbitrary output sizes and not constrained by         //
   // input, filter, padding, striding, dilation sizes.                                  //
   // cuDNN sets the output dimensions (p, q)  using following equations:                //
   //                                                                                    //
@@ -545,7 +545,7 @@ void Conv3dOperationProfiler::initialize_result_(
   // Bytes of activation, filter, and output tensors
   result.bytes = problem_.bytes(operation_desc);
 
-  // Theoritical flops required for the computation
+  // Theoretical flops required for the computation
   result.flops = problem_.flops(operation_desc);
 
   // Measured runtime
@@ -553,7 +553,7 @@ void Conv3dOperationProfiler::initialize_result_(
 
 }
 
-/// Initialize reduction problem dimenstions and library::Operation
+/// Initialize reduction problem dimensions and library::Operation
 bool Conv3dOperationProfiler::initialize_reduction_configuration_(
   Options const &options,  
   PerformanceReport &report,
@@ -578,7 +578,7 @@ bool Conv3dOperationProfiler::initialize_reduction_configuration_(
   /// This chooses the appropriate stride element of the row-major C tensor.
   int const & tensor_c_stride_idx = (conv_kind == library::ConvKind::kWgrad ? 3 : 0);
 
-  /// intialize library::ReductionConfiguration
+  /// initialize library::ReductionConfiguration
   conv_workspace_.reduction_configuration.problem_size     = problem_.eq_gemm_size(conv_kind).mn();
   conv_workspace_.reduction_configuration.partitions       = int(problem_.split_k_slices);
   conv_workspace_.reduction_configuration.partition_stride = problem_.eq_gemm_size(conv_kind).mn().product();
@@ -947,7 +947,7 @@ bool Conv3dOperationProfiler::verify_with_host_reference_(
     conv_desc.tile_description.math_instruction.element_accumulator, 
     conv_desc.element_epilogue);
 
-#if 0 // debug print to check which host refererence instance is selected
+#if 0 // debug print to check which host reference instance is selected
     std::cout << conv_key << "\n";
 #endif
 
@@ -968,7 +968,7 @@ bool Conv3dOperationProfiler::verify_with_host_reference_(
     return true;
   }
 
-  // host refernce has only one instances in ConvOperationVectorMap
+  // host reference has only one instances in ConvOperationVectorMap
   library::Operation const *reference_op = cc_it->second[0];
 
   //
@@ -993,7 +993,7 @@ bool Conv3dOperationProfiler::verify_with_host_reference_(
   conv_workspace_.arguments.pointer_mode = library::ScalarPointerMode::kHost;
 
   //
-  // Intialize host reference operation
+  // Initialize host reference operation
   //
   std::vector<uint8_t> host_workspace_reference_op;
 
@@ -1109,7 +1109,7 @@ void Conv3dOperationProfiler::set_cutlass_operator_arguments_(int problem_idx) {
     conv_workspace_.arguments.alpha = problem_.alpha_one.data();
     conv_workspace_.arguments.beta = problem_.beta_zero.data();
 
-    /// intialize library::ReductionArguments
+    /// initialize library::ReductionArguments
     conv_workspace_.reduction_arguments.workspace           = conv_workspace_.device_workspace.data();
     conv_workspace_.reduction_arguments.source              = conv_workspace_.C->batch_data(problem_idx);
     conv_workspace_.reduction_arguments.destination         = conv_workspace_.Computed->batch_data(problem_idx);
diff --git a/tools/profiler/src/conv3d_operation_profiler.h b/tools/profiler/src/conv3d_operation_profiler.h
index aba832ec..4205d561 100644
--- a/tools/profiler/src/conv3d_operation_profiler.h
+++ b/tools/profiler/src/conv3d_operation_profiler.h
@@ -105,7 +105,7 @@ class Conv3dOperationProfiler : public OperationProfiler {
     /// Total number of flops computed
     int64_t flops(library::ConvDescription const &operation_desc) const;
 
-    /// Infers output size from theinput size, padding, stride, and dilation
+    /// Infers output size from the input size, padding, stride, and dilation
     void set_default_output_size() {
       z = ((d + pad_d - t * dilation_d) / stride_d) + 1;
       p = ((h + pad_h - r * dilation_h) / stride_h) + 1;
@@ -190,7 +190,7 @@ class Conv3dOperationProfiler : public OperationProfiler {
       }
     }
 
-    // Returns leading dimenstion for equivalent gemm matrix A
+    // Returns leading dimension for equivalent gemm matrix A
     int64_t eq_gemm_lda(library::ConvKind const &conv_kind) const {
 
       switch (conv_kind) {
@@ -201,7 +201,7 @@ class Conv3dOperationProfiler : public OperationProfiler {
       }
     }
 
-    // Returns leading dimenstion for equivalent gemm matrix B
+    // Returns leading dimension for equivalent gemm matrix B
     int64_t eq_gemm_ldb(library::ConvKind const &conv_kind) const {
 
       switch (conv_kind) {
@@ -212,7 +212,7 @@ class Conv3dOperationProfiler : public OperationProfiler {
       }
     }
 
-    // Returns leading dimenstion for equivalent gemm matrix C
+    // Returns leading dimension for equivalent gemm matrix C
     int64_t eq_gemm_ldc(library::ConvKind const &conv_kind) const {
 
       switch (conv_kind) {
@@ -389,7 +389,7 @@ class Conv3dOperationProfiler : public OperationProfiler {
     void *host_workspace,
     void *device_workspace);
   
-  /// Initialize reduction problem dimenstions and library::Operation
+  /// Initialize reduction problem dimensions and library::Operation
   bool initialize_reduction_configuration_(
     Options const &options,  
     PerformanceReport &report,
diff --git a/tools/profiler/src/cublas_helpers.cu b/tools/profiler/src/cublas_helpers.cu
index 5f7354cf..2175b359 100644
--- a/tools/profiler/src/cublas_helpers.cu
+++ b/tools/profiler/src/cublas_helpers.cu
@@ -57,7 +57,7 @@ Status get_cutlass_status(cublasStatus_t cublas) {
   return Status::kErrorInternal;
 }
 
-/// Converts a cuBLASS status to cutlass::profiler::Disposition
+/// Converts a cuBLAS status to cutlass::profiler::Disposition
 Disposition get_cutlass_disposition(cublasStatus_t cublas_status) {
 
   if (cublas_status == CUBLAS_STATUS_INVALID_VALUE) {
diff --git a/tools/profiler/src/cublas_helpers.h b/tools/profiler/src/cublas_helpers.h
index 8c36fb7b..3f38adbc 100644
--- a/tools/profiler/src/cublas_helpers.h
+++ b/tools/profiler/src/cublas_helpers.h
@@ -54,7 +54,7 @@ namespace profiler {
 /// Converts a cuBLAS status to cutlass::Status
 Status get_cutlass_status(cublasStatus_t cublas);
 
-/// Converts a cuBLASS status to cutlass::profiler::Disposition
+/// Converts a cuBLAS status to cutlass::profiler::Disposition
 Disposition get_cutlass_disposition(cublasStatus_t cublas_status);
 
 /// Maps a CUTLASS tensor layout to a cuBLAS transpose operation
@@ -87,7 +87,7 @@ Status cublas_satisfies(library::SymmDescription const &desc);
 
 /// This is a helper class to create cublasHandle_t automatically on CublasCreate object creation and 
 /// to destroy cublasHandle_t on CublasCreate object destruction. 
-/// Additionaly, it provides implicit cast from CublasCreate's object to cublasHandle_t's object
+/// Additionally, it provides implicit cast from CublasCreate's object to cublasHandle_t's object
 class CublasCreate {
 private:
 	cublasHandle_t handle;
@@ -196,7 +196,7 @@ struct cublasGemmExDispatcher {
   library::GemmUniversalConfiguration configuration;
   library::GemmUniversalArguments arguments;
 
-  // cublass-specific data structures to fill cublas API call arguments
+  // cublas-specific data structures to fill cublas API call arguments
   cublasOperation_t trans_A;
   cublasOperation_t trans_B;
   cudaDataType_t data_type_A;
@@ -237,7 +237,7 @@ struct cublasRankKDispatcher {
   library::RankKConfiguration configuration;
   library::RankKArguments arguments;
 
-  // cublass-specific data structures to fill cublas API call arguments
+  // cublas-specific data structures to fill cublas API call arguments
   cublasOperation_t trans_A;
   cublasFillMode_t uplo;
   cudaDataType_t data_type_A;
@@ -277,7 +277,7 @@ struct cublasTrmmDispatcher {
   library::TrmmConfiguration configuration;
   library::TrmmArguments arguments;
 
-  // cublass-specific data structures to fill cublas API call arguments
+  // cublas-specific data structures to fill cublas API call arguments
   cublasOperation_t trans_A;
   cublasSideMode_t side;
   cublasFillMode_t uplo;
@@ -318,7 +318,7 @@ struct cublasSymmDispatcher {
   library::SymmConfiguration configuration;
   library::SymmArguments arguments;
 
-  // cublass-specific data structures to fill cublas API call arguments
+  // cublas-specific data structures to fill cublas API call arguments
   cublasSideMode_t side;
   cublasFillMode_t uplo;
   cudaDataType_t data_type_A;
diff --git a/tools/profiler/src/cudnn_helpers.cpp b/tools/profiler/src/cudnn_helpers.cpp
index 69522794..844119d1 100644
--- a/tools/profiler/src/cudnn_helpers.cpp
+++ b/tools/profiler/src/cudnn_helpers.cpp
@@ -68,7 +68,7 @@ Disposition get_cutlass_disposition(cudnnStatus_t cudnn_status) {
   return Disposition::kFailed;
 }
 
-/// Checks cudnnStatus_t converts to cutlas status and returns if Status::kSuccess o.w. throws exception
+/// Checks cudnnStatus_t converts to cutlass status and returns if Status::kSuccess o.w. throws exception
 Status checkCudnnErr(cudnnStatus_t cudnn_status) {
   Status cutlass_status = get_cutlass_status(cudnn_status);
   if(cutlass_status != Status::kSuccess) {
@@ -243,7 +243,7 @@ Status cudnn_satisfies(
   }
 
   ////////////////////////  Convolution output dimensions p and q ///////////////////////
-  // Cutlass convolutions support arbitrary output dimensions and not constriant by    //
+  // Cutlass convolutions support arbitrary output dimensions and not constrained by   //
   // input, filter, padding, striding, dilation sizes.                                 //
   // cuDNN sets the output dimensions (p, q) using following equations:                //
   //                                                                                   //
@@ -373,7 +373,7 @@ Status cudnn_satisfies(
   }
 
   ////////////////////////  Convolution output dimensions p and q ///////////////////////
-  // Cutlass convolutions support arbitrary output dimensions and not constriant by    //
+  // Cutlass convolutions support arbitrary output dimensions and not constrained by   //
   // input, filter, padding, striding, dilation sizes.                                 //
   // cuDNN sets the output dimensions (p, q) using following equations:                //
   //                                                                                   //
diff --git a/tools/profiler/src/cudnn_helpers.h b/tools/profiler/src/cudnn_helpers.h
index 2f023825..e1c4f644 100644
--- a/tools/profiler/src/cudnn_helpers.h
+++ b/tools/profiler/src/cudnn_helpers.h
@@ -55,7 +55,7 @@ Status get_cutlass_status(cudnnStatus_t cudnn_status);
 /// Converts a cuDNN status to cutlass::profiler::Disposition
 Disposition get_cutlass_disposition(cudnnStatus_t cudnn_status);
 
-/// Checks cudnnStatus_t converts to cutlas status and returns if Status::kSuccess o.w. throws exception
+/// Checks cudnnStatus_t converts to cutlass status and returns if Status::kSuccess o.w. throws exception
 Status checkCudnnErr(cudnnStatus_t cudnn_status);
 
 /// Maps a CUTLASS conv mode to a cuDNN conv mode enumeration
@@ -82,7 +82,7 @@ float cast_cudnn_compute_type_to_float(library::NumericTypeID type, void const *
 
 /// This is a helper class to create cudnnHandle_t automatically on CudnnCreate object creation and 
 /// to destroy cudnnHandle_t on CudnnCreate object destruction. 
-/// Additionaly, it provides implicit cast from CudnnCreate's object to cudnnHandle_t's object
+/// Additionally, it provides implicit cast from CudnnCreate's object to cudnnHandle_t's object
 class CudnnCreate {
 private:
 	cudnnHandle_t handle;
@@ -162,7 +162,7 @@ struct cudnnConvDispatcher {
   // Methods
   //
 
-  // TODO: unify ctor cudnnConvDispatcher for conv2d and conv3d by unifying Conv2dConfigration
+  // TODO: unify ctor cudnnConvDispatcher for conv2d and conv3d by unifying Conv2dConfiguration
   
   // ctor for conv2d 
   cudnnConvDispatcher( 
@@ -496,7 +496,7 @@ struct cudnnConvDispatcher {
     workspace = cutlass::device_memory::allocation<char>(workspace_size_in_bytes);
   }
 
-  /// Executes Conv2d operater from cudnn library
+  /// Executes Conv2d operator from cudnn library
   cudnnStatus_t operator()(cudnnHandle_t handle) {
 
     switch (conv_kind) {
@@ -552,7 +552,7 @@ struct cudnnConvDispatcher {
     }
   }
 
-  // Returns Actviation Tensor
+  // Returns Activation Tensor
   void const * activation() const {
     switch(conv_kind) {
       case library::ConvKind::kFprop : return arguments.A;
diff --git a/tools/profiler/src/debug.h b/tools/profiler/src/debug.h
index 83e2c338..cd80c46f 100644
--- a/tools/profiler/src/debug.h
+++ b/tools/profiler/src/debug.h
@@ -39,7 +39,7 @@
 //#define report(x) { std::cout << "\033[31m" << __FILE__ << ":" << __LINE__ << "  " << x << "\033[0m" << std::endl; }
 //#define report(x) {}
 
-// Enable/Disble Profiler debug prints
+// Enable/Disable Profiler debug prints
 //#define DEBUG_PROFILER 
 
 //RED    31m   // profiler prints debug messages in red
diff --git a/tools/profiler/src/device_allocation.cu b/tools/profiler/src/device_allocation.cu
index e59c3447..92679ef5 100644
--- a/tools/profiler/src/device_allocation.cu
+++ b/tools/profiler/src/device_allocation.cu
@@ -442,12 +442,12 @@ int DeviceAllocation::batch_count() const {
   return batch_count_;
 }
 
-/// Gets the stride (in units of elements) beteween items
+/// Gets the stride (in units of elements) between items
 int64_t DeviceAllocation::batch_stride() const {
   return batch_stride_;
 }
 
-/// Gets the stride (in units of bytes) beteween items
+/// Gets the stride (in units of bytes) between items
 int64_t DeviceAllocation::batch_stride_bytes() const {
   return bytes(type_, batch_stride_);
 }
diff --git a/tools/profiler/src/device_allocation.h b/tools/profiler/src/device_allocation.h
index d0bdfd45..f1362e76 100644
--- a/tools/profiler/src/device_allocation.h
+++ b/tools/profiler/src/device_allocation.h
@@ -176,10 +176,10 @@ class DeviceAllocation {
   /// Gets the number of adjacent tensors in memory
   int batch_count() const;
 
-  /// Gets the stride (in units of elements) beteween items
+  /// Gets the stride (in units of elements) between items
   int64_t batch_stride() const;
 
-  /// Gets the stride (in units of bytes) beteween items
+  /// Gets the stride (in units of bytes) between items
   int64_t batch_stride_bytes() const;
 
   /// Capacity of allocation in number of elements
diff --git a/tools/profiler/src/gemm_operation_profiler.cu b/tools/profiler/src/gemm_operation_profiler.cu
index 4b15fda5..0924c033 100644
--- a/tools/profiler/src/gemm_operation_profiler.cu
+++ b/tools/profiler/src/gemm_operation_profiler.cu
@@ -108,7 +108,7 @@ void GemmOperationProfiler::print_examples(std::ostream &out) const {
     << "Run when A is f16 with column-major and B is any datatype with row-major (For column major, use column, col, or n. For row major use, row or t):\n"
     << "  $ cutlass_profiler --operation=Gemm --A=f16:column --B=*:row\n\n"
 
-    << "Profile a particular problem size with split K and paralell reduction:\n"
+    << "Profile a particular problem size with split K and parallel reduction:\n"
     << "  $ cutlass_profiler --operation=Gemm --split_k_mode=parallel --split_k_slices=2 --m=1024 --n=1024 --k=128\n\n"
 
     << "Using various input value distribution:\n"
@@ -168,7 +168,7 @@ Status GemmOperationProfiler::GemmProblem::parse(
   }
 
   if (!arg_as_SplitKModeID(this->split_k_mode, "split_k_mode", problem_space, problem)) {
-    // defualt value
+    // default value
     this->split_k_mode = library::SplitKMode::kSerial;
   }
   
@@ -405,7 +405,7 @@ void GemmOperationProfiler::initialize_result_(
 
 }
 
-/// Initialize redution problem dimentions and library::Operation
+/// Initialize reduction problem dimensions and library::Operation
 bool GemmOperationProfiler::initialize_reduction_configuration_(
   library::Operation const *operation,
   ProblemSpace::Problem const &problem) {
@@ -434,7 +434,7 @@ bool GemmOperationProfiler::initialize_reduction_configuration_(
     gemm_desc.tile_description.math_instruction.element_accumulator,    // element workspace
     gemm_desc.tile_description.math_instruction.element_accumulator,    // element accumulator
     gemm_desc.C.element,                                                // element output
-    gemm_desc.element_epilogue                                          // element coumpute
+    gemm_desc.element_epilogue                                          // element compute
   );
 
   auto reduction_it = library::Singleton::get().operation_table.reduction_operations.find(reduction_key);
diff --git a/tools/profiler/src/gpu_timer.cpp b/tools/profiler/src/gpu_timer.cpp
index e2397586..14f0d91b 100644
--- a/tools/profiler/src/gpu_timer.cpp
+++ b/tools/profiler/src/gpu_timer.cpp
@@ -94,7 +94,7 @@ void GpuTimer::stop_and_wait(cudaStream_t stream) {
   }
 }
 
-/// Returns the duration in miliseconds
+/// Returns the duration in milliseconds
 double GpuTimer::duration(int iterations) const {
 
   float avg_ms;
diff --git a/tools/profiler/src/gpu_timer.h b/tools/profiler/src/gpu_timer.h
index d8bce957..a3d3befd 100644
--- a/tools/profiler/src/gpu_timer.h
+++ b/tools/profiler/src/gpu_timer.h
@@ -62,7 +62,7 @@ struct GpuTimer {
   /// Records a stop event in the stream and synchronizes on the stream
   void stop_and_wait(cudaStream_t stream = nullptr);
 
-  /// Returns the duration in miliseconds
+  /// Returns the duration in milliseconds
   double duration(int iterations = 1) const;
 };
 
diff --git a/tools/profiler/src/operation_profiler.h b/tools/profiler/src/operation_profiler.h
index a2b0bdd9..17b4413c 100644
--- a/tools/profiler/src/operation_profiler.h
+++ b/tools/profiler/src/operation_profiler.h
@@ -81,7 +81,7 @@ class OperationProfiler {
   /// List of providers used to verify and compare each result
   ProviderVector verification_providers_;
 
-  /// Model performance result initailized by the operation profiler with workload statistics
+  /// Model performance result initialized by the operation profiler with workload statistics
   /// and reasonable default state.
   PerformanceResult model_result_;
 
diff --git a/tools/profiler/src/options.cu b/tools/profiler/src/options.cu
index ea79a9d7..3401d15b 100644
--- a/tools/profiler/src/options.cu
+++ b/tools/profiler/src/options.cu
@@ -189,7 +189,7 @@ Options::Initialization::Initialization(cutlass::CommandLine const &cmdline) {
       enabled = false;
     }
     else if (provider != library::Provider::kReferenceHost && provider != library::Provider::kReferenceDevice) {
-      throw std::runtime_error("Unsupported intialization provider specified."); 
+      throw std::runtime_error("Unsupported initialization provider specified.");
     }
   }
   else {
@@ -205,7 +205,7 @@ Options::Initialization::Initialization(cutlass::CommandLine const &cmdline) {
     get_distribution(cmdline, "dist", data_distribution);
   }
   else {
-    // profiler choosen data distribution (allowed to change based on numeric types)
+    // profiler chosen data distribution (allowed to change based on numeric types)
     fix_data_distribution = false;
     // set uniform data distribution with range [-4, 4] 
     data_distribution.set_uniform(-4, 4, 0);
diff --git a/tools/profiler/src/options.h b/tools/profiler/src/options.h
index 02edd9ac..eba0172f 100644
--- a/tools/profiler/src/options.h
+++ b/tools/profiler/src/options.h
@@ -231,7 +231,7 @@ class Options {
     std::vector<std::pair<std::string, std::string>> pivot_tags;
 
     /// If true, reports status of all kernels including those that were
-    /// not run for the given argumetns
+    /// not run for the given arguments
     bool report_not_run;
 
     /// Prints human-readable text to stdout. If false, nothing is written to stdout
diff --git a/tools/profiler/src/problem_space.h b/tools/profiler/src/problem_space.h
index 4e102e64..8ec65ca8 100644
--- a/tools/profiler/src/problem_space.h
+++ b/tools/profiler/src/problem_space.h
@@ -284,7 +284,7 @@ struct ScalarArgument : public KernelArgument {
   // Data members
   //
 
-  /// Set of posible values
+  /// Set of possible values
   ValueCollection values;
 
   //
@@ -540,7 +540,7 @@ struct IntegerArgument : public KernelArgument {
   // Data members
   //
 
-  /// Set of posible values
+  /// Set of possible values
   RangeCollection ranges;
 
   //
diff --git a/tools/util/include/cutlass/util/command_line.h b/tools/util/include/cutlass/util/command_line.h
index 65cf9a1a..9b6738d9 100644
--- a/tools/util/include/cutlass/util/command_line.h
+++ b/tools/util/include/cutlass/util/command_line.h
@@ -188,7 +188,7 @@ struct CommandLine {
       for (int i = 0; i < keys.size(); ++i) {
         if (keys[i] == string(arg_name)) {
           string val_string(values[i]);
-          seperate_string(val_string, vals, sep);
+          separate_string(val_string, vals, sep);
         }
       }
     }
@@ -225,7 +225,7 @@ struct CommandLine {
       range != ranges.end(); ++range) {
 
       std::vector<std::string> range_vals;
-      seperate_string(*range, range_vals, sep);
+      separate_string(*range, range_vals, sep);
       vals.push_back(range_vals);
     }
   }
@@ -283,7 +283,7 @@ struct CommandLine {
   }
 
   template <typename value_t>
-  static void seperate_string(std::string const& str,
+  static void separate_string(std::string const& str,
                               std::vector<value_t>& vals,
                               char sep = ',') {
     std::istringstream str_stream(str);
diff --git a/tools/util/include/cutlass/util/device_groupnorm.h b/tools/util/include/cutlass/util/device_groupnorm.h
index aaa19b2d..5b78aa64 100644
--- a/tools/util/include/cutlass/util/device_groupnorm.h
+++ b/tools/util/include/cutlass/util/device_groupnorm.h
@@ -314,7 +314,7 @@ __global__ void groupnorm_twopass_multiple_load(T*          output,
 }
 
 //ref_input & ref_output should be [N, H, W, C]
-//ref_gamma & ref_beta shoud be [1, 1, 1, C]
+//ref_gamma & ref_beta should be [1, 1, 1, C]
 template <typename T>
 void groupnorm(cutlass::Tensor4DCoord input_size,
                const int num_groups,
diff --git a/tools/util/include/cutlass/util/device_nhwc_padding.h b/tools/util/include/cutlass/util/device_nhwc_padding.h
index 86e5fa77..c489d7d1 100644
--- a/tools/util/include/cutlass/util/device_nhwc_padding.h
+++ b/tools/util/include/cutlass/util/device_nhwc_padding.h
@@ -109,9 +109,9 @@ __global__ void nhwc_padding_channel_3To4_kernel(const int32_t n,
   shm[threadIdx.x] = tidx >= max_input_element ? zero_io : input[tidx];  
   __syncthreads();
   
-  const int ouput_offset = blockIdx.x * 256;
-  const int lower_bound = max_output_element < ouput_offset + 256 ? max_output_element : ouput_offset + 256;
-  for (int i = ouput_offset + threadidx, j = threadidx ; i < lower_bound ; i+=192, j+=192)
+  const int output_offset = blockIdx.x * 256;
+  const int lower_bound = max_output_element < output_offset + 256 ? max_output_element : output_offset + 256;
+  for (int i = output_offset + threadidx, j = threadidx ; i < lower_bound ; i+=192, j+=192)
   {
     const Telement* shm_element = (const Telement*)shm + j*3*element_in_Tio/4;
     Telement array[element_in_Tio];
@@ -140,9 +140,9 @@ __global__ void nhwc_padding_channel_3To8_kernel(const int32_t n,
   shm[threadIdx.x] = tidx >= max_input_element ? zero_io : input[tidx];  
   __syncthreads();
   
-  const int ouput_offset = blockIdx.x * 512;
-  const int lower_bound = max_output_element < ouput_offset + 512 ? max_output_element : ouput_offset + 512;
-  for (int i = ouput_offset + threadidx, j = threadidx ; i < lower_bound ; i+=192, j+=192)
+  const int output_offset = blockIdx.x * 512;
+  const int lower_bound = max_output_element < output_offset + 512 ? max_output_element : output_offset + 512;
+  for (int i = output_offset + threadidx, j = threadidx ; i < lower_bound ; i+=192, j+=192)
   {
     const Telement* shm_element = (const Telement*)shm + (element_in_Tio == 4 ? j/2 : j)*3;
     Telement array[element_in_Tio];
diff --git a/tools/util/include/cutlass/util/helper_cuda.hpp b/tools/util/include/cutlass/util/helper_cuda.hpp
index 15e0bc85..d840db56 100644
--- a/tools/util/include/cutlass/util/helper_cuda.hpp
+++ b/tools/util/include/cutlass/util/helper_cuda.hpp
@@ -74,7 +74,7 @@ _ConvertSMVer2Cores(int major, int minor)
   // Defines for GPU Architecture types (using the SM version to determine
   // the # of cores per SM
   typedef struct {
-    int SM;  // 0xMm (hexidecimal notation), M = SM Major version,
+    int SM;  // 0xMm (hexadecimal notation), M = SM Major version,
     // and m = SM minor version
     int Cores;
   } sSMtoCores;
diff --git a/tools/util/include/cutlass/util/reference/device/gemm.h b/tools/util/include/cutlass/util/reference/device/gemm.h
index 1850c2f9..a083bd14 100644
--- a/tools/util/include/cutlass/util/reference/device/gemm.h
+++ b/tools/util/include/cutlass/util/reference/device/gemm.h
@@ -248,7 +248,7 @@ struct Gemm<ElementA, LayoutA, ElementB, LayoutB, ElementC, LayoutC, ScalarType,
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
-/// Parital specialization for XOR-popc
+/// Partial specialization for XOR-popc
 template <typename ElementA, typename LayoutA, typename ElementB,
           typename LayoutB, typename ElementC, typename LayoutC,
           typename ScalarType, typename AccumulatorType>
diff --git a/tools/util/include/cutlass/util/reference/device/kernel/tensor_foreach.h b/tools/util/include/cutlass/util/reference/device/kernel/tensor_foreach.h
index ea5359f7..d294258b 100644
--- a/tools/util/include/cutlass/util/reference/device/kernel/tensor_foreach.h
+++ b/tools/util/include/cutlass/util/reference/device/kernel/tensor_foreach.h
@@ -72,7 +72,7 @@ struct TensorForEachHelper {
 template <typename Func, int Rank>
 struct TensorForEachHelper<Func, Rank, 0> {
 
-  /// Constructor for fastest chaning rank
+  /// Constructor for fastest changing rank
   __inline__ __device__
   TensorForEachHelper(Func &func, Coord<Rank> const &size, Coord<Rank> &coord, int64_t index) {
 
diff --git a/tools/util/include/cutlass/util/reference/device/tensor_fill.h b/tools/util/include/cutlass/util/reference/device/tensor_fill.h
index 8568e47c..b4238a0a 100644
--- a/tools/util/include/cutlass/util/reference/device/tensor_fill.h
+++ b/tools/util/include/cutlass/util/reference/device/tensor_fill.h
@@ -1308,7 +1308,7 @@ void TensorFill(
 
 ///////////////////////////////////////////////////////////////////////////////////////////////////
 
-/// Fills a tensor's digonal with 1 and 0 everywhere else.
+/// Fills a tensor's diagonal with 1 and 0 everywhere else.
 template <
   typename Element,               ///< Element type
   typename Layout>                ///< Layout function
diff --git a/tools/util/include/cutlass/util/reference/device/tensor_foreach.h b/tools/util/include/cutlass/util/reference/device/tensor_foreach.h
index cac558df..bb6f935e 100644
--- a/tools/util/include/cutlass/util/reference/device/tensor_foreach.h
+++ b/tools/util/include/cutlass/util/reference/device/tensor_foreach.h
@@ -133,4 +133,4 @@ struct BlockForEach {
 
 } // namespace device
 } // namespace reference
-} // namesace cutlass
+} // namespace cutlass
diff --git a/tools/util/include/cutlass/util/reference/host/gemm.h b/tools/util/include/cutlass/util/reference/host/gemm.h
index cd87e6f7..f70e0699 100644
--- a/tools/util/include/cutlass/util/reference/host/gemm.h
+++ b/tools/util/include/cutlass/util/reference/host/gemm.h
@@ -335,7 +335,7 @@ struct Gemm<ElementA, LayoutA, ElementB, LayoutB, ElementC, LayoutC, ScalarType,
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
-/// Parital specialization for XOR-popc
+/// Partial specialization for XOR-popc
 template <typename ElementA, typename LayoutA, typename ElementB,
           typename LayoutB, typename ElementC, typename LayoutC,
           typename ScalarType, typename ComputeType>
diff --git a/tools/util/include/cutlass/util/reference/host/tensor_fill.h b/tools/util/include/cutlass/util/reference/host/tensor_fill.h
index a8b938d1..3db176ed 100644
--- a/tools/util/include/cutlass/util/reference/host/tensor_fill.h
+++ b/tools/util/include/cutlass/util/reference/host/tensor_fill.h
@@ -992,7 +992,7 @@ void TensorFillDiagonal(
 ///////////////////////////////////////////////////////////////////////////////////////////////////
 ///////////////////////////////////////////////////////////////////////////////////////////////////
 
-/// Helper to fill a tensor's digonal with 1 and 0 everywhere else.
+/// Helper to fill a tensor's diagonal with 1 and 0 everywhere else.
 template <
   typename Element,               ///< Element type
   typename Layout>                ///< Layout function
diff --git a/tools/util/include/cutlass/util/reference/host/tensor_foreach.h b/tools/util/include/cutlass/util/reference/host/tensor_foreach.h
index a195893b..68a36d86 100644
--- a/tools/util/include/cutlass/util/reference/host/tensor_foreach.h
+++ b/tools/util/include/cutlass/util/reference/host/tensor_foreach.h
@@ -69,7 +69,7 @@ struct TensorForEachHelper<Func, Rank, 0> {
   /// Index of the active rank
   static int const kActiveRank = Rank - 1;
 
-  /// Constructor for fastest chaning rank
+  /// Constructor for fastest changing rank
   TensorForEachHelper(
     Func &func,
     Coord<Rank> const &extent,