Adding cuda kernel (optimized for sm80) for block-wise 4b quantized float 16 GEMM. #18619

chenfucn · 2023-11-29T18:24:06Z

Description

Adding CUDA kernel for block-wise 4b quantized float 16 GEMM, this is specially optimized for Nvidia Ampere GPUs.

Motivation and Context

Trying to improve quantized LLM inference performance on Nvidia Ampere GPUs

Note:

This is implemented by extending CUTLASS, so it has a hard dependency on CUTLASS. However, in current build system, loading of CUTLASS dependency is guarded with:

(onnxruntime_USE_FLASH_ATTENTION OR onnxruntime_USE_MEMORY_EFFICIENT_ATTENTION)

If both of these options are turned off, then compilation will fail.

Why CUTLASS dependency is guarded at all? It's a header file only library that does not introduce any binary if not instantiated. What's the downside of removing all the guards and just include CUTLASS unconditionally?

cmake/CMakeLists.txt

onnxruntime/test/providers/cuda/test_cases/blkq4_fp16_gemm_sm80_testcu.cu

onnxruntime/core/mickey/cutlass_ext/q4gemm/device/quantb_gemm.h

onnxruntime/test/cuda_host/blkq4_fp16_quant_sm80.h

onnxruntime/test/providers/cuda/test_cases/blkq4_fp16_gemm_sm80.h

onnxruntime/test/providers/cuda/test_cases/blkq4_fp16_gemm_sm80_test.cc

onnxruntime/core/mickey/cutlass_ext/q4gemm/kernel/quantb_gemm.h

onnxruntime/core/mickey/blk_q4/f16_gemm_sm80.h

onnxruntime/core/mickey/cutlass_ext/q4gemm/warp/quantb_meta_mma_tensor_op_tile_iterator.h

onnxruntime/core/mickey/cutlass_ext/q4gemm/warp/quantb_mma_tensor_op.h

onnxruntime/core/mickey/cutlass_ext/q4gemm/warp/quantb_meta_mma_tensor_op_tile_iterator.h

onnxruntime/core/mickey/cutlass_ext/q4gemm/warp/quantb_mma_tensor_op.h

onnxruntime/core/mickey/cutlass_ext/q4gemm/warp/quantb_meta_mma_tensor_op_tile_iterator.h

yufenglee

…loat 16 GEMM. (microsoft#18619) ### Description Adding CUDA kernel for block-wise 4b quantized float 16 GEMM, this is specially optimized for Nvidia Ampere GPUs. ### Motivation and Context Trying to improve quantized LLM inference performance on Nvidia Ampere GPUs ### Note: This is implemented by extending CUTLASS, so it has a hard dependency on CUTLASS. However, in current build system, loading of CUTLASS dependency is guarded with: (onnxruntime_USE_FLASH_ATTENTION OR onnxruntime_USE_MEMORY_EFFICIENT_ATTENTION) If both of these options are turned off, then compilation will fail. Why CUTLASS dependency is guarded at all? It's a header file only library that does not introduce any binary if not instantiated. What's the downside of removing all the guards and just include CUTLASS unconditionally?

snnn reviewed Nov 30, 2023

View reviewed changes

cmake/CMakeLists.txt Show resolved Hide resolved

snnn reviewed Nov 30, 2023

View reviewed changes

cmake/CMakeLists.txt Outdated Show resolved Hide resolved

yufenglee reviewed Jan 8, 2024

View reviewed changes

onnxruntime/test/providers/cuda/test_cases/blkq4_fp16_gemm_sm80_testcu.cu Show resolved Hide resolved

yufenglee reviewed Jan 8, 2024

View reviewed changes

onnxruntime/test/providers/cuda/test_cases/blkq4_fp16_gemm_sm80_testcu.cu Show resolved Hide resolved

yufenglee reviewed Jan 9, 2024

View reviewed changes

onnxruntime/core/mickey/cutlass_ext/q4gemm/device/quantb_gemm.h Outdated Show resolved Hide resolved

yufenglee reviewed Jan 9, 2024

View reviewed changes

onnxruntime/core/mickey/cutlass_ext/q4gemm/device/quantb_gemm.h Show resolved Hide resolved

yufenglee reviewed Jan 9, 2024

View reviewed changes

onnxruntime/core/mickey/cutlass_ext/q4gemm/device/quantb_gemm.h Outdated Show resolved Hide resolved

chenfucn added 4 commits January 26, 2024 17:48

adding cuda kernel with tests

9907599

add compilation flag

7ca652c

require cuda 11.4 for cutlass

93ac7e3

fix comments and rebase on main

cf39757

chenfucn force-pushed the cfu_kernel branch from 9c92e1a to cf39757 Compare January 26, 2024 18:08

github-advanced-security bot found potential problems Jan 26, 2024

View reviewed changes

onnxruntime/test/cuda_host/blkq4_fp16_quant_sm80.h Fixed Show fixed Hide fixed

refactor blkq4 gemm quant input generation

73679d3

github-advanced-security bot found potential problems Jan 30, 2024

View reviewed changes

onnxruntime/test/providers/cuda/test_cases/blkq4_fp16_gemm_sm80.h Fixed Show fixed Hide fixed

onnxruntime/test/providers/cuda/test_cases/blkq4_fp16_gemm_sm80_test.cc Fixed Show fixed Hide fixed

lint

423aa1f

chenfucn force-pushed the cfu_kernel branch from 34adf5d to 423aa1f Compare January 30, 2024 18:20

chenfucn added 2 commits January 30, 2024 18:36

conflict with main

40de1a1

remove redundent test function

2d67bea

chenfucn force-pushed the cfu_kernel branch from efe3643 to 2d67bea Compare February 6, 2024 17:44

yufenglee reviewed Feb 8, 2024

View reviewed changes

onnxruntime/core/mickey/cutlass_ext/q4gemm/kernel/quantb_gemm.h Outdated Show resolved Hide resolved

yufenglee reviewed Feb 8, 2024

View reviewed changes

onnxruntime/core/mickey/blk_q4/f16_gemm_sm80.h Show resolved Hide resolved

yufenglee reviewed Feb 8, 2024

View reviewed changes

onnxruntime/core/mickey/cutlass_ext/q4gemm/warp/quantb_meta_mma_tensor_op_tile_iterator.h Outdated Show resolved Hide resolved

yufenglee reviewed Feb 8, 2024

View reviewed changes

onnxruntime/core/mickey/cutlass_ext/q4gemm/warp/quantb_meta_mma_tensor_op_tile_iterator.h Outdated Show resolved Hide resolved

yufenglee reviewed Feb 12, 2024

View reviewed changes

onnxruntime/core/mickey/cutlass_ext/q4gemm/warp/quantb_mma_tensor_op.h Outdated Show resolved Hide resolved

fix mis-spell and comments

18bf463

yufenglee reviewed Feb 15, 2024

View reviewed changes

onnxruntime/core/mickey/cutlass_ext/q4gemm/warp/quantb_meta_mma_tensor_op_tile_iterator.h Outdated Show resolved Hide resolved

yufenglee reviewed Feb 16, 2024

View reviewed changes

onnxruntime/core/mickey/cutlass_ext/q4gemm/warp/quantb_meta_mma_tensor_op_tile_iterator.h Show resolved Hide resolved

yufenglee reviewed Feb 16, 2024

View reviewed changes

onnxruntime/core/mickey/cutlass_ext/q4gemm/warp/quantb_meta_mma_tensor_op_tile_iterator.h Show resolved Hide resolved

yufenglee reviewed Feb 20, 2024

View reviewed changes

onnxruntime/core/mickey/cutlass_ext/q4gemm/warp/quantb_mma_tensor_op.h Outdated Show resolved Hide resolved

yufenglee reviewed Feb 20, 2024

View reviewed changes

onnxruntime/core/mickey/cutlass_ext/q4gemm/warp/quantb_mma_tensor_op.h Outdated Show resolved Hide resolved

yufenglee reviewed Feb 20, 2024

View reviewed changes

onnxruntime/core/mickey/cutlass_ext/q4gemm/warp/quantb_meta_mma_tensor_op_tile_iterator.h Outdated Show resolved Hide resolved

yufenglee reviewed Feb 20, 2024

View reviewed changes

onnxruntime/core/mickey/cutlass_ext/q4gemm/warp/quantb_meta_mma_tensor_op_tile_iterator.h Outdated Show resolved Hide resolved

yufenglee reviewed Feb 20, 2024

View reviewed changes

onnxruntime/core/mickey/cutlass_ext/q4gemm/warp/quantb_meta_mma_tensor_op_tile_iterator.h Outdated Show resolved Hide resolved

chenfucn added 4 commits February 23, 2024 18:28

variable and type names

7d5d5ca

ptx for row blocking no zero-point

b9f9cb7

optimize column block dequant

31a602f

lint

1477c01

yufenglee approved these changes Mar 5, 2024

View reviewed changes

chenfucn merged commit 06e684c into microsoft:main Mar 5, 2024
91 of 94 checks passed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Adding cuda kernel (optimized for sm80) for block-wise 4b quantized float 16 GEMM. #18619

Adding cuda kernel (optimized for sm80) for block-wise 4b quantized float 16 GEMM. #18619

chenfucn commented Nov 29, 2023

yufenglee left a comment

Adding cuda kernel (optimized for sm80) for block-wise 4b quantized float 16 GEMM. #18619

Adding cuda kernel (optimized for sm80) for block-wise 4b quantized float 16 GEMM. #18619

Conversation

chenfucn commented Nov 29, 2023

Description

Motivation and Context

Note:

yufenglee left a comment

Choose a reason for hiding this comment