optimize int4 gemv kernel with cuda #18818

yufenglee · 2023-12-14T05:07:38Z

optimize gemv kernel:

m	n	k	symmetric	latency before(us)	latency after(us)
1	4096	4096	TRUE	15.54	8.82
1	4096	4096	FALSE	15.84	9.89
1	4096	11008	TRUE	42.44	19.4
1	4096	11008	FALSE	44.42	21.48
1	11008	4096	TRUE	34.65	17.46
1	11008	4096	FALSE	35.76	20.87
1	12288	4096	TRUE	39.27	19.73
1	12288	4096	FALSE	40.91	25.2
1	22016	4096	TRUE	65.78	38.81
1	22016	4096	FALSE	67.98	48.36

yufenglee added 4 commits December 14, 2023 05:04

optimize int4 gemv kernel with cuda

bb2a6df

fix CI pipeline

269d8d2

Merge branch 'main' into yufeng/int4_gemv_gpu_opt

b066dde

fix pipeline

1c4e22f

yufenglee force-pushed the yufeng/int4_gemv_gpu_opt branch from 8654f3e to 1c4e22f Compare December 19, 2023 19:50

fix CI

15f7004

chenfucn previously approved these changes Dec 21, 2023

View reviewed changes

fix CI build

299eb1c

yufenglee dismissed chenfucn’s stale review via 299eb1c December 21, 2023 20:47

chenfucn approved these changes Dec 21, 2023

View reviewed changes

yufenglee merged commit 985acda into main Dec 22, 2023
92 of 100 checks passed

yufenglee deleted the yufeng/int4_gemv_gpu_opt branch December 22, 2023 03:32

Provide feedback