Cmma major refactor #101

louisfd · 2024-09-06T20:25:16Z

Cmma matmul is now much more flexible, and seemingly faster with some newly available configurations.

It seems there is still a bug if b_k > 32, but will work well at b_k = 16 [EDIT: solved. Bugs only at very large values, like 128x32, in f32, or 128x64 in f16, which is normal]

Fix #12
Fix #15 (after some research it seems like shared memory is the way to go. But at least now it's not of size B_M*B_N but rather of size size of tile * number of coops)

…_generalize

…l into refactor/cmma_generalize

…o feat/reuse_out_smem

louisfd and others added 30 commits August 20, 2024 15:03

minor refactor

b7064e1

change accumulators for sequence

9527d3f

add failing test

eb22cda

Merge branch 'main' into refactor/cmma_generalize

e9d473d

wip

72b3f89

:wq Merge branch 'main' of github.com:tracel-ai/cubecl

700c0cf

Merge branch 'main' into refactor/cmma_generalize

55b5fd3

wip

ec83d3c

wip

7a4f3e4

wip

5ed5caa

wip

f8aa418

wip

335e4c2

wip

6d20a18

wip

da02986

coop and lane independant from unit pos

9e917d5

custom block size

561f71c

num accumulators

9a6fc84

fix k loop test

6dbf866

allowing any config wip

3aacdf6

merge

c55dd64

generalize fragment to sm

b6d778d

Merge branch 'main' of github.com:tracel-ai/cubecl into refactor/cmma…

e37d9cd

…_generalize

Merge branch 'refactor/cmma_generalize' of github.com:tracel-ai/cubec…

c7abc89

…l into refactor/cmma_generalize

sm max in bytes

5831bd1

wip

730e190

Merge branch 'refactor/cmma_generalize' of github.com:tracel-ai/cubec…

644b4ea

…l into refactor/cmma_generalize

add index of error

0349242

refactor load and write tests

def320f

refactor compute loop test

99dc7dc

Merge branch 'refactor/cmma_generalize' of github.com:tracel-ai/cubec…

f71a959

…l into refactor/cmma_generalize

louisfd and others added 14 commits September 5, 2024 15:41

refactor vec

a0db0e6

fix equation

2f64b5d

reused smem

c97651d

Merge branch 'refactor/cmma_generalize' into feat/reuse_out_smem

ff9cb68

works

e1cb240

re3factor wip

6abeaaf

wip refactor

68e921a

wip refactor runtime info

a87e0f1

runtime info wip

68ae416

fix mixed args

9e6bbb2

complete runtime info refactor

a7e2ed3

still a bug when b_k>16

ecfc8c4

clippy

71414af

merge main

0b6aeb7

louisfd mentioned this pull request Sep 6, 2024

Refactor/cmma generalize #94

Closed

louisfd and others added 11 commits September 6, 2024 16:31

rename confusing lane_dim

69d5e24

fix mistake

e2e4283

little refactor

b99c945

little refactor

5a9eb11

fix 32x32 test

87c3d7c

fmt

6275052

merge main

0f180fc

fix merge

903a84d

ignore failing

6e83f33

Merge branch 'main' into feat/reuse_out_smem

e0b59c9

Merge branch 'feat/reuse_out_smem' of github.com:tracel-ai/cubecl int…

e5865b5

…o feat/reuse_out_smem

louisfd merged commit d90d529 into main Sep 9, 2024
4 of 7 checks passed

louisfd deleted the feat/reuse_out_smem branch September 9, 2024 20:21

nathanielsimard restored the feat/reuse_out_smem branch September 9, 2024 21:40

nathanielsimard deleted the feat/reuse_out_smem branch September 9, 2024 21:43

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Cmma major refactor #101

Cmma major refactor #101

louisfd commented Sep 6, 2024 •

edited

Loading

Cmma major refactor #101

Cmma major refactor #101

Conversation

louisfd commented Sep 6, 2024 • edited Loading

louisfd commented Sep 6, 2024 •

edited

Loading