cuda、cublas、cublaslt、cusparse...
cuda实现一些算子
- gemm:cuda实现不同版本的gemm并比较与cublas实现的性能。
- reduce:cuda实现的reduce算法,包括sum、max、min、mean等。
- sgemv:cuda实现sgemv并比较并比较与cublas实现的性能。
- dot_product:cuda实现dot_product并比较与cublas实现的性能。
- element_wise:cuda实现element_wise算子并比较与cublas实现的性能。
- softmax:cuda实现softmax算子。
- activiation: cuda实现一些激活函数。
cublas使用样例
cublaslt使用样例
cusparse使用样例