From ba0158b58435328e86d72a63a49d9fa11c44c222 Mon Sep 17 00:00:00 2001
From: wildkid1024 <wildkid1024@gmail.com>
Date: Thu, 12 Dec 2024 00:19:26 +0800
Subject: [PATCH] add ladder

---
 docs/index.md | 7 +++++++
 1 file changed, 7 insertions(+)

diff --git a/docs/index.md b/docs/index.md
index 5dd6e38..982d0c5 100644
--- a/docs/index.md
+++ b/docs/index.md
@@ -96,6 +96,13 @@
 ### Towards Efficient Generative Large Language Model Serving: A Survey from Algorithms to Systems[Arixv'23][CMU]
  - 见论文[LLM_Serving_Survey](LLM_Serving_Survey.md)
 
+### Ladder: Enabling Efficient Low-Precision Deep Learning Computing through Hardware-aware Tensor Transformation[OSDI'24][MS]
+- 基于3点观察：1. 越来越多的量化类型 2. 硬件对量化支持并不丰富 3. 低精度计算并不高效
+- 提出了tType和tTile分别表示数据类型和分片，将tTile作为最小的计算单位，可以表示任意位数
+- 解耦计算和存储，pipeline分为load、conmpute和store三个阶段，有Slice、Map、Pad、Convert等几种变换
+- 引入了更大的搜索空间，1. 根据硬件带宽分配作为提示 2. 使用现有的tvm调度方法 3. 添加变换
+
+ 
 ## 模型优化
 ### FastFormers: Highly Efficient Transformer Models for Natural Language Understanding[arxiv'20][MSRA]
 - msra文章，但是只是单纯做了模型裁剪、蒸馏和量化，是一篇纯实验结果堆的文章