Skip to content

Commit

Permalink
Add BYOC
Browse files Browse the repository at this point in the history
  • Loading branch information
wildkid1024 committed Nov 23, 2024
1 parent 1047cdc commit c62e121
Show file tree
Hide file tree
Showing 2 changed files with 8 additions and 1 deletion.
7 changes: 7 additions & 0 deletions docs/index.md
Original file line number Diff line number Diff line change
Expand Up @@ -136,6 +136,13 @@
- 悬空张量的内存管理。具体来讲就是将内存分为永久内存和暂时内存,并将训练参数和更新参数要用的最大内存提前分配好,并进行内存复用,可以节省一部分频繁加载卸载的消耗。
- 整体还是偏工程的工作,作为学术的novelty并不那么fancy,不过对于实现还是有些启发的。

### Bring Your Own Codegen to Deep Learning Compiler[Arivx'21][AWS]
- 为了解决不同模型在不同编译器上的部署问题,提出了一个统一的编译器划分框架
- 首先将编译模型分为Host端和加速器端,Host端调用通用的函数,加速器端则使用抵用依赖的指令
- 执行三步操作对图进行划分:1. 基于pattern的划分模式 2. 对划分好的块进行注释 3. 按照执行量的阈值进行划分
- 针对加速的设计主要考虑两点:量化和NCHW转换;针对codegen 使用了3种方式,json、c和特定格式;
- 在runtime时对模型输入输出权重进行管理,可以利用内存重用和cache engine的一些方法

## 模型优化
### FastFormers: Highly Efficient Transformer Models for Natural Language Understanding[arxiv'20][MSRA]
- msra文章,但是只是单纯做了模型裁剪、蒸馏和量化,是一篇纯实验结果堆的文章
Expand Down
2 changes: 1 addition & 1 deletion docs/objectdet/yolov7.md
Original file line number Diff line number Diff line change
@@ -1,4 +1,4 @@
# yolov7
# YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors[CVPR'23][sinica.tw]

![](../imgs/yolov7-1.jpg)
<div align='center'> 图1. 网络架构总览图 </div>
Expand Down

0 comments on commit c62e121

Please sign in to comment.