Skip to content

Commit 86c8538

Browse files
committed
Merge remote-tracking branch 'origin/main'
2 parents 06696ed + 8fde5ba commit 86c8538

1 file changed

Lines changed: 61 additions & 3 deletions

File tree

README.md

Lines changed: 61 additions & 3 deletions
Original file line numberDiff line numberDiff line change
@@ -1,11 +1,69 @@
11

22
# KuiperInfer (自制深度学习推理框架)
3-
**🙋🙋🙋 全新课程,本项目的进阶版-自制大模型推理框架,火热进行中,请加下方微信了解**
4-
5-
> 带你从零写一个支持LLama推理,支持Cuda加速的大模型框架
3+
**我们在本项目的基础上开设了一个全新的课程,《从零自制大模型推理框架》,以下是目录,感兴趣的同学可以扫描二维码了解,欢迎大家参加。**
64

75
<img src="imgs/qa.jpg" width="30%" height="30%">
86

7+
**一、项目整体架构和设计**
8+
9+
> 学习架构思维,防止自己只会优化局部实现
10+
11+
1. 环境的安装和课程简介
12+
2. 资源管理和内存管理类的设计与实现
13+
3. 张量类的设计与实现
14+
4. 算子类的设计与实现
15+
5. 算子的注册和管理
16+
17+
**二、支持LLama2模型结构**
18+
> 本节将为大家补齐算法工程师思维,在算法层面讲解大模型和Transformer的原理之后,开始对LLama2进行支持
19+
20+
21+
6. LLama模型的分析
22+
7. MMap内存映射技术打开大模型的权重文件
23+
8. LLama模型文件的参数和权重载入
24+
9. LLama中各个层的初始化以及输入张量、权重张量的分配和申请
25+
10. 实现大模型中的KV Cache机制
26+
27+
**三、模型的量化**
28+
29+
> 为了减少显存的占用,我们开发了int8模型量化模块
30+
31+
11. 量化模型权重的导出
32+
12. 量化系数和权重的加载
33+
13. 量化乘法算子的实现
34+
35+
**四、Cuda基础和算子实现**
36+
37+
> 带你学Cuda并在实战大模型算子的实现,为大模型推理赋能
38+
39+
14. Cuda基础入门1 - 内容待定
40+
15. Cuda基础入门2 - 内容待定
41+
16. Cuda基础入门3 - 内容待定
42+
17. Cuda基础入门4 - 内容待定
43+
18. RMSNorm算子的Cuda实现
44+
19. Softmax算子的Cuda实现
45+
20. Add算子的Cuda实现
46+
21. Swiglu算子的Cuda实现
47+
22. GEMV算子的Cuda实现
48+
23. 多头注意力机制的Cuda实现
49+
24. 让框架增加Cuda设备的支持和管理
50+
25. 完成Cuda推理流程
51+
52+
**五、用推理框架做点有趣的事情**
53+
54+
26. 文本生成
55+
27. 讲一段小故事
56+
28. 让大模型和你进行多轮对话
57+
58+
59+
**六、学习其他商用推理框架的实现,查漏补缺**
60+
61+
29. LLama.cpp的设计和实现讲解
62+
30. Miopen(AMD出品,对标CUDNN)的设计和实现讲解
63+
31. 总结
64+
65+
66+
967
![](https://github.com/zjhellofss/kuiperinfer/actions/workflows/cmake.yml/badge.svg)
1068

1169
![](./imgs/logo.jpg)

0 commit comments

Comments
 (0)