Skip to content

Latest commit

 

History

History
132 lines (98 loc) · 8.39 KB

README.md

File metadata and controls

132 lines (98 loc) · 8.39 KB

LLM notes, including model inference, transformer model structure, and lightllm framework code analysis notes.

一 transformer 模型

1.1 transformer 系列模型

1.2 LLM 性能分析

二 大语言模型压缩

三 大语言模型推理及部署(服务化)

3.1 LLM 综合性能分析

3.2 LLM 推理优化-算法层面

3.3 LLM 推理服务框架解析

LLM 推理服务框架技术总结和源码解析:

DeepSpeed 框架学习笔记

3.4 系统优化方法

图优化、算子融合、深度学习推理框架系统层面的优化。

3.5 LLM 可视化

四 高性能计算

4.1 triton 笔记

4.2 cuda 笔记

4.3 高性能编程学习资料推荐

英伟达 gpu cuda 编程语法和特性学习资料推荐:

  • GPU Architecture and Programming: 了解 GPU 架构和 cuda 编程的入门文档资料,学完可以理解 gpu 架构的基本原理和理解 cuda 编程模型(cuda 并行计算的基本流程)。建议当作学习 cuda 高性能计算编程的第一篇文档(文章)。
  • CUDA Tutorial: CUDA 教程,分成四部分:CUDA 基础、GPU 硬件细节、最近的特性和趋势和基于任务的编程实例,提供了完整清晰的 PDF 文档和 cuda 代码实例。建议当作系统性学习 cuda 编程的教程
  • learn-cuda: 完整的 cuda 学习教程,包含高级异步方法内容,特点是有性能实验的代码实例。建议当作学习 cuda 高级特性的教程。
  • CUDA C++ Programming Guide:内容很全,直接上手学习比较难,建议当作查缺补漏和验证细节的 cuda 百科全书,目前版本是 12.6。
  • 《CUDA C 编程权威指南》:翻译的国外资料,说实话很多内容翻译的非常不行,我最开始跟着这个学习的,学了一周,只是了解了线程、内存概念和编程模型的概述,但是细节和系统性思维没学到,而且翻译的不行,内容也比较过时,完全不推荐,我已经替大家踩过坑了。
  • 《CUDA 编程:基础与实践_樊哲勇》:国内自己写的教材,我查资料时候挑着看了一点,基本逻辑是通的,虽然很多原理、概念都讲的特别啰嗦,但实践需要的关键知识点都有讲到,想学中文教程的,可以当作当作了解一个方向的快速阅读资料。
  • CUDA-Kernels-Learn-Notes: CUDA 内核编程笔记及实战代码,有很强的实践性,后期可以重点学习,我也准备认真看下代码和文档。

cuda/triton 编写 kernel 笔记资料:

  • 最基本的通用矩阵乘法(gemm):https://zhuanlan.zhihu.com/p/657632577
  • kernl: 提供了一些 llm 的 triton 版 kernels
  • unsloth: Llama 3.2 的微调框架,Gemma LLMs 速度提高 2-5 倍,内存减少 80%内核基于 triton 实现。

参考资料