Skip to content

LLM notes, including model inference, transformer model structure, and lightllm framework code analysis notes

Notifications You must be signed in to change notification settings

harleyszhang/llm_note

Repository files navigation

LLM notes, including model inference, transformer model structure, and lightllm framework code analysis notes.

一 transformer 模型

1.1 transformer 系列模型

1.2 LLM 性能分析

二 大语言模型压缩

三 大语言模型推理及部署(服务化)

3.1 LLM 综合性能分析

3.2 LLM 推理优化-算法层面

3.3 LLM 推理服务框架解析

LLM 推理服务框架技术总结和源码解析:

DeepSpeed 框架学习笔记

3.4 系统优化方法

图优化、算子融合、深度学习推理框架系统层面的优化。

3.5 LLM 可视化

四 高性能计算

4.1 triton 笔记

4.2 cuda 笔记

4.3 高性能编程学习资料推荐

英伟达 gpu cuda 编程语法和特性学习资料推荐:

  • GPU Architecture and Programming: 了解 GPU 架构和 cuda 编程的入门文档资料,学完可以理解 gpu 架构的基本原理和理解 cuda 编程模型(cuda 并行计算的基本流程)。建议当作学习 cuda 高性能计算编程的第一篇文档(文章)。
  • CUDA Tutorial: CUDA 教程,分成四部分:CUDA 基础、GPU 硬件细节、最近的特性和趋势和基于任务的编程实例,提供了完整清晰的 PDF 文档和 cuda 代码实例。建议当作系统性学习 cuda 编程的教程
  • learn-cuda: 完整的 cuda 学习教程,包含高级异步方法内容,特点是有性能实验的代码实例。建议当作学习 cuda 高级特性的教程。
  • CUDA C++ Programming Guide:内容很全,直接上手学习比较难,建议当作查缺补漏和验证细节的 cuda 百科全书,目前版本是 12.6。
  • 《CUDA C 编程权威指南》:翻译的国外资料,说实话很多内容翻译的非常不行,我最开始跟着这个学习的,学了一周,只是了解了线程、内存概念和编程模型的概述,但是细节和系统性思维没学到,而且翻译的不行,内容也比较过时,完全不推荐,我已经替大家踩过坑了。
  • 《CUDA 编程:基础与实践_樊哲勇》:国内自己写的教材,我查资料时候挑着看了一点,基本逻辑是通的,虽然很多原理、概念都讲的特别啰嗦,但实践需要的关键知识点都有讲到,想学中文教程的,可以当作当作了解一个方向的快速阅读资料。
  • CUDA-Kernels-Learn-Notes: CUDA 内核编程笔记及实战代码,有很强的实践性,后期可以重点学习,我也准备认真看下代码和文档。

kernel 编写笔记资料:

  • 最基本的通用矩阵乘法(gemm):https://zhuanlan.zhihu.com/p/657632577
  • kernl: 提供了一些 llm 的 triton 版 kernels
  • unsloth: Llama 3.2 的微调框架,Gemma LLMs 速度提高 2-5 倍,内存减少 80%内核基于 triton 实现。

参考资料

About

LLM notes, including model inference, transformer model structure, and lightllm framework code analysis notes

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published