Skip to content
Ethan-Chen-plus edited this page Apr 22, 2024 · 7 revisions

项目名称:动手实现LLM中文版 (LLMs From Scratch: Hands-on Building Your Own Large Language Models)


项目介绍

官方PDF源文件: Build a Large Language Model (From Scratch) (Sebastian Raschka).pdf

rasbt/LLMs-from-scratch是一个GitHub项目,提供了一套详细的教程,指导如何从头开始实现类似ChatGPT的大型语言模型(LLM)。这个项目包含了创建GPT-like大语言模型所需的所有代码,覆盖了编码、预训练和微调过程。它不仅是《Build a Large Language Model (From Scratch)》一书的官方代码库,还深入解析了LLM的内部工作原理,并提供了逐步的指导。该项目主要用于教育目的,帮助学习者训练和开发小型但功能性的模型,与创建像ChatGPT这样的大型基础模型的方法相似。其简洁易懂的代码,即使只有PyTorch基础,也能完成大模型的构建,并使读者深入理解大型语言模型的工作原理。


教程目录

  1. 理解大型语言模型
  2. 处理文本数据
    • ch02.ipynb
    • dataloader.ipynb (摘要)
    • exercise-solutions.ipynb
  3. 编写注意力机制
    • ch03.ipynb
    • multihead-attention.ipynb (摘要)
    • exercise-solutions.ipynb
  4. 从零开始实现GPT模型
    • ch04.ipynb
    • gpt.py (摘要)
    • exercise-solutions.ipynb
  5. 使用未标记数据进行预训练
    • ch05.ipynb
    • train.py (摘要)
    • generate.py (摘要)
    • exercise-solutions.ipynb

项目受众与亮点

  • 技术背景:适合有一定编程基础的人员,特别是对大型语言模型(LLM)感兴趣的开发者和研究者。
  • 学习目标:适合那些希望深入了解LLM工作原理,并愿意投入时间从零开始构建和训练自己的LLM的学习者。
  • 应用领域:适用于对自然语言处理、人工智能领域感兴趣的开发者,以及希望在教育或研究环境中应用LLM的人员。
  • 项目亮点
    • 系统化学习:提供了一个系统化的学习路径,从理论基础到实际编码,帮助学习者全面理解LLM。
    • 实践导向:强调实践,让学习者通过实际操作来掌握LLM的开发和训练。
    • 深入浅出:以清晰的语言、图表和示例来解释复杂的概念,使得非专业背景的学习者也能较好地理解。

注:本项目已获得作者官方授权。