Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

dive-into-prml #100

Open
3 tasks done
AmourWaltz opened this issue Dec 7, 2022 · 10 comments
Open
3 tasks done

dive-into-prml #100

AmourWaltz opened this issue Dec 7, 2022 · 10 comments

Comments

@AmourWaltz
Copy link

你是否已经阅读并同意《Datawhale开源项目指南》?

你是否已经阅读并同意《Datawhale开源项目行为准则》?

项目简介

  本项目是基于 Bishop 的《Pattern Recognition and Machine Learning》(以下简称 PRML)的学习笔记和导读教程,也是作者学习过程中对模式识别、机器学习作出的系统性总结资料。

  机器学习是当下最热门的方向之一,很多从事相关工作研究的伙伴都希望能在该领域更进一步,而对基础知识的掌握程度往往决定了个人能企及的成就上限,正所谓水之积也不厚,则其负大舟也无力。于是我选择了素有机器学习领域“圣经”之称的 Bishop 的 PRML 作为主要资料,并坚持进行学习笔记的写作整理,后来逐渐决定做一个基于 PRML 的开源项目。 本项目取名 Dive into PRML,以一个初学者的角度,深入浅出,构建系统性的知识框架。一方面 PRML 毫无疑问是一本值得深究的经典之作;另一方面,本项目也不局限于 PRML 这本书,会引入一些近年来相关的方法作补充,努力打造一个新的机器学习教程。

  项目计划分为试行版,完整版,发行版三个版本,具体可参见项目实施,先以 PRML 学习笔记的形式呈现,而后精益求精,结合其他资料融会贯通,自成体系,做出一份完整的教程,作为我学术生涯的一项重要成果而收官。 行远自迩,笃行不怠,希望自己能把这份初心坚持到底,有所建树,同时也能为中国开源事业贡献绵薄之力。

立项理由

  当下正值机器学习,深度学习的浪潮,很多研究工作都在如火如荼的进行。 机器学习正因其应用广泛,性能高效,落地价值高,广受各行业的青睐。 工欲善其事,必先利其器,以周志华老师《机器学习》,李航老师《统计学习方法》等书为代表的优秀读本好评如潮,吸引了很多初学者快速探索新领域; 此外,素有机器学习领域“圣经”之称的 Bishop 的《Pattern Recognition and Machine Learning》等国外经典教材,则更偏重理论推导和数学基础,适配于进阶科研任务的需求。

  作为一名在读博士研究生,我本科期间就对机器学习的研究神往已久,而后选择了自然语言处理和语音识别作为研究方向。 我在本科阶段只学过一门《模式识别》课程,课时较短,仅初步了解了多层感知器,支持向量机,主成分分析等基础算法,并未接触过多理论推导,总觉意犹未尽。 后来博士入学前试读了 PRML,逐渐被这本书严谨详实的推导所吸引。 然而此书内容晦涩难懂,初学者往往鲜克有终,我将难点总结如下:

  • 成本上,跨度大,周期长,很容易出现看后面忘前面,学习不到位的问题,如果不是作为必修课强制性的按章节学习,单靠自学极易感到枯燥乏味,极易被浇灭满腔学习热情,最终半途而废;
  • 排版上,本书和主流教材差别甚大,像西瓜书等教材往往都会在一个章节精讲一种模型,并辅以习题或编程作业以快速掌握;而 PRML 的章节安排更加宏观,内容庞大,更像是从数学原理的角度自下而上的学习,讲得也更深,而几乎所有模型都会应用贝叶斯方法推导一遍也是其一大特色,对于习惯国内教材路线的伙伴可能会有所不适,其配套习题也是以对应章节的推导证明为主;
  • 内容上,本书出版已逾十余载,在各种方法日新月异的今天,需要不断纳新;并且本书不少方法略显过时,在学习过程中似有蛇足之嫌;
  • 语言上,原版是英文,虽已有大神做了通篇翻译,但还是推荐想要认真研读的同学读原本。

  我在起始阶段亦颇费周折,后来总算初窥门径,为了夯实基础,提高学术能力,以及吸引更多志同道合的伙伴学习交流,通过在网上写学习笔记的博客分享,颇有所获。为了夯实基础,提高学术能力,以及吸引更多志同道合的伙伴学习交流,我决定以 PRML 的解读为切入,结合最新的研究方法,写一部机器学习笔记教程。 后来我受到 Datawhale 南瓜书的启发,萌生了做一个开源项目的想法,便决定以 PRML 的解读为切入,并融合最新的研究方法,写一部开源的机器学习教程,既作为自我监督,在求学之路上精益求精,也作为开源资料,帮助更多小伙伴高效学习,共同进步。

  将这个项目命名为 Dive-into-PRML,一方面 PRML 毫无疑问是一本值得深究的经典之作,对于习惯国内教材的同学而言,这本书可以从一个全新的视角,深究机器学习中的最本质的理论推导,提高个人的学术素养和修为。很多有心从事科研的伙伴都曾因理论匮乏在写作时捉襟见肘,或因视野局限苦于找不到研究方向,以这本书深度和广度,足以裨补阙漏,有所广益;另一方面,本项目也不局限于 PRML 这本书,而是放眼整个模式识别与机器学习领域,除了对原书难点做解读外,还会引入近年来新兴的方法模型,如生成模型,以及原书缺少的机器学习的重要基础理论,如信息论等,力求精益求精,融会贯通,努力打造一个与时俱进,富有趣味性和挑战性的机器学习教程。

  经济基础决定上层建筑,只有牢牢掌握基础,才能在这一领域随心所欲,无往不利。 正如同武侠世界的内功修为,如郭靖,杨过等大侠,在深厚内力加持下,学习任何武功都是信手拈来,飞花摘叶,俱可伤敌,再配上各种绝世武学,足以号令天下,莫敢不从。 我相信 PRML 的笔记教程将会是一个很有价值的项目,让很多伙伴受益匪浅,也是对自己学术能力的提升肯定,必能成为自己学术生涯一个值得骄傲的闪光点。

项目受众

  1. 机器学习相关专业在读本科生,研究生,从业人员等;
  2. 有意学习 PRML 的同学,提高机器学习基础能力。

项目亮点

一方面 PRML 毫无疑问是一本值得深究的经典之作,对于习惯国内教材的同学而言,这本书可以从一个全新的视角,深究机器学习中的最本质的理论推导,提高个人的学术素养和修为。很多有心从事科研的伙伴都曾因理论匮乏在写作时捉襟见肘,或因视野局限苦于找不到研究方向,以这本书深度和广度,足以裨补阙漏,有所广益;另一方面,本项目也不局限于 PRML 这本书,而是放眼整个模式识别与机器学习领域,除了对原书难点做解读外,还会引入近年来新兴的方法模型,如生成模型,以及原书缺少的机器学习的重要基础理论,如信息论等,力求精益求精,融会贯通,努力打造一个与时俱进,富有趣味性和挑战性的机器学习教程。

项目规划

项目进展
Github地址:https://github.com/AmourWaltz/Dive-into-PRML

1.目录

  • 基础篇 Basis

    • [1 线性回归 Linear Regression]
      • [1.1 线性基函数模型 Linear Basis Function Model]
      • [1.2 最大似然估计 Maximum Likelihoood Estimation]
      • [1.3 最小均方差 Minimum Square Error]
      • [1.4 梯度下降法 Gradient Desent]
      • [1.5 解析法 Analytic Method]
    • [2 线性分类 Linear Classification]
      • [2.1 线性判别分析 Linear Discriminate Analysis]
      • [2.2 Fisher分类器 Fisher Classifier]
      • [2.3 感知器算法 Perceptron Algorithm]
      • [2.4 判别式 Logistic 回归 Discrminate Logistic Regression]
      • [2.5 生成式 Logistic 回归 Generative Logistic Regression]
      • [2.6 广义线性模型 Generalized Linear Model]
    • [3 学习理论 Learning Theory]
      • [3.1 过拟合 Overfitting]
      • [3.2 正则化 Regularization]
      • [3.3 模型特征选择 Model Feature Selection]
      • [3.4 偏差与方差 Bias and Variance]
    • [4 信息论 Information Theory]
      • [4.1 信息熵 Information Entropy]
      • [4.2 熵的物理意义 Entropy in Physics]
      • [4.3 相对熵 Relative Entropy]
      • [4.4 互信息 Mutual Information]
    • [5 概率分布 Probability Distribution]
      • [5.1 贝叶斯概率 Bayes Probability]
      • [5.2 Beta分布 Beta Distribution]
      • [5.3 狄利克雷分布 Dirichlet Distribution]
      • [5.4 高斯分布 Gaussian Distribution]
  • 进阶篇 Advance

    • [6 神经网络 Neural Networks]
    • [7 核方法 Kernel Method]
    • [8 支持向量机 Support Vector Machine]
    • [9 图模型 Graph Models]
    • [10 期望最大化算法 EM Algorithm]
    • [11 变分推断 Variational Inference]
    • [12 蒙特卡罗采样 Monte Carlo Sampling]
    • [13 主成分分析 Principal Component Analysis]
    • [14 隐马尔科夫模型 Hidden Markov Model]

2.各章节负责人

薛博阳,编写过程中招募感兴趣的同学

3.各章节预估完成日期
4.可预见的困难

  此前我已系统性的初学了 PRML 部分内容,并在网上写了不少笔记文章,受到周围同学的肯定支持。后来决定进一步完善并发展成开源项目,
现计划分为以下三个版本实施,并对每一版特点作出陈述:

  • 试行版:此版本偏基础教程,旨在为想要进军 PRML 的初学者提供一个可参考的学习路线和笔记整理,预计在 2023 年上半年之前完成。
    1. 针对 PRML 内容繁冗复杂,我采用了一套“剪枝”的泛读策略,把重心放在每章偏基础,应用广泛的内容,旨在快速构建系统知识框架,避免因进度太慢失去学习热情,跳过的大都是生僻难点,留作下版本精读时深入探究;
    2. 针对 PRML 偏数学证明,我会尽量保留精华部分,对关键公式推导以加以解读,并探究公式背后的动机,这也是 PRML 相比国内主流教材的一大特色,相信每一个学习的伙伴,无不为其公式推导的魅力所折服;
    3. 针对 PRML 成书较久,很多模型近年来的发展未能涵盖,尤其是在很多机器学习模型基础上发展的深度学习模型,因此我也会适当加入部分深度学习相关内容作为扩充,使整个知识体系更完善。
    4. 试行版基础篇并未按照原书排版,我以更易上手的线性回归模型作为切入,对前面章节知识点进行重排,每章都以问题摘要的形式引入,并且注明对应原书的章节,方便读者参考。
  • 完整版:此版本为进阶版本,旨在为想要深入探究 PRML 以及机器学习相关从业和科研工作者提供一份的进阶读本,也是我整个博士生涯对机器学习的总结,预计在 2025 年结束前完成。
    1. 针对试行版跳过的部分,这一版会进行详细的查缺补漏,主要针对原书图模型之后的章节,结合多方资料以及这些模型近年的发展,融会贯通,精益求精;
    2. 针对 PRML 偏理论少实践,我后续计划用 Python 配套实现书中大部分章节的模型;
    3. 完整版也将不再局限于 PRML 中的内容,如今机器学习更新换代飞快,需要不断更新完善,我希望做到青出于蓝,自成一家,总结出一套属于我自己的资料解读和知识体系。
  • 发行版:虽然现在妄言出版书籍还为时尚早,不过既然决心要把这项计划躬行到底,便应当有所追求,我做这个项目不是简单的对现有教材生搬硬套,拾人牙慧,而是希望以一份独创的视角,以 PRML 为基础,去建立一套完善的知识体系。希望最终以书籍形式出版发行,这也是自己学术追求上的一个夙愿。

项目负责人

成员 简介 主页
薛博阳 项目负责人,香港中文大学博士在读 Github, 知乎

备注:发起立项申请后DOPMC将会在 72h 之内给出答复,如超时未答复请添加DOPMC负责人微信(微信号:at-Sm1les)问询~

  • 我已知悉上述备注
@ZhikangNiu
Copy link

同意!

1 similar comment
@qiwang067
Copy link

同意!

@ruyiluo
Copy link

ruyiluo commented Dec 10, 2022

同意

2 similar comments
@mba1398
Copy link

mba1398 commented Dec 10, 2022

同意

@GYHHAHA
Copy link

GYHHAHA commented Dec 10, 2022

同意

@finlay-liu
Copy link

good

@skywateryang
Copy link

同意

3 similar comments
@andongBlue
Copy link

同意

@zhanhao93
Copy link

同意

@Sm1les
Copy link
Contributor

Sm1les commented Dec 26, 2022

同意

@Sm1les Sm1les changed the title Dive-into-PRML dive-into-prml Sep 1, 2023
@Sm1les Sm1les added the 立项 label Dec 14, 2023
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment