《机器学习实战》训练营

课程资料

《机器学习实战》书籍：英文版，中文版
ApacheCN
廖雪峰 Python3 教程
李航《统计学习方法》(链接：https://pan.baidu.com/s/1MSx407RuPCJt5KSej0Yqlg 密码：h74l)
周志华《机器学习》（链接：https://pan.baidu.com/s/1wyqhvJHkI1zHph8RRsm9iw 密码：1475）
机器学习该怎么入门？

课程安排

整个机器学习内容包括：基础、分类、预测、无监督式学习、降维与分布式几大块进行。原则上一周时间完成两章内容，总共计划 12 周时间。

基础：第 1 章

分类：第 1～7 章

预测：第 8～9 章

无监督式学习：第 10～12 章

降维与分布式：第 13～15 章

1. 机器学习基础（第一周）

1.1 Python 基础知识，Numpy、pandas、Matplotlib 等库的简介
1.2 开发环境的搭建：Python3 + Anaconda + Jupyter Notebook
1.3 Jupyter Notebook 使用简介

2. k-近邻算法（第一周）

2.1 k-近邻算法概述
2.2 示例：使用 k-近邻算法改进网站的配对效果
2.3 示例：手写识别系统

3. 决策树（第二周）

3.1 决策树的构造
*3.2 在 Python 中使用 Matplotlib 注解绘制树形图
3.3 测试和存储分类器
3.4 示例：使用决策树预测隐形眼镜类型

4. 朴素贝叶斯（第二周）

4.1 基于贝叶斯决策理论的分类方法
4.2 条件概率
4.3 使用条件概率来分类
4.4 使用朴素贝叶斯进行文档分类
4.5 使用 Python 进行文本分类
4.6 示例：使用朴素贝叶斯过滤垃圾邮件

5. Logistic 回归（第三周）

5.1 基于 Logistic 回归和 Sigmoid 函数的回归
5.2 基于最优化方法的最佳回归系数确定
5.3 示例：从疝气病症预测病马的死亡率

6. 支持向量机（第三周）

6.1 基于最大间隔分隔数据
6.2 寻找最大间隔
6.3 SMO 高效优化算法
6.4 利用完整 Platt SMO 算法加速优化
6.5 在复杂数据上应用核函数
6.6 手写识别问题

7. 利用 AdaBoost 元算法提高分类性能（第四周）

7.1 基于数据多重抽样的分类器
7.2 训练算法：基于错误提升分类器的性能
7.3 基于单层决策树构建弱分类器
7.4 完整 AdaBoost 算法的实现
7.5 测试算法：基于 AdaBoost 的分类
7.6 示例：在一个难数据集上应用 AdaBoost
7.7 非均衡分类问题

8. 预测数值型数据：回归（第四周）

8.1 用线性回归找到最佳拟合直线
8.2 局部加权线性回归
8.3 示例：预测鲍鱼的年龄
8.4 缩减系数来“理解”数据
8.5 权衡偏差和方差
8.6 示例：预测乐高玩具套装的价格

9. 树回归（第五周）

9.1 复杂数据的局部性建模
9.2 连续和离散型特征的树的构建
9.3 将 CART 算法用于回归
9.4 树减枝
9.5 模型树
9.6 示例：树回归于标准回归的比较
*9.7 使用 Python 的 Tkinter 库创建 GUI

10. 利用 K-均值聚类算法对未标注数据分组（第五周）

10.1 K-均值聚类算法
10.2 使用后处理来提高聚类性能
10.3 二分 K-均值算法
10.4 示例：对地图上的点进行聚类

11. 使用 Apriori 算法进行关联分析（第六周）

11.1 关联分析
11.2 Apriori 原理
11.3 使用Apriori 算法来发现频繁集
11.4 从频繁项集中挖掘关联规则
11.5 示例：发现国会投票中的模式
11.6 示例：发现毒蘑菇的相似特征

12. 使用 FP-growth 算法来高效发现频繁项集（第六周）

12.1 FP 树：用于编码数据集的有效方式
12.2 构建 FP 树
12.3 从一颗 FP 树中挖掘频繁项集
12.4 示例：在 Twitter 源中发现一些共现词
12.5 示例：从新闻网站点击流中挖掘

13. 利用 PCA 来简化数据（第七周）

13.1 降纬技术
13.2 PCA
13.3 示例：利用 PCA 对半导体制造数据降维

14. 利用 SVD 简化数据（第七周）

14.1 SVD 的应用
14.2 矩阵分解
14.3 利用 Python 实现 SVD
14.4 基于协调过滤的推荐引擎
14.5 示例：餐馆菜肴推荐引擎
14.6 示例：基于 SVD 的图像压缩

15. 大数据与 MapReduce（第八周）

15.1 MapReduce：分布式计算的框架
15.2 Hadoop 流
*15.3 在 Amazon 网络服务上运行 Hadoop 程序
15.4 MapReduce 上的机器学习
15.5 在 Python 中使用 mrjob 来自动化 MapReduce
15.6 示例：分布式 SVM 的 Pegasos 算法
15.7 你真的需要 MapReduce 吗？

Name		Name	Last commit message	Last commit date
Latest commit History 136 Commits
.vscode		.vscode
Week1		Week1
Week2		Week2
Week3		Week3
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

《机器学习实战》训练营

课程资料

课程安排

1. 机器学习基础（第一周）

2. k-近邻算法（第一周）

3. 决策树（第二周）

4. 朴素贝叶斯（第二周）

5. Logistic 回归（第三周）

6. 支持向量机（第三周）

7. 利用 AdaBoost 元算法提高分类性能（第四周）

8. 预测数值型数据：回归（第四周）

9. 树回归（第五周）

10. 利用 K-均值聚类算法对未标注数据分组（第五周）

11. 使用 Apriori 算法进行关联分析（第六周）

12. 使用 FP-growth 算法来高效发现频繁项集（第六周）

13. 利用 PCA 来简化数据（第七周）

14. 利用 SVD 简化数据（第七周）

15. 大数据与 MapReduce（第八周）

第 1～7 章总结（第九周）

天池 O2O 预测赛（上）（第九周）

第 8～9 章总结（第十周）

天池 O2O 预测赛（下）（第十周）

第 10～12 章总结（第十一周）

第 13～15 章总结（第十一周）

其它机器学习算法（拓展，待定）（第十二周）

About

Releases

Packages

Languages

feijuan/MachineLearningInAction-Camp

Folders and files

Latest commit

History

Repository files navigation

《机器学习实战》训练营

课程资料

课程安排

1. 机器学习基础（第一周）

2. k-近邻算法（第一周）

3. 决策树（第二周）

4. 朴素贝叶斯（第二周）

5. Logistic 回归（第三周）

6. 支持向量机（第三周）

7. 利用 AdaBoost 元算法提高分类性能（第四周）

8. 预测数值型数据：回归（第四周）

9. 树回归（第五周）

10. 利用 K-均值聚类算法对未标注数据分组（第五周）

11. 使用 Apriori 算法进行关联分析（第六周）

12. 使用 FP-growth 算法来高效发现频繁项集（第六周）

13. 利用 PCA 来简化数据（第七周）

14. 利用 SVD 简化数据（第七周）

15. 大数据与 MapReduce（第八周）

第 1～7 章总结（第九周）

天池 O2O 预测赛（上）（第九周）

第 8～9 章总结（第十周）

天池 O2O 预测赛（下）（第十周）

第 10～12 章总结（第十一周）

第 13～15 章总结（第十一周）

其它机器学习算法（拓展，待定）（第十二周）

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages