-
Notifications
You must be signed in to change notification settings - Fork 59
Commit
This commit does not belong to any branch on this repository, and may belong to a fork outside of the repository.
- Loading branch information
1 parent
d5dd49e
commit 9f8d2e4
Showing
3 changed files
with
30 additions
and
28 deletions.
There are no files selected for viewing
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -1,21 +1,21 @@ | ||
# 前言 | ||
强化学习已经是一门很老的内容了,这从它被列为和监督学习与无监督学习并列的三大基本机器学习算法就可以看出来。但是在和深度学习结合后,强化学习焕发出了属于它的第二春。 | ||
|
||
虽然如此,但笔者还是必须提醒各位读者,强化学习相较于CV/NLP来说,仍然是一个非常冷门的方向,这不是没有原因的。总结原因如下: | ||
|
||
①强化学习概念繁多芜杂,并且没有办法绕开:作为一个研究强化学习的人,你得理解整个交互过程,绕不开的概念包括但不限于:智能体(agent)、环境(environment)、状态(state)、动作(action) | ||
1. 强化学习概念繁多芜杂,并且没有办法绕开:作为一个研究强化学习的人,你得理解整个交互过程,绕不开的概念包括但不限于:智能体(agent)、环境(environment)、状态(state)、动作(action)、奖励(reward)、动作价值函数(Action-Value Function)、状态价值函数(State-Value Function)等。这足以使一个初学者头大。 | ||
|
||
、奖励(reward)、动作价值函数(Action-Value Function)、状态价值函数(State-Value Function)等。这足以使一个初学者头大。 | ||
2. 强化学习涉及的数学知识较为高深,需要奠定较好的数理基础才能理解公式以及概念。马尔可夫过程作为强化学习最基本的模型,所需的前置知识包括以下内容: | ||
1. 概率论与数理统计,用于描述MDP模型。 | ||
2. 线性代数,用向量来描述状态与动作。 | ||
3. 统计学理论,众多算法都是基于统计学推导出来的。 | ||
4. 最优化理论,众多算法都属于优化算法的范畴。 | ||
5. 微积分,这是所有机器学习的内容都需要掌握的知识。 | ||
|
||
②强化学习涉及的数学知识较为高深,需要奠定较好的数理基础才能理解公式以及概念。马尔可夫过程作为强化学习最基本的模型,所需的前置知识包括以下内容:1.概率论与数理统计,用于描述MDP模型。 | ||
如果你不喜欢推导公式,那么强化学习对你来说可能并不是那么适合。 | ||
|
||
2.线性代数,用向量来描述状态与动作。 3.统计学理论,众多算法都是基于统计学推导出来的。 4.最优化理论,众多算法都属于优化算法的范畴。 5.微积分,这是所有机器学习的内容都需要掌握的知识。 | ||
3. 强化学习应用范围以及未来就业市场较为单一。研究强化学习的方向倒是很多,博弈论、资源分配优化、游戏、推荐等领域都能见到强化学习的身影。但是根据笔者的观察,强化学习将来的就业岗位较为单一,一般只有游戏公司招收强化学习相关的岗位。 | ||
|
||
如果你不喜欢推导公式,那么强化学习对你来说可能并不是那么适合。 | ||
|
||
③强化学习应用范围以及未来就业市场较为单一。研究强化学习的方向倒是很多,博弈论、资源分配优化、游戏、推荐等领域都能见到强化学习的身影。但是根据笔者的观察,强化学习将来的就业岗位较为单一,一般只有 | ||
|
||
游戏公司招收强化学习相关的岗位。 | ||
|
||
④强化学习固有的弊端,包括但不限于采样效率令人堪忧、奖励函数的设计过于玄学、学术领域的严重灌水以及源码的难以复现等。这对初学者造成了极大的困扰。 | ||
4. 强化学习固有的弊端,包括但不限于采样效率令人堪忧、奖励函数的设计过于玄学、学术领域的严重灌水以及源码的难以复现等。这对初学者造成了极大的困扰。 | ||
|
||
综上所述,强化学习是一个“有坑”的领域,入坑需谨慎!!!当然了,如果只是喜欢训练智能体“打游戏”,那么平台上存在着众多的源代码项目可供参考,祝你玩得愉快! |
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -1,33 +1,34 @@ | ||
①书籍:周志华《机器学习》(西瓜书)关于强化学习的部分,作为概念引导和初步理解。 | ||
# 深度强化学习基础资料推荐 | ||
1. 书籍:周志华《机器学习》(西瓜书)关于强化学习的部分,作为概念引导和初步理解。 | ||
|
||
②书籍:Sutton《Reinforcement Learning》,强化学习圣经,推荐作为参考书查阅而不是硬啃。 | ||
2. 书籍:Sutton《Reinforcement Learning》,强化学习圣经,推荐作为参考书查阅而不是硬啃。 | ||
|
||
③网课:王树森《Deep Reinforcement Learning》,课件是英文的授课是中文的,概念讲的非常清楚而且形象,强推。 | ||
3. 网课:王树森《Deep Reinforcement Learning》,课件是英文的授课是中文的,概念讲的非常清楚而且形象,强推。 | ||
|
||
Github课件链接:<https://github.com/wangshusen/DRL> | ||
Github课件链接:<https://github.com/wangshusen/DRL> | ||
|
||
网课链接:[深度强化学习-王树森(Youtube)](https://www.youtube.com/watch?v=vmkRMvhCW5c&list=PLvOO0btloRnsiqM72G4Uid0UWljikENlU)。 | ||
网课链接:[深度强化学习-王树森(Youtube)](https://www.youtube.com/watch?v=vmkRMvhCW5c&list=PLvOO0btloRnsiqM72G4Uid0UWljikENlU)。 | ||
|
||
④网课:CS285,无论是csdiy还是主流资料推荐的网课,但是笔者的英语听力不怎么能跟上老师上课的语速,也没有找到有中文字幕的版本,推荐作为进阶资料使用。 | ||
4. 网课:CS285,无论是csdiy还是主流资料推荐的网课,但是笔者的英语听力不怎么能跟上老师上课的语速,也没有找到有中文字幕的版本,推荐作为进阶资料使用。 | ||
|
||
项目链接:[CS285:Deep Reinforcement Learning](http://rail.eecs.berkeley.edu/deeprlcourse/) | ||
项目链接:[CS285:Deep Reinforcement Learning](http://rail.eecs.berkeley.edu/deeprlcourse/) | ||
|
||
⑤书籍+网课+实操:张伟楠《Hands On RL》(动手学强化学习),有书+有代码+有网课,不错的整合。但是配套网课质量只能说还可以,代码可以看看。 | ||
5. 书籍+网课+实操:张伟楠《Hands On RL》(动手学强化学习),有书+有代码+有网课,不错的整合。但是配套网课质量只能说还可以,代码可以看看。 | ||
|
||
Github主页:<https://github.com/boyu-ai/Hands-on-RL> | ||
Github主页:<https://github.com/boyu-ai/Hands-on-RL> | ||
|
||
电子书版:[动手学强化学习](https://hrl.boyuai.com/chapter/intro) | ||
电子书版:[动手学强化学习](https://hrl.boyuai.com/chapter/intro) | ||
|
||
网课链接:[伯禹学习平台](https://www.boyuai.com/elites/course/xVqhU42F5IDky94x/lesson/O1N8hUTUb4HZuchPSedea) | ||
网课链接:[伯禹学习平台](https://www.boyuai.com/elites/course/xVqhU42F5IDky94x/lesson/O1N8hUTUb4HZuchPSedea) | ||
|
||
⑥项目:OpenAI Spinning up,强推,动手做项目以及体会强化学习的快乐才是真谛所在。 | ||
6. 项目:OpenAI Spinning up,强推,动手做项目以及体会强化学习的快乐才是真谛所在。 | ||
|
||
项目主页:[OpenAI Spinning up](https://spinningup.openai.com/en/latest/index.html) | ||
项目主页:[OpenAI Spinning up](https://spinningup.openai.com/en/latest/index.html) | ||
|
||
⑦资源:机器之心 SOTA!模型资源站,一站式查看原理+概论+代码+论文原文。 | ||
7. 资源:机器之心 SOTA!模型资源站,一站式查看原理+概论+代码+论文原文。 | ||
|
||
网站主页:[机器之心 SOTA!](https://www.jiqizhixin.com/columns/sotaai) | ||
网站主页:[机器之心 SOTA!](https://www.jiqizhixin.com/columns/sotaai) | ||
|
||
⑧论坛:RLChina,讲课的确实都是大牛,但是感觉略有枯燥。有时间表安排,适合希望自律、有规划地学习的同学。 | ||
8. 论坛:RLChina,讲课的确实都是大牛,但是感觉略有枯燥。有时间表安排,适合希望自律、有规划地学习的同学。 | ||
|
||
论坛主页:[RLChina](http://rlchina.org/) | ||
论坛主页:[RLChina](http://rlchina.org/) |
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters