理解增强学习的一个比较好的方法就是看一些实例和那些影响增强学习发展的可能应用。
- 一个象棋大师走一步棋子。这一决定是规划(预计对手可能的回应与自己对应这些回应的反制)与立即的对棋盘特定位置与移动的渴望的直觉判定结合的结果。
- 一个调节控制器对石油精炼操作各项参数的调整。控制器对产出/成本/质量三者进行权衡获得最优结果,优化的根据就是特定的边际成本而非严格执行工程师最初始时设定的参数值。
- 羚羊幼崽在出生后的前几分钟还需要努力挣扎才能站立起来,半小时后就可以跑20英里的时速。
- 一个移动机器人决定是进入一个新的房间来搜索更多垃圾来收集还是直接寻找最好的路线返回充电站。这些决策都是基于当前的电池电量和机器人之前积累的返回充电站时间和速度的经验。
- 菲尔准备他的早餐。即使这样的日常活动也是一个由条件行为和互联的目标-子目标关系组成的复杂网络:前往橱柜,打开,找到麦片盒子,然后用手够到,抓住,拿到盒子。其他的复杂的、熟练的、交互的一系列行为还包括,拿碗、勺子、奶壶。每一步都包括一系列的眼球移动来获得信息、指引抓取和运动。一连串的决策一直在持续的进行,包括移动物体、是否需要先把东西放餐桌上再取其他东西。每一步都有目标来指引,比如抓住勺子或者去冰箱那里,这些目标又会用来实现进一步的其他目标,比如拿到勺子就可以等麦片做好后开吃,最终的目标则是获得营养。无论他本人是否有这个意识,菲尔在通过获得自己身体的状态信息来决定他对营养的需求、饥饿水平和食物的喜好。
这些例子同时说明了一些十分基础容易被人忽略的特性。都包括一个活跃的进行决策的代理与其周围环境的交互,同时代理也在这样不确定的环境中寻找实现自己目标的方法。代理的行为会对未来的环境状态产生影响(比如下一步棋、精炼厂的储量、机器人的下一个位置与未来的电量),这些环境变化又会进一步的影响未来代理的选择和机会。正确的选择需要考虑间接的、延迟的一系列行动,还可能会需要预见和规划的能力。
同时,所有的例子中,行动的结果不能被直接预测,因此代理必须定期监测环境情况并且采取正确的反应。比如,菲尔倒牛奶到放麦片的碗里的时候必须看着,以免牛奶溢出来。这些例子中,目标都是明确设定的,代理可以利用自己直接感知的信息来判断自己实现目标的进展情况。象棋选手可以知道自己是否赢棋,精炼控制器可以知道石油的产量,移动机器人可以知道什么时候电池耗尽,菲尔也知道是否自己在享受早餐。
在所有的例子中,代理可以随着时间的积累利用自己的经验来改进自己的表现。象棋选手改进自己评估位置的直觉就会提高自己的水平;羚羊幼崽不断提升自己跑步的效率;菲尔能够更加流水线一样的提高做早餐的效率。代理在任务开始时带入的知识(无论是之前相关任务积累的经验或者设计代理时就决定的知识或者是进化的结果)决定了什么是有用的、什么内容易于学习,但是与环境的交互则是调整行为来适应具体任务的特性的必须手段。