西瓜书学习笔记 | 第16章 强化学习

16.1 任务与奖赏

  1. 强化学习(再励学习):在种瓜过程中不断摸索,总结出较好种瓜策略的抽象过程。
    强化学习
  2. 强化学习任务通常用马尔可夫决策过程(Markov Decision Process,简称MDP)来描述:
    (1)机器处于环境E中,==状态空间为X==,其中每个状态x∈X是机器感知到的环境的描述。如在种瓜任务上这就是当前瓜苗长势的描述;
    (2)机器能采取的动作构成了动作空间A。如种瓜过程中有浇水、施不同的肥、使用不同的农药等多种可供选择的动作;
    (3)若某个==动作a==∈A作用在当前状态x上,则潜在的==转移函数P==将使得环境从当前状态按某种概率转移到另一个状态。如瓜苗状态为缺水,若选择动作浇水,则瓜苗长势会发生变化,瓜苗有一定的概率恢复健康,也有一定的概率无法恢复;
    (4)在转移到另一个状态的同时,环境会根据潜在的==“奖赏”(reward)函数R==反馈给机器一个奖赏。如保持瓜苗健康对应奖赏+1,瓜苗凋零对应奖赏-10,最终种出了好瓜对应奖赏+100。
    综合起来,强化学习任务对应了四元组E=<X,A,P, R>,其中P:X x AxX|→IR指定了状态转移概率,R:X xAxX|→IR指定了奖赏;在有的应用中,奖赏函数可能仅与状态转移有关,即R:XxX|→IR。
  3. 给西瓜浇水问题的马尔可夫决策过程:
    给西瓜浇水问题的马尔可夫决策过程
    a:动作
    p:转移概率
    r:返回的奖赏
  4. 机器要做的是通过在环境中不断地尝试而学得一个“策略”(policy)π,根据这个策略,在状态x下就能得知要执行的动作a=π(x)。
    策略有两种表示方法:
    (1)表示为函数π:X |→A,确定性策略常用这种表示;
    (2)概率表示π:XxA|→IR,随机性策略常用这种表示,π(x, a)为状态x下选择动作a的概率,这里必须有
    策略表示方法
    策略的优势取决于长期执行这一策略后得到的累积奖赏。
  5. 强化学习中,学习的目的:找到能使长期积累奖赏最大化的策略。
  6. 长期积累奖赏计算方式:
    (1)T步累计奖赏:
    T步累计奖赏
    (2)γ折扣累计奖赏:
    γ折扣累计奖赏
    其中rt表示第t步获得的奖赏值,IE表示对所有随机变量求期望。
  7. 强化学习与监督学习:
    强化学习中的“状态”对应为监督学习中的“示例”、“动作” 对应为“标记”,“策略”对应为“分类器”(当动作是离散的)或“回归器”(当动作是连续的)。
    不同:在强化学习中并没有监督学习中的有标记样本(即“示例-标记”对)。
    换言之,没有人直接告诉机器在什么状态下应该做什么动作,只有等到最终结果揭晓,才能通过“反思”之前的动作是否正确来进行学习。
    强化学习在某种意义上可看作具有“延迟标记信息”的监督学习问题。

    16.2 K-摇臂赌博机

    16.2.1 探索与利用

  8. 最大化单步奖赏,即仅考虑一步操作。
  9. 欲最大化单步奖赏需考虑两个方面:
    (1)需知道每个动作带来的奖赏,
    (2)要执行奖赏最大的动作。
  10. K-摇臂赌博机(K-armed bandit):单步强化学习任务对应的一个理论模型。
    K-摇臂赌博机
  11. 若仅为获知每个摇臂的期望奖赏,则可采用“仅探索”(exploration-only)法:将所有的尝试机会平均分配给每个摇臂(即轮流按下每个摇臂),最后以每个摇壁各白的平均叶币概率作为其奖常期望的近似估计。
    若仅为执行奖常最大的动作,则可采用“仅利用“(exploitation-only)法:按下目前最优的(即到目前为止平均奖赏最大的)摇臂,若有多个摇臂同为最优,则从中随机选取一个。
    “仅探索”法能很好地估计每个摇臂的奖赏,却会失去很多选择最优摇臂的机会;
    “仅利用”法则相反,它没有很好地估计摇臂期望奖赏,很可能经常选不到最优摇臂。因此,这两种方法都难以使最终的累积奖赏最大化。

16.2.2 ∈-贪心

  1. ∈-贪心法基于一个概率来对探索和利用进行折中:每次尝试时,以∈的概率进行探索,即以均匀概率随机选取一个摇臂;以1 -∈的概率进行利用,即选择当前平均奖赏最高的摇臂(若有多个,则随机选取一个)。
  2. 令Q(k)记录摇臂k的平均奖赏:若摇臂k被尝试了n次,得到的奖赏为
    平均奖赏

    16.2.3 Softmax

16.3 有模型学习

16.3.1 策略评估

16.3.2 策略改进

16.3.3 策略迭代与值迭代

16.4 免模型学习

16.4.1 蒙特卡罗强化学习

16.4.2 时序差分学习

16.5 值函数近似

16.6 模仿学习

16.6.1 直接模仿学习

16.6.2 逆强化学习

我们一起来让这个世界有趣一点……ヽ(✿゚▽゚)ノ