16.1 任务与奖赏
- 强化学习(再励学习):在种瓜过程中不断摸索,总结出较好种瓜策略的抽象过程。
- 强化学习任务通常用马尔可夫决策过程(Markov Decision Process,简称MDP)来描述:
(1)机器处于环境E中,==状态空间为X==,其中每个状态x∈X是机器感知到的环境的描述。如在种瓜任务上这就是当前瓜苗长势的描述;
(2)机器能采取的动作构成了动作空间A。如种瓜过程中有浇水、施不同的肥、使用不同的农药等多种可供选择的动作;
(3)若某个==动作a==∈A作用在当前状态x上,则潜在的==转移函数P==将使得环境从当前状态按某种概率转移到另一个状态。如瓜苗状态为缺水,若选择动作浇水,则瓜苗长势会发生变化,瓜苗有一定的概率恢复健康,也有一定的概率无法恢复;
(4)在转移到另一个状态的同时,环境会根据潜在的==“奖赏”(reward)函数R==反馈给机器一个奖赏。如保持瓜苗健康对应奖赏+1,瓜苗凋零对应奖赏-10,最终种出了好瓜对应奖赏+100。
综合起来,强化学习任务对应了四元组E=<X,A,P, R>,其中P:X x AxX|→IR指定了状态转移概率,R:X xAxX|→IR指定了奖赏;在有的应用中,奖赏函数可能仅与状态转移有关,即R:XxX|→IR。 - 给西瓜浇水问题的马尔可夫决策过程:
a:动作
p:转移概率
r:返回的奖赏 - 机器要做的是通过在环境中不断地尝试而学得一个“策略”(policy)π,根据这个策略,在状态x下就能得知要执行的动作a=π(x)。
策略有两种表示方法:
(1)表示为函数π:X |→A,确定性策略常用这种表示;
(2)概率表示π:XxA|→IR,随机性策略常用这种表示,π(x, a)为状态x下选择动作a的概率,这里必须有
策略的优势取决于长期执行这一策略后得到的累积奖赏。 - 强化学习中,学习的目的:找到能使长期积累奖赏最大化的策略。
- 长期积累奖赏计算方式:
(1)T步累计奖赏:
(2)γ折扣累计奖赏:
其中rt表示第t步获得的奖赏值,IE表示对所有随机变量求期望。 - 强化学习与监督学习:
强化学习中的“状态”对应为监督学习中的“示例”、“动作” 对应为“标记”,“策略”对应为“分类器”(当动作是离散的)或“回归器”(当动作是连续的)。
不同:在强化学习中并没有监督学习中的有标记样本(即“示例-标记”对)。
换言之,没有人直接告诉机器在什么状态下应该做什么动作,只有等到最终结果揭晓,才能通过“反思”之前的动作是否正确来进行学习。
强化学习在某种意义上可看作具有“延迟标记信息”的监督学习问题。16.2 K-摇臂赌博机
16.2.1 探索与利用
- 最大化单步奖赏,即仅考虑一步操作。
- 欲最大化单步奖赏需考虑两个方面:
(1)需知道每个动作带来的奖赏,
(2)要执行奖赏最大的动作。 - K-摇臂赌博机(K-armed bandit):单步强化学习任务对应的一个理论模型。
- 若仅为获知每个摇臂的期望奖赏,则可采用“仅探索”(exploration-only)法:将所有的尝试机会平均分配给每个摇臂(即轮流按下每个摇臂),最后以每个摇壁各白的平均叶币概率作为其奖常期望的近似估计。
若仅为执行奖常最大的动作,则可采用“仅利用“(exploitation-only)法:按下目前最优的(即到目前为止平均奖赏最大的)摇臂,若有多个摇臂同为最优,则从中随机选取一个。
“仅探索”法能很好地估计每个摇臂的奖赏,却会失去很多选择最优摇臂的机会;
“仅利用”法则相反,它没有很好地估计摇臂期望奖赏,很可能经常选不到最优摇臂。因此,这两种方法都难以使最终的累积奖赏最大化。
16.2.2 ∈-贪心
- ∈-贪心法基于一个概率来对探索和利用进行折中:每次尝试时,以∈的概率进行探索,即以均匀概率随机选取一个摇臂;以1 -∈的概率进行利用,即选择当前平均奖赏最高的摇臂(若有多个,则随机选取一个)。
- 令Q(k)记录摇臂k的平均奖赏:若摇臂k被尝试了n次,得到的奖赏为
16.2.3 Softmax