【論文解讀】深度強化學習基石論文:函數(shù)近似的策略梯度方法
?論文分成四部分。第一部分指出策略梯度在兩種期望回報定義下都成立(定理一)。第二部分提出,如果 被函數(shù) 近似時且滿足兼容(compatible)條件,以 替換策略梯度中的 公式也成立(定理二)。第三部分舉Gibbs分布的策略為例,如何應用 近似函數(shù)來實現(xiàn)策略梯度算法。第四部分證明了近似函數(shù)的策略梯度迭代法一定能收斂到局部最優(yōu)解。附錄部分證明了兩種定義下的策略梯度定理。
1. 策略梯度定理
對于Agent和環(huán)境而言,可以分成episode和non-episode,后者的時間步驟可以趨近于無窮大,但一般都可以適用兩種期望回報定義。一種是單步平均reward ,另一種是指定唯一開始狀態(tài)并對trajectory求 -discounted 之和,稱為開始狀態(tài)定義。兩種定義都考慮到了reward的sum會趨近于無窮大,并通過不同的方式降低了此問題的概率。
A. 平均reward定義
目標函數(shù) 定義成單步的平均reward,這種情況下等價于穩(wěn)定狀態(tài)分布下期望值。
?穩(wěn)定狀態(tài)分布定義成無限次數(shù)后狀態(tài)的分布。
?此時, 定義為無限步的reward sum 減去累積的單步平均 reward ,這里減去是為了一定程度防止 沒有上界。
?B. 開始狀態(tài)定義
在開始狀態(tài)定義方式中,某指定狀態(tài)作為起始狀態(tài), 的定義為 trajectory 的期望回報,注意由于時間步驟 t 趨近于無窮大,必須要乘以discount 系數(shù) 保證期望不會趨近無窮大。
?也直接定義成 trajectory 的期望回報。
?
?策略梯度定理
論文指出上述兩種定義都滿足策略梯度定理,即目標 對于參數(shù) 的偏導不依賴于 對于 偏導,僅取決
?論文中還提到策略梯度定理公式和經(jīng)典的William REINFORCE算法之間的聯(lián)系。REINFORCE算法即策略梯度的蒙特卡洛實現(xiàn)。
聯(lián)系如下:
首先,根據(jù)策略梯度定理,如果狀態(tài) s 是通過 采樣得到,則下式是 的無偏估計。注意,這里action的summation和 是無關的。
?
?2. 函數(shù)近似的策略梯度
論文第二部分,進一步引入 的近似函數(shù) : ?。
如果我們有的無偏估計,例如 ,很自然,可以讓 通過最小化 和 之間的差距來計算。
?當擬合過程收斂到局部最優(yōu)時,策略梯度定理中右邊項對于 求導為0,可得(3)式。
?至此,引出策略梯度定理的延續(xù),即定理2:當 滿足(3)式同時滿足(4)式(稱為compatible條件時),可以用 替換原策略梯度中的
?3. 一個應用示例
假設一個策略用features的線性組合后的 Gibbs分布來生成,即:
?注意, 和 都是 維的。當 滿足compatible 條件,由公式(4)可得

注意, 也是 維。 可以很自然的參數(shù)化為
?
?具體定義如下
?4. 函數(shù)近似的策略梯度收斂性證明
這一部分證明了在滿足一定條件后, 可以收斂到局部最優(yōu)點。
條件為
Compatible 條件,公式(4) 任意兩個 偏導是有限的,即
?
?此時,當 和 按如下方式迭代一定能收斂到局部最優(yōu)。
?
?收斂到局部最優(yōu),即
?5. 策略梯度定理的兩種情況下的證明
下面簡單分解策略梯度的證明步驟。
A. 平均reward 定義下的證明
?
?
?
?
?
?
?B. Start-state 定義下的證明
?
?
?
?
?
?
?即?
著作權歸作者所有。商業(yè)轉載請聯(lián)系作者獲得授權,非商業(yè)轉載請注明出處。
往期精彩回顧
獲取本站知識星球優(yōu)惠券,復制鏈接直接打開:
https://t.zsxq.com/qFiUFMV
本站qq群704220115。
加入微信群請掃碼:
