1. <strong id="7actg"></strong>
    2. <table id="7actg"></table>

    3. <address id="7actg"></address>
      <address id="7actg"></address>
      1. <object id="7actg"><tt id="7actg"></tt></object>

        【論文解讀】深度強化學習基石論文:函數(shù)近似的策略梯度方法

        共 2556字,需瀏覽 6分鐘

         ·

        2020-12-26 19:22

        ?
        導讀:這篇是1999 年Richard Sutton 在強化學習領域中的經(jīng)典論文,論文證明了策略梯度定理和在用函數(shù)近似 Q 值時策略梯度定理依然成立,本論文奠定了后續(xù)以深度強化學習策略梯度方法的基石。理解熟悉本論文對 Policy Gradient,Actor Critic 方法有很好的指導意義。

        論文分成四部分。第一部分指出策略梯度在兩種期望回報定義下都成立(定理一)。第二部分提出,如果 被函數(shù) 近似時且滿足兼容(compatible)條件,以 替換策略梯度中的 公式也成立(定理二)。第三部分舉Gibbs分布的策略為例,如何應用 近似函數(shù)來實現(xiàn)策略梯度算法。第四部分證明了近似函數(shù)的策略梯度迭代法一定能收斂到局部最優(yōu)解。附錄部分證明了兩種定義下的策略梯度定理。

        1. 策略梯度定理

        對于Agent和環(huán)境而言,可以分成episode和non-episode,后者的時間步驟可以趨近于無窮大,但一般都可以適用兩種期望回報定義。一種是單步平均reward ,另一種是指定唯一開始狀態(tài)并對trajectory求 -discounted 之和,稱為開始狀態(tài)定義。兩種定義都考慮到了reward的sum會趨近于無窮大,并通過不同的方式降低了此問題的概率。

        A. 平均reward定義

        目標函數(shù) 定義成單步的平均reward,這種情況下等價于穩(wěn)定狀態(tài)分布下期望值。

        ?

        穩(wěn)定狀態(tài)分布定義成無限次數(shù)后狀態(tài)的分布。

        ?

        此時, 定義為無限步的reward sum 減去累積的單步平均 reward ,這里減去是為了一定程度防止 沒有上界。

        ?

        B. 開始狀態(tài)定義

        在開始狀態(tài)定義方式中,某指定狀態(tài)作為起始狀態(tài), 的定義為 trajectory 的期望回報,注意由于時間步驟 t 趨近于無窮大,必須要乘以discount 系數(shù) 保證期望不會趨近無窮大。

        ?

        也直接定義成 trajectory 的期望回報。

        ?
        依然為無限次數(shù)后狀態(tài)的穩(wěn)定分布。
        ?

        策略梯度定理

        論文指出上述兩種定義都滿足策略梯度定理,即目標 對于參數(shù) 的偏導不依賴于 對于 偏導,僅取決

        ?
        關于策略梯度定理的一些綜述,可以參考?深度強化學習之:Policy Gradient Theorem 綜述。

        論文中還提到策略梯度定理公式和經(jīng)典的William REINFORCE算法之間的聯(lián)系。REINFORCE算法即策略梯度的蒙特卡洛實現(xiàn)。

        聯(lián)系如下:

        首先,根據(jù)策略梯度定理,如果狀態(tài) s 是通過 采樣得到,則下式是 的無偏估計。注意,這里action的summation和 是無關的。

        ?
        在William REINFORCE算法中,采用 作為 的近似,但是 取決于 on-policy 的動作分布,因此必須除掉 項,去除引入 ?后導致oversample動作空間。
        ?

        2. 函數(shù)近似的策略梯度

        論文第二部分,進一步引入 的近似函數(shù) : ?。

        如果我們有的無偏估計,例如 ,很自然,可以讓 通過最小化 之間的差距來計算。

        ?

        當擬合過程收斂到局部最優(yōu)時,策略梯度定理中右邊項對于 求導為0,可得(3)式。

        ?

        至此,引出策略梯度定理的延續(xù),即定理2:當 滿足(3)式同時滿足(4)式(稱為compatible條件時),可以用 替換原策略梯度中的

        ?

        3. 一個應用示例

        假設一個策略用features的線性組合后的 Gibbs分布來生成,即:

        ?

        注意, 都是 維的。當 滿足compatible 條件,由公式(4)可得

        ?

        注意, 也是 維。 可以很自然的參數(shù)化為

        ?
        和 策略 一樣是features的線性關系。當然 還滿足對于所有狀態(tài),在 動作分布下均值為0。
        ?
        上式和advantage 函數(shù) 定義一致,因此可以認為 的意義是 的近似。

        具體定義如下

        ?

        4. 函數(shù)近似的策略梯度收斂性證明

        這一部分證明了在滿足一定條件后, 可以收斂到局部最優(yōu)點。

        條件為

        1. Compatible 條件,公式(4)
        2. 任意兩個 偏導是有限的,即
        ?
        3. 步長數(shù)列滿足如下條件
        ?
        4. 環(huán)境的 reward 是有限的

        此時,當 按如下方式迭代一定能收斂到局部最優(yōu)。

        ?
        ?

        收斂到局部最優(yōu),即

        ?

        5. 策略梯度定理的兩種情況下的證明

        下面簡單分解策略梯度的證明步驟。

        A. 平均reward 定義下的證明

        ?
        根據(jù)定義,將 導數(shù)放入求和號中,并分別對乘積中的每項求導。
        ?
        的定義代入第二項 求偏導中,引入環(huán)境reward 隨機變量 ,環(huán)境dynamics
        ?
        偏導進一步移入,, 不依賴于
        ?
        對于 偏導整理到等式左邊
        ?
        兩邊同時乘以
        ?
        由于 是狀態(tài)在 下的平穩(wěn)分布, 項表示 agent 主觀 和環(huán)境客觀 對于狀態(tài)分布的影響,因此可以直接去除。
        ?
        整理證得。

        B. Start-state 定義下的證明

        ?
        根據(jù)定義,將 導數(shù)放入求和號中,并分別對乘積中的每項求導。
        ?
        的定義代入第二項 求偏導中,引入環(huán)境reward 隨機變量 ,環(huán)境dynamics
        ?
        偏導進一步移入,, 不依賴于。注意,此式表示從狀態(tài) 出發(fā)一步之后的能到達的所有 ,將次式反復unroll 之后得到
        ?
        表示 k 步后 狀態(tài) s 能到達的所有狀態(tài) x
        ?
        根據(jù)定義,
        ?
        替換成unroll 成 的表達式
        ?

        即?


        著作權歸作者所有。商業(yè)轉載請聯(lián)系作者獲得授權,非商業(yè)轉載請注明出處。

        往期精彩回顧





        獲取本站知識星球優(yōu)惠券,復制鏈接直接打開:

        https://t.zsxq.com/qFiUFMV

        本站qq群704220115。

        加入微信群請掃碼:

        瀏覽 28
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
        評論
        圖片
        表情
        推薦
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
        1. <strong id="7actg"></strong>
        2. <table id="7actg"></table>

        3. <address id="7actg"></address>
          <address id="7actg"></address>
          1. <object id="7actg"><tt id="7actg"></tt></object>
            欧美午夜精品久久久久久人妖 | 色av性av丰满av国产 | 91日本中文字幕 | 精品少妇一区二区三区在线 | 影音先锋你懂得 | 成人黄片视频 | 冰漪室内丰满人体2 | 40分钟床上色一级毛片 | 成人欧美一区二区三区黑人牛 | 明兰乱淫h侵犯h文 |