1. 一文入門 深度強(qiáng)化學(xué)習(xí)

        共 3681字,需瀏覽 8分鐘

         ·

        2021-10-22 15:59

        深度強(qiáng)化學(xué)習(xí)是人工智能最有趣的分支之一。它是人工智能社區(qū)許多顯著成就的基石,它在棋盤、視頻游戲、自動駕駛、機(jī)器人硬件設(shè)計(jì)等領(lǐng)域擊敗了人類冠軍。
        深度強(qiáng)化學(xué)習(xí)利用深度神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)能力,可以解決對于經(jīng)典強(qiáng)化學(xué)習(xí)(RL)技術(shù)來說過于復(fù)雜的問題。深度強(qiáng)化學(xué)習(xí)比機(jī)器學(xué)習(xí)的其他分支要復(fù)雜得多。在這篇文章中,我們將嘗試在不涉及技術(shù)細(xì)節(jié)的情況下,揭開它的神秘面紗。

        狀態(tài)、獎勵和行動

        每個強(qiáng)化學(xué)習(xí)問題的核心都是代理和環(huán)境。環(huán)境提供有關(guān)系統(tǒng)狀態(tài)的信息。代理觀察這些狀態(tài)并通過采取行動與環(huán)境交互。動作可以是離散的(例如,撥動開關(guān))或連續(xù)的(例如,轉(zhuǎn)動旋鈕)。這些操作會使環(huán)境轉(zhuǎn)換到新狀態(tài)。根據(jù)新狀態(tài)與系統(tǒng)目標(biāo)相關(guān)性的大小,代理會收到不同程度的獎勵(如果它使代理遠(yuǎn)離其目標(biāo),則獎勵也可以為零或負(fù))。

        「狀態(tài)-動作-獎勵」的每個循環(huán)都稱為一個步驟。強(qiáng)化學(xué)習(xí)系統(tǒng)持續(xù)循環(huán)迭代,直到達(dá)到所需狀態(tài)或達(dá)到最大步數(shù)。這一系列的步驟稱為一個「情節(jié)」或者「集」。在每一個情節(jié)開始時,環(huán)境設(shè)置為初始狀態(tài),代理的獎勵重置為零。

        強(qiáng)化學(xué)習(xí)的目標(biāo)是訓(xùn)練智能體采取行動,以最大化其回報(bào)。代理的行動功能稱為策略。一個代理通常需要很多情節(jié)來學(xué)習(xí)一個好的策略。對于更簡單的問題,幾百個情節(jié)可能足以讓代理學(xué)習(xí)到一個體面的策略。而對于更復(fù)雜的問題,代理可能需要數(shù)百萬次訓(xùn)練。
        強(qiáng)化學(xué)習(xí)系統(tǒng)有更微妙的細(xì)微差別。例如,RL 環(huán)境可以是確定性的或非確定性的。在確定性環(huán)境中,多次運(yùn)行一系列「狀態(tài)-動作對」總是會產(chǎn)生相同的結(jié)果。相比之下,在非確定性 RL 問題中,環(huán)境狀態(tài)可能會因代理行為以外的事物(例如,時間的流逝、天氣、環(huán)境中的其他代理)而發(fā)生變化。
        強(qiáng)化學(xué)習(xí)應(yīng)用

        為了更好地理解強(qiáng)化學(xué)習(xí)的組成部分,讓我們考慮幾個例子。

        Chess:這里的環(huán)境是棋盤,環(huán)境的狀態(tài)是棋子在棋盤上的位置;RL 代理可以是參與者之一(或者,兩個參與者都可以是 RL 代理,在同一環(huán)境中分別訓(xùn)練);一盤棋局則是一集。這一集從初始狀態(tài)開始,黑板和白板的邊緣排列著黑色和白色的棋子。在每一步,代理觀察棋盤(狀態(tài))并移動其中的一部分(采取行動),從而將環(huán)境轉(zhuǎn)換為新狀態(tài)。代理會因棋局中使對手變?yōu)椤笇⑺罓顟B(tài)」而獲得獎勵,否則將獲得零獎勵。智能體在將對手「將死」之前不會獲得任何獎勵,這使得它很難學(xué)習(xí);這是國際象棋對 AI 來說主要的挑戰(zhàn)之一。
        Atari Breakout:Breakout 是一款玩家控制球拍的游戲。有一個球在屏幕上移動,每次被球拍擊中,它都會彈向屏幕頂部,那里排列著一排排的磚塊。每次球碰到磚塊時,磚塊都會被破壞,球會反彈回來。在 Breakout 中,環(huán)境是游戲屏幕。狀態(tài)是球拍和磚塊的位置,以及球的位置和速度。代理可以采取的行動是向左移動、向右移動。每次球擊中磚塊時,代理都會收到正獎勵,如果球越過球拍并到達(dá)屏幕底部,則代理會收到負(fù)獎勵。
        自動駕駛汽車:在自動駕駛中,代理就是汽車,環(huán)境就是汽車行駛的世界。RL 代理通過攝像頭、激光雷達(dá)以及其他傳感器觀察環(huán)境狀態(tài)。代理可以執(zhí)行導(dǎo)航操作,例如加速、剎車、左轉(zhuǎn)、右轉(zhuǎn)或維持現(xiàn)狀。RL 代理因使汽車保持在道路上、避免碰撞,且遵守駕駛規(guī)則和保證路線正確,而獲得獎勵。
        強(qiáng)化學(xué)習(xí)功能
        強(qiáng)化學(xué)習(xí)的目標(biāo)是用最大化獎勵的方式,將狀態(tài)映射到動作。但是 RL 代理究竟學(xué)習(xí)了什么?
        RL 系統(tǒng)的學(xué)習(xí)算法分為三類:
        基于策略的算法:這是最通用的優(yōu)化類型。策略將狀態(tài)映射到操作。學(xué)習(xí)策略的 RL 代理可以創(chuàng)建從當(dāng)前狀態(tài)到目標(biāo)狀態(tài)的動作軌跡。
        假設(shè)一個正在通過優(yōu)化策略來導(dǎo)航走出迷宮的代理。首先,它進(jìn)行隨機(jī)移動,但不會收到任何獎勵;只有它最終到達(dá)出口時,才會獲得出口獎勵。它回溯其軌跡并根據(jù)代理與最終目標(biāo)的接近程度重新調(diào)整每個狀態(tài)-動作對的獎勵。在下一集中,RL 代理進(jìn)一步理解給定每個狀態(tài)需對應(yīng)采取哪些行動;它逐漸調(diào)整策略,直到收斂到最優(yōu)解。
        REINFORCE 是一種基于策略的算法?;诓呗缘乃惴?,優(yōu)勢在于它們可以應(yīng)用于各種強(qiáng)化學(xué)習(xí)問題;但是其樣本效率很低,需要大量訓(xùn)練才能收斂得到最佳解決方案。
        基于值的算法:基于值的函數(shù)學(xué)習(xí)評估狀態(tài)和動作的值。基于值的函數(shù)可幫助 RL 代理評估當(dāng)前狀態(tài)與動作的預(yù)期回報(bào)。
        基于值的函數(shù)有兩種變體:Q 值和 V 值。Q 函數(shù)估計(jì)狀態(tài)-動作對的預(yù)期回報(bào)。V 函數(shù)僅估計(jì)狀態(tài)的值。Q 函數(shù)更容易將狀態(tài)-動作對轉(zhuǎn)換為 RL 策略,所以更常見一些。
        SARSA 和 DQN 是兩種基于價值的算法?;谥档乃惴ū然诓呗缘?RL 具有更高的樣本效率。它們也存在局限性,就是它們僅適用于離散的動作空間(除非你對它們進(jìn)行一些更改)。
        基于模型的算法:基于模型的算法采用不同的方法進(jìn)行強(qiáng)化學(xué)習(xí)。他們不是評估狀態(tài)和動作的價值;而是嘗試,在給定當(dāng)前狀態(tài)和動作的情況下,預(yù)測環(huán)境的狀態(tài)?;谀P偷膹?qiáng)化學(xué)習(xí)允許代理在采取任何行動之前,預(yù)先模擬不同的軌跡。

        基于模型的方法為代理提供了「遠(yuǎn)見」,減小了對手動收集數(shù)據(jù)的依賴。這在收集訓(xùn)練數(shù)據(jù)和經(jīng)驗(yàn),既昂貴又緩慢的應(yīng)用中非常有利(例如,機(jī)器人和自動駕駛汽車)。

        對于基于模型的強(qiáng)化學(xué)習(xí)來說,創(chuàng)建真實(shí)的環(huán)境模型可能非常困難,這可能是這類方法的主要挑戰(zhàn)。非確定性環(huán)境(例如現(xiàn)實(shí)世界)很難建模;在某些情況下,開發(fā)人員設(shè)法創(chuàng)建接近真實(shí)環(huán)境的模擬;但即使是學(xué)習(xí)這些模擬環(huán)境的模型,也非常困難。
        盡管如此,基于模型的算法已經(jīng)在諸如國際象棋和圍棋等確定性問題中廣泛應(yīng)用。蒙特卡羅樹搜索 (MTCS) 是一種比較流行的基于模型的方法,可應(yīng)用于確定性環(huán)境。
        組合方法:為了克服各類強(qiáng)化學(xué)習(xí)算法的缺點(diǎn),科學(xué)家們開發(fā)了組合算法,這類算法包含了不同類型學(xué)習(xí)函數(shù)的元素。例如,Actor-Critic 算法結(jié)合了基于策略和基于值的函數(shù)的優(yōu)點(diǎn)。這些算法使用來自價值函數(shù)(好比,評論家)的反饋來引導(dǎo)策略學(xué)習(xí)者(好比,演員)朝著正確的方向前進(jìn),從而產(chǎn)生更高效的系統(tǒng)。
        為什么是深度強(qiáng)化學(xué)習(xí)?

        到目前為止,我們還沒有談到深度神經(jīng)網(wǎng)絡(luò)。事實(shí)上,你可以以任何你想要的方式實(shí)現(xiàn)上述所有算法。例如,Q-learning 是一種經(jīng)典的強(qiáng)化學(xué)習(xí)算法,它在代理與環(huán)境交互時創(chuàng)建了一個狀態(tài)-動作-獎勵值表。當(dāng)你處理狀態(tài)和操作數(shù)量非常少的簡單環(huán)境時,此類方法非常有效。

        但是,當(dāng)你處理一個復(fù)雜的環(huán)境時,其中動作和狀態(tài)的組合數(shù)量可能非常巨大,或者環(huán)境是不確定的,并且可能存在的狀態(tài)幾乎是無限的;這時,評估每個可能的狀態(tài)-動作對就變得不可能了。
        在這種情況下,你需要一個近似函數(shù),它可以根據(jù)有限的數(shù)據(jù)學(xué)習(xí)歸納出最佳策略。給定正確的架構(gòu)和優(yōu)化函數(shù),深度神經(jīng)網(wǎng)絡(luò)可以直接學(xué)習(xí)最優(yōu)策略,而無需遍歷系統(tǒng)的所有可能狀態(tài)。深度強(qiáng)化學(xué)習(xí)代理仍然需要大量數(shù)據(jù)(例如,在 Dota 和星際爭霸中進(jìn)行數(shù)千小時的游戲),但它們可以解決經(jīng)典強(qiáng)化學(xué)習(xí)系統(tǒng)無法解決的問題。
        比如,深度強(qiáng)化學(xué)習(xí)模型可以使用卷積神經(jīng)網(wǎng)絡(luò),從視覺數(shù)據(jù)中提取狀態(tài)信息。循環(huán)神經(jīng)網(wǎng)絡(luò)可以從幀序列中提取有用的信息,例如球的朝向,或者汽車是否停放或移動。這種復(fù)雜的學(xué)習(xí)能力,可以幫助 RL 代理理解更復(fù)雜的環(huán)境,并將其狀態(tài)映射到動作。
        深度強(qiáng)化學(xué)習(xí)可與監(jiān)督機(jī)器學(xué)習(xí)相媲美。該模型生成動作,并根據(jù)來自環(huán)境的反饋調(diào)整其參數(shù)。然而,不同于傳統(tǒng)的監(jiān)督學(xué)習(xí),深度強(qiáng)化學(xué)習(xí)會面臨一些獨(dú)特的挑戰(zhàn)。
        與模型具有一組標(biāo)記數(shù)據(jù)的監(jiān)督學(xué)習(xí)問題不同,RL 代理只能訪問其自身經(jīng)驗(yàn)的結(jié)果。它能夠根據(jù)在不同訓(xùn)練階段收集的經(jīng)驗(yàn)來學(xué)習(xí)最佳策略;但它也可能錯過許多其他獲得更好政策的最佳軌跡。強(qiáng)化學(xué)習(xí)還需要評估狀態(tài)-動作對的軌跡;這比監(jiān)督學(xué)習(xí)所要面對的,每個訓(xùn)練示例與其預(yù)期結(jié)果配對問題更難學(xué)習(xí)。
        這種復(fù)雜性增加了深度強(qiáng)化學(xué)習(xí)模型的數(shù)據(jù)要求。但與監(jiān)督學(xué)習(xí)不同,深度強(qiáng)化學(xué)習(xí)模型在訓(xùn)練期間收集數(shù)據(jù),而監(jiān)督學(xué)習(xí)需要人工提前策劃和準(zhǔn)備訓(xùn)練數(shù)據(jù)。
        深度強(qiáng)化學(xué)習(xí)和通用人工智能
        AI 社區(qū)對深度強(qiáng)化學(xué)習(xí)的發(fā)展方向存在分歧。一些科學(xué)家認(rèn)為,使用正確的 RL 架構(gòu),可以解決任何類型的問題,包括通用人工智能。這些科學(xué)家相信,強(qiáng)化學(xué)習(xí)與產(chǎn)生自然智能的算法相同,如果有足夠的時間和精力,并配備適當(dāng)?shù)莫剟睿覀兛梢灾亟ㄈ祟惣墑e的智能。
        其他人則認(rèn)為強(qiáng)化學(xué)習(xí)并沒有解決人工智能的一些最基本的問題。他們認(rèn)為,盡管取得了許多成就,但深度強(qiáng)化學(xué)習(xí)代理需要明確定義問題;并且它無法自行發(fā)現(xiàn)新問題,更沒辦法提出針對新問題提出解決方案。
        無論如何,不可否認(rèn)的是,深度強(qiáng)化學(xué)習(xí)已經(jīng)幫助解決了許多非常復(fù)雜的問題,并且將繼續(xù)成為 AI 社區(qū)的重要研究領(lǐng)域。
        相關(guān)報(bào)道:https://venturebeat.com/2021/09/04/demystifying-deep-reinforcement-learning/

        掃碼關(guān)注我的視頻號:程序員zhenguo

        瀏覽 92
        點(diǎn)贊
        評論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
        評論
        圖片
        表情
        推薦
        點(diǎn)贊
        評論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
          
          

            1. 欧美一级影视 | 免费无码a在线观看视频区 | 又长又大又黑又粗欧美 | 日韩精品三区 | 免费看黄 的网站 |