1. 深度學(xué)習(xí)的發(fā)展方向: 深度強化學(xué)習(xí)!

        共 4344字,需瀏覽 9分鐘

         ·

        2022-06-24 10:56

        點擊上方小白學(xué)視覺”,選擇加"星標"或“置頂

        重磅干貨,第一時間送達

        作者:莫凡&馬晶敏,上海交通大學(xué)

        轉(zhuǎn)載自:Datawhale

        深度學(xué)習(xí)不夠智能,強化學(xué)習(xí)又太抽象。深度強化學(xué)習(xí)是兩套理論體系乘風(fēng)破浪以后的成團產(chǎn)物,其骨架來自強化學(xué)習(xí),而靈魂由深度學(xué)習(xí)賦予。深度強化學(xué)習(xí)是一個值得持續(xù)研究和關(guān)注的新方向。 


        一、深度學(xué)習(xí)的反思

         

        現(xiàn)在深度學(xué)習(xí)大熱,一點也不輸給現(xiàn)在的室外氣溫,但大熱背后也有隱憂,深度學(xué)習(xí)雖然表面光鮮,但細看就會發(fā)現(xiàn):仍然充滿了槽點。
        其中一個可謂是直擊靈魂。現(xiàn)在深度學(xué)習(xí)用得最多的就是有監(jiān)督學(xué)習(xí)。有監(jiān)督學(xué)習(xí)不妨理解成“有參考答案的學(xué)習(xí)”,它有一個特點,就是數(shù)據(jù)必須經(jīng)過標識才能用于訓(xùn)練。但現(xiàn)在海量的數(shù)據(jù)是未標識數(shù)據(jù),且標識成本很高。很多研究人員,甚至包括有不少的大牛都在反思,琢磨深度學(xué)習(xí)是不是“錯了”。如果說人工智能發(fā)展的正道在于模擬人類智能,那深度學(xué)習(xí)的這套學(xué)習(xí)模式可能走了歪路。
        舉一個例子,就是人類的小嬰兒學(xué)走路。小嬰兒學(xué)走路肯定不是靠先看一大堆的《如何解鎖行走姿勢》或者《人類直立動作大全》之類的資料,用行話來說,就是不必依賴外部輸入大量的訓(xùn)練數(shù)據(jù)。那小嬰兒是怎么學(xué)的呢?靠不斷嘗試,也就是我們常說的跌倒了爬起來再走。簡單來說,這一派研究人員認為:深度學(xué)習(xí)和人類的學(xué)習(xí)模式是截然不同的,別看現(xiàn)在大紅大紫,早晚是要碰到天花板的。那應(yīng)該怎么辦呢?很多人都指了同一個地方,就是深度強化學(xué)習(xí)。 

        二、強化學(xué)習(xí)原理


        深度強化學(xué)習(xí)是兩套理論體系乘風(fēng)破浪以后的成團產(chǎn)物,這兩套體系本來都是單飛型選手,分別是深度學(xué)習(xí)和強化學(xué)習(xí),具體來說,深度強化學(xué)習(xí)的骨架來自強化學(xué)習(xí),而靈魂則是由深度學(xué)習(xí)賦予。所以,要講明白深度強化學(xué)習(xí),首先來看下強化學(xué)習(xí)。

        2.1 AlphaGo進化史

         

        AlphaGo打敗柯潔等一眾國際頂尖棋手的事實讓大家對人工智能技術(shù)信心倍增。當年AlphaGo一共迭代了三個版本,分別是戰(zhàn)勝李世石的一代目AlphaGo Lee、戰(zhàn)勝柯潔的二代目AlphaGo Master,以及吊打前兩代的三代目AlphaGo Zero。這三代棋藝當然是逐代遞增了,技術(shù)上也有一個明顯的變化趨勢,就是強化學(xué)習(xí)的比重越來越大。
        最開始訓(xùn)練AlphaGo的模型,是需要用借助已有棋譜的,也就是需要參考答案,是有監(jiān)督學(xué)習(xí)。而當進化到了AlphaGo Zero,這哥們兒開始“悟了”,對,是真正意義上的悟了,不再需要任何棋譜,完全自食其力,從零開始自學(xué)成才,所以名字叫Zero。親爹DeepMind喜不自勝,跑到Nature發(fā)了一篇爆款論文,名字叫《Mastering the game of go without human knowledge》,我看中文不妨就翻譯為《圍棋滅霸》,反正意思就是“你們?nèi)祟惗际窃?,我不需要人教也能稱霸棋壇”。這次是真不用人教,那靠什么自學(xué)呢?就是強化學(xué)習(xí)。AlphaGo Zero的學(xué)習(xí)模式非常類似于人類,而且取得了無可非議的良好效果,確實讓業(yè)內(nèi)所有人都真真切切地感受到了強化學(xué)習(xí)的驚人潛力。
        2.2 強化學(xué)習(xí)基礎(chǔ)概念


        說了這么多,那什么是強化學(xué)習(xí)呢?強化學(xué)習(xí)是機器學(xué)習(xí)中的一種。強化學(xué)習(xí)和有監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)都不太一樣,有一個智能體(Agent)的概念。什么是智能體呢?大家應(yīng)該都玩過任天堂的一款經(jīng)典FC橫版通關(guān)游戲——馬里奧兄弟。在游戲中,玩家通過控制馬里奧頂蘑菇、踩烏龜來取得勝利,如果想用強化學(xué)習(xí)來通關(guān),那這里的智能體指的就是馬里奧。
        智能體是強化學(xué)習(xí)的第一個重要概念,是主角,但強化學(xué)習(xí)作為一臺好戲,自然不能光有主角,還得有舞臺,這就是強化學(xué)習(xí)的第二個重要概念,環(huán)境(Environment)。
        強化學(xué)習(xí)的學(xué)習(xí)過程,就是作為主角的智能體和作為舞臺的環(huán)境不斷交互的過程。這個過程又包括三個重要概念,分別是觀察(Observation)、動作(Action)和獎勵(Reward)。這五個概念可謂是強化學(xué)習(xí)的五線譜,能夠演奏出無數(shù)美妙動人的旋律。
        那么,對于剛剛提出的智能體、環(huán)境、觀察、動作和獎勵這這五個概念是怎么進行演奏呢?

        2.3 深入淺出強化學(xué)習(xí)


        首先一條就是主線,前面已經(jīng)介紹,強化學(xué)習(xí)的主線就是作為主角智能體,與作為舞臺的環(huán)境所作的各種交互。交互過程衍生了三個概念,聽起來復(fù)雜,其實玩馬里奧兄弟游戲非常相像,完全可以一對一比照。
        回想一下,游戲里的馬里奧想要通關(guān),第一步需要干什么呢?前進后退還是蹦蹦跳跳?都不對,首先需要觀察。你得先看一下周圍環(huán)境,看看前面到底蘑菇還是烏龜,才能決定接下來的行動。觀察環(huán)境,獲取當前的狀態(tài)信息了,才決定下一步行動對不對?強化學(xué)習(xí)也一樣,主角智能體通過前面介紹的第三個重要概念“觀察”,來獲得當前時刻的各種狀態(tài)信息,一般記為s(t)。

        掌握了狀態(tài)信息,游戲里的馬里奧開始躍躍欲試,準備做出反應(yīng)了。強化學(xué)習(xí)也一樣,我們將s(t)作為智能體的輸入,智能體會略加思索,接著就能做出“動作”。這里的動作,就是前面介紹的第四個重要概念。智能體能做出哪些動作呢?這和具體的場景有關(guān),譬如在馬里奧游戲中,動作就是指“頂蘑菇”或者“踩烏龜”,一般記為a(t)。

        最后一個重要概念是“獎勵”。這個好理解,前面我們一再強調(diào),強化學(xué)習(xí)的主線是智能體與環(huán)境的各種交互,那現(xiàn)在當智能體做出某個動作后,環(huán)境當然也得有所表示,得有個反饋信息,這就是獎勵。譬如馬里奧游戲中,馬里奧“吃到金幣”后,相應(yīng)的游戲得分就會增加,這就是獎勵。需要說明一點,強化學(xué)習(xí)的“獎勵”和我們?nèi)粘K?xí)慣的用法略有不同,強調(diào)的是環(huán)境對智能體的反饋。上面說的得分增加,這是一種好的反饋,當然也有壞的反饋,譬如做了什么動作被扣分了,但無論是好的反饋,還是壞的反饋,在強化學(xué)習(xí)這里都統(tǒng)一稱為“獎勵”。
        至此,智能體就完成了一輪強化學(xué)習(xí)。不斷重復(fù)這輪流程,智能體就能順利地與環(huán)境交互下去。聽起來是不是很簡單?不過,魔鬼都藏在細節(jié)里。

        2.4 強化學(xué)習(xí)方向分類

         

        不知道大家在閱讀時,有沒有注意到強化學(xué)習(xí)的一個非常重要的問題,上面卻一筆帶過?沒錯,就是從獲取s(t)到做出a(t)之間的“略加思索”。作為輸入的狀態(tài)信息,和作為輸出的待選動作,都是給定好的,但二者的映射關(guān)系如何,也就是輸入什么樣的狀態(tài)信息該對應(yīng)輸出什么樣的動作反應(yīng),也就是智能體應(yīng)該如何進行思考。
        這是強化學(xué)習(xí)最核心的問題。有了問題,自然就會產(chǎn)生各種腦洞。我們說強化學(xué)習(xí)的五個概念像是五線譜,演奏出無數(shù)美妙旋律,這絕對不是藝術(shù)化的比喻,而是實情。為了解決強化學(xué)習(xí)這個核心問題,研究人員是真真切切地開了無數(shù)的腦洞,總的來說,主要是朝著兩大方向開腦洞。
        第一個大方向叫基于價值(Value-Based)的強化學(xué)習(xí)。機器學(xué)習(xí)都有個目標函數(shù)的概念,而基于價值的強化學(xué)習(xí),它的目標函數(shù)就是累計獎勵最大化,也就是當前哪個動作能讓得分更高就選擇做哪個動作。這很符合我們的直覺認知,比較容易理解。那怎么達到這個目標呢?不同的算法各有不同,基于價值(Value-Based)的強化學(xué)習(xí)算法中,最有名氣的算法應(yīng)該數(shù)Q-Learning,也有人稱為Q學(xué)習(xí),通過不斷計算和更新動作價值函數(shù)Q來實現(xiàn)獎勵最大化。
        第二個大方向叫基于策略(Policy-Based)的強化學(xué)習(xí)?;趦r值雖然符合直覺,但這種走一步看一步,每次都要用價值函數(shù)量一下才能行動的做法,難免讓人有種“無頭蒼蠅瞎轉(zhuǎn)”的無力感,而基于策略的強化學(xué)習(xí)最大的特點就是果斷拋棄了價值函數(shù),嘗試找到每個狀態(tài)對應(yīng)的最佳動作,從而形成一套動作策略,每走一步策略都能直接給出最佳的下一步動作。

        當然,除了這兩大方向,強化學(xué)習(xí)還有其它的腦洞方向,譬如基于模型(Model-Based)的強化學(xué)習(xí),不過由于成本和難度較高,用得比較少。而這兩大方向都各自包含了大量的具體實現(xiàn)算法,即使方向相同,各個算法在細節(jié)上仍然有很大差異。


        三、深度學(xué)習(xí)與強化學(xué)習(xí)的結(jié)合

         

        最后一個問題是,深度學(xué)習(xí)是怎樣和強化學(xué)習(xí)結(jié)合,成為深度強化學(xué)習(xí)的呢?
        前面我們說,深度強化學(xué)習(xí),強化學(xué)習(xí)是骨架,深度學(xué)習(xí)是靈魂,這是什么意思呢?深度強化學(xué)習(xí)的主要運行機制,其實與強化學(xué)習(xí)是基本一致的,也都是根據(jù)輸入的s(t),找到對應(yīng)的輸出a(t),只不過使用了深度神經(jīng)網(wǎng)絡(luò)來完成這一過程。
        更有甚者,有的深度強化學(xué)習(xí)算法,干脆直接在現(xiàn)成的強化學(xué)習(xí)算法上,通過添加深度神經(jīng)網(wǎng)絡(luò)來實現(xiàn)一套新的深度強化學(xué)習(xí)算法,非常有名的深度強化學(xué)習(xí)算法DQN就是典型的例子。
        前面我們介紹基于價值的強化學(xué)習(xí)算法中介紹了Q-Learning算法,有一個重要的步驟是計算Q值,而傳統(tǒng)的Q-Learning算法是通過Q表來完成計算的,但表格存在一個明顯的局限性,狀態(tài)-動作空間越大,Q表就越膨脹,而且是大一點就膨脹好幾圈。這樣下去不行的,早晚是要河邊見的……
        那怎么改善呢?研究人員一想,現(xiàn)在大熱的深度神經(jīng)網(wǎng)絡(luò)不是最擅長干這事嗎?于是一拍大腿,不再需要勞駕Q表您老人家來記錄Q值了,統(tǒng)統(tǒng)改成了深度神經(jīng)網(wǎng)絡(luò),這就是DQN。雖然聽起來改動不大,但兩者結(jié)合效果很好,能力提升明顯,成就了廣為使用的深度強化學(xué)習(xí)算法。

        好消息!

        小白學(xué)視覺知識星球

        開始面向外開放啦??????




        下載1:OpenCV-Contrib擴展模塊中文版教程
        在「小白學(xué)視覺」公眾號后臺回復(fù):擴展模塊中文教程即可下載全網(wǎng)第一份OpenCV擴展模塊教程中文版,涵蓋擴展模塊安裝、SFM算法、立體視覺、目標跟蹤、生物視覺、超分辨率處理等二十多章內(nèi)容。

        下載2:Python視覺實戰(zhàn)項目52講
        小白學(xué)視覺公眾號后臺回復(fù):Python視覺實戰(zhàn)項目即可下載包括圖像分割、口罩檢測、車道線檢測、車輛計數(shù)、添加眼線、車牌識別、字符識別、情緒檢測、文本內(nèi)容提取、面部識別等31個視覺實戰(zhàn)項目,助力快速學(xué)校計算機視覺。

        下載3:OpenCV實戰(zhàn)項目20講
        小白學(xué)視覺公眾號后臺回復(fù):OpenCV實戰(zhàn)項目20講,即可下載含有20個基于OpenCV實現(xiàn)20個實戰(zhàn)項目,實現(xiàn)OpenCV學(xué)習(xí)進階。

        交流群


        歡迎加入公眾號讀者群一起和同行交流,目前有SLAM、三維視覺、傳感器、自動駕駛、計算攝影、檢測、分割、識別、醫(yī)學(xué)影像、GAN、算法競賽等微信群(以后會逐漸細分),請掃描下面微信號加群,備注:”昵稱+學(xué)校/公司+研究方向“,例如:”張三 + 上海交大 + 視覺SLAM“。請按照格式備注,否則不予通過。添加成功后會根據(jù)研究方向邀請進入相關(guān)微信群。請勿在群內(nèi)發(fā)送廣告,否則會請出群,謝謝理解~


        瀏覽 105
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
        評論
        圖片
        表情
        推薦
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
          
          

            1. 青娱乐亚洲领先 | 中文字幕欧美精品一区二区三区 | 亚洲精品456在线播放app | 原神18av黄漫网站钟离 | 淫欲护士日记 |