91美女诱惑,欧美裸体电影,小美女操逼,日韩高清AV,欧洲无人区卡一卡二卡三,第四色狠狠,日本少妇色视频,美女被艹在线观看

點(diǎn)擊左上方藍(lán)字關(guān)注我們

一個專注于目標(biāo)檢測與深度學(xué)習(xí)知識分享的公眾號

編者薦語

強(qiáng)化學(xué)習(xí) (reinforcement learning) 經(jīng)過了幾十年的研發(fā)，在一直穩(wěn)定發(fā)展，最近取得了很多傲人的成果，后面會有越來越好的進(jìn)展。強(qiáng)化學(xué)習(xí)廣泛應(yīng)用于科學(xué)、工程、藝術(shù)等領(lǐng)域。

來源 | 海豚數(shù)據(jù)科學(xué)實(shí)驗(yàn)室

下面簡單列舉一些強(qiáng)化學(xué)習(xí)的成功案例，然后對強(qiáng)化學(xué)習(xí)做簡介，介紹兩個例子：最短路徑和圍棋，討論如何應(yīng)用強(qiáng)化學(xué)習(xí)，討論一些仍然存在的問題和建議，介紹《機(jī)器學(xué)習(xí)》強(qiáng)化學(xué)習(xí)應(yīng)用?？蛷?qiáng)化學(xué)習(xí)應(yīng)用研討會，介紹強(qiáng)化學(xué)習(xí)資料，回顧強(qiáng)化學(xué)習(xí)簡史，最后，簡單討論強(qiáng)化學(xué)習(xí)的前景。

成功案例

我們已經(jīng)見證了強(qiáng)化學(xué)習(xí)的一些突破，比如深度Q網(wǎng)絡(luò) (Deep Q-Network, DQN)應(yīng)用于雅達(dá)利(Atari)游戲、AlphaGo (也包括AlphaGo Zero和AlphaZero)、以及DeepStack/Libratus等。它們每一個都代表了一大類問題，也都會有大量的應(yīng)用。DQN應(yīng)用于雅達(dá)利游戲代表著單玩家游戲，或更一般性的單智能體 (agent) 控制問題。DQN點(diǎn)燃了這一波研發(fā)人員對深度強(qiáng)化學(xué)習(xí)的熱情。AlphaGo代表著雙人完美信息零和游戲。AlphaGo在圍棋這樣超級難的問題上取得了舉世矚目的成績，是人工智能的一個里程碑。AlphaGo讓普羅大眾認(rèn)識到人工智能，尤其是強(qiáng)化學(xué)習(xí)的實(shí)力和魅力。DeepStack/Libratus代表著雙人不完美信息零和游戲，是一類很難的問題，也取得了人工智能里程碑級別的成績。

谷歌Deepmind AlphaStar打敗了星際爭霸人類高手。Deepmind在一款多人搶旗游戲(Catch the Flag)中達(dá)到了人類玩家水平。OpenAI Five打敗了人類刀塔(Dota)高手。OpenAI訓(xùn)練了類人機(jī)器人手Dactyl, 用于靈活地操縱實(shí)物。谷歌人工智能把強(qiáng)化學(xué)習(xí)用到數(shù)據(jù)中心制冷這樣一個實(shí)用系統(tǒng)。DeepMimic模擬人形機(jī)器人，掌握高難度的運(yùn)動技能。強(qiáng)化學(xué)習(xí)也應(yīng)用于化學(xué)分子逆合成和新藥設(shè)計(jì)。等等。

強(qiáng)化學(xué)習(xí)也已經(jīng)被用到產(chǎn)品和服務(wù)中。谷歌云的自動機(jī)器學(xué)習(xí) (AutoML) 提供了自動優(yōu)化神經(jīng)元網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)這樣的服務(wù)。臉書開源了Horizon產(chǎn)品和服務(wù)，實(shí)現(xiàn)通知傳達(dá)、視頻流比特率優(yōu)化等功能。谷歌研發(fā)了基于強(qiáng)化學(xué)習(xí)的YouTube視頻推薦算法。亞馬遜與英特爾合作，發(fā)布了一款強(qiáng)化學(xué)習(xí)實(shí)體測試平臺AWS DeepRacer. 滴滴出行則把強(qiáng)化學(xué)習(xí)應(yīng)用于派單等業(yè)務(wù)。阿里、京東、快手等把強(qiáng)化學(xué)習(xí)應(yīng)用于推薦系統(tǒng)。

強(qiáng)化學(xué)習(xí)簡介

1. 強(qiáng)化學(xué)習(xí)與相關(guān)學(xué)科的關(guān)系

強(qiáng)化學(xué)習(xí)一般看成是機(jī)器學(xué)習(xí)的一種。機(jī)器學(xué)習(xí)從數(shù)據(jù)中學(xué)習(xí)做預(yù)測或決策。一般把機(jī)器學(xué)習(xí)分為監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、和強(qiáng)化學(xué)習(xí)。監(jiān)督學(xué)習(xí)中的數(shù)據(jù)有標(biāo)注；無監(jiān)督學(xué)習(xí)的數(shù)據(jù)沒有標(biāo)注。分類和回歸是兩類監(jiān)督學(xué)習(xí)問題，其輸出分別是類別和數(shù)字。強(qiáng)化學(xué)習(xí)中有評估反饋，卻沒有標(biāo)注數(shù)據(jù)。評估反饋不能像監(jiān)督學(xué)習(xí)中的標(biāo)注那樣指明一個決策正確與否。與監(jiān)督學(xué)習(xí)相比，強(qiáng)化學(xué)習(xí)還有成績分配、穩(wěn)定性、探索與利用等方面的挑戰(zhàn)。深度學(xué)習(xí)，也就是通過深度神經(jīng)元網(wǎng)絡(luò)進(jìn)行學(xué)習(xí)，可以作為或用于上面幾種機(jī)器學(xué)習(xí)方法。深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一部分，而機(jī)器學(xué)習(xí)又是人工智能的一部分。深度強(qiáng)化學(xué)習(xí)則是深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)的結(jié)合。下圖左側(cè)框圖為機(jī)器學(xué)習(xí)的分類，引自維基百科；右側(cè)框圖是人工智能的分類，引自流行的Russell & Norvig 人工智能教材。

事實(shí)上這些領(lǐng)域都在不斷發(fā)展。深度學(xué)習(xí)可以與其它機(jī)器學(xué)習(xí)、人工智能算法一道完成某項(xiàng)任務(wù)。深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)正在努力解決一些傳統(tǒng)的人工智能問題，比如邏輯、推理、知識表達(dá)等。就像流行的Russell & Norvig 人工智能教材所述，可以認(rèn)為強(qiáng)化學(xué)習(xí)包括所有的人工智能：在環(huán)境中的智能體必須學(xué)習(xí)如何在里邊成功的表現(xiàn)；以及，強(qiáng)化學(xué)習(xí)可以看成整個人工智能問題的微生物。另外，應(yīng)該說明，監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí)兩兩之間有一定交叉。

如下圖所示，強(qiáng)化學(xué)習(xí)與計(jì)算機(jī)科學(xué)、工程、數(shù)學(xué)、經(jīng)濟(jì)學(xué)、心理學(xué)、神經(jīng)科學(xué)、機(jī)器學(xué)習(xí)、最優(yōu)控制、運(yùn)籌學(xué)、博弈論、條件反射、獎賞系統(tǒng)等都有內(nèi)在的聯(lián)系。此圖為David Silver強(qiáng)化學(xué)習(xí)英文版課件的中文翻譯。

強(qiáng)化學(xué)習(xí)/人工智能、運(yùn)籌學(xué)、最優(yōu)控制這些學(xué)科都以應(yīng)用數(shù)學(xué)、優(yōu)化、統(tǒng)計(jì)為基礎(chǔ)，同時為科學(xué)工程各方面的應(yīng)用提供工具。運(yùn)籌學(xué)、最優(yōu)控制一般需要模型；比如混合整數(shù)規(guī)劃、隨機(jī)規(guī)劃等數(shù)學(xué)表達(dá)式就是模型的體現(xiàn)。模型一般不準(zhǔn)確、測不準(zhǔn)；參數(shù)估計(jì)一般有誤差。強(qiáng)化學(xué)習(xí)可以不用模型，直接通過數(shù)據(jù)進(jìn)行訓(xùn)練，從而做出接近最優(yōu)或最優(yōu)的決策。數(shù)據(jù)可以來自完美模型、精準(zhǔn)仿真器、或大數(shù)據(jù)。強(qiáng)化學(xué)習(xí)可以處理很復(fù)雜的問題。AlphaGo給了一個有力證明。策略迭代提供了一條不斷提升性能的途徑。強(qiáng)化學(xué)習(xí)/人工智能、運(yùn)籌學(xué)、最優(yōu)控制相互促進(jìn)，各取所長。強(qiáng)化學(xué)習(xí)得益于動物學(xué)習(xí)、神經(jīng)科學(xué)、心理學(xué)的獎賞系統(tǒng)、條件反射等。同時，強(qiáng)化學(xué)習(xí)可以解釋多巴胺等神經(jīng)科學(xué)中的機(jī)制。圖中沒有展示，但心理學(xué)、神經(jīng)科學(xué)為強(qiáng)化學(xué)習(xí)/人工智能與社會科學(xué)、藝術(shù)等架設(shè)了聯(lián)系的橋梁。

2. 強(qiáng)化學(xué)習(xí)簡介

如下圖所示，強(qiáng)化學(xué)習(xí)智能體 (agent) 與環(huán)境 (environment) 交互，針對序列決策問題，通過試錯 (trial-and-error) 的方式學(xué)習(xí)最優(yōu)策略。強(qiáng)化學(xué)習(xí)一般定義為馬爾科夫決策過程(Markov Decision Process, MDP). 在每一個時間步驟，智能體接受到一個狀態(tài) (state)，根據(jù)策略 (policy) 選擇一個動作 (action)，獲得獎賞 (reward)，然后根據(jù)環(huán)境的動態(tài)模型轉(zhuǎn)移到下一個狀態(tài)。這里面，策略表達(dá)智能體的行為，就是狀態(tài)到動作的映射。強(qiáng)化學(xué)習(xí)中，經(jīng)驗(yàn) (experience) 是指 (狀態(tài)，動作，獎賞，下一個狀態(tài)) 這樣一系列的數(shù)據(jù)。在片段式 (episodic) 的環(huán)境中，上述過程一直持續(xù)直到遇到終止?fàn)顟B(tài)，然后重新開始。在連續(xù)性 (continuing) 的環(huán)境中，則沒有終止?fàn)顟B(tài)。用一個折扣因子(discount factor)來表達(dá)將來的獎賞對現(xiàn)在的影響。模型 (model) 指狀態(tài)轉(zhuǎn)移模型和獎賞函數(shù)。強(qiáng)化學(xué)習(xí)的適用范圍非常廣泛：狀態(tài)和動作空間可以是離散的或連續(xù)的，強(qiáng)化學(xué)習(xí)問題可以是確定性的、隨機(jī)性的、動態(tài)的、或者像一些游戲那樣對抗性的。

狀態(tài)值函數(shù)或動作值函數(shù)分別用來度量每個狀態(tài)或每對狀態(tài)-動作的價值。是對回報的預(yù)測，而回報是長期折扣累積獎賞的期望。動作值函數(shù)一般也稱為Q函數(shù)。最優(yōu)值函數(shù)是所有策略所能得到的最好的值函數(shù)；而相應(yīng)的策略則為最優(yōu)策略。最優(yōu)值函數(shù)包含了全局優(yōu)化信息；一般可以比較容易地從最優(yōu)狀態(tài)值函數(shù)或最優(yōu)動作值函數(shù)得到最優(yōu)策略。強(qiáng)化學(xué)習(xí)的目標(biāo)是得到最優(yōu)的長期回報或找到最優(yōu)策略。

3. 例子：最短路徑

下面舉一個強(qiáng)化學(xué)習(xí)應(yīng)用于最短路徑問題的例子。最短路徑問題就是要找起始節(jié)點(diǎn)到終止節(jié)點(diǎn)之間的最短路徑，也就是要最小化它們之間的距離，或者最小化它們之間路徑上所有的邊的距離的和。最短路徑問題如下定義成強(qiáng)化學(xué)習(xí)問題。當(dāng)前節(jié)點(diǎn)為狀態(tài)。在每個節(jié)點(diǎn)，動作是指順著相連的邊到達(dá)鄰居節(jié)點(diǎn)。轉(zhuǎn)移模型指從某個節(jié)點(diǎn)選擇通過一條邊后到達(dá)相應(yīng)的鄰居節(jié)點(diǎn)，當(dāng)前狀態(tài)或節(jié)點(diǎn)也隨之改變。獎賞則是剛通過的邊的距離的負(fù)數(shù)。到達(dá)終止節(jié)點(diǎn)則該片段結(jié)束。折扣因子可以設(shè)為1，這樣就不用區(qū)分眼前的邊的距離和將來的邊的距離。我們可以把折扣因子設(shè)成1，因?yàn)閱栴}是片段式的。目標(biāo)是找到一條從起始節(jié)點(diǎn)到終止節(jié)點(diǎn)的最短路徑，最大化整條路徑上距離的負(fù)數(shù)的和，也就最小化了整條路徑的距離。在某個節(jié)點(diǎn)，最優(yōu)策略選擇最好的鄰居節(jié)點(diǎn)，轉(zhuǎn)移過去，最后完成最短路徑；而對于每個狀態(tài)或節(jié)點(diǎn)，最優(yōu)值函數(shù)則是從那個節(jié)點(diǎn)到終止節(jié)點(diǎn)的最短路徑的距離的負(fù)數(shù)。

下圖是一個具體的例子。圖中有節(jié)點(diǎn)、(有向)邊、邊的距離這些圖的信息。我們要找從節(jié)點(diǎn)S到節(jié)點(diǎn)T的最短路徑。強(qiáng)化學(xué)習(xí)算法并不了解圖的全局信息。在節(jié)點(diǎn)S，如果我們選擇了最近的鄰居節(jié)點(diǎn)A，那么就沒辦法找到最短路徑S → C → F → T 了。這個例子說明，如果一個算法只關(guān)注眼前利益，比如在節(jié)點(diǎn)S選擇最近的鄰居節(jié)點(diǎn)A，可能會導(dǎo)致無法找到最優(yōu)結(jié)果。像TD學(xué)習(xí)和Q學(xué)習(xí)這樣的強(qiáng)化學(xué)習(xí)方法，考慮了長期回報，都可以找到最優(yōu)解。

有的讀者可能會問：為什么不用Dijkstra算法？如果我們有節(jié)點(diǎn)、邊、邊的距離這樣的圖的全局信息，那么Dijkstra算法可以高效地找到最短路徑。強(qiáng)化學(xué)習(xí)算法可以不用這些全局信息，而是用免模型的方式，根據(jù)TD學(xué)習(xí)和Q學(xué)習(xí)這樣的算法在圖中不斷采集本地信息，更新值函數(shù)，最終找到最短路徑。Dijkstra算法在知道圖的全局信息時，是最短路徑的高效算法；而強(qiáng)化學(xué)習(xí)可以不依托于這些全局信息，比Dijkstra算法的適用面更廣，是一般性的優(yōu)化方法框架。

另外，強(qiáng)化學(xué)習(xí)可以處理有隨機(jī)元素的最短路徑問題。而且，目前的一個研究熱點(diǎn)是，用機(jī)器學(xué)習(xí)/強(qiáng)化學(xué)習(xí)去學(xué)習(xí)一類問題的求解方法；遇到新問題，直接用推斷的方式得出答案。

4. 例子：圍棋

在圍棋中，狀態(tài)指當(dāng)前棋盤的狀態(tài)，包括黑白棋子的位置，空的位置等。圍棋的狀態(tài)空間特別大，有250的150次方個不同的狀態(tài)。而國際象棋的狀態(tài)空間為35的80次方。為了處理一些復(fù)雜的情況，比如“大龍”，狀態(tài)也應(yīng)該包括歷史信息。這樣會明顯增大狀態(tài)空間。動作指目前可以放棋子的位置。每一步，每位玩家最多有19x19=361個可能的動作。轉(zhuǎn)移模型表達(dá)了在當(dāng)前玩家落子后棋盤狀態(tài)的變化。圍棋中轉(zhuǎn)移模型是確定性的；或者說沒有隨機(jī)性。獎賞函數(shù)指在當(dāng)前玩家落子后獲得的獎賞。只有在確定勝負(fù)時，勝了得1分，輸了-1分，其它情況都是0分。圍棋AI的目標(biāo)是設(shè)計(jì)最優(yōu)對弈策略，或者說贏棋。圍棋中有明確的游戲規(guī)則，這樣，就有完美的轉(zhuǎn)移模型和獎賞函數(shù)。因?yàn)闋顟B(tài)空間特別大，而且狀態(tài)的值函數(shù)非常難估計(jì)，圍棋是AI領(lǐng)域一個長期的難題。所以，2016年谷歌Deepmind的AlphaGo打敗國際頂級棋手李世乭成為世界頭條新聞，展現(xiàn)了深度強(qiáng)化學(xué)習(xí)的強(qiáng)大威力。

5. 更多強(qiáng)化學(xué)習(xí)簡介

如果有系統(tǒng)模型，我們可能可以使用動態(tài)規(guī)劃(dynamic programming) 方法：用策略評估 (policy evaluation) 去計(jì)算一個策略的狀態(tài)或動作值函數(shù)，用值迭代 (value iteration) 或策略迭代 (policy iteration) 來找到最優(yōu)策略；而策略迭代通常使用策略評估和策略改進(jìn) (policy improvement)迭代計(jì)算。我們要解決的很多問題沒有現(xiàn)成的系統(tǒng)模型；這樣，強(qiáng)化學(xué)習(xí)就有其用武之地。強(qiáng)化學(xué)習(xí)可以不需要模型，即免模型 (model-free) 的方式，得到最優(yōu)值函數(shù)和最優(yōu)策略。免模型強(qiáng)化學(xué)習(xí)可以通過與環(huán)境交互的在線(online)方式學(xué)習(xí)，也可以通過離線(offline)方式從歷史數(shù)據(jù)中學(xué)習(xí)。蒙特卡羅 (Monte Carlo) 方法用樣本的均值做估計(jì)；每一個樣本是完整的一條經(jīng)驗(yàn)軌跡；它不需要系統(tǒng)的模型，但是它只適用于片段式的任務(wù)。

時序差分 (temporal difference, TD) 學(xué)習(xí)是強(qiáng)化學(xué)習(xí)中的一個核心概念。TD學(xué)習(xí)一般指阿爾伯塔大學(xué)(University of Alberta) Richard Sutton教授于1988年發(fā)現(xiàn)的用于值函數(shù)評估的學(xué)習(xí)方法。TD學(xué)習(xí)直接從經(jīng)驗(yàn)中，通過自助法 (bootstrapping) 、以免模型、在線、完全增量(incremental)方式學(xué)習(xí)狀態(tài)值函數(shù)。這里邊，自助法是一種基于自身的估計(jì)去做估計(jì)的方法。TD學(xué)習(xí)是一種同策略 (on-policy) 方法，通過行為策略產(chǎn)生的樣本來評估同樣的策略。Q學(xué)習(xí)是一種時序差分控制方法，通過學(xué)習(xí)最優(yōu)動作值函數(shù)來找到最優(yōu)策略。Q學(xué)習(xí)是一種異策略 (off-policy) 方法，通過從某個行為策略產(chǎn)生的數(shù)據(jù)來學(xué)習(xí)，而這些數(shù)據(jù)一般不是通過目標(biāo)策略產(chǎn)生。

TD學(xué)習(xí)和Q學(xué)習(xí)評估狀態(tài)值函數(shù)或動作值函數(shù)，是基于值的 (value-based) 方法。而基于策略的 (policy-based) 方法則直接優(yōu)化策略，比如策略梯度 (policy gradient) 方法。行動者-評價者 (actor-critic) 算法同時更新值函數(shù)和策略。

在表格式的情況，值函數(shù)和策略以表格的形式存儲。如果狀態(tài)空間與動作空間很大或者是連續(xù)的，那么就需要函數(shù)近似 (function approximation) 來實(shí)現(xiàn)泛化 (generalization) 能力。函數(shù)近似是機(jī)器學(xué)習(xí)中的一個概念；其目標(biāo)是從部分樣本泛化函數(shù)從而近似整個函數(shù)。線性函數(shù)近似是一種常用方法；一個原因是它有比較好的理論性質(zhì)。在線性函數(shù)近似中，一個函數(shù)由一些基函數(shù)(basis function)的線性組合近似。線性組合的系數(shù)則需要由學(xué)習(xí)算法確定。

我們也可以用非線性函數(shù)近似，尤其是使用深度神經(jīng)元網(wǎng)絡(luò)，也就是最近流行的深度學(xué)習(xí)所用的網(wǎng)絡(luò)結(jié)構(gòu)。如果把深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)結(jié)合起來，用深度神經(jīng)元網(wǎng)絡(luò)來表達(dá)狀態(tài)、值函數(shù)、策略、模型等，我們就得到了深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning, deep RL)。這里深度神經(jīng)元網(wǎng)絡(luò)的參數(shù)需要由學(xué)習(xí)算法來確定。深度強(qiáng)化學(xué)習(xí)最近受到廣泛關(guān)注，也取得了很多斐然的成績。應(yīng)該說，深度強(qiáng)化學(xué)習(xí)在很久以前就取得過好成績；比如1992年應(yīng)用于西洋雙陸棋(Backgammon)的TD-Gammon工作。有一些比較有影響的深度強(qiáng)化學(xué)習(xí)算法，比如，上面提到的DQN算法，還有異步優(yōu)勢行動者-評價者算法(Asynchronous Advantage Actor-Critic, A3C), 深度確定性策略梯度算法(Deep Deterministic Policy Gradient, DDPG), 可信區(qū)域策略優(yōu)化算法(Trust Region Policy Optimization, TRPO), 近端策略優(yōu)化算法(Proximal Policy Optimization, PPO)，和軟行動者-評價者算法(soft actor-critic)等等。最后的注釋參考文獻(xiàn)部分簡要介紹了這些算法。

強(qiáng)化學(xué)習(xí)的一個基本問題是探索-利用(exploration-exploitation)之間的矛盾。智能體一方面需要利用目前最好的策略，希望獲得最好的回報；另一方面，目前最好的策略不一定是最優(yōu)策略，需要探索其它可能性；智能體需要在探索-利用兩者之間進(jìn)行平衡折衷。一個簡單的探索方案是

-貪婪方法：以1-

的概率選擇最優(yōu)的動作，否則隨機(jī)選擇。上置信界算法(Upper Confidence Bound , UCB)是另外一類探索方法，同時考慮動作值函數(shù)及其估計(jì)方差。UCB應(yīng)用于搜索樹中得到UCT算法，在AlphaGo中發(fā)揮了重要作用。

6. 強(qiáng)化學(xué)習(xí)詞匯

在這里匯集了一些強(qiáng)化學(xué)習(xí)詞匯，方便讀者查詢。

預(yù)測 (prediction)，或策略評估 (policy evaluation)，用來計(jì)算一個策略的狀態(tài)或動作值函數(shù)?？刂?(control) 用來找最優(yōu)策略。規(guī)劃 (planning) 則根據(jù)模型來找值函數(shù)或策略。

用行為策略 (behaviour policy) 來產(chǎn)生樣本數(shù)據(jù)；同時希望評估目標(biāo)策略 (target policy)。同策略 (on-policy) 中，產(chǎn)生樣本的行為策略與需要評估的目標(biāo)策略相同。比如，TD學(xué)習(xí)就用來評估當(dāng)前的策略，或者說用同樣的策略產(chǎn)生的樣本來做策略評估。異策略 (off-policy) 中，產(chǎn)生樣本的行為策略與需要評估的目標(biāo)策略一般不相同。比如，Q學(xué)習(xí)的目標(biāo)是學(xué)習(xí)最優(yōu)策略的動作值函數(shù)，而用來學(xué)習(xí)的樣本數(shù)據(jù)一般都不是依據(jù)最優(yōu)策略產(chǎn)生的。

探索-利用 (exploration-exploitation) 之間的矛盾指，智能體需要利用目前最好的策略，希望達(dá)到最大化獎賞的目標(biāo)；同時，也需要探索環(huán)境，去發(fā)現(xiàn)更好的策略，尤其是在目前的策略仍然不是最優(yōu)策略或者環(huán)境并不穩(wěn)定等情況下。

在免模型 (model-free) 強(qiáng)化學(xué)習(xí)方法中，智能體不知道狀態(tài)轉(zhuǎn)移和獎賞模型，從與環(huán)境的交互經(jīng)驗(yàn)中通過試錯的方式直接學(xué)習(xí)。而基于模型(model-based)強(qiáng)化學(xué)習(xí)方法則利用模型。模型可以是給定的，比如像計(jì)算機(jī)圍棋中那樣通過游戲規(guī)則得到的完美模型，或是通過數(shù)據(jù)學(xué)習(xí)來的。

在線模式 (online) 算法通過序列數(shù)據(jù)流來訓(xùn)練，不保存數(shù)據(jù)，不進(jìn)一步使用數(shù)據(jù)。離線模式(offline) 或批量模式 (batch mode) 算法則通過一組數(shù)據(jù)來訓(xùn)練。

在自助法(bootstrapping)中，對一個狀態(tài)或動作的值函數(shù)估計(jì)會通過其它狀態(tài)或動作的值函數(shù)估計(jì)來獲得。

如何應(yīng)用強(qiáng)化學(xué)習(xí)

1. 如何應(yīng)用強(qiáng)化學(xué)習(xí)

把強(qiáng)化學(xué)習(xí)應(yīng)用于實(shí)際場景，首先要明確強(qiáng)化學(xué)習(xí)問題的定義，包括環(huán)境、智能體、狀態(tài)、動作、獎賞這些核心元素。有時也可能知道狀態(tài)轉(zhuǎn)移模型。需要考察監(jiān)督學(xué)習(xí)或情境老虎機(jī)(contextual bandits)是否更適合要解決的問題；如果是那樣，強(qiáng)化學(xué)習(xí)則不是最好的解決方案。強(qiáng)化學(xué)習(xí)的應(yīng)用場景一般需要一定的資源，包括人才、計(jì)算力、大數(shù)據(jù)等。

目前成功的強(qiáng)化學(xué)習(xí)應(yīng)用一般需要有足夠的訓(xùn)練數(shù)據(jù)；可能來自完美的模型、很接近真實(shí)系統(tǒng)的仿真程序、或通過與環(huán)境交互收集到的大量數(shù)據(jù)。收集到的數(shù)據(jù)根據(jù)問題做相應(yīng)處理。

一個模型或好的仿真程序可以產(chǎn)生足夠的數(shù)據(jù)進(jìn)行訓(xùn)練。有些問題，比如健康醫(yī)療、教育、自動駕駛等方面的問題，可能很難、不可行、或不合乎道德規(guī)范對所有情況采集數(shù)據(jù)。這種情況，異策略技術(shù)可以用行為策略產(chǎn)生的數(shù)據(jù)來學(xué)習(xí)目標(biāo)策略。把在仿真程序?qū)W到的策略遷移到真實(shí)場景方面最近有一些喜人的進(jìn)展，尤其在機(jī)器人方面。有些問題可能需要大量的計(jì)算。比如，AlphaGo的成功有幾個重要因素：通過游戲規(guī)則得到了完美模型，產(chǎn)生大量訓(xùn)練數(shù)據(jù)，谷歌級的海量計(jì)算能力進(jìn)行大規(guī)模訓(xùn)練，以及研發(fā)人員非凡的科研和工程能力。

特征工程一般需要大量的手工處理并結(jié)合很多相關(guān)行業(yè)知識。隨著深度學(xué)習(xí)興起的端到端學(xué)習(xí)模式，手工的特征工程可能很少用，甚至不用。不過，在實(shí)際問題中，特征工程很可能無法避免，也可能是取得好性能至關(guān)重要的因素。

需要考慮強(qiáng)化學(xué)習(xí)的表征問題，比如，是否需要以及需要什么樣的神經(jīng)網(wǎng)絡(luò)來表達(dá)值函數(shù)和策略；是否考慮線性模型；而對于規(guī)模并不大的問題，甚至可以考慮表格的方式。

有了數(shù)據(jù)、特征、和表征，需要考慮選取什么算法來計(jì)算最優(yōu)值函數(shù)和最優(yōu)策略。有許多強(qiáng)化學(xué)習(xí)算法可能選擇，可能是在線的或離線的、同策略或異策略的、免模型或有模型的等。通常根據(jù)問題的具體情況，選擇幾種算法，然后挑性能最好的。

通過做實(shí)驗(yàn)，參數(shù)調(diào)優(yōu)，比較算法性能。強(qiáng)化學(xué)習(xí)應(yīng)該與目前最高水平的算法對比，可能是其它強(qiáng)化學(xué)習(xí)算法，也可能是監(jiān)督學(xué)習(xí)、情境老虎機(jī)、或某種傳統(tǒng)算法。為了調(diào)優(yōu)算法，可能多次迭代前面幾步。

當(dāng)訓(xùn)練的強(qiáng)化學(xué)習(xí)算法性能足夠好，就把它部署到實(shí)際系統(tǒng)中，監(jiān)控性能，不斷調(diào)優(yōu)算法。可能需要多次迭代前面幾步，調(diào)優(yōu)系統(tǒng)性能。

上圖描述了應(yīng)用強(qiáng)化學(xué)習(xí)的流程，簡單總結(jié)如下。

第一步：定義強(qiáng)化學(xué)習(xí)問題。定義環(huán)境、智能體、狀態(tài)、動作、獎賞這些核心元素。

第二步：數(shù)據(jù)準(zhǔn)備，收集數(shù)據(jù)，預(yù)處理。

第三步：特征工程，一般根據(jù)領(lǐng)域知識手動生成，也可能以端到端的方式自動產(chǎn)生。

第四步：選擇表征方式，有深度神經(jīng)元網(wǎng)絡(luò)、其它非線性、線性、甚至表格等表征方式。

第五步：選擇算法，根據(jù)問題選擇幾種算法。

第六步：實(shí)驗(yàn)、調(diào)優(yōu)系統(tǒng)；可能要多次迭代前面幾步。

第七步：部署、調(diào)優(yōu)系統(tǒng)?？赡芤啻蔚懊鎺撞?。

2. 強(qiáng)化學(xué)習(xí)現(xiàn)存問題及建議

強(qiáng)化學(xué)習(xí)雖然取得了很多驕人的成績，但是仍然存在不少問題。強(qiáng)化學(xué)習(xí)與函數(shù)近似結(jié)合，尤其與深度學(xué)習(xí)結(jié)合，存在“死亡三組合” (deadly triad) 問題。就是說，在異策略、函數(shù)近似、自助法同時結(jié)合時，訓(xùn)練可能會碰到不穩(wěn)定或發(fā)散的問題。樣本效率、稀疏獎賞、成績分配、探索-利用、表征等是常見問題。深度強(qiáng)化學(xué)習(xí)還有可復(fù)制性的問題，實(shí)驗(yàn)結(jié)果可能會受到網(wǎng)絡(luò)結(jié)構(gòu)、獎賞比例、隨機(jī)種子、隨機(jī)實(shí)驗(yàn)、環(huán)境、程序?qū)崿F(xiàn)等的影響。強(qiáng)化學(xué)習(xí)同機(jī)器學(xué)習(xí)一樣面臨一些問題，比如時間效率、空間效率、可解釋性、安全性、可擴(kuò)展性、魯棒性、簡單性等等。從積極的角度看待，研發(fā)人員一直在這些方面努力工作。后面章節(jié)會進(jìn)一步討論。

強(qiáng)化學(xué)習(xí)雖然有這么多問題，卻可以給很多問題提供有效的解決方案。麻省理工學(xué)院(Massachusetts Institute of Technology, MIT) Dimitri Bertsekas教授是強(qiáng)化學(xué)習(xí)領(lǐng)域有影響的研究者。他對強(qiáng)化學(xué)習(xí)的應(yīng)用持謹(jǐn)慎樂觀的態(tài)度。他指出：一方面，還沒有強(qiáng)化學(xué)習(xí)方法可以解決所有甚至大多數(shù)問題；另一方面，有足夠多的方法去嘗試，有比較好的可能性在大多數(shù)問題上取得成功，比如確定性問題、隨機(jī)性問題、動態(tài)問題、離散或連續(xù)問題、各類游戲等等。他說：我們開始用強(qiáng)化學(xué)習(xí)解決難以想象的難題！他又說：我們前面的強(qiáng)化學(xué)習(xí)旅程令人激動！

下面討論幾個話題，關(guān)于現(xiàn)實(shí)世界中強(qiáng)化學(xué)習(xí)面臨的挑戰(zhàn)，機(jī)器人高效學(xué)習(xí)的基礎(chǔ)、強(qiáng)化學(xué)習(xí)應(yīng)用于健康的參考原則、把機(jī)器學(xué)習(xí)負(fù)責(zé)任地應(yīng)用于健康醫(yī)療、以及人工智能創(chuàng)業(yè)。雖然有些話題關(guān)于人工智能或機(jī)器學(xué)習(xí)，但對強(qiáng)化學(xué)習(xí)及其應(yīng)用也有參考意義。

3. 現(xiàn)實(shí)世界中強(qiáng)化學(xué)習(xí)面臨的挑戰(zhàn)

谷歌Deepmind和谷歌研究院合作發(fā)表論文，研究為什么強(qiáng)化學(xué)習(xí)雖然在游戲等問題獲得了巨大成功，但在現(xiàn)實(shí)世界中仍然沒有被大規(guī)模應(yīng)用。他們討論了下面九個制約因素：1）能夠?qū)ΜF(xiàn)場系統(tǒng)從有限的采樣中學(xué)習(xí)；2）處理系統(tǒng)執(zhí)行器、傳感器、或獎賞中存在的未知、可能很大的延遲；3）在高維狀態(tài)空間和動作空間學(xué)習(xí)、行動；4）滿足系統(tǒng)約束，永遠(yuǎn)或極少違反；5）與部分可觀察的系統(tǒng)交互，這樣的系統(tǒng)可以看成是不平穩(wěn)的或隨機(jī)的；6）從多目標(biāo)或沒有很好指明的獎賞函數(shù)學(xué)習(xí)；7）可以提供實(shí)時動作，尤其是高控制頻率的系統(tǒng)；8）從外部行為策略的固定的日志數(shù)據(jù)離線學(xué)習(xí)；9）為系統(tǒng)操作員提供可解釋的策略。他們辨識并定義了這些挑戰(zhàn)因素，對每個挑戰(zhàn)設(shè)計(jì)實(shí)驗(yàn)并做分析，設(shè)計(jì)實(shí)現(xiàn)基線任務(wù)包含這些挑戰(zhàn)因素，并開源了軟件包。

4. 機(jī)器人高效學(xué)習(xí)的基礎(chǔ)

在目前的深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、機(jī)器學(xué)習(xí)的基礎(chǔ)上，機(jī)器人學(xué)習(xí)算法取得成功的一個關(guān)鍵因素是需要大量的實(shí)際數(shù)據(jù)。而一個通用機(jī)器人要面對各種各樣的情況，則獲取大量訓(xùn)練數(shù)據(jù)成本會很高。這樣，下面幾個方面會很關(guān)鍵：1）采樣高效 (sample efficient)，需要比較少的訓(xùn)練數(shù)據(jù)；2）可泛化性 (generalizable)，訓(xùn)練的機(jī)器人不光能應(yīng)用于訓(xùn)練的情況，還可以擴(kuò)展到很多其它情況；3）組合方式 (compositional)，可以通過以前的知識組合而成；4）增量方式 (incremental)，可以逐漸增加新知識和新能力。目前的深度強(qiáng)化學(xué)習(xí)雖然可以學(xué)習(xí)很多新能力，不過，一般需要很多數(shù)據(jù)，泛化性不好，不是通過組合或增量的方式訓(xùn)練和執(zhí)行。學(xué)習(xí)算法如果要獲得泛化能力，需要具備固有的知識或結(jié)構(gòu)等形式的歸納偏向(inductive bias)，同時提高采樣效率。組合性和增量性可以通過特定的結(jié)構(gòu)化的歸納偏向獲得，把學(xué)到的知識分解成語義相互獨(dú)立的因子，就可以通過組合解決更多的問題。

在學(xué)習(xí)算法中加入先驗(yàn)知識或結(jié)構(gòu)，有一定的爭議。強(qiáng)化學(xué)習(xí)之父Richard Sutton認(rèn)為不應(yīng)該在學(xué)習(xí)系統(tǒng)中加入任何先驗(yàn)知識，因?yàn)槿斯ぶ悄艿臍v史經(jīng)驗(yàn)表明，每次我們想人為加些東西，結(jié)果都是錯的。MIT教授Rodney Brooks寫博客做了強(qiáng)烈回應(yīng)。這樣的學(xué)術(shù)爭論很有益，可以讓我們辯明設(shè)計(jì)學(xué)習(xí)系統(tǒng)時的問題：應(yīng)該把什么樣的歸納偏向包括到學(xué)習(xí)系統(tǒng)中，可以幫助從適量的數(shù)據(jù)中學(xué)到可以泛化的知識，同時又不會導(dǎo)致不準(zhǔn)確或過度約束？

有兩種方式可以找到合適的歸納偏向。一種是元學(xué)習(xí)(meta-learning)。在系統(tǒng)設(shè)計(jì)階段，以離線方式學(xué)習(xí)結(jié)構(gòu)、算法、先驗(yàn)知識；這樣，到系統(tǒng)部署后，就可以在新環(huán)境高效地在線學(xué)習(xí)。在系統(tǒng)設(shè)計(jì)階段，元學(xué)習(xí)通過可能在部署后碰到的任務(wù)的大量訓(xùn)練數(shù)據(jù)，學(xué)習(xí)一個學(xué)習(xí)算法，當(dāng)遇到新的任務(wù)時，可以盡可能高效地學(xué)習(xí)；而不是學(xué)習(xí)對一個環(huán)境好的算法，或是試圖學(xué)一個對所有環(huán)境都好的算法。元學(xué)習(xí)通過學(xué)習(xí)訓(xùn)練任務(wù)之間的共性，形成先驗(yàn)知識或歸納偏向，這樣，遇到新任務(wù)就可以主要去學(xué)習(xí)差異性。

還有一些可能的方向，包括讓人教機(jī)器人，與其它機(jī)器人合作學(xué)習(xí)，修改機(jī)器人軟件的時候一道修改硬件。利用從計(jì)算機(jī)科學(xué)與工程和認(rèn)知神經(jīng)科學(xué)獲得的靈感，幫助設(shè)計(jì)機(jī)器學(xué)習(xí)的算法和結(jié)構(gòu)。卷積神經(jīng)元網(wǎng)絡(luò)(convolutional neural networks)是一個很好的例子。卷積利用了翻譯不變性(translation invariance)，就是說，物體不管在圖像中的什么位置，其表現(xiàn)基本不變；還有空間局部性(spatial locality)，就是說，一組臨近的像素共同提供圖片的信息。用了卷積這樣的歸納偏向，神經(jīng)元網(wǎng)絡(luò)的參數(shù)就大幅減少了，也大幅減少了訓(xùn)練。哺乳動物的視覺中樞應(yīng)該就有類似于卷積這樣的計(jì)算過程。機(jī)器人和強(qiáng)化學(xué)習(xí)需要類似的靈感來設(shè)計(jì)更高效的算法。

5. 強(qiáng)化學(xué)習(xí)應(yīng)用于健康的參考原則

最近《自然醫(yī)學(xué)》一篇短評論文討論強(qiáng)化學(xué)習(xí)應(yīng)用于健康問題時，要考慮的幾個參考原則。第一，強(qiáng)化學(xué)習(xí)算法最好可以使用影響決定的所有數(shù)據(jù)。強(qiáng)化學(xué)習(xí)算法需要獲得醫(yī)生可以獲得的信息。第二，有效樣本量與學(xué)到的策略和醫(yī)生的策略之間的相似度相關(guān)；相似度越高則有效樣本量越大。序列中決策越多，新的策略與產(chǎn)生數(shù)據(jù)的策略不同的可能性就越大。第三，需要審查學(xué)到的策略，使其有合理的表現(xiàn)。需要考察問題建模是否合適，比如獎賞函數(shù)的定義，數(shù)據(jù)記錄及處理是否會引入誤差，以及策略的適用范圍，等等。

6. 把機(jī)器學(xué)習(xí)負(fù)責(zé)任地應(yīng)用于健康醫(yī)療

最近《自然醫(yī)學(xué)》發(fā)表一篇觀點(diǎn)論文，討論機(jī)器學(xué)習(xí)在醫(yī)學(xué)中為什么沒有廣泛應(yīng)用，提出成功、負(fù)責(zé)任的發(fā)展方案。

第一，選擇合適的問題。確定所研發(fā)的問題在健康醫(yī)療中有意義，收集合適的數(shù)據(jù)，對項(xiàng)目成功做出明確定義。于項(xiàng)目早期，就在團(tuán)隊(duì)中包括利益相關(guān)人員：a) 業(yè)務(wù)專家，包括臨床醫(yī)生、機(jī)器學(xué)習(xí)研究人員、健康醫(yī)療信息技術(shù)專家、開發(fā)實(shí)現(xiàn)專家；b) 決策者，包括醫(yī)院管理人員、研究機(jī)構(gòu)管理人員、監(jiān)管部門人員、政府人員；c) 用戶，包括護(hù)士、醫(yī)生、實(shí)驗(yàn)室人員、病人、家人朋友。

第二，開發(fā)有用的解決方案。在預(yù)測一個結(jié)果時，一定要了解數(shù)據(jù)是什么時候如何收集的，收集數(shù)據(jù)的目的是什么。在模型應(yīng)用的環(huán)境中，數(shù)據(jù)要有代表性。在開發(fā)模型的過程中，要改正電子病歷數(shù)據(jù)中存在的偏向，否則會降低模型的可靠性。

第三，考慮倫理道德方面的因素。加入相關(guān)專家，改正數(shù)據(jù)中的偏向。

第四，對模型進(jìn)行嚴(yán)格的評估。在訓(xùn)練和測試模型過程中，保證沒有數(shù)據(jù)泄露發(fā)生。評估模型在什么情況很可能成功或失敗。統(tǒng)計(jì)分析應(yīng)該考慮與臨床相關(guān)的評價指標(biāo)。另外，用定性的方式評估，可能可以發(fā)現(xiàn)定量的方法沒有發(fā)現(xiàn)的偏向和干擾(confounding)因素。

第五，做深思熟慮的匯報。詳細(xì)描述數(shù)據(jù)源、參與者、結(jié)果、預(yù)測變量、以及模型本身。報告模型在什么情境下驗(yàn)證、應(yīng)用，需要滿足什么假設(shè)或條件。分享生成結(jié)果的代碼、軟件包、輸入數(shù)據(jù)，以及支持文檔。對下面兩種技術(shù)路線的權(quán)衡分析：簡單、快速、可解釋的模型與復(fù)雜、比較慢卻更準(zhǔn)確的模型，提供幫助信息。

第六，負(fù)責(zé)任地部署。對于學(xué)到的模型，應(yīng)該先實(shí)時預(yù)測結(jié)果，讓臨床專家評估其有效性，再給病人用。了解如何把干預(yù)策略與醫(yī)護(hù)團(tuán)隊(duì)的工作流整合到一起也很重要。病人群體、臨床規(guī)范經(jīng)常變化，應(yīng)該經(jīng)常監(jiān)視并評估模型的可靠性和錯誤，并對模型做相應(yīng)改進(jìn)。

第七，推向市場。機(jī)器學(xué)習(xí)健康醫(yī)療工具必須要滿足所在國家的監(jiān)管要求。

在健康醫(yī)療、自動駕駛等系統(tǒng)中，開發(fā)部署高效的機(jī)器學(xué)習(xí)系統(tǒng)存在很多復(fù)雜的問題。上面的發(fā)展方案可以幫助解決健康醫(yī)療中的問題，對其它領(lǐng)域也會有參考意義。

雖然離機(jī)器學(xué)習(xí)大規(guī)模應(yīng)用于醫(yī)療健康還有很長的路，但是，政策制定者、健康醫(yī)療管理人員、研發(fā)人員等正在通力合作。在大力發(fā)展智慧醫(yī)療時，我們有時可能需要暫時放緩腳步，重溫希波格拉底誓言(Hippocratic oath)，即醫(yī)生誓約，其首要之務(wù)就是不可傷害(first, do no harm)。

人工智能創(chuàng)業(yè)：人工智能公司代表一種新的商業(yè)模式

這里介紹一篇Andreessen Horowitz投資公司網(wǎng)站上的一篇博客，討論人工智能公司代表一種新的商業(yè)模式，與傳統(tǒng)的軟件業(yè)有所不同，更像是傳統(tǒng)的軟件服務(wù)公司。

軟件的優(yōu)勢在于生產(chǎn)一次就可以賣很多次。這樣，就帶來重復(fù)的收益流、高利潤、有的時候還有超線性規(guī)模化，而且知識產(chǎn)權(quán)，一般是程序，可以形成高護(hù)城河。在軟件服務(wù)業(yè)中，每個項(xiàng)目需要專門的開發(fā)人員，然后只能賣一次。這樣，收益不能重復(fù)，總利潤低，最好的情況就是線性增長。同時，不容易建護(hù)城河。

人工智能公司，因?yàn)閷υ朴?jì)算平臺的依賴，加上需要不斷的人工支持，總利潤比較低；因?yàn)橐幚砺闊┑倪吘壡闆r，上規(guī)模充滿挑戰(zhàn)；因?yàn)槿斯ぶ悄苣Ｐ偷纳唐坊?，以為?shù)據(jù)是競爭資源并具有野蠻生長的網(wǎng)絡(luò)效應(yīng)而事實(shí)并非如此，護(hù)城河比較弱。

大多數(shù)人工智能應(yīng)用程序看起來像軟件，與用戶交互，管理數(shù)據(jù)，與其它系統(tǒng)融合等。但其核心是一組訓(xùn)練好的數(shù)據(jù)模型，維護(hù)起來更像是軟件服務(wù)。人工智能公司看著像軟件公司與軟件服務(wù)公司的某種組合，從總利潤、規(guī)?；?、防御性等方面看，代表了一種新的商業(yè)模式。

總利潤方面，對于人工智能公司，云計(jì)算平臺帶來相當(dāng)大的花費(fèi)，包括訓(xùn)練模型、模型推斷、處理豐富的媒體類型、復(fù)雜的云操作等。人工智能應(yīng)用程序依賴人工作為系統(tǒng)的一部分，幫助清洗、標(biāo)注大量數(shù)據(jù)，或需要實(shí)時的幫助，比如在認(rèn)知推理任務(wù)中，以獲得高準(zhǔn)確率。這些會讓總利潤降低。當(dāng)人工智能的性能逐步提高，人工的參與會越來越少，但很可能不會一點(diǎn)沒有。因?yàn)槿斯ぶ悄芙?jīng)常面對長尾效應(yīng)，或者說要經(jīng)常處理邊緣情況，很難讓人工智能系統(tǒng)規(guī)?；?。而保護(hù)人工智能商業(yè)的方案還沒有成型。人工智能產(chǎn)品與純軟件產(chǎn)品比起來，不一定更難防御。不過，人工智能公司的護(hù)城河看起來比預(yù)想的要淺。

下面給創(chuàng)業(yè)人員一些實(shí)用建議，創(chuàng)建、規(guī)?；⒎烙鶄ゴ蟮娜斯ぶ悄芄?。1）盡可能消除模型的復(fù)雜性。2）仔細(xì)選擇問題領(lǐng)域，一般選擇窄領(lǐng)域，降低數(shù)據(jù)復(fù)雜性，最小化邊緣情況的挑戰(zhàn)。3）為高變動的費(fèi)用做好打算。4）擁抱服務(wù)。人工智能公司長期成功的關(guān)鍵是把軟件和服務(wù)的優(yōu)點(diǎn)結(jié)合起來。5）為新技術(shù)的不斷出現(xiàn)做好打算。6）用舊的方式構(gòu)建防御能力，好商業(yè)總需要好產(chǎn)品和私有數(shù)據(jù)。

人工智能創(chuàng)業(yè)：彌補(bǔ)概念驗(yàn)證與產(chǎn)品的差距

下面討論吳恩達(dá)(Andrew Ng)博士于2020年10月初在斯坦福大學(xué)以人為本人工智能(Human-Centered AI, HAI)研究院做的一個學(xué)術(shù)報告。討論了如何彌補(bǔ)人工智能中概念驗(yàn)證與產(chǎn)品的差距，包括以下三個方面：1）小數(shù)據(jù)；2）泛化性和魯棒性；3）變化管理。

小數(shù)據(jù)算法包括合成數(shù)據(jù)生成，比如生成對抗網(wǎng)絡(luò)(Generative Adversarial Networks, GANs)，單樣本/少樣本學(xué)習(xí)，自我監(jiān)督學(xué)習(xí)，遷移學(xué)習(xí)，異常檢測等。

在一個數(shù)據(jù)集上訓(xùn)練的模型是否能泛化到其它數(shù)據(jù)集上？是個問題。論文里工作的模型，在產(chǎn)品中經(jīng)常不工作。人工智能產(chǎn)品項(xiàng)目除了機(jī)器學(xué)習(xí)程序，還包括標(biāo)注定義、歧義消解、高效批量數(shù)據(jù)標(biāo)注、為罕見標(biāo)注生成數(shù)據(jù)、數(shù)據(jù)驗(yàn)證、數(shù)據(jù)分析、環(huán)境變化檢測、數(shù)據(jù)及模型版本控制、過程管理工具、模型性能下降檢測等等。

管理技術(shù)帶來的變化，包括計(jì)劃足夠的時間、發(fā)現(xiàn)所有的利益相關(guān)者，提供再保證，解釋在發(fā)生什么，做規(guī)模合適的第一個項(xiàng)目。這里關(guān)鍵的技術(shù)是可解釋人工智能和審計(jì)。

機(jī)器學(xué)習(xí)項(xiàng)目的周期包括：確定范圍，決定要解決的問題；為模型獲取數(shù)據(jù)；構(gòu)建、訓(xùn)練模型；部署，運(yùn)行產(chǎn)品創(chuàng)造價值。下面從后往前討論這幾個階段。

先說部署。在云平臺或邊緣設(shè)備上實(shí)現(xiàn)。最初的部署允許分析結(jié)果，調(diào)整參數(shù)和模型?？梢圆扇∮白硬渴鸬姆绞?，并不真正決策，只是實(shí)時監(jiān)視性能。也可以先小規(guī)模部署。然后逐漸加大部署力度。長期保持監(jiān)視和維護(hù)狀態(tài)。

人工智能模型的構(gòu)建和訓(xùn)練，是高度迭代的過程，從人工智能體系結(jié)構(gòu)，包括算法、數(shù)據(jù)等，到程序和訓(xùn)練，再到分析，幾個階段反復(fù)循環(huán)；是開發(fā)過程，更是發(fā)現(xiàn)并修改錯誤的過程。機(jī)器學(xué)習(xí)模型由訓(xùn)練數(shù)據(jù)、超參數(shù)、算法/程序構(gòu)成。一般通過修改超參數(shù)、算法/程序試圖改進(jìn)性能，也應(yīng)該使用不同的訓(xùn)練數(shù)據(jù)，提高模型的泛化性。

對于獲取模型需要的數(shù)據(jù)，并不需要等到有足夠完美的數(shù)據(jù)才開始項(xiàng)目，卻需要明確數(shù)據(jù)的定義，比如，如何定義圖像邊界框，或如何處理專家不同的意見，等等。

對于范圍和要解決的問題，可以頭腦風(fēng)暴商業(yè)問題、技術(shù)解決方案，對價值和可行性做盡職調(diào)查，配置資源，制定計(jì)劃，確定里程碑。人工智能專家確定什么可以做，領(lǐng)域?qū)＜掖_定什么是有價值的，這兩個的交集里就有要解決的問題。

機(jī)器學(xué)習(xí)項(xiàng)目的周期中：確定范圍，決定要解決的問題，需要不同功能部門的頭腦風(fēng)暴；為模型獲取數(shù)據(jù)，需要不同功能部門的執(zhí)行；構(gòu)建、訓(xùn)練模型，需要人工智能的研究；部署，運(yùn)行產(chǎn)品創(chuàng)造價值，需要機(jī)器學(xué)習(xí)開發(fā)、軟件開發(fā)。

人工智能在用戶互聯(lián)網(wǎng)領(lǐng)域已經(jīng)創(chuàng)造了價值。在互聯(lián)網(wǎng)之外，人工智能仍然存在大量沒有開發(fā)的機(jī)會。預(yù)計(jì)零售、旅游、交通、物流、汽車、材料、電子/半導(dǎo)體、健康、高科技、通信、能源、農(nóng)業(yè)等領(lǐng)域2030年將創(chuàng)造13萬億美元的價值。但在很多其它領(lǐng)域仍然需要彌補(bǔ)概念驗(yàn)證到產(chǎn)品的差距。學(xué)術(shù)界和工業(yè)界應(yīng)該聯(lián)合起來把機(jī)器學(xué)習(xí)變成一個系統(tǒng)工程學(xué)科。

強(qiáng)化學(xué)習(xí)應(yīng)用?？c應(yīng)用研討會

1.《機(jī)器學(xué)習(xí)》強(qiáng)化學(xué)習(xí)應(yīng)用?？?/span>

強(qiáng)化學(xué)習(xí)是一類通用的學(xué)習(xí)、預(yù)測、決策的方法框架，在科學(xué)、工程、藝術(shù)等領(lǐng)域有廣泛應(yīng)用。已經(jīng)在雅達(dá)利游戲、AlphaGo、機(jī)器人、推薦系統(tǒng)、AutoML等領(lǐng)域取得了突出成績。不過，把強(qiáng)化學(xué)習(xí)應(yīng)用到實(shí)際場景中仍然有很多挑戰(zhàn)。這樣，我們很自然地會問：問題是什么，如何解決？

這個?？闹饕繕?biāo)為：(1) 確定能使強(qiáng)化學(xué)習(xí)成功應(yīng)用的關(guān)鍵研究問題；(2) 報告在這些關(guān)鍵問題上的進(jìn)展；3）讓領(lǐng)域?qū)＜曳窒戆褟?qiáng)化學(xué)習(xí)應(yīng)用到實(shí)際場景的成功故事，以及在應(yīng)用過程中獲得的洞察領(lǐng)悟。

?？埥鉀Q強(qiáng)化學(xué)習(xí)落地相關(guān)的問題，把強(qiáng)化學(xué)習(xí)算法成功地應(yīng)用于實(shí)際問題的稿件。?？信d趣的話題比較廣泛，包括但不限于以下的話題：

實(shí)用強(qiáng)化學(xué)習(xí)算法，包括所有強(qiáng)化學(xué)習(xí)算法的挑戰(zhàn)，尤其是在實(shí)際應(yīng)用中遇到的挑戰(zhàn)；
實(shí)際問題：泛化性、采樣/時間/空間的效率、探索與利用、獎賞函數(shù)的詳述(specification)與修整(shaping)、可擴(kuò)展性、基于模型的學(xué)習(xí)(模型的效驗(yàn)與模型誤差估計(jì))、先驗(yàn)知識、安全性、責(zé)任、可解釋性、可復(fù)制性、調(diào)超參數(shù)等等；
應(yīng)用方向：推薦系統(tǒng)、廣告、聊天系統(tǒng)、商業(yè)、金融、健康醫(yī)療、教育、機(jī)器人、自動駕駛、交通、能源、化學(xué)合成、藥物設(shè)計(jì)、工業(yè)控制、美術(shù)、音樂、以及其它科學(xué)、工程、藝術(shù)問題。

專刊內(nèi)容會在2021年初完成編輯，敬請關(guān)注。

2. 強(qiáng)化學(xué)習(xí)應(yīng)用研討會

在2019年國際機(jī)器學(xué)習(xí)大會(International Conference on Machine Learning, ICML)上，Alborz Geramifard (臉書), Lihong Li (谷歌), Csaba Szepesvari (Deepmind & 阿爾伯塔大學(xué)), Tao Wang (蘋果) 共同組織舉辦了強(qiáng)化學(xué)習(xí)應(yīng)用研討會(Reinforcement Learning for Real Life, RL4RealLife). 工業(yè)界和學(xué)術(shù)界對強(qiáng)化學(xué)習(xí)應(yīng)用感興趣的研發(fā)人員集聚一堂，探討如何將強(qiáng)化學(xué)習(xí)應(yīng)用于實(shí)際場景。

研討會有三個一流的特邀報告：

AlphaStar：理解星際爭霸。報告人：David Silver
如何開展強(qiáng)化學(xué)習(xí)應(yīng)用的革命？報告人：John Langford
推薦系統(tǒng)中的強(qiáng)化學(xué)習(xí)。報告人：Craig Boutilier

頂級專家組成了專題討論小組: Craig Boutilier (谷歌研究院), Emma Brunskill (斯坦福大學(xué)), Chelsea Finn (谷歌研究院, 斯坦福大學(xué), 加州大學(xué)伯克利分校), Mohammad Ghavamzadeh (臉書人工智能研究院), John Langford (微軟研究院), David Silver (Deepmind), 和Peter Stone (得克薩斯大學(xué)奧斯丁分校, Cogitai). 討論了重要的問題，比如，強(qiáng)化學(xué)習(xí)哪些方向最有前景？把強(qiáng)化學(xué)習(xí)應(yīng)用到實(shí)際場景的一般性原則是什么？等等。

有大約60篇海報/論文。選擇了4篇最佳論文：

Chow et al. 討論了連續(xù)動作問題里的安全性
Dulac-Arnold et al. 討論了強(qiáng)化學(xué)習(xí)應(yīng)用的9個挑戰(zhàn)
Gauci et al. 討論了臉書的開源應(yīng)用強(qiáng)化學(xué)習(xí)平臺Horizon
Mao et al. 討論了增強(qiáng)計(jì)算機(jī)系統(tǒng)開放平臺Park

歡迎訪問研討會網(wǎng)站；有特邀報告的視頻鏈接、大部分論文和一部分海報；網(wǎng)址為：sites.google.com/view/R.

2020年6月，Gabriel Dulac-Arnold (谷歌), Alborz Geramifard (臉書), Omer Gottesman (哈佛大學(xué)),Lihong Li (谷歌), Anusha Nagabandi (加州大學(xué)伯克利分校), Zhiwei (Tony) Qin (滴滴), Csaba Szepesvari (Deepmind & 阿爾伯塔大學(xué)) 在網(wǎng)上共同組織舉辦了強(qiáng)化學(xué)習(xí)應(yīng)用研討會。會議邀請了頂級專家組成了兩個專題討論小組，分別討論“強(qiáng)化學(xué)習(xí)+健康醫(yī)療”和“一般性強(qiáng)化學(xué)習(xí)”兩個專題；會議有30多篇海報/論文。

強(qiáng)化學(xué)習(xí)+健康醫(yī)療專題討論由Finale Doshi-Velez (哈佛大學(xué)), Niranjani Prasad (普林斯頓大學(xué)), Suchi Saria (約翰霍普金斯大學(xué))組成, 由Susan Murphy (哈佛大學(xué))主持，由Omer Gottesman (哈佛大學(xué))做開場及總結(jié)主持。

一般性強(qiáng)化學(xué)習(xí)專題討論由Ed Chi (谷歌), Chelsea Finn (斯坦福大學(xué)), Jason Gauci (臉書)組成, 由Peter Stone (得克薩斯大學(xué)&索尼)主持, 由Lihong Li (谷歌)做開場及總結(jié)主持。

更多信息參見會議網(wǎng)址：sites.google.com/view/R.

強(qiáng)化學(xué)習(xí)資料與簡史

1. 強(qiáng)化學(xué)習(xí)資料

強(qiáng)化學(xué)習(xí)的學(xué)習(xí)資料中，Sutton & Barto 的強(qiáng)化學(xué)習(xí)教科書是必讀的，David Silver的UCL課程是經(jīng)典，阿爾伯塔大學(xué)最近在Coursera上線了強(qiáng)化學(xué)習(xí)課程。強(qiáng)化學(xué)習(xí)里概念比較多，仔細(xì)學(xué)一些基礎(chǔ)，會很有幫助。如果有一定深度學(xué)習(xí)背景，可能可以考慮直接學(xué)深度強(qiáng)化學(xué)習(xí)。OpenAI Spinning Up比較簡潔，Deepmind與UCL合出了深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)課程，UC Berkeley的深度強(qiáng)化學(xué)習(xí)課程是高級進(jìn)階。下面列了這幾個資料。

Sutton & Barto RL強(qiáng)化學(xué)習(xí)教科書，incompleteideas.net/boo
David Silver強(qiáng)化學(xué)習(xí)課程，www0.cs.ucl.ac.uk/staff
阿爾伯塔大學(xué)在Coursera上的強(qiáng)化學(xué)習(xí)課，coursera.org/specializa
OpenAI Spinning Up, blog.openai.com/spinnin
DeepMind & UCL 的深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)課程，youtube.com/playlist?
UC Berkeley深度強(qiáng)化學(xué)習(xí)課程，rail.eecs.berkeley.edu/

學(xué)習(xí)強(qiáng)化學(xué)習(xí)，有必要對深度學(xué)習(xí)和機(jī)器學(xué)習(xí)有一定的了解。下面推薦幾篇綜述論文。

LeCun, Bengio and Hinton, Deep Learning, Nature, May 2015
Jordan and Mitchell, Machine learning: Trends, perspectives, and prospects, Science, July 2015
Littman, Reinforcement learning improves behaviour from evaluative feedback, Nature, May 2015

希望深入了解深度學(xué)習(xí)、機(jī)器學(xué)習(xí)，Goodfellow et al. (2016)、Zhang et al. (2019) 介紹了深度學(xué)習(xí)；周志華(2016)、李航(2019)介紹了機(jī)器學(xué)習(xí)。

學(xué)習(xí)基本概念的同時應(yīng)該通過編程加深理解。OpenAI Gym很常用，gym.openai.com.

下面的Github開源把Sutton & Barto強(qiáng)化學(xué)習(xí)書里面的例子都實(shí)現(xiàn)了，也有很多深度強(qiáng)化學(xué)習(xí)算法的實(shí)現(xiàn)：github.com/ShangtongZha.

2. 強(qiáng)化學(xué)習(xí)簡史

早期的強(qiáng)化學(xué)習(xí)有兩個主要的豐富綿長的發(fā)展線索。一個是源于動物學(xué)習(xí)的試錯法；在早期的人工智能中發(fā)展，與二十世紀(jì)八十年代促進(jìn)了強(qiáng)化學(xué)習(xí)的復(fù)興。另一個是最優(yōu)控制及其解決方案：值函數(shù)和動態(tài)規(guī)劃。最優(yōu)控制大部分沒有包括學(xué)習(xí)。這兩個線索先是分頭進(jìn)展，到二十世紀(jì)八十年代，時序差分(temporal-difference)方法出現(xiàn)，形成第三條線索。然后幾種線索交織融合到一起，發(fā)展成現(xiàn)代強(qiáng)化學(xué)習(xí)。

最優(yōu)控制始于二十世紀(jì)五十年代，設(shè)計(jì)控制器來優(yōu)化動態(tài)系統(tǒng)一段時間內(nèi)行為的性能指標(biāo)。動態(tài)規(guī)劃是最優(yōu)控制的一個解決方法，由Richard Bellman等人提出，基于以前Hamilton和Jacobi的理論。動態(tài)規(guī)劃使用動態(tài)系統(tǒng)的狀態(tài)和值函數(shù)，或最優(yōu)回報函數(shù)，來定義一個等式，現(xiàn)在被稱為Bellman等式。通過解這個等式的一組方法則被稱為動態(tài)規(guī)劃方法。Bellman也提出離散隨機(jī)版的最優(yōu)控制問題，既馬爾科夫決策過程(Markov decision processes, MDP). Ronald Howard在1960年給MDP問題設(shè)計(jì)了策略迭代方法。這些都是現(xiàn)代強(qiáng)化學(xué)習(xí)理論和算法的基本元素。

一般認(rèn)為，動態(tài)規(guī)劃是解決一般性的隨機(jī)優(yōu)化控制的唯一方法。動態(tài)規(guī)劃會遇到“維度災(zāi)難”問題，就是說，它的計(jì)算復(fù)雜性隨著狀態(tài)變量的個數(shù)而指數(shù)增長。不過，動態(tài)規(guī)劃仍然是最高效、應(yīng)用最廣的方法。動態(tài)規(guī)劃已經(jīng)被擴(kuò)展到部分可見馬爾科夫決策過程(Partially Observable MDP, POMDP)，異步方法，以及各種應(yīng)用。

最優(yōu)控制、動態(tài)規(guī)劃與學(xué)習(xí)的聯(lián)系，確認(rèn)得卻比較慢?？赡艿脑蚴沁@些領(lǐng)域由不同的學(xué)科在發(fā)展，而目標(biāo)也不盡相同。一個流行的觀點(diǎn)是動態(tài)規(guī)劃是離線計(jì)算的，需要準(zhǔn)確的系統(tǒng)模型，并給出Bellman等式的解析解。還有，最簡單的動態(tài)規(guī)劃是按時間從后向前運(yùn)算的，而學(xué)習(xí)則是從前往后的，這樣，則很難把兩者聯(lián)系起來。事實(shí)上，早期的一些研究工作，已經(jīng)把動態(tài)規(guī)劃與學(xué)習(xí)結(jié)合起來了。而在1989年，Chris Watkins用MDP的形式定義強(qiáng)化學(xué)習(xí)問題，把動態(tài)規(guī)劃和線上學(xué)習(xí)完全結(jié)合起來，也得到廣泛接受。之后，這樣的聯(lián)系獲得進(jìn)一步的發(fā)展。麻省理工學(xué)院的Dimitri Bertsekas和John Tsitsiklis提出了神經(jīng)元動態(tài)規(guī)劃(neurodynamic programming)這一術(shù)語，用來指代動態(tài)規(guī)劃與神經(jīng)元網(wǎng)絡(luò)的結(jié)合。現(xiàn)在還在用的另一個術(shù)語是近似動態(tài)規(guī)劃(approximate dynamic programming). 這些方法與強(qiáng)化學(xué)習(xí)都是在解決動態(tài)規(guī)劃的經(jīng)典問題。

在某種意義上，最優(yōu)控制就是強(qiáng)化學(xué)習(xí)。強(qiáng)化學(xué)習(xí)問題與最優(yōu)控制問題緊密相關(guān)，尤其是描述成MDP的隨機(jī)優(yōu)化控制問題。這樣，最優(yōu)控制的解決方法，比如動態(tài)規(guī)劃，也是強(qiáng)化學(xué)習(xí)方法。大部分傳統(tǒng)的最優(yōu)控制方法需要完全的系統(tǒng)模型知識，這樣把它們看成強(qiáng)化學(xué)習(xí)有些不夠自然。不過，許多動態(tài)規(guī)劃算法是增量的、迭代的。像學(xué)習(xí)方法一樣，它們通過連續(xù)的近似逐漸達(dá)到正確解。這些相似性有著深刻的意義，而對于完全信息和不完全信息的理論和方法也緊密相關(guān)。

下面討論強(qiáng)化學(xué)習(xí)早期發(fā)展的另外一條線索：試錯學(xué)習(xí)法。試錯學(xué)習(xí)法最早可以追溯到十九世紀(jì)五十年代。1911年，Edward Thorndike簡明地把試錯學(xué)習(xí)法當(dāng)成學(xué)習(xí)的原則：對于同一情況下的幾個反應(yīng)，在其它因素一樣時，只有伴隨著或緊隨動物的喜悅之后的那些反應(yīng)，才會被更深刻地與當(dāng)下的情況聯(lián)系起來，這樣，當(dāng)這些反應(yīng)再次發(fā)生，再次發(fā)生的可能性也更大；而只有伴隨著或緊隨動物的不適之后的那些反應(yīng)，與當(dāng)下的情況聯(lián)系會被削弱，這樣，當(dāng)這些反應(yīng)再次發(fā)生，再次發(fā)生的可能性會更小。喜悅或不適的程度越大，聯(lián)系的加強(qiáng)或減弱的程度也越大。Thorndike稱其為“效果定律”(Law of Effect), 因?yàn)樗枋隽藦?qiáng)化事件對選擇動作的傾向性的效果，也成為許多行為的基本原則。

“強(qiáng)化”這一術(shù)語出現(xiàn)于1927年巴浦洛夫(Pavlov)條件反射論文的英譯本，晚于Thorndike的效果定律。巴浦洛夫把強(qiáng)化描述成，當(dāng)動物接收到刺激，也就是強(qiáng)化物，對一種行為模式的加強(qiáng)，而這個刺激與另一個刺激或反應(yīng)的發(fā)生有合適的時間關(guān)系。

在計(jì)算機(jī)里實(shí)現(xiàn)試錯法學(xué)習(xí)是人工智能早期的想法之一。在1948年，阿蘭·圖靈(Alan Turing)描述了一個“快樂-痛苦系統(tǒng)”，根據(jù)效果定律設(shè)計(jì)：達(dá)到一個系統(tǒng)狀態(tài)時，如果選哪個動作還沒有確定，就暫時隨機(jī)選一個，作為臨時記錄。當(dāng)出現(xiàn)一個痛苦刺激，取消所有的臨時記錄；當(dāng)出現(xiàn)一個快樂刺激，所有的臨時記錄變成永久記錄。

1954年，圖靈獎獲得者馬文·明斯基(Marvin Minsky)在他的博士論文里討論了強(qiáng)化學(xué)習(xí)的計(jì)算模型，描述了他搭建的模擬電路機(jī)器，用來模仿大腦中可以修改的突觸連接。他于1961年發(fā)表《通向人工智能的幾個步驟》(Steps Toward Artificial Intelligence), 討論了與試錯學(xué)習(xí)法相關(guān)的幾個問題，包括預(yù)測、期望、還有被他稱為復(fù)雜強(qiáng)化學(xué)習(xí)系統(tǒng)中基本的獎賞分配問題：如何把成功獲得的獎賞分配給可能導(dǎo)致成功相關(guān)的那些決定？這個問題仍然是現(xiàn)代強(qiáng)化學(xué)習(xí)的一個關(guān)鍵問題。

二十世紀(jì)六十年代、七十年代試錯學(xué)習(xí)法有一些發(fā)展。Harry Klopf在人工智能領(lǐng)域?qū)υ囧e法在強(qiáng)化學(xué)習(xí)中的復(fù)興做了重要貢獻(xiàn)。Klopf發(fā)現(xiàn)，當(dāng)研究人員專門關(guān)注監(jiān)督學(xué)習(xí)時，則會錯過自適應(yīng)行為的一些方面。按照Klopf所說，行為的快樂方面被錯過了，而這驅(qū)動了從環(huán)境成功獲得結(jié)果，控制環(huán)境向希望的結(jié)果發(fā)展，而遠(yuǎn)離不希望的結(jié)果。這是試錯法學(xué)習(xí)的基本思想。Klopf的思想對強(qiáng)化學(xué)習(xí)之父Richard Sutton和Andrew Barto有深遠(yuǎn)影響，使得他們深入評估監(jiān)督學(xué)習(xí)與強(qiáng)化學(xué)習(xí)的區(qū)別，并最終專注強(qiáng)化學(xué)習(xí)，包括如何為多層神經(jīng)元網(wǎng)絡(luò)設(shè)計(jì)學(xué)習(xí)算法。

現(xiàn)在討論強(qiáng)化學(xué)習(xí)發(fā)展的第三個線索，時序差分學(xué)習(xí)。時序差分學(xué)習(xí)基于對同一個量在時間上相連的估計(jì)，比如，圍棋例子中贏棋的概率。時序差分學(xué)習(xí)是強(qiáng)化學(xué)習(xí)中一個新的獨(dú)特的方法。

時序差分學(xué)習(xí)部分上起源于動物學(xué)習(xí)心理學(xué)，尤其是次要強(qiáng)化物的概念。次要強(qiáng)化物與像食物和痛苦這樣的主要強(qiáng)化物相伴而來，所以也就有相應(yīng)的強(qiáng)化特點(diǎn)。明斯基于1954年意識到這樣的心理學(xué)原則可能對人工學(xué)習(xí)系統(tǒng)的重要意義；他可能是第一位。1959年，Arthur Samuel在其著名的國際跳棋程序中，第一次提出并實(shí)現(xiàn)了包括時序差分學(xué)習(xí)的學(xué)習(xí)方法。Samuel受克勞德·香農(nóng)(Claude Shannon)1950年工作的啟發(fā)，發(fā)現(xiàn)計(jì)算機(jī)程序可以用評估函數(shù)玩國際象棋，棋藝也可以通過在線修改這個評估函數(shù)來提高。明斯基于1961年深入討論Samuel的方法與次要強(qiáng)化物的聯(lián)系。Klopf在1972年把試錯學(xué)習(xí)法與時序差分學(xué)習(xí)聯(lián)系起來。

Sutton在1978年進(jìn)一步研究Klopf的想法，尤其是與動物學(xué)習(xí)的聯(lián)系，通過連續(xù)時間預(yù)測的變化來定義學(xué)習(xí)規(guī)則。Sutton和Barto繼續(xù)改進(jìn)這些想法，提出了基于時序差分學(xué)習(xí)的經(jīng)典條件反射心理學(xué)模型。同時期有不少相關(guān)工作；一些神經(jīng)科學(xué)模型也可以用時序差分學(xué)習(xí)來解釋。

Sutton和Barto于1981年提出了行動者-評價者體系結(jié)構(gòu)，把時序差分學(xué)習(xí)與試錯學(xué)習(xí)結(jié)合起來。Sutton1984年的博士論文深入討論了這個方法。Sutton于1988年把時序差分學(xué)習(xí)與控制分開，把它當(dāng)做一種通用的預(yù)測方法。那篇論文也提出了多步時序差分學(xué)習(xí)算法。

在1989年，Chris Watkins提出Q學(xué)習(xí)，把時序差分學(xué)習(xí)、最優(yōu)控制、試錯學(xué)習(xí)法三個線索完全融合到一起。這時，開始在機(jī)器學(xué)習(xí)和人工智能領(lǐng)域出現(xiàn)大量的強(qiáng)化學(xué)習(xí)方面的研究。1992年，

Gerry Tesauro成功地使用強(qiáng)化學(xué)習(xí)和神經(jīng)元網(wǎng)絡(luò)設(shè)計(jì)西洋雙陸棋(Backgammon)的TD-Gammon算法，進(jìn)一步增加了強(qiáng)化學(xué)習(xí)的熱度。

Sutton和Barto于1998年發(fā)表《強(qiáng)化學(xué)習(xí)介紹》之后，神經(jīng)科學(xué)的一個子領(lǐng)域?qū)Ｗ⒂谘芯繌?qiáng)化學(xué)習(xí)算法與神經(jīng)系統(tǒng)中的強(qiáng)化學(xué)習(xí)，而這歸功于時序差分學(xué)習(xí)算法的行為與大腦中生成多巴胺的神經(jīng)元的活動之間神秘的相似性。強(qiáng)化學(xué)習(xí)還有數(shù)不勝數(shù)的進(jìn)展。

最近，隨著DQN算法的出現(xiàn)以及AlphaGo的巨大成功，強(qiáng)化學(xué)習(xí)進(jìn)一步發(fā)展，也出現(xiàn)了深度強(qiáng)化學(xué)習(xí)這一子領(lǐng)域。這樣，強(qiáng)化學(xué)習(xí)簡史就與前面的介紹銜接起來了。

強(qiáng)化學(xué)習(xí)的前景

強(qiáng)化學(xué)習(xí)時代正在到來

強(qiáng)化學(xué)習(xí)是一類一般性的學(xué)習(xí)、預(yù)測、決策方法框架。如果一個問題可以描述成或轉(zhuǎn)化成序列決策問題，可以對狀態(tài)、動作、獎賞進(jìn)行定義，那么強(qiáng)化學(xué)習(xí)很可能可以幫助解決這個問題。強(qiáng)化學(xué)習(xí)有可能幫助自動化、最優(yōu)化手動設(shè)計(jì)的策略。

強(qiáng)化學(xué)習(xí)考慮序列問題，具有長遠(yuǎn)眼光，考慮長期回報；而監(jiān)督學(xué)習(xí)一般考慮一次性的問題，關(guān)注短期效益，考慮即時回報。強(qiáng)化學(xué)習(xí)的這種長遠(yuǎn)眼光對很多問題找到最優(yōu)解非常關(guān)鍵。比如，在最短路徑的例子中，如果只考慮最近鄰居節(jié)點(diǎn)，則可能無法找到最短路徑。

David Silver博士是AlphaGo的核心研發(fā)人員，他提出這樣的假設(shè)：人工智能=強(qiáng)化學(xué)習(xí)+深度學(xué)習(xí)。Russell和Norvig的經(jīng)典人工智能教材里提到：強(qiáng)化學(xué)習(xí)可以說包括了整個人工智能。有研究表明，計(jì)算機(jī)科學(xué)中任何可以計(jì)算的問題，都可以表達(dá)成強(qiáng)化學(xué)習(xí)問題。

本書前面首先介紹了強(qiáng)化學(xué)習(xí)，然后介紹了強(qiáng)化學(xué)習(xí)在游戲、推薦系統(tǒng)、計(jì)算機(jī)系統(tǒng)、健康醫(yī)療、教育、金融、機(jī)器人、交通、能源、制造等領(lǐng)域的一些應(yīng)用。應(yīng)該說，這里的每個領(lǐng)域都有很多工作、很多方向沒有討論，另外還有很多領(lǐng)域沒有包括進(jìn)來；難免掛一漏萬。下圖中描述了強(qiáng)化學(xué)習(xí)的應(yīng)用領(lǐng)域及方向?？赡艿膽?yīng)用領(lǐng)域太廣了。

強(qiáng)化學(xué)習(xí)在計(jì)算機(jī)系統(tǒng)中的各個方向，從底層的芯片設(shè)計(jì)、硬件系統(tǒng)，到操作系統(tǒng)、編譯系統(tǒng)、數(shù)據(jù)庫管理系統(tǒng)等軟件系統(tǒng)，到云計(jì)算平臺、通信網(wǎng)絡(luò)系統(tǒng)等基礎(chǔ)設(shè)施，到游戲引擎、推薦系統(tǒng)等應(yīng)用程序，到計(jì)算機(jī)視覺、自然語言處理、機(jī)器學(xué)習(xí)人工智能系統(tǒng)本身，都有廣泛的應(yīng)用。

對于科學(xué)、工程、藝術(shù)，本書有所涉及，比如游戲中涉及心理學(xué)、設(shè)計(jì)藝術(shù)等，而機(jī)器人、交通、能源、制造等與工程密切相關(guān)。應(yīng)該說，對于強(qiáng)化學(xué)習(xí)在科學(xué)、工程、藝術(shù)等方面廣泛的應(yīng)用場景，以及這些領(lǐng)域?qū)?qiáng)化學(xué)習(xí)的反哺，本書的涉獵有限。

自然科學(xué)及工程的問題，一般比較客觀，有標(biāo)準(zhǔn)答案，容易評估。如果有模型、比較準(zhǔn)確的仿真、或大量數(shù)據(jù)，強(qiáng)化學(xué)習(xí)/機(jī)器學(xué)習(xí)就有希望解決問題。AlphaGo是這種情況。組合優(yōu)化、運(yùn)籌學(xué)、最優(yōu)控制、藥學(xué)、化學(xué)、基因等方向，基本符合這種情況。社會科學(xué)及藝術(shù)問題，一般包含人的因素，會受心理學(xué)、行為科學(xué)等影響，一般比較主觀，不一定有標(biāo)準(zhǔn)答案，不一定容易評估。游戲設(shè)計(jì)及評估、教育等基本符合這種情況。內(nèi)在動機(jī)等心理學(xué)概念為強(qiáng)化學(xué)習(xí)/人工智能與社會科學(xué)及藝術(shù)之間搭建了聯(lián)系的橋梁。

深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)分別于2013年和2017年被《麻省理工學(xué)院科技評論》評為當(dāng)年10項(xiàng)突破性技術(shù)之一。深度學(xué)習(xí)已經(jīng)被廣泛應(yīng)用。強(qiáng)化學(xué)習(xí)會在實(shí)際應(yīng)用場景中發(fā)揮越來越重要的作用。強(qiáng)化學(xué)習(xí)已經(jīng)被成功應(yīng)用于游戲、推薦系統(tǒng)等領(lǐng)域，也可能已經(jīng)成功應(yīng)用于量化金融中。目前，強(qiáng)化學(xué)習(xí)可能還沒有被廣泛應(yīng)用于某些場景的產(chǎn)品和服務(wù)中；我們也很可能需要對不同情況做不同的分析。不過，如果考慮長期回報，現(xiàn)在很可能是培養(yǎng)、教育、引領(lǐng)強(qiáng)化學(xué)習(xí)市場的絕佳時機(jī)。我們會看到深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)大放異彩。

注釋參考文獻(xiàn)

Sutton and Barto (2018) 是強(qiáng)化學(xué)習(xí)的首選教材，而且寫的很直觀。Szepesvari (2010) 討論了強(qiáng)化學(xué)習(xí)算法。Bertsekas (2019) 介紹了強(qiáng)化學(xué)習(xí)和最優(yōu)控制。Bertsekas and Tsitsiklis (1996) 討論了神經(jīng)元動態(tài)規(guī)劃，理論性比較強(qiáng)。Powell (2011) 討論了近似動態(tài)規(guī)劃，及其在運(yùn)籌學(xué)中的應(yīng)用。Powell (2019) 和 Recht (2019) 討論了強(qiáng)化學(xué)習(xí)與最優(yōu)控制的關(guān)系。Botvinick et al. (2019) 討論了強(qiáng)化學(xué)習(xí)與認(rèn)知科學(xué)、心理學(xué)、神經(jīng)科學(xué)的關(guān)系。

Csaba Szepesvari在ACM KDD 2020 深度學(xué)習(xí)日上對強(qiáng)化學(xué)習(xí)做了全方位的深入剖析，理清了許多錯誤觀念；參見Szepesvari (2020)。我對其做了雙語解讀，參見《強(qiáng)化學(xué)習(xí)的“神話”和“鬼話”》，zhuanlan.zhihu.com/p/19。

Goodfellow et al. (2016)、Zhang et al. (2020) 介紹深度學(xué)習(xí)。周志華(2016)、李航(2019)介紹機(jī)器學(xué)習(xí)。Russell and Norvig (2009) 介紹了人工智能。張鈸等(2020) 討論第三代人工智能。

Mnih et al. (2015) 介紹了深度Q網(wǎng)絡(luò) (Deep Q-Network, DQN)。Badia et al. (2020)討論了Agent57. Silver et al. (2016) 介紹了AlphaGo. Silver et al. (2017) 介紹了AlphaGo Zero；可以不用人類知識就能掌握圍棋，超越人類圍棋水平。Silver et al. (2018) 介紹了AlphaZero, 把AlphaGo Zero擴(kuò)展到國際象棋和日本將棋等更多游戲。Tian et al. (2019) 實(shí)現(xiàn)、分析了AlphaZero，并提供了開源軟件。Moravcik et al. (2017) 介紹了DeepStack；Brown and Sandholm (2017) 介紹了Libratus；是兩個無限注雙人德州撲克計(jì)算機(jī)算法。

Vinyals et al. (2019)介紹了AlphaStar，打敗了星際爭霸人類高手。Jaderberg et al. (2018) 介紹了取得人類水平的奪旗程序。OpenAI (2019)介紹了OpenAI Five，打敗了刀塔人類高手。微軟在麻將方面取得了進(jìn)展(Suphx)。冰壺(curling)被稱為冰上國際象棋，最近也有進(jìn)展(Curly)。這些在多玩家游戲上取得的成績表明強(qiáng)化學(xué)習(xí)在團(tuán)隊(duì)游戲中對戰(zhàn)術(shù)和戰(zhàn)略已經(jīng)有了一定的掌握。

OpenAI (2018)介紹了人形機(jī)器手Dactyl，用來靈巧地操縱實(shí)物。Hwangbo et al. (2019)、Lee et al. (2020) 介紹了靈活的四足機(jī)器人。Peng et al. (2018) 介紹了仿真人形機(jī)器 DeepMimic完成高難度雜技般的動作。Lazic et al. (2018) 研究了數(shù)據(jù)中心制冷。Segler et al. (2018) 把強(qiáng)化學(xué)習(xí)應(yīng)用于化學(xué)分子逆合成。Popova et al. (2018) 把強(qiáng)化學(xué)習(xí)應(yīng)用于全新藥物設(shè)計(jì)。等等。

DQN結(jié)合了Q學(xué)習(xí)和深度神經(jīng)元網(wǎng)絡(luò)，使用了經(jīng)驗(yàn)回放 (experience replay) 和目標(biāo)網(wǎng)絡(luò) (target network) 技術(shù)來穩(wěn)定訓(xùn)練過程。在經(jīng)驗(yàn)回放中，經(jīng)驗(yàn)被存儲在回放緩沖器中，然后隨機(jī)樣本用于學(xué)習(xí)。目標(biāo)網(wǎng)絡(luò)保留一份單獨(dú)的網(wǎng)絡(luò)參數(shù)，用于在學(xué)習(xí)中使用的網(wǎng)絡(luò)參數(shù)；目標(biāo)網(wǎng)絡(luò)定期更新，卻并非每個訓(xùn)練迭代步驟都更新。Mnih et al. (2016) 介紹了異步優(yōu)勢行動者-評價者算法(Asynchronous Advantage Actor-Critic, A3C), 其中并行的行動者使用不同的探索方法來穩(wěn)定訓(xùn)練，而并沒有使用經(jīng)驗(yàn)回放。確定策略梯度可以幫助更高效地估計(jì)策略梯度。Silver et al. (2014) 介紹了確定策略梯度 (Deterministic Policy Gradient, DPG)；Lillicrap et al. (2016) 將它擴(kuò)展為深度確定策略梯度 (Deep Deterministic Policy Gradient, DDPG)?？尚艆^(qū)域方法對梯度更新設(shè)置了約束條件，用來穩(wěn)定策略優(yōu)化。Schulman et al. (2015)介紹了可信區(qū)域策略優(yōu)化算法 (Trust Region Policy Optimization, TRPO)；Schulman et al. (2017)介紹了近端策略優(yōu)化算法 (Proximal Policy Optimization, PPO)。Haarnoja et al. (2018)介紹了軟行動者-評價者(Soft Actor Critic)算法。2020年谷歌Deepmind設(shè)計(jì)了Agent57算法，可以在57個雅達(dá)利游戲上都取得非常好的成績。而之前在幾款游戲上，比如Montezuma’s Revenge, Pitfall, Solaris和Skiing上，成績總差強(qiáng)人意。Agent57融合了DQN之后的很多進(jìn)展，包括分布式學(xué)習(xí)、短期記憶、片段式記憶、用內(nèi)在動機(jī)方法鼓勵直接探索(包括在長時間尺度上和短時間尺度上追求新穎性)、設(shè)計(jì)元控制器，用來學(xué)習(xí)如何平衡探索和利用。

值得關(guān)注Pieter Abbeel, Dimitri Bertsekas, Emma Brunskill, Chelsea Finn, Leslie Kaelbling, Lihong Li, Michael Littman, Joelle Pineau, Doina Precup, Juergen Schmidhuber, David Silver, Satinder Singh, Dale Schuurmans, Peter Stone, Rich Sutton, Csaba Szepesvari等研究人員，以及像CMU, Deepmind, Facebook, Google, Microsoft, MIT, OpenAI, Stanford, University of Alberta, UC Berkeley等研究機(jī)構(gòu)在強(qiáng)化學(xué)習(xí)方面的工作。

Amershi et al. (2019)討論了機(jī)器學(xué)習(xí)中的軟件工程；很可能對強(qiáng)化學(xué)習(xí)也有幫助。作者展示了機(jī)器學(xué)習(xí)工作流的9個階段：模型需求、數(shù)據(jù)收集、數(shù)據(jù)清洗、數(shù)據(jù)標(biāo)注、特征工程、模型訓(xùn)練、模型評估、模型部署、以及模型監(jiān)視。在工作流中有很多反饋回路，比如，在模型訓(xùn)練和特征工程之間；而模型評估和模型監(jiān)視可能會回到前面任何一個階段。作者也指出人工智能中的軟件工程與以前軟件應(yīng)用中的軟件工程的三個不同：1）發(fā)現(xiàn)數(shù)據(jù)、管理數(shù)據(jù)、為數(shù)據(jù)確定版本號更復(fù)雜、更困難；2）模型定制和模型重用都需要不同的技能；3）人工智能組成部分缺少模塊化、復(fù)雜的方式糾纏在一起。

現(xiàn)實(shí)世界中強(qiáng)化學(xué)習(xí)面臨的挑戰(zhàn)的討論基于Dulac-Arnold et al. (2020) 。機(jī)器人高效學(xué)習(xí)的基礎(chǔ)的討論基于Kaelbling (2020)。里面提到兩篇博客：Sutton (2019) The bitter lesson 和 Brooks (2019)A better lesson. 強(qiáng)化學(xué)習(xí)應(yīng)用于健康的參考原則基于Gottesman et al. (2019)。Wiens et al. (2019)討論了在健康醫(yī)療中應(yīng)用機(jī)器學(xué)習(xí)如何做到負(fù)責(zé)任。人工智能創(chuàng)業(yè)：人工智能公司代表一種新的商業(yè)模式的討論基于Casado and Bornstein (2020)。人工智能創(chuàng)業(yè)：彌補(bǔ)概念驗(yàn)證與產(chǎn)品的差距的討論基于Ng (2020)。另外，Alharin et al. (2020), Belle and Papantonis (2020), Lipton (2018) 等討論可解釋性。

Li (2017) 是深度強(qiáng)化學(xué)習(xí)綜述，兼顧了該領(lǐng)域的大方向和細(xì)節(jié)，在歷史發(fā)展的背景下討論了最新的進(jìn)展。Li (2017) 討論了六個核心元素：值函數(shù)、策略、獎賞、模型、探索-利用、以及表征；討論了六個重要機(jī)制：注意力模型和存儲器、無監(jiān)督學(xué)習(xí)、分層強(qiáng)化學(xué)習(xí)、多智能體強(qiáng)化學(xué)習(xí)、關(guān)系強(qiáng)化學(xué)習(xí)、以及元學(xué)習(xí)；討論了12個應(yīng)用場景：游戲、機(jī)器人、自然語言處理、計(jì)算機(jī)視覺、金融、商業(yè)管理、醫(yī)療、教育、能源、交通、計(jì)算機(jī)系統(tǒng)、以及科學(xué)、工程、和藝術(shù)。

參考文獻(xiàn)：

Alharin, A., Doan, T.-N., and Sartipi, M. (2020). Reinforcement learning interpretation methods: A survey. IEEE Access, 8:171058 – 171077.

Amershi, S., Begel, A., Bird, C., DeLine, R., Gall, H., Kamar, E., Nagappan, N., Nushi, B., and Zimmermann, T. (2019). Software engineering for machine learning: A case study. In ICSE.

Badia, A. P., Piot, B., Kapturowski, S., Sprechmann, P., Vitvitskyi, A., and Guo, D. (2020). Agent57: Outperforming the atari human benchmark. ArXiv.

Belle, V. and Papantonis, I. (2020). Principles and practice of explainable machine learning. AXiv.

Botvinick, M., Ritter, S., Wang, J. X., Kurth-Nelson, Z., Blundell, C., and Hassabis, D. (2019). Reinforcement learning, fast and slow. Trends in Cognitive Sciences, 23(5):408–422.

Brooks, R. (2019). A better lesson. rodneybrooks.com/a-bett

Brown, N. and Sandholm, T. (2017). Superhuman ai for heads-up no-limit poker: Libratus beats top professionals. Science.

Casado, M. and Bornstein, M. (2020). The new business of AI (and how its
different from traditional software). a16z.com/2020/02/16/ the-new-business-of-ai-and-how-its-different-from-traditional-software/.

Dulac-Arnold, G., Levine, N., Mankowitz, D. J., Li, J., Paduraru, C., Gowal, S., and Hester, T. (2020). An empirical investigation of the challenges of real-world reinforcement learning. ArXiv.

Gottesman, O., Johansson, F., Komorowski, M., Faisal, A., Sontag, D., Doshi-Velez, F., and Celi, L. A. (2019). Guidelines for reinforcement learning in healthcare. Nature Medicine, 25:14–18.

Goodfellow, I., Bengio, Y., and Courville, A. (2016). Deep Learning. MIT Press.

Haarnoja, T., Zhou, A., Abbeel, P., and Levine, S. (2018). Soft actor-critic: Off-policy maximum entropy deep reinforcement learning with a stochastic actor. In ICML.

Hwangbo, J., Lee, J., Dosovitskiy, A., Bellicoso, D., Tsounis, V., Koltun, V., and Hutter, M. (2019). Learning agile and dynamic motor skills for legged robots. Science Robotics, 4(26).

Kaelbling, L. P. (2020). The foundation of efficient robot learning. Science, 369(6506):915–916.

Lazic, N., Boutilier, C., Lu, T., Wong, E., Roy, B., Ryu, M., and Imwalle, G. (2018). Data center cooling using model-predictive control. In NeurIPS.

Lee, J., Hwangbo, J., Wellhausen, L., Koltun, V., and Hutter, M. (2020). Learning quadrupedal locomotion over challenging terrain. Science Robotics.

Li, Y. (2017). Deep Reinforcement Learning: An Overview. ArXiv.

Lillicrap, T. P., Hunt, J. J., Pritzel, A., Heess, N., Erez, T., Tassa, Y., Silver, D., and Wierstra, D. (2016). Continuous control with deep reinforcement learning. In ICLR.

Lipton, Z. C. (2018). The mythos of model interpretability. ACM Queue, 16(3):31–57.

Jaderberg, M., Czarnecki, W. M., Dunning, I., Marris, L., Lever, G., Garcia Castaneda, A., Beat- tie, C., Rabinowitz, N. C., Morcos, A. S., Ruderman, A., Sonnerat, N., Green, T., Deason, L., Leibo, J. Z., Silver, D., Hassabis, D., Kavukcuoglu, K., and Graepel, T. (2018). Human-level performance in first-person multiplayer games with population-based deep reinforcement learning. ArXiv.

Mnih, V., Badia, A. P., Mirza, M., Graves, A., Harley, T., Lillicrap, T. P., Silver, D., and Kavukcuoglu, K. (2016). Asynchronous methods for deep reinforcement learning. In ICML.

Mnih, V., Kavukcuoglu, K., Silver, D., Rusu, A. A., Veness, J., Bellemare, M. G., Graves, A., Riedmiller, M., Fidjeland, A. K., Ostrovski, G., Petersen, S., Beattie, C., Sadik, A., Antonoglou, I., King, H., Kumaran, D., Wierstra, D., Legg, S., and Hassabis, D. (2015). Human-level control through deep reinforcement learning. Nature, 518(7540):529–533.

Moravcik, M., Schmid, M., Burch, N., Lisy, V., Morrill, D., Bard, N., Davis, T., Waugh, K., Johanson, M., and Bowling, M. (2017). Deepstack: Expert-level artificial intelligence in heads-up no-limit poker. Science, 356(6337):508–513.

Ng, A. (2020). Bridging AI’s proof-of-concept to production gap. youtube. com/watch?v=tsPuVAMaADY.

OpenAI, Andrychowicz, M., Baker, B., Chociej, M., Jozefowicz, R., McGrew, B., Pachocki, J., Petron, A., Plappert, M., Powell, G., Ray, A., Schneider, J., Sidor, S., Tobin, J., Welinder, P., Weng, L., and Zaremba, W. (2018). Learning dexterous in-hand manipulation. ArXiv.

OpenAI, Berner, C., Brockman, G., Chan, B., Cheung, V., Debiak, P., Dennison, C., Farhi, D., Fischer, Q., Hashme, S., Hesse, C., Jozefowicz, R., Gray, S., Olsson, C., Pachocki, J., Petrov, M., de Oliveira Pinto, H. P., Raiman, J., Salimans, T., Schlatter, J., Schneider, J., Sidor, S., Sutskever, I., Tang, J., Wolski, F., and Zhang, S. (2019). Dota 2 with large scale deep reinforcement learning. ArXiv.

Peng, X. B., Abbeel, P., Levine, S., and van de Panne, M. (2018). Deepmimic: Example-guided deep reinforcement learning of physics-based character skills. In SIGGRAPH.

Popova, M., Isayev, O., and Tropsha, A. (2018). Deep reinforcement learning for de novo drug design. Science Advances, 4(7).

Powell, W. B. (2011). Approximate Dynamic Programming: Solving the curses of dimensionality (2nd Edition). John Wiley and Sons.

Powell, W. B. (2019). From reinforcement learning to optimal control: A unified framework for sequential decisions. Arxiv.

Recht, B. (2019). A tour of reinforcement learning: The view from continuous control. Annual Review of Control, Robotics, and Autonomous Systems, 1:253–279.

Russell, S. and Norvig, P. (2009). Artificial Intelligence: A Modern Approach (3rd edition). Pearson.

Schulman, J., Levine, S., Moritz, P., Jordan, M. I., and Abbeel, P. (2015). Trust region policy optimization. In ICML.

Schulman, J., Wolski, F., Dhariwal, P., Radford, A., and Klimov, O. (2017). Proximal Policy Optimization Algorithms. ArXiv.

Segler, M. H. S., Preuss, M., and Waller, M. P. (2018). Planning chemical syntheses with deep neural networks and symbolic AI. Nature, 555:604–610.

Silver, D., Huang, A., Maddison, C. J., Guez, A., Sifre, L., Van Den Driessche, G., Schrittwieser, J., Antonoglou, I., Panneershelvam, V., Lanctot, M., et al. (2016). Mastering the game of go with deep neural networks and tree search. Nature, 529(7587):484–489.

Silver, D., Lever, G., Heess, N., Degris, T., Wierstra, D., and Riedmiller, M. (2014). Deterministic policy gradient algorithms. In ICML.

Silver, D., Hubert, T., Schrittwieser, J., Antonoglou, I., Lai, M., Guez, A., Lanctot, M., Sifre, L., Kumaran, D., Graepel, T., Lillicrap, T., Simonyan, K., and Hassabis, D. (2018). A general reinforcement learning algorithm that masters chess, shogi, and go through self-play. Science, 362(6419):1140–1144.

Silver, D., Lever, G., Heess, N., Degris, T., Wierstra, D., and Riedmiller, M. (2014). Deterministic policy gradient algorithms. In ICML.

Silver, D., Schrittwieser, J., Simonyan, K., Antonoglou, I., Huang, A., Guez, A., Hubert, T., Baker, L., Lai, M., Bolton, A., Chen, Y., Lillicrap, T., Hui, F., Sifre, L., van den Driessche, G., Graepel, T., and Hassabis, D. (2017). Mastering the game of go without human knowledge. Nature, 550:354–359.

Sutton, R. (2019). The bitter lesson. incompleteideas.net/Inc BitterLesson.html.

Sutton, R. S. and Barto, A. G. (2018). Reinforcement Learning: An Introduction (2nd Edition). MIT Press.

Szepesvari, C. (2010). Algorithms for Reinforcement Learning. Morgan & Claypool.

Szepesvari, C. (2020). Myths and misconceptions in rl. sites.ualberta.ca/ ?szepesva/talks.html. KDD 2020 Deep Learning Day.

Tian, Y., Ma, J., Gong, Q., Sengupta, S., Chen, Z., Pinkerton, J., and Zitnick, C. L. (2019). ELF OpenGo: An analysis and open reimplementation of AlphaZero. In ICML.

Vinyals, O., Babuschkin, I., Czarnecki, W. M., Mathieu, M., Dudzik, A., Chung, J., Choi, D. H., Powell, R., Ewalds, T., Georgiev, P., Oh, J., Horgan, D., Kroiss, M., Danihelka, I., Huang, A., Sifre, L., Cai, T., Agapiou, J. P., Jaderberg, M., Vezhnevets, A. S., Leblond, R., Pohlen, T., Dalibard, V., Budden, D., Sulsky, Y., Molloy, J., Paine, T. L., Gulcehre, C., Wang, Z., Pfaff, T., Wu, Y., Ring, R., Yogatama, D., Wunsch, D., McKinney, K., Smith, O., Schaul, T., Lillicrap, T., Kavukcuoglu, K., Hassabis, D., Apps, C., and Silver, D. (2019). Grandmaster level in StarCraft II using multi-agent reinforcement learning. Nature, 575:350–354.

Wiens, J., Saria, S., Sendak, M., Ghassemi, M., Liu, V. X., Doshi-Velez, F., Jung, K., Heller, K., Kale, D., Saeed, M., Ossorio, P. N., Thadaney-Israni, S., and Goldenberg, A. (2019). Do no harm: a roadmap for responsible machine learning for health care. Nature Medicine, 25:1337–1340.

Zhang, A., Lipton, Z. C., Li, M., and Smola, A. J. (2020). Dive into Deep Learning. https: //d2l.ai.

李航. (2019). 統(tǒng)計(jì)學(xué)習(xí)方法(第二版). 清華大學(xué)出版社.

張鈸, 朱軍, 蘇航. 邁向第三代人工智能. 中國科學(xué): 信息科學(xué), 2020, 50: 1281–1302, doi: 10.1360/SSI-2020-0204 Zhang B, Zhu J, Su H. Toward the third generation of artificial intelligence (in Chinese). Sci Sin Inform, 2020, 50: 1281–1302, doi: 10.1360/SSI-2020-0204

周志華. (2016). 機(jī)器學(xué)習(xí). 清華大學(xué)出版社

END

雙一流大學(xué)研究生團(tuán)隊(duì)創(chuàng)建，專注于目標(biāo)檢測與深度學(xué)習(xí)，希望可以將分享變成一種習(xí)慣！

整理不易，點(diǎn)贊三連↓

一文讀懂強(qiáng)化學(xué)習(xí)