為什么說強(qiáng)化學(xué)習(xí)在近年不會(huì)被廣泛應(yīng)用?
來源:知乎
作者:朱哲清Bill(Facebook應(yīng)用強(qiáng)化學(xué)習(xí)負(fù)責(zé)人,工程經(jīng)理)

這正好是我的團(tuán)隊(duì)的方向,所以在不涉及公司內(nèi)部信息的情況下大概說一下我的展望。我大概讀了一下這個(gè)問題之下的大部分回答,我覺得可能有些過于悲觀。我還是可以負(fù)責(zé)任的說,目前RL已經(jīng)成熟的算法已經(jīng)有部分可以直接上應(yīng)用了(是真的應(yīng)用,不是模擬器的那種)。我希望我的這個(gè)回答可以為大家增加一些信心吧。
強(qiáng)化學(xué)習(xí)我將它分為兩個(gè)大部分來講吧,一個(gè)是online RL,另一部分是offline RL。我分別一個(gè)一個(gè)的說,他們的應(yīng)用場(chǎng)景很不一樣。
Online Reinforcement Learning
先來說一下online RL。Online RL顧名思義就是說有一個(gè)environment是RL Agent一直可以交互并且獲得experience的。這些experience可以為Agent后續(xù)的policy提供數(shù)據(jù)基礎(chǔ)。也就是說,當(dāng)Agent能夠?qū)W到一個(gè)新的policy之后,它可以立刻將新的policy直接放到真實(shí)環(huán)境中來實(shí)驗(yàn),來看自己的新policy是否有提升。在這個(gè)setting下,我將整個(gè)RL需要解決的問題分成兩個(gè)大塊,探索(Exploration)和多步?jīng)Q策(Sequential Decision Making)。
探索(Exploration): 說句實(shí)話,在Online RL里面不加探索,然后直接用過往數(shù)據(jù)做一個(gè)warmup然后直接greedy或者epsilon greedy來和environment交互又一點(diǎn)耍流氓哈哈。我先講一下沒有planning情況下,單步?jīng)Q策的bandit問題下的探索。探索的主要目的是要降低不確定性(uncertainty),這樣可以為未來的決策提供更好的confidence。一般情況下,常規(guī)的LinUCB已經(jīng)可以起到很好的效果了,但是目前來說有一個(gè)比較大的gap是如何在深度神經(jīng)網(wǎng)絡(luò)的情況下解決uncertainty estimation的問題。
目前有一條research agenda是要完成在深度神經(jīng)網(wǎng)絡(luò)下的不確定性估計(jì)。值得提的一句是,這里的uncertainty指的更多是epistemic uncertainty,即Agent對(duì)于environment的估計(jì)本身的不確定性,而不是environment本身的隨機(jī)性帶來的不確定性。這條research agenda也是我自己的一個(gè)研究方向,所以之后我在自己的主頁(yè)也會(huì)給大家?guī)砀嗟难芯窟M(jìn)展。在實(shí)際應(yīng)用中,單步?jīng)Q策的探索其實(shí)已經(jīng)帶來了很多的應(yīng)用成果了,比如:
Li, Lihong, et al. "A contextual-bandit approach to personalized news article recommendation."Proceedings of the 19th international conference on World wide web. 2010
(其他的很多結(jié)果目前和這個(gè)都大差不差,就不列舉了)
我其實(shí)剛接觸exploration的時(shí)候,對(duì)于在推薦系統(tǒng)中exploration的使用之少十分吃驚,因?yàn)樵谶@個(gè)方向是可以被當(dāng)作一個(gè)online exploration的environment的。我覺得在這個(gè)方向之后會(huì)有很多的機(jī)會(huì)。對(duì)于多步探索,我覺得目前還有點(diǎn)早,我之前也寫了一篇論文寫了在推薦系統(tǒng)中多步探索的重要性,但我覺得在大環(huán)境還沒有接受單步探索的情況下,接受多步探索的可能性不太大。多步?jīng)Q策(Sequential Decision Making):這個(gè)其實(shí)是RL里面最容易理解的方向了,所有人都知道,但是我看到太多人忽視上面說的第一步而直接上這一步。如果是這樣做的RL,我基本肯定會(huì)fail。原因不是RL不能用,而是使用者拿錯(cuò)了說明書lol。在多步?jīng)Q策的過程中,如果說一直是采取的單純的exploitation,或者僅僅是epsilon-greedy,那所有的RL算法都是exponential to time step的sample complexity,甚至于是無限的sample complexity。這樣的情況下,online RL根本就不可能會(huì)work。更別說在大多數(shù)的真實(shí)環(huán)境中,reward還比較sparse,這樣就更不可能能成了。目前來說,多步?jīng)Q策最有用的方向還是在于Black Box Optimization,也就是在硬件和一個(gè)既有環(huán)境下做優(yōu)化。在很多NP-hard的問題下,RL能夠比非常冗長(zhǎng)的優(yōu)化算法能夠更快的得到更好的解。這個(gè)方向我的團(tuán)隊(duì)過往得到過很多成果,市面上可以看到的有Nvidia的GPU架構(gòu)設(shè)計(jì),Deepmind為Youtube做的視頻壓縮。這邊給一個(gè)鏈接:MuZero’s first step from research into the real world。這是最近才出來的。
我認(rèn)為多步?jīng)Q策在更加復(fù)雜的,特別是在跟人交互的環(huán)境下要成功,還需要一些努力,特別是和探索的結(jié)合。我的研究方向和這個(gè)也很相關(guān),之后也會(huì)更多跟大家分享。我對(duì)于這個(gè)方向最后會(huì)成功還是有很大信心的。
在online RL的最后我再說一下,其實(shí)目前的成功很有限的另一個(gè)原因在于環(huán)境本身的隨機(jī)性以及對(duì)于value function的設(shè)計(jì)的單一。多數(shù)系統(tǒng)和人機(jī)交互的環(huán)境下,目的大多不是單一的,隨機(jī)性也很高。這一部分理論方面還有待提升,可以多關(guān)注General Value Function (GVF)和Option的研究進(jìn)展。
Offline Reinforcement Learning
和online RL的最大區(qū)別是,online一直有一個(gè)environment可以交互,而offline只有一個(gè)有限的數(shù)據(jù)集,得從里面學(xué)到一個(gè)policy,然后直接deploy,看結(jié)果。我覺得在Offline的領(lǐng)域,我能夠看到通常被踩的兩個(gè)大坑。
沒有管新的policy和現(xiàn)有的policy的差距,2. 數(shù)據(jù)本身的收集方式。
決策距離(Policy Distance):我用一個(gè)相對(duì)比較抽象的方式來解釋這個(gè)問題,因?yàn)檫@個(gè)問題本身可以挖的數(shù)學(xué)方向?qū)嵲谔嗔???偟膩碚f,這個(gè)方向和off-policy policy evaluation(OPE)有關(guān)。簡(jiǎn)單來說,如果說你在數(shù)據(jù)上學(xué)到的決策方案和你收集數(shù)據(jù)本身使用的決策方案差距很大的話,你麻煩就大了。如果你把這樣一個(gè)policy在沒有做OPE的情況下就自信的放進(jìn)系統(tǒng)中,那不給你搞崩就不錯(cuò)了。這個(gè)現(xiàn)象的背景是importance sampling,因?yàn)槿绻闶占瘮?shù)據(jù)的policy和新的policy的support概率很不一樣,甚至于support本身不同,那你新算法結(jié)果的variance會(huì)爆炸,甚至于會(huì)達(dá)到無窮大(如果support本身不同的話)。在做offline RL的時(shí)候,我們一般會(huì)推薦pessimism principle,這個(gè)跟online很不一樣。這邊給一篇paper參考:Kumar, Aviral, et al. "Conservative q-learning for offline reinforcement learning."Advances in Neural Information Processing Systems33 (2020): 1179-1191. 這篇文章也有一些后續(xù)可以去關(guān)注Sergey的組的后續(xù)研究。
數(shù)據(jù)收集:因?yàn)閛ffline RL是基于已有policy收集的數(shù)據(jù)的,那用哪種已有policy變得尤其的重要?;趇mportance sampling的理論,最小variance的做法是用uniformly random的policy。在這種情況下才能保證數(shù)據(jù)收集policy的support能夠包含任何新的policy的support,并且使得variance在未知新的policy的情況下最小化(可以想象成在沒有conditioned on新的policy的情況下的expected variance)。如果說現(xiàn)在的數(shù)據(jù)集是用了一個(gè)不是隨機(jī)的policy,并且有些policy還是deterministic的,那太可惜了,大概率新的policy是沒法用的,因?yàn)楦静恢肋@個(gè)新的policy的好壞。這也是為什么好多人抱怨說RL從線下數(shù)據(jù)集里面訓(xùn)練出來沒有用的原因了。(其實(shí)你可以發(fā)現(xiàn)這個(gè)問題和上一個(gè)決策距離的問題是有本質(zhì)聯(lián)系的。)
在offline RL的最后我想說一個(gè)我的觀察。其實(shí)offline RL和online RL的boundary很模糊。你可以想象只要不是每個(gè)step都train,那online RL其實(shí)就是一個(gè)mini batch的offline RL。所以要想清楚你的問題是不是真正的offline RL,也就是說你train完了之后放出去之后沒法再調(diào)整了。比如說在機(jī)器人公司和自動(dòng)駕駛公司,這些情況非常常見。我知道某掃地機(jī)器人公司他們就面臨這種問題,但是大多數(shù)公司其實(shí)是沒有這些問題的。
回答別的回答中的一些問題
在其他回答中對(duì)于online RL有一個(gè)詬病是在于in sample testing。我覺得這個(gè)詬病沒有太大的問題,但是如果說真實(shí)系統(tǒng)就是這樣一個(gè)in sample的environment,我覺得目前的設(shè)計(jì)也無可厚非。從generalization的角度來說,Meta-learning也會(huì)是一個(gè)解決adaptation的方向。
還有一個(gè)對(duì)于RL的詬病是它的loss function有時(shí)候跳來跳去,不好理解。我覺得這個(gè)是研究者自己對(duì)于問題本身以及算法的理解不夠?qū)е碌?。如果是tabular setting,那TD loss應(yīng)該一直下降直至收斂。然而如果是unknown environment,那有時(shí)候TD loss跳是好事,說明算法發(fā)現(xiàn)了一個(gè)新的它從沒見過的領(lǐng)域,需要重新學(xué)習(xí)。你需要去分析現(xiàn)在Agent經(jīng)歷了哪些區(qū)域,是不是有新的information。它目前的value function是不是和你估計(jì)的差不多。能看的東西其實(shí)非常多。
Last remark:RL不同于大家熟識(shí)的機(jī)器學(xué)習(xí),所需要的常規(guī)機(jī)器學(xué)習(xí)之外的統(tǒng)計(jì),運(yùn)籌,信息理論(Information Theory)等等領(lǐng)域所需要的知識(shí)都很多。如果說不能真正理解這些算法背后的原理,真的很難能夠在復(fù)雜的真實(shí)環(huán)境中做對(duì)。我自己這些坑全都踩過。RL要走的路還很長(zhǎng),市面上的論文質(zhì)量也大多參差不齊,希望我的這個(gè)回答能給大家?guī)椭伞?/h3>
有些想法可能跟很多人想法不太一樣,大家輕踩 :)
文章轉(zhuǎn)載自知乎,著作權(quán)歸屬原作者
往期精彩:
?講解視頻來了!機(jī)器學(xué)習(xí) 公式推導(dǎo)與代碼實(shí)現(xiàn)開錄!
?更新!《機(jī)器學(xué)習(xí):公式推導(dǎo)與代碼實(shí)現(xiàn)》1-16章PPT下載
《機(jī)器學(xué)習(xí) 公式推導(dǎo)與代碼實(shí)現(xiàn)》隨書PPT示例
?時(shí)隔一年!深度學(xué)習(xí)語(yǔ)義分割理論與代碼實(shí)踐指南.pdf第二版來了!
?新書首發(fā) | 《機(jī)器學(xué)習(xí) 公式推導(dǎo)與代碼實(shí)現(xiàn)》正式出版!
《機(jī)器學(xué)習(xí)公式推導(dǎo)與代碼實(shí)現(xiàn)》將會(huì)配套PPT和視頻講解!
