www.色色网,美女抠逼免费看,中国女公安一级毛片,干屄视频免费在线观看,日本护士给病人满足hd,天堂综合网,国产成人视频免费看,啪啪啪无码

來源：知乎

作者：朱哲清Bill（Facebook應(yīng)用強(qiáng)化學(xué)習(xí)負(fù)責(zé)人，工程經(jīng)理）

這正好是我的團(tuán)隊(duì)的方向，所以在不涉及公司內(nèi)部信息的情況下大概說一下我的展望。我大概讀了一下這個(gè)問題之下的大部分回答，我覺得可能有些過于悲觀。我還是可以負(fù)責(zé)任的說，目前RL已經(jīng)成熟的算法已經(jīng)有部分可以直接上應(yīng)用了（是真的應(yīng)用，不是模擬器的那種）。我希望我的這個(gè)回答可以為大家增加一些信心吧。

強(qiáng)化學(xué)習(xí)我將它分為兩個(gè)大部分來講吧，一個(gè)是online RL，另一部分是offline RL。我分別一個(gè)一個(gè)的說，他們的應(yīng)用場(chǎng)景很不一樣。

Online Reinforcement Learning

先來說一下online RL。Online RL顧名思義就是說有一個(gè)environment是RL Agent一直可以交互并且獲得experience的。這些experience可以為Agent后續(xù)的policy提供數(shù)據(jù)基礎(chǔ)。也就是說，當(dāng)Agent能夠?qū)W到一個(gè)新的policy之后，它可以立刻將新的policy直接放到真實(shí)環(huán)境中來實(shí)驗(yàn)，來看自己的新policy是否有提升。在這個(gè)setting下，我將整個(gè)RL需要解決的問題分成兩個(gè)大塊，探索（Exploration）和多步?jīng)Q策（Sequential Decision Making）。

探索（Exploration）: 說句實(shí)話，在Online RL里面不加探索，然后直接用過往數(shù)據(jù)做一個(gè)warmup然后直接greedy或者epsilon greedy來和environment交互又一點(diǎn)耍流氓哈哈。我先講一下沒有planning情況下，單步?jīng)Q策的bandit問題下的探索。探索的主要目的是要降低不確定性（uncertainty），這樣可以為未來的決策提供更好的confidence。一般情況下，常規(guī)的LinUCB已經(jīng)可以起到很好的效果了，但是目前來說有一個(gè)比較大的gap是如何在深度神經(jīng)網(wǎng)絡(luò)的情況下解決uncertainty estimation的問題。
目前有一條research agenda是要完成在深度神經(jīng)網(wǎng)絡(luò)下的不確定性估計(jì)。值得提的一句是，這里的uncertainty指的更多是epistemic uncertainty，即Agent對(duì)于environment的估計(jì)本身的不確定性，而不是environment本身的隨機(jī)性帶來的不確定性。這條research agenda也是我自己的一個(gè)研究方向，所以之后我在自己的主頁(yè)也會(huì)給大家?guī)砀嗟难芯窟M(jìn)展。在實(shí)際應(yīng)用中，單步?jīng)Q策的探索其實(shí)已經(jīng)帶來了很多的應(yīng)用成果了，比如：
Li, Lihong, et al. "A contextual-bandit approach to personalized news article recommendation."Proceedings of the 19th international conference on World wide web. 2010
（其他的很多結(jié)果目前和這個(gè)都大差不差，就不列舉了）

我其實(shí)剛接觸exploration的時(shí)候，對(duì)于在推薦系統(tǒng)中exploration的使用之少十分吃驚，因?yàn)樵谶@個(gè)方向是可以被當(dāng)作一個(gè)online exploration的environment的。我覺得在這個(gè)方向之后會(huì)有很多的機(jī)會(huì)。對(duì)于多步探索，我覺得目前還有點(diǎn)早，我之前也寫了一篇論文寫了在推薦系統(tǒng)中多步探索的重要性，但我覺得在大環(huán)境還沒有接受單步探索的情況下，接受多步探索的可能性不太大。
多步?jīng)Q策（Sequential Decision Making）：這個(gè)其實(shí)是RL里面最容易理解的方向了，所有人都知道，但是我看到太多人忽視上面說的第一步而直接上這一步。如果是這樣做的RL，我基本肯定會(huì)fail。原因不是RL不能用，而是使用者拿錯(cuò)了說明書lol。在多步?jīng)Q策的過程中，如果說一直是采取的單純的exploitation，或者僅僅是epsilon-greedy，那所有的RL算法都是exponential to time step的sample complexity，甚至于是無限的sample complexity。這樣的情況下，online RL根本就不可能會(huì)work。更別說在大多數(shù)的真實(shí)環(huán)境中，reward還比較sparse，這樣就更不可能能成了。目前來說，多步?jīng)Q策最有用的方向還是在于Black Box Optimization，也就是在硬件和一個(gè)既有環(huán)境下做優(yōu)化。在很多NP-hard的問題下，RL能夠比非常冗長(zhǎng)的優(yōu)化算法能夠更快的得到更好的解。這個(gè)方向我的團(tuán)隊(duì)過往得到過很多成果，市面上可以看到的有Nvidia的GPU架構(gòu)設(shè)計(jì)，Deepmind為Youtube做的視頻壓縮。這邊給一個(gè)鏈接：MuZero’s first step from research into the real world。這是最近才出來的。

我認(rèn)為多步?jīng)Q策在更加復(fù)雜的，特別是在跟人交互的環(huán)境下要成功，還需要一些努力，特別是和探索的結(jié)合。我的研究方向和這個(gè)也很相關(guān)，之后也會(huì)更多跟大家分享。我對(duì)于這個(gè)方向最后會(huì)成功還是有很大信心的。

在online RL的最后我再說一下，其實(shí)目前的成功很有限的另一個(gè)原因在于環(huán)境本身的隨機(jī)性以及對(duì)于value function的設(shè)計(jì)的單一。多數(shù)系統(tǒng)和人機(jī)交互的環(huán)境下，目的大多不是單一的，隨機(jī)性也很高。這一部分理論方面還有待提升，可以多關(guān)注General Value Function (GVF)和Option的研究進(jìn)展。

Offline Reinforcement Learning

和online RL的最大區(qū)別是，online一直有一個(gè)environment可以交互，而offline只有一個(gè)有限的數(shù)據(jù)集，得從里面學(xué)到一個(gè)policy，然后直接deploy，看結(jié)果。我覺得在Offline的領(lǐng)域，我能夠看到通常被踩的兩個(gè)大坑。

沒有管新的policy和現(xiàn)有的policy的差距，2. 數(shù)據(jù)本身的收集方式。

決策距離（Policy Distance）：我用一個(gè)相對(duì)比較抽象的方式來解釋這個(gè)問題，因?yàn)檫@個(gè)問題本身可以挖的數(shù)學(xué)方向?qū)嵲谔嗔??？偟膩碚f，這個(gè)方向和off-policy policy evaluation(OPE)有關(guān)。簡(jiǎn)單來說，如果說你在數(shù)據(jù)上學(xué)到的決策方案和你收集數(shù)據(jù)本身使用的決策方案差距很大的話，你麻煩就大了。如果你把這樣一個(gè)policy在沒有做OPE的情況下就自信的放進(jìn)系統(tǒng)中，那不給你搞崩就不錯(cuò)了。這個(gè)現(xiàn)象的背景是importance sampling，因?yàn)槿绻闶占瘮?shù)據(jù)的policy和新的policy的support概率很不一樣，甚至于support本身不同，那你新算法結(jié)果的variance會(huì)爆炸，甚至于會(huì)達(dá)到無窮大（如果support本身不同的話）。在做offline RL的時(shí)候，我們一般會(huì)推薦pessimism principle，這個(gè)跟online很不一樣。這邊給一篇paper參考：Kumar, Aviral, et al. "Conservative q-learning for offline reinforcement learning."Advances in Neural Information Processing Systems33 (2020): 1179-1191. 這篇文章也有一些后續(xù)可以去關(guān)注Sergey的組的后續(xù)研究。
數(shù)據(jù)收集：因?yàn)閛ffline RL是基于已有policy收集的數(shù)據(jù)的，那用哪種已有policy變得尤其的重要?；趇mportance sampling的理論，最小variance的做法是用uniformly random的policy。在這種情況下才能保證數(shù)據(jù)收集policy的support能夠包含任何新的policy的support，并且使得variance在未知新的policy的情況下最小化（可以想象成在沒有conditioned on新的policy的情況下的expected variance）。如果說現(xiàn)在的數(shù)據(jù)集是用了一個(gè)不是隨機(jī)的policy，并且有些policy還是deterministic的，那太可惜了，大概率新的policy是沒法用的，因?yàn)楦静恢肋@個(gè)新的policy的好壞。這也是為什么好多人抱怨說RL從線下數(shù)據(jù)集里面訓(xùn)練出來沒有用的原因了。（其實(shí)你可以發(fā)現(xiàn)這個(gè)問題和上一個(gè)決策距離的問題是有本質(zhì)聯(lián)系的。）

在offline RL的最后我想說一個(gè)我的觀察。其實(shí)offline RL和online RL的boundary很模糊。你可以想象只要不是每個(gè)step都train，那online RL其實(shí)就是一個(gè)mini batch的offline RL。所以要想清楚你的問題是不是真正的offline RL，也就是說你train完了之后放出去之后沒法再調(diào)整了。比如說在機(jī)器人公司和自動(dòng)駕駛公司，這些情況非常常見。我知道某掃地機(jī)器人公司他們就面臨這種問題，但是大多數(shù)公司其實(shí)是沒有這些問題的。

回答別的回答中的一些問題

在其他回答中對(duì)于online RL有一個(gè)詬病是在于in sample testing。我覺得這個(gè)詬病沒有太大的問題，但是如果說真實(shí)系統(tǒng)就是這樣一個(gè)in sample的environment，我覺得目前的設(shè)計(jì)也無可厚非。從generalization的角度來說，Meta-learning也會(huì)是一個(gè)解決adaptation的方向。

還有一個(gè)對(duì)于RL的詬病是它的loss function有時(shí)候跳來跳去，不好理解。我覺得這個(gè)是研究者自己對(duì)于問題本身以及算法的理解不夠?qū)е碌?。如果是tabular setting，那TD loss應(yīng)該一直下降直至收斂。然而如果是unknown environment，那有時(shí)候TD loss跳是好事，說明算法發(fā)現(xiàn)了一個(gè)新的它從沒見過的領(lǐng)域，需要重新學(xué)習(xí)。你需要去分析現(xiàn)在Agent經(jīng)歷了哪些區(qū)域，是不是有新的information。它目前的value function是不是和你估計(jì)的差不多。能看的東西其實(shí)非常多。

Last remark：RL不同于大家熟識(shí)的機(jī)器學(xué)習(xí)，所需要的常規(guī)機(jī)器學(xué)習(xí)之外的統(tǒng)計(jì)，運(yùn)籌，信息理論（Information Theory）等等領(lǐng)域所需要的知識(shí)都很多。如果說不能真正理解這些算法背后的原理，真的很難能夠在復(fù)雜的真實(shí)環(huán)境中做對(duì)。我自己這些坑全都踩過。RL要走的路還很長(zhǎng)，市面上的論文質(zhì)量也大多參差不齊，希望我的這個(gè)回答能給大家?guī)椭伞?/h3>

有些想法可能跟很多人想法不太一樣，大家輕踩 :)

文章轉(zhuǎn)載自知乎，著作權(quán)歸屬原作者

往期精彩：
?講解視頻來了！機(jī)器學(xué)習(xí) 公式推導(dǎo)與代碼實(shí)現(xiàn)開錄！
?更新！《機(jī)器學(xué)習(xí)：公式推導(dǎo)與代碼實(shí)現(xiàn)》1-16章PPT下載
《機(jī)器學(xué)習(xí) 公式推導(dǎo)與代碼實(shí)現(xiàn)》隨書PPT示例
?時(shí)隔一年！深度學(xué)習(xí)語(yǔ)義分割理論與代碼實(shí)踐指南.pdf第二版來了！
?新書首發(fā) | 《機(jī)器學(xué)習(xí) 公式推導(dǎo)與代碼實(shí)現(xiàn)》正式出版！
《機(jī)器學(xué)習(xí)公式推導(dǎo)與代碼實(shí)現(xiàn)》將會(huì)配套PPT和視頻講解！

国产秋霞理论久久久电影-婷婷色九月综合激情丁香-欧美在线观看乱妇视频-精品国avA久久久久久久-国产乱码精品一区二区三区亚洲人-欧美熟妇一区二区三区蜜桃视频

為什么說強(qiáng)化學(xué)習(xí)在近年不會(huì)被廣泛應(yīng)用？

Online Reinforcement Learning

Offline Reinforcement Learning

回答別的回答中的一些問題

国产秋霞理论久久久电影-婷婷色九月综合激情丁香-欧美在线观看乱妇视频-精品国avA久久久久久久-国产乱码精品一区二区三区亚洲人-欧美熟妇一区二区三区蜜桃视频

為什么說強(qiáng)化學(xué)習(xí)在近年不會(huì)被廣泛應(yīng)用？

Online Reinforcement Learning

Offline Reinforcement Learning

回答別的回答中的一些問題

為什么說強(qiáng)化學(xué)習(xí)在近年不會(huì)被廣泛應(yīng)用？