梁祝三级艳谭全集,被三个男人躁一夜,又粗又硬又爽的免费视频,影音先锋在线看,俺也去com,啊灬啊灬啊灬快灬喷水视频,国产成人久久777777黄蓉,特级欧美

深度強(qiáng)化學(xué)習(xí)是人工智能最有趣的分支之一。它是人工智能社區(qū)許多顯著成就的基石，它在棋盤、視頻游戲、自動駕駛、機(jī)器人硬件設(shè)計(jì)等領(lǐng)域擊敗了人類冠軍。

深度強(qiáng)化學(xué)習(xí)利用深度神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)能力，可以解決對于經(jīng)典強(qiáng)化學(xué)習(xí)（RL）技術(shù)來說過于復(fù)雜的問題。深度強(qiáng)化學(xué)習(xí)比機(jī)器學(xué)習(xí)的其他分支要復(fù)雜得多。在這篇文章中，我們將嘗試在不涉及技術(shù)細(xì)節(jié)的情況下，揭開它的神秘面紗。

狀態(tài)、獎勵和行動

每個強(qiáng)化學(xué)習(xí)問題的核心都是代理和環(huán)境。環(huán)境提供有關(guān)系統(tǒng)狀態(tài)的信息。代理觀察這些狀態(tài)并通過采取行動與環(huán)境交互。動作可以是離散的（例如，撥動開關(guān)）或連續(xù)的（例如，轉(zhuǎn)動旋鈕）。這些操作會使環(huán)境轉(zhuǎn)換到新狀態(tài)。根據(jù)新狀態(tài)與系統(tǒng)目標(biāo)相關(guān)性的大小，代理會收到不同程度的獎勵（如果它使代理遠(yuǎn)離其目標(biāo)，則獎勵也可以為零或負(fù)）。

「狀態(tài)-動作-獎勵」的每個循環(huán)都稱為一個步驟。強(qiáng)化學(xué)習(xí)系統(tǒng)持續(xù)循環(huán)迭代，直到達(dá)到所需狀態(tài)或達(dá)到最大步數(shù)。這一系列的步驟稱為一個「情節(jié)」或者「集」。在每一個情節(jié)開始時，環(huán)境設(shè)置為初始狀態(tài)，代理的獎勵重置為零。

強(qiáng)化學(xué)習(xí)的目標(biāo)是訓(xùn)練智能體采取行動，以最大化其回報(bào)。代理的行動功能稱為策略。一個代理通常需要很多情節(jié)來學(xué)習(xí)一個好的策略。對于更簡單的問題，幾百個情節(jié)可能足以讓代理學(xué)習(xí)到一個體面的策略。而對于更復(fù)雜的問題，代理可能需要數(shù)百萬次訓(xùn)練。

強(qiáng)化學(xué)習(xí)系統(tǒng)有更微妙的細(xì)微差別。例如，RL 環(huán)境可以是確定性的或非確定性的。在確定性環(huán)境中，多次運(yùn)行一系列「狀態(tài)-動作對」總是會產(chǎn)生相同的結(jié)果。相比之下，在非確定性 RL 問題中，環(huán)境狀態(tài)可能會因代理行為以外的事物（例如，時間的流逝、天氣、環(huán)境中的其他代理）而發(fā)生變化。

強(qiáng)化學(xué)習(xí)應(yīng)用

為了更好地理解強(qiáng)化學(xué)習(xí)的組成部分，讓我們考慮幾個例子。

Chess：這里的環(huán)境是棋盤，環(huán)境的狀態(tài)是棋子在棋盤上的位置；RL 代理可以是參與者之一（或者，兩個參與者都可以是 RL 代理，在同一環(huán)境中分別訓(xùn)練）；一盤棋局則是一集。這一集從初始狀態(tài)開始，黑板和白板的邊緣排列著黑色和白色的棋子。在每一步，代理觀察棋盤（狀態(tài)）并移動其中的一部分（采取行動），從而將環(huán)境轉(zhuǎn)換為新狀態(tài)。代理會因棋局中使對手變?yōu)椤笇⑺罓顟B(tài)」而獲得獎勵，否則將獲得零獎勵。智能體在將對手「將死」之前不會獲得任何獎勵，這使得它很難學(xué)習(xí)；這是國際象棋對 AI 來說主要的挑戰(zhàn)之一。

Atari Breakout：Breakout 是一款玩家控制球拍的游戲。有一個球在屏幕上移動，每次被球拍擊中，它都會彈向屏幕頂部，那里排列著一排排的磚塊。每次球碰到磚塊時，磚塊都會被破壞，球會反彈回來。在 Breakout 中，環(huán)境是游戲屏幕。狀態(tài)是球拍和磚塊的位置，以及球的位置和速度。代理可以采取的行動是向左移動、向右移動。每次球擊中磚塊時，代理都會收到正獎勵，如果球越過球拍并到達(dá)屏幕底部，則代理會收到負(fù)獎勵。

自動駕駛汽車：在自動駕駛中，代理就是汽車，環(huán)境就是汽車行駛的世界。RL 代理通過攝像頭、激光雷達(dá)以及其他傳感器觀察環(huán)境狀態(tài)。代理可以執(zhí)行導(dǎo)航操作，例如加速、剎車、左轉(zhuǎn)、右轉(zhuǎn)或維持現(xiàn)狀。RL 代理因使汽車保持在道路上、避免碰撞，且遵守駕駛規(guī)則和保證路線正確，而獲得獎勵。

強(qiáng)化學(xué)習(xí)功能

強(qiáng)化學(xué)習(xí)的目標(biāo)是用最大化獎勵的方式，將狀態(tài)映射到動作。但是 RL 代理究竟學(xué)習(xí)了什么？

RL 系統(tǒng)的學(xué)習(xí)算法分為三類：

基于策略的算法：這是最通用的優(yōu)化類型。策略將狀態(tài)映射到操作。學(xué)習(xí)策略的 RL 代理可以創(chuàng)建從當(dāng)前狀態(tài)到目標(biāo)狀態(tài)的動作軌跡。

假設(shè)一個正在通過優(yōu)化策略來導(dǎo)航走出迷宮的代理。首先，它進(jìn)行隨機(jī)移動，但不會收到任何獎勵；只有它最終到達(dá)出口時，才會獲得出口獎勵。它回溯其軌跡并根據(jù)代理與最終目標(biāo)的接近程度重新調(diào)整每個狀態(tài)-動作對的獎勵。在下一集中，RL 代理進(jìn)一步理解給定每個狀態(tài)需對應(yīng)采取哪些行動；它逐漸調(diào)整策略，直到收斂到最優(yōu)解。

REINFORCE 是一種基于策略的算法?；诓呗缘乃惴?，優(yōu)勢在于它們可以應(yīng)用于各種強(qiáng)化學(xué)習(xí)問題；但是其樣本效率很低，需要大量訓(xùn)練才能收斂得到最佳解決方案。

基于值的算法：基于值的函數(shù)學(xué)習(xí)評估狀態(tài)和動作的值。基于值的函數(shù)可幫助 RL 代理評估當(dāng)前狀態(tài)與動作的預(yù)期回報(bào)。

基于值的函數(shù)有兩種變體：Q 值和 V 值。Q 函數(shù)估計(jì)狀態(tài)-動作對的預(yù)期回報(bào)。V 函數(shù)僅估計(jì)狀態(tài)的值。Q 函數(shù)更容易將狀態(tài)-動作對轉(zhuǎn)換為 RL 策略，所以更常見一些。

SARSA 和 DQN 是兩種基于價值的算法?；谥档乃惴ū然诓呗缘?RL 具有更高的樣本效率。它們也存在局限性，就是它們僅適用于離散的動作空間（除非你對它們進(jìn)行一些更改）。

基于模型的算法：基于模型的算法采用不同的方法進(jìn)行強(qiáng)化學(xué)習(xí)。他們不是評估狀態(tài)和動作的價值；而是嘗試，在給定當(dāng)前狀態(tài)和動作的情況下，預(yù)測環(huán)境的狀態(tài)?；谀Ｐ偷膹?qiáng)化學(xué)習(xí)允許代理在采取任何行動之前，預(yù)先模擬不同的軌跡。

基于模型的方法為代理提供了「遠(yuǎn)見」，減小了對手動收集數(shù)據(jù)的依賴。這在收集訓(xùn)練數(shù)據(jù)和經(jīng)驗(yàn)，既昂貴又緩慢的應(yīng)用中非常有利（例如，機(jī)器人和自動駕駛汽車）。

對于基于模型的強(qiáng)化學(xué)習(xí)來說，創(chuàng)建真實(shí)的環(huán)境模型可能非常困難，這可能是這類方法的主要挑戰(zhàn)。非確定性環(huán)境（例如現(xiàn)實(shí)世界）很難建模；在某些情況下，開發(fā)人員設(shè)法創(chuàng)建接近真實(shí)環(huán)境的模擬；但即使是學(xué)習(xí)這些模擬環(huán)境的模型，也非常困難。

盡管如此，基于模型的算法已經(jīng)在諸如國際象棋和圍棋等確定性問題中廣泛應(yīng)用。蒙特卡羅樹搜索 (MTCS) 是一種比較流行的基于模型的方法，可應(yīng)用于確定性環(huán)境。

組合方法：為了克服各類強(qiáng)化學(xué)習(xí)算法的缺點(diǎn)，科學(xué)家們開發(fā)了組合算法，這類算法包含了不同類型學(xué)習(xí)函數(shù)的元素。例如，Actor-Critic 算法結(jié)合了基于策略和基于值的函數(shù)的優(yōu)點(diǎn)。這些算法使用來自價值函數(shù)（好比，評論家）的反饋來引導(dǎo)策略學(xué)習(xí)者（好比，演員）朝著正確的方向前進(jìn)，從而產(chǎn)生更高效的系統(tǒng)。

為什么是深度強(qiáng)化學(xué)習(xí)？

到目前為止，我們還沒有談到深度神經(jīng)網(wǎng)絡(luò)。事實(shí)上，你可以以任何你想要的方式實(shí)現(xiàn)上述所有算法。例如，Q-learning 是一種經(jīng)典的強(qiáng)化學(xué)習(xí)算法，它在代理與環(huán)境交互時創(chuàng)建了一個狀態(tài)-動作-獎勵值表。當(dāng)你處理狀態(tài)和操作數(shù)量非常少的簡單環(huán)境時，此類方法非常有效。

但是，當(dāng)你處理一個復(fù)雜的環(huán)境時，其中動作和狀態(tài)的組合數(shù)量可能非常巨大，或者環(huán)境是不確定的，并且可能存在的狀態(tài)幾乎是無限的；這時，評估每個可能的狀態(tài)-動作對就變得不可能了。

在這種情況下，你需要一個近似函數(shù)，它可以根據(jù)有限的數(shù)據(jù)學(xué)習(xí)歸納出最佳策略。給定正確的架構(gòu)和優(yōu)化函數(shù)，深度神經(jīng)網(wǎng)絡(luò)可以直接學(xué)習(xí)最優(yōu)策略，而無需遍歷系統(tǒng)的所有可能狀態(tài)。深度強(qiáng)化學(xué)習(xí)代理仍然需要大量數(shù)據(jù)（例如，在 Dota 和星際爭霸中進(jìn)行數(shù)千小時的游戲），但它們可以解決經(jīng)典強(qiáng)化學(xué)習(xí)系統(tǒng)無法解決的問題。

比如，深度強(qiáng)化學(xué)習(xí)模型可以使用卷積神經(jīng)網(wǎng)絡(luò)，從視覺數(shù)據(jù)中提取狀態(tài)信息。循環(huán)神經(jīng)網(wǎng)絡(luò)可以從幀序列中提取有用的信息，例如球的朝向，或者汽車是否停放或移動。這種復(fù)雜的學(xué)習(xí)能力，可以幫助 RL 代理理解更復(fù)雜的環(huán)境，并將其狀態(tài)映射到動作。

深度強(qiáng)化學(xué)習(xí)可與監(jiān)督機(jī)器學(xué)習(xí)相媲美。該模型生成動作，并根據(jù)來自環(huán)境的反饋調(diào)整其參數(shù)。然而，不同于傳統(tǒng)的監(jiān)督學(xué)習(xí)，深度強(qiáng)化學(xué)習(xí)會面臨一些獨(dú)特的挑戰(zhàn)。

與模型具有一組標(biāo)記數(shù)據(jù)的監(jiān)督學(xué)習(xí)問題不同，RL 代理只能訪問其自身經(jīng)驗(yàn)的結(jié)果。它能夠根據(jù)在不同訓(xùn)練階段收集的經(jīng)驗(yàn)來學(xué)習(xí)最佳策略；但它也可能錯過許多其他獲得更好政策的最佳軌跡。強(qiáng)化學(xué)習(xí)還需要評估狀態(tài)-動作對的軌跡；這比監(jiān)督學(xué)習(xí)所要面對的，每個訓(xùn)練示例與其預(yù)期結(jié)果配對問題更難學(xué)習(xí)。

這種復(fù)雜性增加了深度強(qiáng)化學(xué)習(xí)模型的數(shù)據(jù)要求。但與監(jiān)督學(xué)習(xí)不同，深度強(qiáng)化學(xué)習(xí)模型在訓(xùn)練期間收集數(shù)據(jù)，而監(jiān)督學(xué)習(xí)需要人工提前策劃和準(zhǔn)備訓(xùn)練數(shù)據(jù)。

深度強(qiáng)化學(xué)習(xí)和通用人工智能

AI 社區(qū)對深度強(qiáng)化學(xué)習(xí)的發(fā)展方向存在分歧。一些科學(xué)家認(rèn)為，使用正確的 RL 架構(gòu)，可以解決任何類型的問題，包括通用人工智能。這些科學(xué)家相信，強(qiáng)化學(xué)習(xí)與產(chǎn)生自然智能的算法相同，如果有足夠的時間和精力，并配備適當(dāng)?shù)莫剟睿覀兛梢灾亟ㄈ祟惣墑e的智能。

其他人則認(rèn)為強(qiáng)化學(xué)習(xí)并沒有解決人工智能的一些最基本的問題。他們認(rèn)為，盡管取得了許多成就，但深度強(qiáng)化學(xué)習(xí)代理需要明確定義問題；并且它無法自行發(fā)現(xiàn)新問題，更沒辦法提出針對新問題提出解決方案。

無論如何，不可否認(rèn)的是，深度強(qiáng)化學(xué)習(xí)已經(jīng)幫助解決了許多非常復(fù)雜的問題，并且將繼續(xù)成為 AI 社區(qū)的重要研究領(lǐng)域。

相關(guān)報(bào)道：https://venturebeat.com/2021/09/04/demystifying-deep-reinforcement-learning/

掃碼關(guān)注我的視頻號：程序員zhenguo

一文入門 深度強(qiáng)化學(xué)習(xí)

一文入門深度強(qiáng)化學(xué)習(xí)