1. <strong id="7actg"></strong>
    2. <table id="7actg"></table>

    3. <address id="7actg"></address>
      <address id="7actg"></address>
      1. <object id="7actg"><tt id="7actg"></tt></object>

        與 AI 博弈:從 AlphaGo 到 MuZero(三)

        共 4042字,需瀏覽 9分鐘

         ·

        2022-02-28 21:23

        • AlphaGo 論文地址:https://www.nature.com/articles/nature16961
        • AlphaGo Zero 論文地址:https://www.nature.com/articles/nature24270
        • AlphaZero 論文地址:https://arxiv.org/abs/1712.01815
        • MuZero 論文地址:https://arxiv.org/abs/1911.08265

        DeepMind 官網(wǎng)介紹:https://deepmind.com/research/case-studies/alphago-the-story-so-far

        4. AlphaZero

        2017 年底,DeepMind 推出了 AlphaZero,這是一個從零開始自學如何掌握國際象棋、日本將棋(Shogi)和圍棋游戲的單一系統(tǒng),在這些游戲中都能擊敗世界冠軍程序。并且人類在 AlphaZero 的游戲中看到了一種開創(chuàng)性的、高度動態(tài)的、非傳統(tǒng)的游戲風格,與之前的任何游戲程序都與眾不同。

        AlphaGo Zero 算法在圍棋比賽中取得了超人的表現(xiàn),它通過使用深度卷積神經(jīng)網(wǎng)絡來表示圍棋知識,該網(wǎng)絡完全是通過從自我博弈中進行強化學習來訓練的。而 AlphaZero 應用了一個類似但通用的算法。

        1997 年,深藍在國際象棋擊敗了人類世界冠軍,實現(xiàn)了人工智能的里程碑。在接下來的二十年里,計算機國際象棋程序繼續(xù)穩(wěn)步超越人類水平。這些程序使用專家手工制作的特征和仔細調整的權重來評估位置,并結合高性能的 alpha-beta 搜索,該搜索使用大量巧妙的啟發(fā)式方法和特定領域的適應來擴展龐大的搜索樹。

        就計算的復雜性而言,將棋是一個比國際象棋難得多的游戲:它是在一個更大的棋盤上進行的,任何被吃掉的對手的棋子都會改變方向,并可能次第地被丟在棋盤的任何地方。之前最強的將棋程序,如計算機象棋協(xié)會(CSA)的世界冠軍 Elmo,最近才打敗了人類冠軍。這些程序使用與計算機國際象棋程序類似的算法,同樣是基于高度優(yōu)化的 alpha-beta 搜索引擎和許多特定領域的適應性。

        圍棋非常適合 AlphaGo 中使用的神經(jīng)網(wǎng)絡架構,因為游戲規(guī)則是平移不變的(與卷積網(wǎng)絡的權重共享結構相匹配),以棋盤上各點之間的相鄰關系所對應的自由度來定義(與卷積網(wǎng)絡的局部結構相匹配),并且是旋轉和反射對稱的(允許數(shù)據(jù)增強和組合)。此外,行動空間很簡單(在每個可能的位置都可以放置一塊棋子),游戲結果被限制為二進制的勝利或失敗,這兩點都有助于神經(jīng)網(wǎng)絡的訓練。

        國際象棋和將棋不太適合 AlphaGo 的神經(jīng)網(wǎng)絡結構。這些規(guī)則與位置有關和不對稱。規(guī)則包括遠距離的互動。國際象棋的行動空間包括棋盤上所有棋手棋子的所有合法目的地;將棋還允許將被吃掉的棋子放回棋盤上。國際象棋和將棋除了贏和輸之外,還可能導致平局;事實上,人們認為國際象棋的最佳解決方案是平局。

        AlphaZero 是 AlphaGo Zero 的一個更通用的版本,該算法是在圍棋的背景下首次推出的。它用深度神經(jīng)網(wǎng)絡和零樣本強化學習算法( Tabula rasa reinforcement learning )取代了傳統(tǒng)對弈程序中使用的人工知識和特定領域的增強功能。

        4.1 AlphaZero 網(wǎng)絡結構

        AlphaZero 利用參數(shù)為 的深度神經(jīng)網(wǎng)絡 ,而不是人工設計的評估函數(shù)和移動排序啟發(fā)法。這個神經(jīng)網(wǎng)絡將棋盤上的位置 作為輸入,并輸出一個移動概率向量 ,其中每個行動 的成分 ,以及一個估計來自位置 的預期結果 的標量值 ,AlphaZero 完全從自我博弈中學習這些行動概率和價值估計;然后用這些來改進其搜索。

        AlphaZero 使用通用蒙特卡洛樹搜索 (MCTS) 算法,而不是具有特定領域增強功能的 alpha-beta 搜索。每次搜索都由一系列模擬的自我博弈組成,這些游戲從根到葉遍歷一棵樹。根據(jù)當前神經(jīng)網(wǎng)絡 ,每個模擬通過在每個狀態(tài) 中選擇具有低訪問次數(shù)、高移動概率和高價值(在從 中選擇 動作的模擬的葉子節(jié)點狀態(tài)上平均值)的移動 來進行。搜索返回一個向量 ,表示移動的概率分布,與根狀態(tài)的訪問計數(shù)成比例或貪心。

        AlphaZero 中深度神經(jīng)網(wǎng)絡的參數(shù) 是通過自我博弈強化學習訓練的,從隨機初始化的參數(shù) 開始。通過 MCTS 為兩個玩家選擇移動來玩游戲 。游戲結束時,根據(jù)游戲規(guī)則對終局位置 進行評分,以計算游戲結果 (-1 為負,0 為平局,+1 為贏)。更新神經(jīng)網(wǎng)絡參數(shù) 以最小化預測結果 和游戲結果 之間的誤差,并使策略向量 與搜索概率 相似度最大化。具體來說,參數(shù) 通過損失函數(shù) 的梯度下降進行調整,該損失函數(shù) 均方誤差和交叉熵損失求和,

        其中 是控制 權重正則化水平的參數(shù)。更新后的參數(shù)用于后續(xù)的自我博弈。

        AlphaZero 算法在以下幾個方面與原始的 AlphaGo Zero 算法不同:

        • AlphaGo Zero 估計并優(yōu)化獲勝的概率,假設二元輸贏結果。相反,AlphaZero 會估計和優(yōu)化預期結果,同時考慮平局或潛在的其他結果
        • 圍棋的規(guī)則對旋轉和反射(reflection)是不變的。AlphaGo 和 AlphaGo Zero 以兩種方式利用了這個事實。首先,通過為每個位置生成 8 個對稱點來增加訓練數(shù)據(jù)。其次,在 MCTS 搜索期間,棋盤位置在被神經(jīng)網(wǎng)絡評估之前,使用隨機選擇的旋轉或反射進行轉換,這樣蒙特卡洛評估在不同的偏差上是平均的。國際象棋和將棋的規(guī)則是不對稱的,通常來說,不能假設對稱性。AlphaZero不增加通過這種方式訓練數(shù)據(jù),也不在 MCTS 搜索期間轉換棋盤位置。
        • 在 AlphaGo Zero 中,自我博弈的棋局是由之前所有迭代中的最佳棋手生成的。在每次迭代訓練之后,新網(wǎng)絡的表現(xiàn)都要與最佳網(wǎng)絡進行比較;如果新網(wǎng)絡以 55% 的優(yōu)勢獲勝,那么它就會取代最佳網(wǎng)絡,隨后由這個新網(wǎng)絡生成自我博弈對局。相比之下,AlphaZero 只是維護了一個不斷更新的單一神經(jīng)網(wǎng)絡,而不是通過迭代完成。自我博弈通過使用該神經(jīng)網(wǎng)絡的最新參數(shù),省略了評估步驟和最佳網(wǎng)絡的選擇。
        • AlphaGo Zero 通過貝葉斯優(yōu)化調整了搜索的超參數(shù)。在 AlphaZero 中,作者為所有游戲重用相同的超參數(shù),而無需針對游戲進行調整。唯一的例外是添加到先前策略中以確保探索的噪音;這與該游戲典型合法動作數(shù)成比例。
        • AlphaZero 與 AlphaGo Zero 一樣,棋盤狀態(tài)由空間平面編碼,只基于每個游戲的基本規(guī)則。動作由空間平面或平面向量編碼,同樣僅基于每個游戲的基本規(guī)則。

        4.2?AlphaZero?訓練及效果

        作者將 AlphaZero 算法應用于國際象棋、將棋和圍棋。除非有特殊的設置,三款游戲均使用相同的算法設置、網(wǎng)絡架構和超參數(shù)。作者為每個游戲訓練了一個單獨的 AlphaZero 實例。訓練進行了 700,000 步(大小為 4,096 的小批量),從隨機初始化的參數(shù)開始,使用 5,000 個第一代 TPU 生成自玩游戲,并使用 64 個第二代 TPU 來訓練神經(jīng)網(wǎng)絡。


        在國際象棋中,AlphaZero 在 4 小時后首次超越 Stockfish;在將棋中,AlphaZero 在 2 小時后首次超越了 Elmo;而在圍棋中,AlphaZero 在 30 小時后首次超越了 2016 年擊敗傳奇棋手李世石的 AlphaGo 版本。每個訓練步驟代表 4,096 個棋盤位置。

        在每次評估中,AlphaZero 都毫無懸念地擊敗了其他冠軍程序

        • 在國際象棋中,AlphaZero 擊敗了 2016 年 TCEC(第 9 季)世界冠軍 Stockfish,贏得了 155 場比賽,但在 1,000 場比賽中僅輸了 6 場。為了驗證 AlphaZero 的穩(wěn)健性,作者還進行了一系列的比賽,從常見的人類開局開始。在每個開局中,AlphaZero 都擊敗了 Stockfish。作者還玩了一場從 2016 年 TCEC 世界錦標賽中使用的開局位置開始的比賽,同時還進行了一系列額外的比賽,對陣的是 Stockfish 的最新開發(fā)版本,以及使用強大開局的 Stockfish 變體。在所有的比賽中,AlphaZero 都贏了。
        • 在將棋中,AlphaZero 擊敗了 2017 年 CSA 世界冠軍版的 Elmo,贏得了 91.2% 的比賽。
        • 在圍棋中,AlphaZero 擊敗了 AlphaGo Zero,贏得了 61% 的對局。

        值得關注的是對于每一步,AlphaZero 只搜索傳統(tǒng)國際象棋引擎考慮的一小部分位置。例如,在國際象棋中,它每秒僅搜索 6 萬個國際象棋位置,而 Stockfish 大約為 6000 萬個

        參考資料

        • http://tromp.github.io/go.html
        • https://towardsdatascience.com/the-upper-confidence-bound-ucb-bandit-algorithm-c05c2bf4c13f
        • https://en.wikipedia.org/wiki/AlphaGo
        • https://deepmind.com/blog/article/alphago-zero-starting-scratch
        • https://towardsdatascience.com/the-evolution-of-alphago-to-muzero-c2c37306bf9


        瀏覽 138
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
        評論
        圖片
        表情
        推薦
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
        1. <strong id="7actg"></strong>
        2. <table id="7actg"></table>

        3. <address id="7actg"></address>
          <address id="7actg"></address>
          1. <object id="7actg"><tt id="7actg"></tt></object>
            www.国产精品| 特级西西444www高清大胆免费看 | 国产激情123区| 亚洲人妻电影一区| 久久久亚洲AV| 一级黄片学生妹| 影音先锋中文字幕资源| 中日美朝美女一级片免费看| 久久久精品黄色网址| 人妻在线你懂的| 亚洲天堂本一| 爆乳一区二区三区AV| 狼人社區91國產精品| 91精产国品一二| 久久精品视频观看| 亚洲无吗在线视频| 99热思思| 大香蕉久久久久久久| 色丁香在线| 亚洲Av秘无码一区二区| 88av在线播放| 三级成人免费| 国产成人精品久久| 欧美熟妇BBB搡BBB| 天天日天天操天天摸天天干天日射天天插 | 精品无码一区二区三区四区| 乱伦精品| 一见钟情的韩国电影| 一级黄色蜜芽视频| 超碰在线观看2407| 9l视频自拍蝌蚪9l视频成人| 熟女人妻人妻の视频| 高清无码直接看| 手机在线操B视频| 粉嫩99精品99久久久久| 国产又粗又长视频| 中文字幕日本在线| 老熟女-ThePorn| 国产AV一级| 欧美爱爱网| 妓女不卡| 伊人网在线免费视频| 亚洲AV久久无码| 国产中文字幕第一页| 99热综合在线| 欧美成人毛片一级A片| 日韩成人无码人妻| 性爱视频网站| 国产精品一二三| 成人视频欧美| 伊人大香蕉在线网| 乱轮视频| 成人免费视频一区二区| 噜噜噜在线| 天堂在线免费视频| 国产亚洲久一区二区| 久久国产精| 国产一级二级三级久久久| 麻豆视频免费观看| 国产无套内射在线观看| 91亚洲精品视频| 国产又爽又黄免费视频网站| 男女高清无码| 欧美被操| 日产精品久久久久| AV资源在线播放| 青青av| 吴梦梦一区二区三区| 午夜xxx| 中文字幕亚洲无码视频| 国产成人无码一区二区| 操逼综合| 欧美亚洲综合在线观看| 最近中文字幕在线观看| 伊人影院视频| 成人国产在线观看| 波多野结衣无码AV在线| 欧美丝袜脚交xxxxBH| 国产乱伦视屏| 熟女老阿V8888AV| 激情综合五月| 91国产精品| 3D精品啪啪一区二区三区| 国产精品久久免费| 无码国产视频| 欧美91| 有免费的欧美操逼视频吗| 精品日逼| 欧美三级精品| 中文字幕精品在线免费视频观看视频| 国产黄色电影在线| av777777| 极品另类| 欧美性爱XXXX| www.91熊猫成人网| 少妇黄色视频| 日韩无码成人| 亚洲欧美日韩成人| 国产作爱| 久久久亚洲无码| 一级a一级a爱片兔兔软件| 亚洲欧美精品| 精品无码一区二区三区爱与| 国产一毛a一毛a在线观看| 特级西西人体444www高清| 亚洲欧洲精品视频| 躁BBB躁BBB添BBBBBB| 最新av资源| 十八禁视频在线观看网站.www | 香蕉A片| 国产无码小视频| 黄色片视频网站| 国产精品一| 日韩无码中文字幕视频| 国产无遮挡又黄又爽免费网站 | 黄片视频免费| 亚洲天堂中文| 国产成人免费观看| ww毛片| 啪啪网站免费观看| 国产9熟妇视频网站| 亚洲欧洲精品在线| 亚洲一区AV| 97在线超碰| 日韩在线视频免费观看| 中文字幕在线观看1| 狠狠大香蕉| 亚洲天堂女人| 久久激情av| 玖玖在线播放| 日韩精品一区二区在线观看| 在线视频免费观看| 中文在线字幕电视剧免费平台| 色五月丁香婷婷| 91乱伦| 婷婷五月天激情丁香| 久久久久久三级电影| 亚洲色婷婷久久精品AV蜜桃| 大香蕉网站视频| 国产成人无码精品一区秘二区| 欧美激情区| 尤物视频官网| 西西4444www大胆无| 爱爱视频免费看| 少妇精品无码一区二区免费视频| 天天操人人妻| 超碰P| 91美女在线视频| 日本免费爱爱| 四虎av在线| 亚洲骚逼| 欧美日韩中文字幕无码| 91精品久久人妻一区二区夜夜夜| 晚上碰视频| 精品国产久久久久久| 亚洲最大黄色视频| 四川少妇BBBB槡BBBB槡| 日韩成人综合| 东京热久久综合色五月老师| 狼人狠干| 亚洲天堂三级片| 蜜臀av在线免费观看| 肏逼视频网站| 亚洲一区二区av| www.天天干| 五月天色色小说| 爱爱日韩| 久久九九热| 456亚洲影院| 天天操中文字幕| 久久精彩偷拍视频| 国产婷婷精品| 日韩一区二区高清无码| 丁香婷婷激情| 蜜桃BBwBBWBBwBBw| 日韩精品无码一区二区| 黄色777| xxxx日韩| 天堂网亚洲| 人成视频在线| 黄片视频免费在线观看| 久久夜色视频网| 在线A片免费观看| 怡春院院成人免费视频| 人妻体内射精一区二区三区| 麻豆91精品人妻成人无码| 韩国久久| 人妻体体内射精一区二区| 边添小泬边狠狠躁视频| 亚洲国产精品午夜福利| 天天添天天操| 成人自拍视频| 五月丁香婷婷开心| 亚洲精品乱码久久久久久久| 久久久久亚洲AV无码麻豆| 日本免费黄色片| 色我影院| 国产伦精品一区二区三区色大师 | 五月天久久久久久久| 亚洲插菊花综合网| 日本A片在线播放| 国产一卡二卡在线观看| 伊人成年网| 国产传媒在线观看| a级黄色视频免费观看| 91国啪| 色综合久久久无码中文字幕999| 99色网站| 亚洲香蕉视频| 爱爱电影无码| 九九九欧美| 一级AA毛片| 超碰中文字幕| 亚洲AV秘无码一区在线| AV无码一区二区三区| 99久久99九九九99九他书对| 亚洲在线看| 伊人性视频| 国产灌醉| 日韩国产一区二区| 黄片网站免费| 正在播放无码| 天天天天天天天操| 中文字幕在线观看高清| 国产精品久久久久久久久| gogogo免费高清在线偷拍| 麻豆精品传媒2021md| 色呦呦一区二区三区| 国产精品成人电影| 国产一区2区| 六月婷婷网| 男人天堂v| 久久1234| 无码人妻蜜桃| 亚洲中文免费视频| 中文字幕三区| 综合激情av| 91丨九色丨国产在线| 欧美精品一二三区| 正在播放亚洲| 伊人大香蕉网站| 三级无码中文| 日韩一区二区三区四区| 成人中文字幕网站| 国产午夜精品一区二区| 先锋成人资源| 麻豆91久久久| 69久久久久| 熟女视频网站| 人妻77777| 91妻人人澡人人爽人人精品| 精品视频免费| 无码在线免费观看| 欧美操逼小视频| 国产精品国产三级国产AⅤ原创| yw尤物| 黄片中文| av网站在线免费观看| 成人一区二区三区四区| 欧美肏屄网| 欧美3p视频| 污网址| 超碰自拍99| 中文字幕av免费观看| 在线观看黄网| 狠狠大香蕉| 亚洲家庭乱伦| 欧美另类视频| 青青草婷婷| 翔田千里| 亚洲黄色电影网站| 9l视频自拍蝌蚪9l视频成人| 国产精品不卡一区二区三区| 亚洲骚货| 在线免费亚洲| 熟女少妇一区二区三区| 亚洲成人性爱| 亚洲日本中文字幕在线观看| 内射欧美| 国产精品免费在线| 欧美试看| 岛国无码破解AV在线播放| 亚洲大哥天天干| 日韩免费高清无码视频| 狠狠干狠狠色| 大屌一区二区三区| 国产一级片电影| 亚洲自拍偷拍视频| 天天操天天操天天操天天| 在线免费看黄网站| 婷婷五月天久久| 亚洲砖区免费| 大香蕉超碰在线| 色婷婷av| 久久四区| 无码人妻一区| 久久久精品久久| 日本久久视频| 欧美不卡视频| 亚州性爱|