12月7日,谷歌旗下人工智能實驗室DeepMind的研究團隊在《科學》雜志上發(fā)表了封面論文,并公布了通用算法AlphaZero和測試數據。003010雜志評論說,單個算法可以解決許多復雜問題,這是創(chuàng)建通用機器學習系統(tǒng)和解決實際問題的重要一步。本文作者包括核心研發(fā)人員大衛(wèi)西爾弗;AlphaGo的d員工和DeepMind的創(chuàng)始人戴密斯哈薩比斯。
AlphaGo在2016年與圍棋世界冠軍李世石比賽時首次為人所知,最終以4: 1的總比分奪冠。事實上,早在2016年1月,谷歌就在國際學術期刊《科學》上發(fā)表了一篇封面文章,介紹了AlphaGo以5:0,毫無退讓地戰(zhàn)勝了歐洲冠軍、專業(yè)圍棋第二段范輝。
2017年10月18日,DeepMind團隊宣布了Alpha Go的最強版本,代號為AlphaGo Zero。當時DeepMind說象棋AI的算法主要基于復雜枚舉,需要人工評估。在過去的幾十年里,人們已經把這種方法做到了極致。而AlphaGo Zero在圍棋上的超人表現,就是通過和自己下棋練出來的。
現在DeepMind研究團隊已經將這種方法擴展到了AlphaZero的算法中。AlphaZero花了長達13天的時間“自學”,然后與世界冠軍國際象棋AI對質:
在國際象棋比賽中,AlphaZero四小時內首次擊敗了第九季TCEC世界冠軍斯托克菲什。
在象棋比賽中,AlphaZero在2小時后擊敗了國際象棋聯合會的世界冠軍Elmo。
在圍棋中,AlphaZero經過30個小時的戰(zhàn)斗,在李世石擊敗了AlphaGo。
AlphaZero:一個算法吃掉所有三個象棋。
最開始,前幾代AlphaGo用人類玩家的棋譜訓練了上千盤,學習如何玩圍棋。當你到達AlphaGo Zero時,你跳過這一步,通過自我游戲來學習下棋,從零開始。系統(tǒng)從一個對圍棋一無所知的神經網絡開始,將這個神經網絡和強大的搜索算法結合起來,自己下棋。游戲過程中,神經網絡不斷調整升級,預測每一步和最終的贏家。
和AlphaGo Zero一樣,AlphaZero依靠深度神經網絡、通用強化學習算法和來自隨機小游戲的蒙特卡洛樹搜索,通過自我游戲進行強化學習,除了游戲規(guī)則外沒有任何知識背景。強化學習是一種通過“試錯”的機器學習。
DeepMind在博客中介紹,AlphaZero一開始是完全失明的,但隨著時間的推移,系統(tǒng)從和平游戲的輸贏中學習,調整神經網絡的參數等等。每一輪過后,系統(tǒng)的性能提升了一點,自我游戲的質量提升了一點,神經網絡越來越精準。神經網絡需要的訓練量取決于游戲的風格和復雜程度。經過實驗,AlphaZero花了9個小時掌握象棋,12個小時掌握象棋,13天掌握圍棋。
Azero繼承了AlphaGo Zero的算法設置和網絡架構,但兩者有很多不同之處。例如,圍棋中很少出現平局,因此AlphaGo Zero在假設結果不是贏就是輸的情況下估計并優(yōu)化了獲勝概率。阿爾法零將考慮平局或其他潛在結果,并估計和優(yōu)化結果。
其次,棋盤旋轉反轉,結果不會改變,所以AlphaGo Zero會通過生成8幅對稱圖像來增強訓練數據。但是在國際象棋和象棋中,棋盤是不對稱的。因此,AlphaZero不會增強訓練數據,也不會在蒙特卡洛樹搜索過程中改變棋盤位置。
在AlphaGo Zero中,自我游戲是由之前所有迭代中最好的玩家生成的,自我游戲也與新玩家有關。但AlphaZero只從AlphaGo Zero繼承了一個單一的神經網絡,不斷更新,而不是等待迭代完成。自我博弈是利用這個神經網絡的最新參數生成的,因此省略了評估步驟和選擇最佳玩家的過程。
此外,AlphaGo Zero使用貝葉斯優(yōu)化調整搜索到的超參數;在Azero中,所有游戲都重復使用相同的超參數,因此無需針對特定游戲進行調整。唯一的例外是保證探索噪音和學習率。
研究團隊在一場AlphaZero玩白色,Stockfish玩黑色的象棋游戲中,展示了AlphaZero蒙特卡洛樹在1000次、10000次……和100萬次模擬后的內部搜索狀態(tài)。每個樹形圖顯示了十個最常搜索的狀態(tài)。
標簽:
免責聲明:本文由用戶上傳,與本網站立場無關。財經信息僅供讀者參考,并不構成投資建議。投資者據此操作,風險自擔。 如有侵權請聯系刪除!