DeepMind研究團(tuán)隊(duì)發(fā)布了通用算法AlphaZero和測(cè)試數(shù)據(jù)
12月7日,谷歌人工智能實(shí)驗(yàn)室的DeepMind研究團(tuán)隊(duì)在《科學(xué)》雜志上發(fā)表了一篇封面論文,并公布了通用算法AlphaZero和測(cè)試數(shù)據(jù)?!犊茖W(xué)》雜志評(píng)論說(shuō),多個(gè)復(fù)雜問(wèn)題可以通過(guò)單一算法解決,這是創(chuàng)建通用機(jī)器學(xué)習(xí)系統(tǒng)和解決實(shí)際問(wèn)題的重要一步。本文作者包括核心研發(fā)人員大衛(wèi)西爾弗;AlphaGo的d人事,以及DeepMind的創(chuàng)始人戴密斯哈薩比斯。
AlphaGo最早被人們熟知是2016年與圍棋世界冠軍李世石的人機(jī)對(duì)戰(zhàn),最終以4-1的總比分獲勝。事實(shí)上,早在2016年1月,谷歌就在國(guó)際學(xué)術(shù)期刊《自然》上發(fā)表了一篇封面文章,介紹了AlphaGo在沒(méi)有任何讓步的情況下,以533.36萬(wàn)英鎊的價(jià)格戰(zhàn)勝了歐洲冠軍和專業(yè)圍棋第二階段的魏凡。
2017年10月18日,DeepMind團(tuán)隊(duì)宣布了Alpha Go的最強(qiáng)版本,代號(hào)為AlphaGo Zero。當(dāng)時(shí)DeepMind說(shuō)象棋AI的算法主要基于復(fù)雜枚舉,需要人工評(píng)估。在過(guò)去的幾十年里,人們已經(jīng)把這種方法做到了極致。AlphaGo Zero在圍棋上的超人表現(xiàn),是通過(guò)和自己下棋練出來(lái)的。
現(xiàn)在DeepMind研究團(tuán)隊(duì)已經(jīng)將這種方法擴(kuò)展到了Alphaero的算法中。Alphaero花了長(zhǎng)達(dá)13天的時(shí)間“自學(xué)”,然后與國(guó)際象棋世界冠軍AI對(duì)質(zhì):
在國(guó)際象棋比賽中,阿爾法零在四個(gè)小時(shí)后首次擊敗了第九屆TCEC世界冠軍斯托克菲什。
在通用象棋中,兩小時(shí)后,AlphaZero擊敗了通用象棋聯(lián)賽的世界冠軍Elmo。
《圍棋》中,AlphaZero經(jīng)過(guò)30個(gè)小時(shí)的激戰(zhàn),擊敗了李世石的AlphaGo。
AlphaZero:一種算法采用所有三種象棋類型。
以前版本的AlphaGo從數(shù)千套訓(xùn)練開(kāi)始,用人類玩家的棋譜來(lái)學(xué)習(xí)如何玩圍棋。當(dāng)你到達(dá)AlphaGo Zero時(shí),你跳過(guò)這一步,通過(guò)自我游戲來(lái)學(xué)習(xí)下棋,從零開(kāi)始。該系統(tǒng)從一個(gè)對(duì)圍棋一無(wú)所知的神經(jīng)網(wǎng)絡(luò)開(kāi)始,結(jié)合神經(jīng)網(wǎng)絡(luò)和強(qiáng)大的搜索算法,自己玩游戲。游戲過(guò)程中,神經(jīng)網(wǎng)絡(luò)不斷調(diào)整升級(jí),每一步都在預(yù)測(cè)輸家和最終贏家。
和AlphaGo Zero一樣,從隨機(jī)游戲開(kāi)始,AlphaZero依靠深度神經(jīng)網(wǎng)絡(luò)、通用強(qiáng)化學(xué)習(xí)算法和蒙特卡洛樹(shù)搜索,通過(guò)自我游戲進(jìn)行強(qiáng)化學(xué)習(xí),除了游戲規(guī)則外,沒(méi)有任何知識(shí)背景。強(qiáng)化學(xué)習(xí)是一種通過(guò)反復(fù)試驗(yàn)的機(jī)器學(xué)習(xí)方法。
DeepMind在博客中介紹,一開(kāi)始AlphaZero完全是在鬼混,但是隨著時(shí)間的推移,系統(tǒng)從輸贏的博弈中學(xué)習(xí),調(diào)整神經(jīng)網(wǎng)絡(luò)的參數(shù)等等,隨著每一輪,系統(tǒng)的性能提升了一點(diǎn),自我游戲的質(zhì)量也提升了一點(diǎn),神經(jīng)網(wǎng)絡(luò)變得越來(lái)越精準(zhǔn)。神經(jīng)網(wǎng)絡(luò)需要的訓(xùn)練量取決于游戲的風(fēng)格和復(fù)雜程度。實(shí)驗(yàn)結(jié)束后,AlphaZero花了9個(gè)小時(shí)掌握象棋,12個(gè)小時(shí)掌握通用象棋,13天掌握圍棋。
Azero繼承了AlphaGo Zero的算法設(shè)置和網(wǎng)絡(luò)架構(gòu),但兩者有很多不同之處。比如Go中很少出現(xiàn)平局,所以AlphaGo Zero在結(jié)果為“輸贏”的假設(shè)下,對(duì)獲勝概率進(jìn)行估計(jì)和優(yōu)化。AlphaZero還會(huì)考慮抽簽或其他潛在結(jié)果,并對(duì)結(jié)果進(jìn)行估計(jì)和優(yōu)化。
其次,圍棋的棋盤(pán)會(huì)旋轉(zhuǎn)反轉(zhuǎn),結(jié)果不會(huì)改變,所以AlphaGo Zero會(huì)通過(guò)生成8幅對(duì)稱圖像來(lái)增強(qiáng)訓(xùn)練數(shù)據(jù)。但是在國(guó)際象棋和一般象棋中,棋盤(pán)是不對(duì)稱的。因此,AlphaZero不會(huì)增強(qiáng)訓(xùn)練數(shù)據(jù),也不會(huì)在蒙特卡洛樹(shù)搜索過(guò)程中改變棋盤(pán)位置。
在AlphaGo Zero中,自我游戲是由之前所有迭代中最好的玩家生成的,自我游戲也是針對(duì)這個(gè)新玩家的。AlphaZero只繼承AlphaGo Zero的單一神經(jīng)網(wǎng)絡(luò),不斷更新,而不是等待迭代完成。自我博弈是利用這個(gè)神經(jīng)網(wǎng)絡(luò)的最新參數(shù)生成的,因此省略了評(píng)估步驟和選擇最佳玩家的過(guò)程。
此外,AlphaGo Zero通過(guò)貝葉斯優(yōu)化使用調(diào)整搜索的超參數(shù);在AlphaZero中,所有游戲都重復(fù)使用同一個(gè)超參數(shù),所以不需要針對(duì)特定的游戲進(jìn)行調(diào)整。唯一的例外是保證探索噪音和學(xué)習(xí)率。
研究團(tuán)隊(duì)展示了Alphaero蒙特卡羅樹(shù)在1000次、10000次之后的內(nèi)部搜索狀態(tài).直到100萬(wàn)次的模擬游戲,阿爾法羅玩白色,斯托克菲什玩黑色。每個(gè)樹(shù)形圖顯示了十個(gè)最常搜索的狀態(tài)。
免責(zé)聲明:本文由用戶上傳,與本網(wǎng)站立場(chǎng)無(wú)關(guān)。財(cái)經(jīng)信息僅供讀者參考,并不構(gòu)成投資建議。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。 如有侵權(quán)請(qǐng)聯(lián)系刪除!
- 研究為類風(fēng)濕性關(guān)節(jié)炎的早期診斷和治療干預(yù)提供了潛力
- 心理學(xué)研究表明 可以通過(guò)調(diào)整你的想法和行為
- 風(fēng)險(xiǎn)模型確定急性護(hù)理使用風(fēng)險(xiǎn)最高的晚期癌癥試驗(yàn)患者
- 神經(jīng)科學(xué)正在探索你的大腦如何讓你同時(shí)體驗(yàn)兩種相反的感覺(jué)
- 研究:腫瘤微環(huán)境中的炎癥細(xì)胞將前列腺癌細(xì)胞轉(zhuǎn)化為治療耐藥細(xì)胞
- 研究揭示枸杞抗寒耐熱功效背后的秘密
- 研究顯示伴侶的多動(dòng)癥對(duì)女性心理健康和生活質(zhì)量有顯著影響
- 探索低鈉濃度對(duì)腦小膠質(zhì)細(xì)胞的影響
-
6月25-28日,由中國(guó)進(jìn)出境生物安全研究會(huì)、中國(guó)國(guó)際旅行衛(wèi)生保健協(xié)會(huì)主辦,中國(guó)青年創(chuàng)業(yè)就業(yè)基金會(huì)支持,中國(guó)出入...瀏覽全文>>
-
胃腸鏡檢查,聽(tīng)起來(lái)可能有些令人不安,但實(shí)際上,它可能是生活中的救命稻草。對(duì)于一些人來(lái)說(shuō),定期進(jìn)行胃腸鏡...瀏覽全文>>
-
6月16日-20日,2025年優(yōu)秀博士后研究人員(紹興)研學(xué)活動(dòng)順利舉行。本次活動(dòng)匯聚了來(lái)自全國(guó)各地的百余名博士后,...瀏覽全文>>
-
近日,天津松果生物醫(yī)療科技有限公司自主研發(fā)的牛跟腱來(lái)源去端肽I型膠原蛋白原材料成功通過(guò)國(guó)家藥品監(jiān)督管理局...瀏覽全文>>
-
在數(shù)字化產(chǎn)業(yè)轉(zhuǎn)型的浪潮奔涌之際,病理學(xué)正經(jīng)歷著前所未有的革新機(jī)遇。奧偉登(Evident)憑借百年光學(xué)技術(shù)積淀,以...瀏覽全文>>
-
6月6-8日,CHINAGUT 2025中國(guó)腸道大會(huì)在寧波國(guó)際會(huì)議中心隆重舉辦。大會(huì)由南京醫(yī)科大學(xué)第二附屬醫(yī)院、國(guó)家消化...瀏覽全文>>
-
在第28屆北京國(guó)際口腔展這一行業(yè)風(fēng)向標(biāo)級(jí)盛會(huì)上,北京易嶺生物科技有限公司(下面簡(jiǎn)稱易嶺生物)憑借重磅新品發(fā)...瀏覽全文>>
-
2025款上汽大眾ID 4 X在安徽阜陽(yáng)地區(qū)的售價(jià)會(huì)根據(jù)配置和選裝包有所不同?;A(chǔ)版車型的廠商指導(dǎo)價(jià)大約在20萬(wàn)...瀏覽全文>>
-
嵐圖FREE,作為一款集豪華與智能于一體的新能源SUV,正以全新的姿態(tài)迎接每一位渴望高品質(zhì)出行的用戶。現(xiàn)在,嵐...瀏覽全文>>
-
安徽阜陽(yáng)的大眾ARTEON 2022新款現(xiàn)已到店,最低售價(jià)從34 80萬(wàn)元起,無(wú)疑是近期購(gòu)車的最佳時(shí)機(jī)。這款車型以其...瀏覽全文>>