山东省群英会开奖直播

億元級IT行業生態鏈
一站式解決方案提供商

24小時免費咨詢電話
010-52725243

新聞資訊

AJIA NEWS

"阿爾法狗之父"答疑 新版解決了哪些遺留問題?

來源:網易科技 發布日期:2017-10-20

阿甲科技"阿爾法狗之父"答疑

【網易智能訊 10 月 20 日消息】DeepMind 首席研究員、“AlphaGo 之父”David Silver 和 Julian Schrittwieser(AlphaGo Zero 作者之一)在 Reddit 回答網友提問。

資料顯示,“AlphaGo 之父”David Silver 畢業于劍橋大學,獲得了艾迪生威斯利獎,隨后與人共同創立了視頻游戲公司 Elixir Studios,2004 年,成為倫敦大學學院的講師,Silver 起初是 DeepMind 的顧問,直到 2013 年正式加入 DeepMind。

以下是我們精選的Q&A,全文請前往 Reddit.com

當被問到為什么 AlphaGo Zero 的訓練如此穩定?

David Silver 說,AlphaGo Zero 所用的算法與策略梯度、Q-learning 之類的傳統(無模型)算法不同,通過使用 AlphaGo search,我們極大地改進了策略和自我對弈的結果,然后我們應用簡單的、基于梯度的更新來訓練下一個策略+價值網絡(policy+value network)。這比漸進的、基于梯度的策略改進(policy improvement)要穩定的多。

為什么這次 Zero 就訓練了 40 天?訓練 3 個月會怎樣?

David Silver 認為,這是一個人力和資源優先級的問題,如果訓練 3 個月,我想你會問訓練 6 個月會發生什么。

為什么一開始選擇用人類對局數據來訓練 AlphaGo,而不是通過自我對弈來從 0 開始?之前的 AlphaGo 瓶頸在哪里?

David Silver 表示,創造一個完全自學的系統,一直是強化學習中的一個開放式問題,之前都非常不穩定,之后我們做了很多實驗,發現 AlphaGo Zero 的算法是最有效率的。

DeepMind 和 Facebook 幾乎同時開始研究這一課題,為什么你們能達到這個水平?

David Silver 說,Facebook 更專注于監督學習,我們關注強化學習,是因為相信它最終會超越人類的知識,研究表明,僅使用監督學習能夠獲得令人驚訝的表現,但如果要遠超人類水平,強化學習才是關鍵。

AlphaGo Zero 是 AlphaGo 的最終版本嗎?

David Silver:我們已經不再主動研究如何讓 AlphaGo 變得更強,但我們仍然用它嘗試新的想法。

AlphaGo 有沒有開源計劃?

David Silver:我們在過去已經開源了許多代碼,但 AlphaGo 始終是一個復雜的過程,它是一個非常復雜的代碼。

背景閱讀:

谷歌子公司 DeepMind 日前發布了一款新版本的 AlphaGo 程序,它能通過自學玩轉多種游戲,這套系統名為“AlphaGo Zero”,它通過一種名為“強化學習”的機器學習技術,可以在與自己游戲中吸取教訓。

僅三天時間,AlphaGo Zero 自行掌握了圍棋的下法,還發明了更好的棋步。這期間,除了被告知圍棋的基本規則,它未獲得人類的幫助。隨著 AlphaGo Zero 被不斷訓練時,它開始在圍棋游戲中學習先進的概念,并挑選出一些有利的位置和序列。

經過三天的訓練,該系統能夠擊敗 AlphaGo Lee,后者是去年擊敗了韓國選手李世石(Lee Sedol)的 DeepMind 軟件,勝率是 100 比0,經過大約 40 天的訓練(約 2900 萬場自玩游戲),AlphaGo Zero 擊敗了 AlphaGo Master (今年早些時候擊敗了世界冠軍柯潔)。

阿甲科技

歡迎訪問阿甲科技集團官方網站!
山东省群英会开奖直播 新时时彩最新开奖结果 棋牌室 历史试机号与开奖号对照表下篇 淘宝快3qq群 秒速时时彩一期一计划 南粤风釆36选7开奖结果4期 江苏时时视频直播 加微信送28万金币 捕鱼 浙江快乐彩论坛 新时时历史数据