AlphaZero

DeepMind电脑程序

AlphaZeroDeepMind所開發的人工智慧軟體[1]

簡介

AlphaZero使用與AlphaGo Zero類似但更一般性的演算法,在不做太多改變的前提下,並將演算法從圍棋延伸到將棋西洋棋上。AlphaZero與AlphaGo Zero不同之處在於[1]

  • AlphaZero的超參數是寫死的。
  • AlphaZero現在會不斷更新類神經網路
  • 圍棋在某些情況是對稱或是可旋轉的,AlphaGo Zero的程式利用這個特性降低計算複雜性,AlphaZero因為延伸到將棋與西洋棋則拿掉了這段程式。
  • 西洋棋有已知的和局終局資料庫英語Endgame tablebase,所以AlphaZero利用這個終局資料庫納入計算。

與Stockfish以及elmo的比較

AlphaZero基於蒙特卡洛樹搜尋,每秒只能搜尋8萬步(西洋棋)與4萬步(將棋),相較於Stockfish每秒可以7000萬步,以及elmo日語elmo (コンピュータ将棋ソフト)每秒可以3500萬步,AlphaZero則是利用了類神經網路提昇了搜尋的品質[1]

訓練

AlphaZero使用了5,000顆第一代的TPU進行訓練。

成績

西洋棋

在4小時的訓練後(約自我訓練4400萬局[1]:Table S3),AlphaZero以28勝72和0敗的成績打敗Stockfish[1]:Table 1

將棋

在12小時的訓練後(約自我訓練2400萬局[1]:Table S3),AlphaZero以90勝2和8敗的成績打敗elmo日語elmo (コンピュータ将棋ソフト)[1]:Table 1

圍棋

在34小時的訓練後(約自我訓練2100萬局[1]:Table S3),AlphaZero以60勝40敗的成績打敗AlphaGo Zero[1]:Table 1

相關連結

參考資料

外部連結