隨機博弈
隨機博弈(英語:stochastic game),或稱隨機博弈、隨機對局,在博弈論中是一類由一個或多個參與者所進行的、具有狀態概率轉移的動態博弈,由勞埃德·夏普利(Lloyd Shapley)於20世紀50年代初期提出。[1]
定義
這類博弈由一系列階段組成。在博弈中每一階段的起始,博弈處於某種特定狀態。每一參與者選擇某種行動,然後會獲得取決於當前狀態和所選擇行動的收益。之後,博弈發展到下一階段,處於一個新的隨機狀態,這一隨機狀態的分布取決於先前狀態和各位參與者選擇的行動。在新狀態中重複上述過程,然後博弈繼續進行有限或無限個數的階段。一個參與者得到的總收益常用各階段收益的貼現和,或是各階段收益平均值的下極限來計算。
數學描述
隨機博弈的組成部分有:有限參與者集 ;狀態空間 (可以是有限集,也可以是可測空間 );對於每一參與者 ,存在行動集 (可以是有限集,也可以是可測空間 ); 是 到 的轉移概率,其中 是行動組合, 是下一狀態處於 中的概率,而 給定了當前狀態 和當前行動組合 ;從 到 的收益函數 ,其中 的第 個坐標 是參與者 的收益,而 是狀態 和行動組合 的函數。
博弈以某個初始狀態 開始。在階段 中,參與者最先觀測到 ,同時選擇行動 ,然後觀測到行動組合 ,然後以概率 自然選擇 。一次隨機博弈 定義了一個收益流 ,其中 。
例子
下面給出隨機博弈的一個例子:
當前有任意個裝着球的桶,每個桶中球的數目也是任意的,兩位參與者輪流從中取出球,且需要遵守如下規則:
- 每一步應至少取出一隻球,且只能從某一桶中取走部分或全部球;
- 誰取到最後一隻球,誰就獲勝。
重要結論
貼現因子為 ( )的貼現博弈 中,參與者 的收益是 。 階段博弈中,參與者 的收益是 。
若存在有限多個狀態和行動的二人零和博弈 (各自是 )的值為 (各自是 ),則 在 趨於無窮時收斂到一個極限,且 在 趨於 時收斂到相同的極限。這一結論已被杜魯門·彪利(Truman Bewley)和艾朗·克爾伯格(Elon Kohlberg)於1976年證明。[2]
非貼現博弈 中,參與者 的收益是各階段收益平均值的極限。在定義二人零和博弈 的值與非零和博弈 的均衡收益之前需要注意一些事情:若對於每一 都有正整數 、參與者1的策略 和參與者2的策略 ,二人零和隨機博弈 的一致值(uniform value) 存在,這樣對於每一 、 和每一 ,博弈中由 和 定義的概率的 期望至少為 ,由 和 定義的概率的 期望至多為 。讓·弗朗索瓦·梅頓斯(Jean Francois Mertens)和亞伯拉罕·奈曼(Abraham Neyman)於1981年證明二人零和隨機博弈具有一致值。[3]
若參與者數量有限且行動集和狀態集有限,則有限階段隨機博弈總有納什均衡,對於總收益是貼現和的無限多階段隨機博弈也是如此。尼古拉斯·維勒(Nicolas Vieille)已經證明當總收益是各階段收益平均值的下極限時,所有具有有限狀態和行動空間的二人隨機博弈都有近似納什均衡。不過,當參與者多於2名時,隨機博弈是否存在這類均衡仍是一個極具挑戰性的開放性問題。[4]
應用
隨機博弈在經濟學、演化生物學和計算機網絡中都有應用。[5]事實上,隨機博弈是重複博弈這類每一階段都處於相同狀態的博弈的一般化形式。
有關隨機博弈的最全面的參考書籍是奈曼和索林編著的文集。[2]菲拉爾和烏瑞茲所著的書籍更為基礎,書中提供了馬爾可夫決策過程(MDP)和二人隨機博弈理論的嚴密的統一處理方法。[6]他們創造了Competitive MDPs這一術語來概括一人和二人隨機博弈。
參考文獻
註釋
- ^ Lloyd Stowell Shapley. Stochastic games. Proc. Nat. Acad. Sciences. October 1953, 39 (10): 第1095-1100頁. ISSN 1091-6490. PMC 1063912 .
- ^ 2.0 2.1 Abraham Neyman,Sylvain Sorin. Stochastic Games and Applications. Kluwer Academic Press. 2003年10月31日. ISBN 978-1402014932 (英語).
- ^ Jean Francois Mertens,Abraham Neyman. Stochastic Games (PDF). International Journal of Game Theory. June 1981, 10 (2): 第53-66頁. ISSN 0020-7276.[永久失效連結] 電子版:ISSN 1432-1270
- ^ Nicolas Vieille. Stochastic games: Recent results. R.J. Aumann,S. Hart (編). Handbook of Game Theory with Economic Applications. North-Holland. 2002年9月2日: 第1833–1850頁 [2010年9月7日]. ISBN 978-0-444-89428-1. doi:10.1016/S1574-0005(02)03011-4. (原始內容 (精裝書)存檔於2018年1月2日) (英語).
- ^ Eitan Altman,Konstantin Avrachenkov,Nicolas Bonneau,Mérouane Debbah,Rachid El-Azouzi,Daniel Menasché. Constrained Stochastic Games in Wireless Networks. Global Telecommunications Conference, 2007. GLOBECOM '07. IEEE. Washington, DC: 第315-320頁. 2007年11月26日-30日 [2010年9月7日]. doi:10.1109/GLOCOM.2007.66. ISBN 978-1-4244-1043-9. (原始內容存檔於2016年3月4日). [] [1] (頁面存檔備份,存於網際網路檔案館)
- ^ Jerzy A. Filar,Koos Vrieze. Competitive Markov Decision Processes. Springer-Verlag. 1996年11月15日. ISBN 978-0387948058 (英語).
一般參考
- Anne Condon. The complexity of stochastic games. Information and Computation. 1992, 96 (2): 第203-224頁 [2010-09-07]. ISSN 0890-5401. doi:10.1016/0890-5401(92)90048-K. (原始內容存檔於2013-06-03).