多臂赌博机

概率论机器学习中,多臂赌博机问题(英语:multi-armed bandit problem[1]有时称为K-N-臂赌博机问题(英语:K-or N-armed bandit problem[2],是一个必须在竞争(替代)之间分配一组固定的有限资源的问题。当每个选择的属性在分配时仅部分已知时,以最大化其预期收益的方式进行选择,并且随着时间的推移或通过向该选择分配资源可能会更好地被理解。这是一个经典的强化学习问题,体现了探索-利用权衡困境[3][4]。这个名字来源于想象一个赌徒坐在一排赌博机(或称角子机、老虎机)前(有时被称为“单臂赌博机”),他必须决定玩哪台机器,每台机器玩多少次以及玩的顺序[5],并且是否继续使用当前机器或尝试不同的机器。多臂赌博机问题也属于随机调度的广义范畴。

在该问题中,每台机器根据该机器特定的概率分布提供随机奖励,该奖励是先验未知的。赌徒的目标是最大化通过一系列杠杆拉动所获得的奖励总和[4]。赌徒在每次试验中面临的关键权衡是在“利用”具有最高预期收益的机器和“探索”以获得有关其他机器的预期收益的更多信息之间[3]。机器学习也面临着探索和利用之间的权衡。在实践中,多臂赌博机已用于对诸如管理大型组织(如科学基金会制药公司)中的研究项目等问题进行建模[3][4]。在问题的早期版本中,赌徒一开始对机器一无所知。

赫伯特·罗宾斯于1952年认识到该问题的重要性,在“实验序贯设计的某些方面”中构建了收敛种群选择策略[6]约翰·C·吉廷斯首次发表的吉廷斯指数定理给出了最大化预期折扣奖励的最优策略[7]

参考资料

  1. ^ Auer, P.; Cesa-Bianchi, N.; Fischer, P. Finite-time Analysis of the Multiarmed Bandit Problem. Machine Learning. 2002, 47 (2/3): 235–256. doi:10.1023/A:1013689704352 . 
  2. ^ Katehakis, M. N.; Veinott, A. F. The Multi-Armed Bandit Problem: Decomposition and Computation. Mathematics of Operations Research. 1987, 12 (2): 262–268. S2CID 656323. doi:10.1287/moor.12.2.262. 
  3. ^ 3.0 3.1 3.2 引用错误:没有为名为Gittins89的参考文献提供内容
  4. ^ 4.0 4.1 4.2 引用错误:没有为名为BF的参考文献提供内容
  5. ^ Weber, Richard, On the Gittins index for multiarmed bandits, Annals of Applied Probability, 1992, 2 (4): 1024–1033, JSTOR 2959678, doi:10.1214/aoap/1177005588  
  6. ^ Robbins, H. Some aspects of the sequential design of experiments. Bulletin of the American Mathematical Society. 1952, 58 (5): 527–535. doi:10.1090/S0002-9904-1952-09620-8 . 
  7. ^ J. C. Gittins. Bandit Processes and Dynamic Allocation Indices. Journal of the Royal Statistical Society. Series B (Methodological). 1979, 41 (2): 148–177. JSTOR 2985029. S2CID 17724147. doi:10.1111/j.2517-6161.1979.tb01068.x. 

延伸阅读

外部链接