一种简单的多臂强盗算法,具有最佳变异 - 有界遗憾

A simple multi-armed bandit algorithm with optimal variation-bounded regret
课程网址: http://videolectures.net/colt2011_hazan_regret/  
主讲教师: Elad Hazan
开课单位: 以色列理工学院
开课时间: 2011-08-02
课程语种: 英语
我们提出的问题是,是否有可能为对抗设置中的基本多武装强盗问题设计一个简单的线性时间算法,其具有O(√QlogT)的后悔界限,其中Q是所有武器的总二次变化。 。
课程简介: We pose the question of whether it is possible to design a simple, linear-time algorithm for the basic multi-armed bandit problem in the adversarial setting which has a regret bound of O(√QlogT), where Q is the total quadratic variation of all the arms.
关 键 词: 线性; 算法; 多武装强盗问题
课程来源: 视频讲座网
最后编审: 2019-03-06:lxf
阅读次数: 155