使用上的置信区间来控制勘探和开发Using upper confidence bounds to control exploration and exploitation |
|
课程网址: | http://videolectures.net/otee06_szepesvari_uucbc/ |
主讲教师: | Csaba Szepesvári |
开课单位: | 阿尔伯塔大学 |
开课时间: | 2007-02-25 |
课程语种: | 英语 |
中文简介: | 1.Bandit Problems– “面对不确定性的乐观” 2.基于置信度的算法 3.连续时间 4.具有大动作空间的行为 5。结论   |
课程简介: | 1.Bandit Problems – “Optimism in the Face Uncertainty” 2.Upper confidence based algorithms 3.Bandits in continuous time 4.Bandits with large action spaces 5.Conclusions |
关 键 词: | Bandit; confidence bounds; exploration |
课程来源: | 视频讲座网 |
最后编审: | 2020-06-01:吴雨秋(课程编辑志愿者) |
阅读次数: | 59 |