0


无模型政策评估的最佳在线学习程序

Optimal Online Learning Procedures for Model-Free Policy Evaluation
课程网址: http://videolectures.net/ecmlpkdd09_ueno_oolp/  
主讲教师: Tsuyoshi Ueno
开课单位: 京都大学
开课时间: 信息不详。欢迎您在右侧留言补充。
课程语种: 英语
中文简介:
在本研究中,我们将最近引入的半参数统计推断框架扩展到政策评估的在线学习程序中,以强化学习(Ueno,et.al.,2008)。这种推广使我们能够从估计函数的角度,通过批处理和在线程序,对值函数估计量的统计性质进行统一的研究。此外,我们还提出了一种新的具有最佳估计函数的在线学习算法,该算法可实现最小估计误差。我们的理论发展通过一个简单的链动问题得到了证实。
课程简介: In this study, we extend the framework of semiparametric statistical inference introduced recently to reinforcement learning (Ueno, et.al., 2008) to online learning procedures for policy evaluation. This generalization enables us to investigate statistical properties of value function estimators both by batch and online procedures in a unified way in terms of estimating functions. Furthermore, we propose a novel online learning algorithm with optimal estimating functions which achieve the minimum estimation error. Our theoretical developments are confirmed using a simple chain walk problem.
关 键 词: 在线学习; 算法; 误差估计
课程来源: 视频讲座网
最后编审: 2019-12-10:cwx
阅读次数: 69