直接对机器人数据流进行策略排序Direct Policy Ranking with Robot Data Streams |
|
课程网址: | http://videolectures.net/ecmlpkdd2011_akrour_robot/ |
主讲教师: | Riad Akrour |
开课单位: | 法国萨克莱酒店 |
开课时间: | 2011-11-30 |
课程语种: | 英语 |
中文简介: | 机器人技术中的许多机器学习方法,基于强化学习,逆最优控制或直接政策学习,严格依赖于机器人模拟器。本文研究了一种模拟器免费直接政策学习,称为基于偏好的政策学习(PPL)。 PPL迭代一个四步过程:机在机器人领域,基于强化学习、逆最优控制或直接策略学习的许多机器学习方法都严重依赖于机器人模拟器。本文研究了一种无仿真器直接策略学习,称为基于偏好的策略学习(PPL)。PPL迭代一个四步过程:机器人演示一个候选策略;专家根据自己的喜好将这项政策与其他政策进行了比较;这些首选项用于学习策略回报估计;机器人使用策略返回估计来构建新的候选策略,并迭代该过程,直到获得所需的行为。PPL需要对可用的策略搜索空间进行良好的表示,从而使人们能够学习准确的策略回报估计,并限制生成良好策略所需的人工排序工作。此外,由于没有模拟器设置,这种表示不能使用通知的特性(例如,机器人离任何目标有多远)。作为第二项贡献,本文提出了一种基于未知开发机器人日志的表示方法。分析研究了PPL的收敛性,并对迷宫中单个机器人和两个相互作用的机器人这两个问题进行了实验验证。器人演示候选策略;专家根据自己的喜好将这一政策与其他政策相比较;这些偏好用于学习政策回报估计;机器人使用策略返回估计来构建新的候选策略,并且迭代该过程直到获得期望的行为。 PPL要求对政策搜索空间的良好表示,使人们能够学习准确的政策回报估计并限制产生良好政策所需的人力排名。此外,由于模拟器自由设置,该表示不能使用通知特征(例如,机器人距离任何目标多远)。作为第二个贡献,本文提出了一种基于机器人日志不可知性利用的表示。对PPL的收敛性进行了分析研究,并对两个问题进行了实验验证,包括迷宫中的单个机器人和两个交互机器人。 |
课程简介: | Many machine learning approaches in robotics, based on reinforcement learning, inverse optimal control or direct policy learning, critically rely on robot simulators. This paper investigates a simulatorfree direct policy learning, called Preference-based Policy Learning (PPL). PPL iterates a four-step process: the robot demonstrates a candidate policy; the expert ranks this policy comparatively to other ones according to her preferences; these preferences are used to learn a policy return estimate; the robot uses the policy return estimate to build new candidate policies, and the process is iterated until the desired behavior is obtained. PPL requires a good representation of the policy search space be available, enabling one to learn accurate policy return estimates and limiting the human ranking effort needed to yield a good policy. Furthermore, this representation cannot use informed features (e.g., how far the robot is from any target) due to the simulator-free setting. As a second contribution, this paper proposes a representation based on the agnostic exploitation of the robotic log. The convergence of PPL is analytically studied and its experimental validation on two problems, involving a single robot in a maze and two interacting robots, is presented. |
关 键 词: | 机器人; 人工智能; 学习能力; 机器人模拟器; 学习行为策略 |
课程来源: | 视频讲座网 |
最后编审: | 2019-10-17:cwx |
阅读次数: | 97 |