0


一种基于AdaBoost不同校准的AdaBoost排序方法

A Robust Ranking Methodology based on Diverse Calibration of AdaBoost
课程网址: http://videolectures.net/ecmlpkdd2011_busa_fekete_robust/  
主讲教师: Róbert Busa-Fekete
开课单位: 巴黎第十一大学
开课时间: 2011-10-03
课程语种: 英语
中文简介:
在子集排名中,目标是学习近似于一组对象的金标准部分排序的排名函数(在我们的示例中,是针对同一查询检索的一组文档的相关标签)。在本文中在子集排序中,目标是学习一个排序函数,它近似于一组对象的黄金标准部分排序(在我们的例子中,是为同一查询检索的一组文档的相关标签)。本文提出了一种基于多类分类的子集排序学习方法。我们的技术可以概括为三个主要步骤。首先,训练一个多类分类模型(adabs . mh)来预测每个对象的关联标签。其次,利用各种标定技术对训练后的模型进行标定,得到不同类别的概率估计。最后,将bayes - score函数(它优化了流行的信息检索性能度量NDCG)近似化,并将这些估计混合到一个最终得分函数中。我们的方法的一个重要的新奇之处在于,许多不同的方法被用来估计相同的概率分布,所有这些假设被合并成一个改进的模型。众所周知,根据先验混合不同的条件分布通常比选择一个“最优”分布更有效。因此,使用所有的校准技术,我们的方法不需要估计最适合的校准方法,因此不容易过度拟合。在一项实验研究中,我们的方法优于LETOR基准数据集上的许多标准排序算法,其中大多数基于比我们的算法复杂得多的排序算法。,我们介绍了一种基于多类分类的子集排序方法的学习。我们的技术可归纳为三个主要步骤。首先,训练多类分类模型(AdaBoost.MH)以预测每个对象的相关性标签。其次,使用各种校准技术校准训练的模型以获得不同的类概率估计。最后,贝叶斯评分函数(优化流行的信息检索性能测量NDCG)通过将这些估计混合成最终评分函数来近似。我们的方法的一个重要新颖性是应用了许多不同的方法来估计相同的概率分布,并且所有这些假设被组合成改进的模型。众所周知,根据先验混合不同的条件分布通常比选择一个“最佳”分布更有效。因此,使用所有校准技术,我们的方法不需要估计最适合的校准方法,因此不易过度拟合。在一项实验研究中,我们的方法在LETOR基准数据集上的表现优于许多标准排名算法,其中大部分基于比我们更复杂的学习算法。
课程简介: In subset ranking, the goal is to learn a ranking function that approximates a gold standard partial ordering of a set of objects (in our case, relevance labels of a set of documents retrieved for the same query). In this paper we introduce a learning to rank approach to subset ranking based on multi-class classification. Our technique can be summarized in three major steps. First, a multi-class classification model (AdaBoost.MH) is trained to predict the relevance label of each object. Second, the trained model is calibrated using various calibration techniques to obtain diverse class probability estimates. Finally, the Bayes-scoring function (which optimizes the popular Information Retrieval performance measure NDCG), is approximated through mixing these estimates into an ultimate scoring function. An important novelty of our approach is that many different methods are applied to estimate the same probability distribution, and all these hypotheses are combined into an improved model. It is well known that mixing different conditional distributions according to a prior is usually more efficient than selecting one “optimal” distribution. Accordingly, using all the calibration techniques, our approach does not require the estimation of the best suited calibration method and is therefore less prone to overfitting. In an experimental study, our method outperformed many standard ranking algorithms on the LETOR benchmark datasets, most of which are based on significantly more complex learning to rank algorithms than ours.
关 键 词: 子集排序; 排名函数; 预测对象; 关联标签; 模型标定; 概率估计; 校准信息
课程来源: 视频讲座网公开课
最后编审: 2019-05-26:cwx
阅读次数: 59