相似森林Similarity Forests |
|
课程网址: | http://videolectures.net/kdd2017_aggarwal_similarity_forests/ |
主讲教师: | Charu Aggarwa |
开课单位: | 沃森研究中心 |
开课时间: | 2017-10-09 |
课程语种: | 英语 |
中文简介: | 随机森林因其非凡的准确性和有效性而成为数据挖掘中最成功的方法之一。然而,它们的使用主要限于多维数据,因为它们从原始数据集中采样特征。在本文中,我们提出了一种扩展随机森林以处理任意数据对象集的方法,只要可以计算数据对象之间的相似性即可。此外,由于我们知道所有 $O(n^2)$ 对象对之间的相似性计算可能会很昂贵,因此我们的方法仅计算要构造的对象之间 $O(n^2)$ 成对相似性的一小部分森林。我们的结果表明,所提出的相似森林方法非常有效,并且在各种数据集上也非常准确。所以,本文显着地将随机森林方法的适用性扩展到任意数据域。此外,该方法在多维数据上甚至优于传统的随机森林。在许多情况下,从任意应用程序中学习到的相似度矩阵都是有噪声的,因为很难估计对象对之间的相似度值。相似森林对于分类错误非常稳健。在许多实际设置中,由于收集此类值的困难,对象之间的相似度值并不完全指定。在这种情况下,相似森林方法可以自然地扩展到部分指定的相似矩阵。该方法在多维数据上甚至优于传统的随机森林。在许多情况下,从任意应用程序中学习到的相似度矩阵都是有噪声的,因为很难估计对象对之间的相似度值。相似森林对于分类错误非常稳健。在许多实际设置中,由于收集此类值的困难,对象之间的相似度值并不完全指定。在这种情况下,相似森林方法可以自然地扩展到部分指定的相似矩阵。该方法在多维数据上甚至优于传统的随机森林。在许多情况下,从任意应用程序中学习到的相似度矩阵都是有噪声的,因为很难估计对象对之间的相似度值。相似森林对于分类错误非常稳健。在许多实际设置中,由于收集此类值的困难,对象之间的相似度值并不完全指定。在这种情况下,相似森林方法可以自然地扩展到部分指定的相似矩阵。由于收集此类值的困难,对象之间的相似性值不完全指定。在这种情况下,相似森林方法可以自然地扩展到部分指定的相似矩阵。由于收集此类值的困难,对象之间的相似性值不完全指定。在这种情况下,相似森林方法可以自然地扩展到部分指定的相似矩阵。 |
课程简介: | Random forests are among the most successful methods used in data mining because of their extraordinary accuracy and effectiveness. However, their use is primarily limited to multidimensional data because they sample features from the original data set. In this paper, we propose a method for extending random forests to work with any arbitrary set of data objects as long as similarities can be computed among the data objects. Furthermore, since it is understood that similarity computation between all $O(n^2)$ pairs of objects might be expensive, our method computes only a very small fraction of the $O(n^2)$ pairwise similarities between objects to construct the forests. Our results show that the proposed similarity forest approach is extremely efficient and is also very accurate on a wide variety of data sets. Therefore, this paper significantly extends the applicability of random forest methods to arbitrary data domains. Furthermore, the approach even outperforms traditional random forests on multidimensional data. In many cases, the similarity matrices learned from arbitrary applications are noisy, because of the difficulty in estimating similarity values between pairs of objects. Similarity forests are very robust to errors in classification. In many practical settings, the similarity values between objects are incompletely specified because of the difficulty in collecting such values. In such cases, the similarity forest approach can be naturally extended to a partially specified similarity matrix. |
关 键 词: | 相似森林; 数据挖掘; 多维数据 |
课程来源: | 视频讲座网 |
数据采集: | 2023-12-26:wujk |
最后编审: | 2024-01-25:liyy |
阅读次数: | 19 |