
Groups-Keeping Solution Path Algorithm for Sparse Regression with Automatic Feature Grouping
课程网址: http://videolectures.net/kdd2017_huang_feature_grouping/  
主讲教师: 黄恒
开课单位: 德克萨斯大学
开课时间: 2017-10-09
课程语种: 英语
特征选择是具有许多应用的最重要的数据挖掘研究主题之一。在实际问题中,特征通常具有群体结构来影响结果。因此,自动识别同质特征组对于高维数据分析至关重要。八边形收缩和聚类回归算法(OSCAR)是一种重要的稀疏回归方法,通过 ℓ1 范数和成对 ℓ∞ 范数自动进行特征分组和选择。然而,由于惩罚的表示过于复杂(特别是成对的ℓ∞范数),到目前为止,OSCAR还没有最适合调整模型的解决路径算法。为了应对这一挑战,在本文中,我们提出了一种保持群体求解路径算法来求解 OSCAR 模型(OscarGKPath)。给定一组同质特征组和准确度界限 ε,OscarGKPath 可以在保持特征组的同时将解拟合到正则化参数区间内。通过组合多个这样的区间可以得到整个解路径。我们证明 OscarGKPath 生成的解路径中的所有解都可以严格满足给定的精度界限 ε。基准数据集上的实验结果不仅证实了我们的 OscarGKPath 算法的有效性,而且还表明了我们的 OscarGKPath 与现有批处理算法相比在交叉验证方面的优越性。我们证明 OscarGKPath 生成的解路径中的所有解都可以严格满足给定的精度界限 ε。基准数据集上的实验结果不仅证实了我们的 OscarGKPath 算法的有效性,而且还表明了我们的 OscarGKPath 与现有批处理算法相比在交叉验证方面的优越性。我们证明 OscarGKPath 生成的解路径中的所有解都可以严格满足给定的精度界限 ε。基准数据集上的实验结果不仅证实了我们的 OscarGKPath 算法的有效性,而且还表明了我们的 OscarGKPath 与现有批处理算法相比在交叉验证方面的优越性。
课程简介: Feature selection is one of the most important data mining research topics with many applications. In practical problems, features often have group structure to effect the outcomes. Thus, it is crucial to automatically identify homogenous groups of features for high-dimensional data analysis. Octagonal shrinkage and clustering algorithm for regression (OSCAR) is an important sparse regression approach with automatic feature grouping and selection by ℓ1 norm and pairwise ℓ∞ norm. However, due to over-complex representation of the penalty (especially the pairwise ℓ∞ norm), so far OSCAR has no solution path algorithm which is mostly useful for tuning the model. To address this challenge, in this paper, we propose a groups-keeping solution path algorithm to solve the OSCAR model (OscarGKPath). Given a set of homogenous groups of features and an accuracy bound ε, OscarGKPath can fit the solutions in an interval of regularization parameters while keeping the feature groups. The entire solution path can be obtained by combining multiple such intervals. We prove that all solutions in the solution path produced by OscarGKPath can strictly satisfy the given accuracy bound ε. The experimental results on benchmark datasets not only confirm the effectiveness of our OscarGKPath algorithm, but also show the superiority of our OscarGKPath in cross validation compared with the existing batch algorithm.
关 键 词: 特征选择; 数据挖掘; 基准数据集
课程来源: 视频讲座网
数据采集: 2023-12-26:wujk
最后编审: 2023-12-26:wujk
阅读次数: 15