0


挖掘所有不可派生的频繁项集

Mining All Non-Derivable Frequent Itemsets
课程网址: http://videolectures.net/ecmlpkdd2012_calders_frequent_itemsets/  
主讲教师: Toon Calders
开课单位: 埃因霍温理工大学
开课时间: 2012-10-29
课程语种: 英语
中文简介:
所有频繁项集挖掘算法都严重依赖于所有频繁项集挖掘算法的剪枝都严重依赖于单调性原则。该原则允许从昂贵的计数阶段排除候选项集。在本文中,我们提出了完整的推理规则来推导一个项集支持的边界。基于这些推理规则,我们构造了所有频繁项集的压缩表示,通过删除那些可以派生支持的项集,得到所谓的不可派生项集(NDI)表示。我们还介绍了我们的建议与最近的其他建议之间的联系,这些建议用于对频繁项集进行压缩表示。在实际数据集上的实验表明了NDI表示的有效性,使得对频繁不可派生项集的搜索成为挖掘所有频繁项集的有用且易于处理的替代方法。单调性原则进行修剪。该原则允许将候选项目集排除在昂贵的计数阶段之外。在本文中,我们提出声音和完整的演绎规则,以得出对项目集的支持的界限。基于这些推导规则,我们通过移除可以导出支持的那些项集来构造所有频繁项集的压缩表示,从而产生所谓的非导数项集(NDI)表示。我们还提出了我们的提案与最近针对频繁项目集的简要表示的其他提案之间的联系。对现实生活数据集的实验显示了NDI表示的有效性,使得搜索频繁的非可导出项集成为挖掘所有频繁项集的有用且易处理的替代方案。
课程简介: All frequent itemset mining algorithms rely heavily on the monotonicity principle for pruning. This principle allows for excluding candidate itemsets from the expensive counting phase. In this paper, we present sound and complete deduction rules to derive bounds on the support of an itemset. Based on these deduction rules, we construct a condensed representation of all frequent itemsets, by removing those itemsets for which the support can be derived, resulting in the so called Non-Derivable Itemsets (NDI) representation. We also present connections between our proposal and recent other proposals for condensed representations of frequent itemsets. Experiments on real-life datasets show the effectiveness of the NDI representation, making the search for frequent non-derivable itemsets a useful and tractable alternative to mining all frequent itemsets.
关 键 词: 频繁项集; 挖掘算法; 计数排除法; 可派生支持边界; 不可派生项集; 数据压缩; 数据分析
课程来源: 视频讲座网公开课
最后编审: 2019-05-26:cwx
阅读次数: 35