基于类型的电子邮件类噪声分解Genre-Based Decomposition of Email Class Noise |
|
课程网址: | http://videolectures.net/kdd09_kolcz_gbdecn/ |
主讲教师: | Aleksander Kołcz |
开课单位: | 推特公司 |
开课时间: | 2009-09-14 |
课程语种: | 英语 |
中文简介: | 由类标签噪声数据腐败是一个重要的现实关注影响许多分类问题。研究了数据清洗技术通常假设一个统一的标签噪声模型,然而,这是很少在实践中实现。相对很少了解,如何自然标签噪声分布可以测量或模拟。使用数据过滤垃圾邮件,我们证明了类噪声可以有实质内容的特定的偏置。我们还表明基于分类器的置信噪声检测技术往往识别实例,人的陪审员可能标签错误。我们表明,体裁建模可以识别潜在的地区是非常丰富的贴错标签。此外,我们能够表明,体裁分解可大幅度提高垃圾邮件过滤精度,与我们的结果优于最好的公布的数字为trec05-p1和ceas-2008基准的集合。 |
课程简介: | 由类标签噪声数据腐败是一个重要的现实关注影响许多分类问题。研究了数据清洗技术通常假设一个统一的标签噪声模型,然而,这是很少在实践中实现。相对很少了解,如何自然标签噪声分布可以测量或模拟。使用数据过滤垃圾邮件,我们证明了类噪声可以有实质内容的特定的偏置。我们还表明基于分类器的置信噪声检测技术往往识别实例,人的陪审员可能标签错误。我们表明,体裁建模可以识别潜在的地区是非常丰富的贴错标签。此外,我们能够表明,体裁分解可大幅度提高垃圾邮件过滤精度,与我们的结果优于最好的公布的数字为trec05-p1和ceas-2008基准的集合。 |
关 键 词: | 类噪声; 噪声检测; 垃圾邮件过滤 |
课程来源: | 视频讲座网 |
最后编审: | 2020-06-29:wuyq |
阅读次数: | 50 |