0


基于类型的电子邮件类噪声分解

Genre-Based Decomposition of Email Class Noise
课程网址: http://videolectures.net/kdd09_kolcz_gbdecn/  
主讲教师: Aleksander Kołcz
开课单位: 推特公司
开课时间: 2009-09-14
课程语种: 英语
中文简介:
由类标签噪声数据腐败是一个重要的现实关注影响许多分类问题。研究了数据清洗技术通常假设一个统一的标签噪声模型,然而,这是很少在实践中实现。相对很少了解,如何自然标签噪声分布可以测量或模拟。使用数据过滤垃圾邮件,我们证明了类噪声可以有实质内容的特定的偏置。我们还表明基于分类器的置信噪声检测技术往往识别实例,人的陪审员可能标签错误。我们表明,体裁建模可以识别潜在的地区是非常丰富的贴错标签。此外,我们能够表明,体裁分解可大幅度提高垃圾邮件过滤精度,与我们的结果优于最好的公布的数字为trec05-p1和ceas-2008基准的集合。
课程简介: 由类标签噪声数据腐败是一个重要的现实关注影响许多分类问题。研究了数据清洗技术通常假设一个统一的标签噪声模型,然而,这是很少在实践中实现。相对很少了解,如何自然标签噪声分布可以测量或模拟。使用数据过滤垃圾邮件,我们证明了类噪声可以有实质内容的特定的偏置。我们还表明基于分类器的置信噪声检测技术往往识别实例,人的陪审员可能标签错误。我们表明,体裁建模可以识别潜在的地区是非常丰富的贴错标签。此外,我们能够表明,体裁分解可大幅度提高垃圾邮件过滤精度,与我们的结果优于最好的公布的数字为trec05-p1和ceas-2008基准的集合。
关 键 词: 类噪声; 噪声检测; 垃圾邮件过滤
课程来源: 视频讲座网
最后编审: 2020-06-29:wuyq
阅读次数: 50