0


从部分注释的序列中学习

Learning from Partially Annotated Sequences
课程网址: http://videolectures.net/ecmlpkdd2011_brefeld_annotated/  
主讲教师: Ulf Brefeld
开课单位: 莱芬娜大学
开课时间: 2011-11-30
课程语种: 英语
中文简介:
我们研究顺序预测模型,其中只有序列的片段用地面实况注释。该任务与标准半监督设置不匹配,并且在自然语言处理等领域高度相关,其中完全标记的实例昂贵并且需要编辑数据。我们建议概括半监督设置并设计一个简单的转导损失增强感知器来学习廉价的部分注释序列,例如可以由外行提供,人群的智慧,甚至自动提供。使用来自维基百我们研究序列预测模型,当只有序列的片段被地面真相注释时。该任务与标准的半监督设置不匹配,在自然语言处理等领域非常相关,在这些领域,完全标记的实例非常昂贵,需要编辑数据。我们建议推广半监督设置,并设计一个简单的传感器损失扩大感知器,以学习廉价的部分注释序列,例如可以由门外汉,人群的智慧,甚至自动提供。在单语和跨语命名实体识别任务上的实验表明了该方法的有效性。我们的结果表明,从部分标记的数据学习从来没有比标准的监督和半监督方法对具有相同比例标记和未标记标记的数据训练差。科的自动生成的部分注释句子对单声道和跨语言命名实体识别任务的实验证明了所提出的方法的有效性。我们的研究结果表明,从部分标记数据中学习并不比标准的监督和半监督方法更差,这些方法训练的数据具有相同比例的标记和未标记的标记。
课程简介: We study sequential prediction models in cases where only fragments of the sequences are annotated with the ground-truth. The task does not match the standard semi-supervised setting and is highly relevant in areas such as natural language processing, where completely labeled instances are expensive and require editorial data. We propose to generalize the semi-supervised setting and devise a simple transductive loss-augmented perceptron to learn from inexpensive partially annotated sequences that could for instance be provided by laymen, the wisdom of the crowd, or even automatically. Experiments on mono- and crosslingual named entity recognition tasks with automatically generated partially annotated sentences from Wikipedia demonstrate the effectiveness of the proposed approach. Our results show that learning from partially labeled data is never worse than standard supervised and semi-supervised approaches trained on data with the same ratio of labeled and unlabeled tokens.
关 键 词: 顺序预测模型; 序列片段; 编辑数据; 数据处理; 半监督设置
课程来源: 视频讲座网公开课
最后编审: 2019-05-26:cwx
阅读次数: 58