首页外国语言
   首页语言学
0


比较资源较少和形态丰富的语言的神经网络解析器:阿姆哈拉语依赖解析器

Comparing Neural Network Parser for a Less-resourced and Morphologically-rich Language: Amharic Dependency Parser
课程网址: http://videolectures.net/rail2020_ephrem_comparing_neural/  
主讲教师: Binyam Ephrem
开课单位: 亚的斯亚贝巴大学
开课时间: 2020-03-20
课程语种: 英语
中文简介:
在本文中,我们比较了闪米特语阿姆哈拉语的四种最先进的神经网络依赖解析器。 由于阿姆哈拉语是一种形态丰富且资源较少的语言,因此当我们开发数据驱动模型时,词汇表外 (OOV) 问题会更高。 这一事实限制了研究人员开发神经网络解析器,因为神经网络需要大量数据来训练模型。 当使用小型阿姆哈拉语树库进行训练时,我们会根据经验评估神经网络解析器。 根据我们的实验,我们使用 UDPipe 系统获得了 83.79 的 LAS 分数。 当神经解析系统使用词嵌入等外部资源时,可以获得更高的准确性。 使用这些资源,UDPipe 的 LAS 分数提高到 85.26。 我们的实验表明,神经网络可以从有限的数据中更好地学习依赖关系,而分割和词性标注需要大量数据。
课程简介: In this paper, we compare four state-of-the-art neural network dependency parsers for the Semitic language Amharic. As Amharic is a morphologically-rich and less-resourced language, the out-of-vocabulary (OOV) problem will be higher when we develop data-driven models. This fact limits researchers to develop neural network parsers because the neural network requires large quantities of data to train a model. We empirically evaluate neural network parsers when a small Amharic treebank is used for training. Based on our experiment, we obtain an 83.79 LAS score using the UDPipe system. Better accuracy is achieved when the neural parsing system uses external resources like word embedding. Using such resources, the LAS score for UDPipe improves to 85.26. Our experiment shows that the neural networks can learn dependency relations better from limited data while segmentation and POS tagging require much data.
关 键 词: 阿姆哈拉语; 词汇表外; 神经网络
课程来源: 视频讲座网
数据采集: 2022-03-30:hqh
最后编审: 2022-03-30:hqh
阅读次数: 35