0


从政治演讲自动记录中提取参考文献

Extracting references from political speech auto-transcripts
课程网址: https://videolectures.net/videos/kdd2017_roberts_political_speech  
主讲教师: Brandon Roberts
开课单位: KDD 2017研讨会
开课时间: 2017-12-01
课程语种: 英语
中文简介:
本文提出了一种无监督的方法来计算嘈杂的自转录政治演讲中的引用。使用学习到的嵌入对转录进行矢量化,然后使用k-means对其进行聚类,得到表示文本中高度细粒度、特定主题的单词组。然后从每个转录本中提取每个聚类中的单词,进行计数和排列,以进行时间序列分析。尽管转录不准确,该方法仍能找到语义连贯的主题,代表特定的引用。我们使用这个框架从2016年美国总统竞选的400多份政治演讲稿中提取参考文献。
课程简介: This paper presents an unsupervised method for counting references in noisy auto-transcribed political speeches. Transcriptions are vectorized using learned embeddings which are then clustered using k-means resulting in groups of words which represent highly granular, specific topics within the text. Words from each cluster are then extracted from each transcript, counted, and arranged for time-series analysis. The approach finds semantically coherent topics representing specific references despite transcription inaccuracies. We use this framework to extract references from over 400 political speech transcriptions from a 2016 U.S. presidential campaign.
关 键 词: 政治演讲; 自动记录; 参考文献
课程来源: 视频讲座网
数据采集: 2024-11-10:liyq
最后编审: 2024-11-10:liyq
阅读次数: 3