0


面向数据的内容查询系统:将网页上的搜索数据转化为文本

Data-oriented Content Query System: Searching for Data into Text on the Web
课程网址: http://videolectures.net/wsdm2010_zhou_docq/  
主讲教师: Mianwei Zhou
开课单位: 伊利诺伊大学
开课时间: 2010-03-18
课程语种: 英语
中文简介:
由于Web提供了大量嵌入在页面内的内容中的丰富数据,因此我们见证了许多跨Web文本开发细粒度信息的特别努力,例如Web信息提取、类型化实体搜索和问题解答。为了统一和概括这些工作,本文提出了一个通用的搜索系统——面向数据的内容查询系统(docqs),它可以直接搜索到文档内容中,以找到所需数据类型的相关值。在当前局限性的驱动下,我们从提取此类内容查询所需的基本功能开始。这些功能需要一个概念化的关系模型,在此基础上我们设计了一种强大的内容查询语言(cql)。为了提高处理效率,我们设计了新的索引结构和查询处理算法。我们对两个具体的现实Web语料库领域的方案进行了评估,证明了我们的查询语言非常灵活和富有表现力,查询处理效率高,索引开销合理。
课程简介: As the Web provides rich data embedded in the immense contents inside pages, we witness many ad-hoc efforts for exploiting fine granularity information across Web text, such as Web information extraction, typed-entity search, and question answering. To unify and generalize these efforts, this paper proposes a general search system - Data-oriented Content Query System (DoCQS) - to search directly into document contents for finding relevant values of desired data types. Motivated by the current limitations, we start by distilling the essential capabilities needed by such content querying. The capabilities call for a conceptually relational model, upon which we design a powerful Content Query Language (CQL). For efficient processing, we design novel index structures and query processing algorithms. We evaluate our proposal over two concrete domains of realistic Web corpora, demonstrating that our query language is rather flexible and expressive, and our query processing is efficient with reasonable index overhead.
关 键 词: 内容查询系统; 通用搜索系统; 索引结构
课程来源: 视频讲座网
最后编审: 2020-07-14:yumf
阅读次数: 46