文档介绍:清华大学综合论文训练题目:基于用户查询日志和锚文字的汉语缩略语识别系别:计算机科学与技术系专业:计算机科学与技术专业姓名:谢丽星指导教师:孙茂松教授 2009年6 月25日关于学位论文使用授权的说明本人完全了解清华大学有关保留、使用学位论文的规定,即:学校有权保留学位论文的复印件,允许该论文被查阅和借阅;学校可以公布该论文的全部或部分内容,可以采用影印、缩印或其他复制手段保存该论文。(涉密的学位论文在解密后应遵守此规定) 签名: 导师签名: 日期: I 中文摘要缩略语是自然语言的现象之一,是中文信息处理领域的重要研究课题。目前关于缩略语识别的研究中,有的是采用缩略语、源短语的平行语料库,有的是采用人工分词和词性标注的语料库,这些语料库可时效性欠佳,规模较小,在提取过程中有时还需要人工干预。为解决这些问题,本文从另一个角度,采用基于查询词和url的用户查询日志(querylog)和锚文字文件(anchor text)的大规模语料库, 在确保时效性的基础上,运用“同网站同目录主题相关性”(即对应的url指向同一网站同一目录的查询词可能较为相关)的思想进行初步的缩略语、源短语对的抽取,然后采用一系列过滤规则,结合分词按照缩略语的形成方式进行分类,最后调用搜索引擎采用多策略来找出缩略语、源短语对。相比前人研究,我们的实验在规模和准确率上都有提升,%,%。关键词:用户查询日志;锚文字;缩略语的分类;搜索引擎 II ABSTRACT Abbreviation, mon phenomenon in natural language, has drawn a large body of research interest in the natural language processing community. Recent studies usually utilize parallel corpus of abbreviation and root forms, of which the methods used are behind the times and require part-of-speechinformation or even manual intervention. In this paper, we propose a novel method introducing query log and anchor text to gain a new vision of these problems. First, a heuristic algorithmis applied to extract abbreviation-root pairs. Second, we use filtering rules concluded from actual observations and Chinese word segmentation techniques to classify the suspect pairs into candidate patterns. Finally, search engine is adopted to further validate the abbreviation-root pairs using multi-strategy pared to previous studies, our experience showed improvements on scale and precision, with a result of % in query log and % in anchor text. Keywords:query log; anchor text;classification of abbreviation; search engine III 目录第1章引言............................................................................................5 ...........................................................................................5 ..............