文档名称：

基于统计的无监督新词和组合词发现算法研究.pdf

格式：pdf 页数：50页

下载后只包含 1 个 PDF 格式的文档，没有任何的图纸或源代码，查看文件列表

如果您已付费下载过本站文档，您可以点这里二次下载

预览

下载此文档

基于统计的无监督新词和组合词发现算法研究.pdf

上传人:banana 2014/2/8 文件大小：0 KB

下载得到文件列表

基于统计的无监督新词和组合词发现算法研究.pdf

相关文档

文档介绍

文档介绍：硕士学位论文

基于统计的无监督新词和组合词发现算法
研究

NEW WORDS POUND WORDS FIND
BASED ON UNSUPERVISED STATISTICAL
ALGORITHM

白雪东

哈尔滨工业大学
2011 年 12 月
国内图书分类号: 学校代码:10213
国际图书分类号: 密级:公开

工学硕士学位论文

基于统计的无监督新词和组合词发现算法
研究

硕士研究生: 白雪东
导师: 张春慨
申请学位: 工学硕士
学科: 计算机科学与技术
所在单位: 深圳研究生院
答辩日期: 2011 年 12 月
授予学位单位: 哈尔滨工业大学
Classified Index:
:

Thesis for the Master Degree in Engineering

NEW WORDS POUND WORDS FIND
BASED ON UNSUPERVISED STATISTICAL
ALGORITHM

Candidate: XueDong Bai
Supervisor: Associate Prof. ChunKai Zhang
Academic Degree Applied for: Master of Engineering
Speciality: Computer Science and Technology
Affiliation: Shenzhen Graduate School
Date of Defence: December, 2011
Degree-Conferring-Institution: Harbin Institute of Technology
哈尔滨工业大学工学硕士学位论文
摘要
当前的大多数中文分词系统都是基于词典的,但是其不能正确的切分文本
中新词(字典中不包括)。这些基于词典的分词系统在处理包含较多新词的文本
时,效果较差。
当前新词识别算法包括有监督和无监督两种,但是有监督需要一个详细标
注的语料库,往往获得这样的一个语料库是相当困难的。不同的是无监督所需
要的先验知识就要少得多,并且能方便的使用相应的度量准则衡量一个候选词
成为一个新词的可能性。然而当前无监督算法收词频的影响较大,对稀疏的文
本数据集来说处理效果是不能令人满意的。
本文主要研究基于统计的无监督中文新词发现算法和组合词识别算法。并
相应的提出了:重叠子字符串新词度量准则和改进的重叠子字符串组合词度量
准则。重叠子字符串新词度量准则从候选词的内部和候选词的外部同时考虑一
个候选词成为新词的可能性,并使用相对词频,所以能较好的处理相对稀疏的
文本数据。并与另外三个现存的新词发现算法做了实验对比,实验结果表明我
们的新词发现算法,比这三个对比算法有较大改进。改进的重叠子字符串组合
词度量准则,主要是面对当前自然语言处理中的概念抽取问题,能较好的获取
文本集中的概念。本文在实验中将改进前和改进后的算法做了对比,实验结果
表明改进后的重叠子字符串组合词度量准则较改进前的有较大提升。
由于本文算法的特性,使用的是相对词频,所以对词频高的词并没有较大
的偏倚,且能给较低词频的词较高的算法统计结果,所以如果需要处理的文本
集较大时,可以将其分割成许多较小的数据集,这样就能并行的处理每个数据
集,使系统的负载能力更强。

关键词:无监督;中文;新词发现;组合词发现

- I -
哈尔滨工业大学工学硕士学位论文
Abstract
Most Chinese word segmentation systems are based on Chinese word
dictionary, which cannot correct segmentation of new words in the text (not included
in the dictionary).If the text contains a lot of new words, the result of these Chinese
word segmentation system are unsatisfactory. Therefore