文档介绍:基于一种粗切分的最短路径中文分词研究摘要本论文在分析现有的分词算法并比较各种算法优缺点的基础上,提出了将正向匹配算法与逆向匹配算法所得到的结果集进行叠加,生成粗分结果集的新观点,再对生成的粗分结果集构造非负权有向图,然后应用最短路径算法求解有向图。本文提出的叠加算法着重考虑粗分结果的准确性、包容性以及粗分结果的长度。经过实验验证,该算法有效提高了汉语切分的准确性以及切分速度,同时部分解决了交集型歧义切分问题。关键字中文分词;最短路径;叠加运算中文分词是中文自然语言理解和处理的重要环节,也是一个比较复杂和困难的问题。它是自动翻译、文本检索、语音识别、文本校对以及搜索技术中的重要组成部分。分词就是将连续的字符串或序列按照一定的规范重新组合成词序列的过程[1]。本论文定义的分词(textsegmentation或者wordsegmentation)就是对计算机不能直接理解的字符串或者序列按照一定的规则裁分并最终组合成计算机可以理解的词序列的过程。西文的行文中,空格是天然的分界符。因此,对于西文的各种处理比较直观和方便。而中文只有最简单的句与句之间的划界,词与词之间没有明显分界符。例如一个最简单的例子,英语:Icallhersister;译文:我叫她姐姐。在西文处理中,计算机可以通过空格和标点符号确定“sister”为一个独立语意单位,独自构成一个词。但是在译文中,由于没有明显标点符号分界,在没有一定规则的前提下,计算机很难理解“姐”和“姐”共同构成一个语意单位。中文分词技术中存在的难题如引言中所述,中文自然语言的理解和处理远比西文语言复杂得多,主要体现在以下几个方面[1]:(1)分词的规范问题:词的确切概念难以标准化,词的应用领域不同,使得分词规范难以统一,需要达到的分词效果也有很大区别。(2)歧义切分:对于特定的句子或字符串可能存在多种切分方法,不同的切分方法具有不同的含义,因此会导致组合型歧义和交集型歧义。(3)新词识别:汉字系统是一个开放性系统,可能不断有新词产生,最典型的比如:人名、地名以及各类术语,分词系统必须不断更新分词词典。(4)分词理解的先与后:由于计算机需要靠词的信息来理解文章,因此它只能采用先分词后理解的方法,而分词需要以理解为基础,理解必须先分词。由此产生的逻辑问题决定了不可能有百分之百正确的分词方法。,已经有很多比较成熟的汉语分词技术。邹海山等在现有分词技术的基础上提出了一种基于词典的正向最大匹配和逆向最大匹配相结合的汉语分词方案,可以高效准确的实现中文文档的主题词条抽取和词频统计;应志伟等基于一个实际的文语转换系统,改进最大匹配算法,从实用角度解决多音字的异读问题和中文姓名自动识别问题;欧振猛、余顺争采用基于自动建立词库的最佳匹配方法进行中文分词;韩客松等主要从知识的自动获取出发,介绍了研究中的汉语语言无词典分词模型系统[4]。:先采取最大匹配、最短路径、概率统计、全切分等方法,得到一个相对较好的粗分结果,然后进行排歧、未登录词识别,最后标注词性。例如:北大计算语言所分词系统采用了统计方法进行词语粗分,北航1983年的CDWS系统则采用了正向或逆向最大匹配方法,而清华大学的SEGTAG系统采用的是全切分方法。在实际的系统中,这三个过程可能相互交叉、反复融合