文档介绍:委纠犬孚硕士学位论文垫生自适应歧义切分的汉语分词系统的设计与实现计算机科学与技术研究生姓名指导教师姓名专、『研究方向温滔朱巧明淌中文信息处理论文提交日期
摘要汉语自动分词是中文信息处理领域的基础课题,也是中文信息处理发展的瓶预之~,其中对歧义字段的处理是影响分词精度的关键,幽内外许多研究人员在这一领域都进行了深入的研究,但就目自肿蠢纯矗圆荒苈闶导视τ玫男枰!本文针对分词中的两个方面:切分速度和歧义处理,进行了深入的研究。在速度方面,它首先对词典中的侧进行排序,并对首字索引,同时还利用字符串顺序排列时的规律,大大提高了查找阋时的速度,同时还对蛔疃搪肪兜拇址帜P徒懈进,通过过滤无覆盖型歧义切分结果的切分方案,使得剩余粗分结果数量大大减少,同时还使得在不考虑未登录词的情况下,粗分结果的召回率达到ァW詈笸ü分析目前算法的缺陷,提出目前算法的最大不足是语料信息的不完备性,然后介绍卜一种在利用词的多元信息进行分词的基础上,通过收集切分错误歧义句,经过人工修正,由系统动调节多儿信息库,增强语料信息库的完备性,以此提高分词正确率的方法。在分析阶段,本文就分词系统的速度与精度,与中科院计算所的汉语分词方法送行了全面的比较,在分析了本系统的优势的同时,也指出了本系统存在的一些不足之处,并由此作出了展望。关键词:自适应、分词、歧义、多元关系作者:温滔指导老师:朱巧明自适成歧义切分的汉语分诃系统的设攀迪
猠—.,,ィ瓵..瓸琲:猘.,—瓵甎,,痵痵,甀琁、.痵,..簊,,猦—痶。
自年国内第一个分词系统—笫迪忠岳矗谛矶嗫第一章序言论文背景学工作者都对分词进行了更深入的研究,其主要研究方向集中于以下两个方面:分词的算法设计和汉语歧义字段的研究。在分词算法设计上,大致可分为以下两个方面,一类旨在提高分词的切分精度的算法。另一类主要在提高算法速度方面上下工夫。对于提高分词切分精度的算法,可以说动用了几乎所有可能的方法。文献【恐校提出了正向扫描鲎肿畲笃ヅ词尾歧义检查橛以虻姆椒āU庵方法对某些类型的歧义可以得到正确的切分结果,但又势必造成其他类型的切分错误。另一种方法是将正向最大匹配法和反向最大匹配法结合起来使用的双向最大匹配法。结果发现,%左右的句子,这两种算法的切分结果重合且完全正确;プ笥业木渥樱秸咚洳煌ū赜衅一是正确的;只有サ牡樽樱宦哿秸咔蟹质欠裰睾希嘉薹ǖ玫秸确的结果。以上数据说明,此方法有较强的歧义切分检测能力。文献【就是利用双向匹配法标出歧义字段,然后利用二元或三元方法进行处理,取得了良好的效果。文献岢隽艘恢趾河镂谋厩蟹趾痛市员曜⑾融合的一体化分析的统计模型,由于词性标注等方面的基础研究工作不足,初步性开放测试效果较好,而实用性有待验证。文献翻利用句子内部相邻字之间的互信息及馐圆钫饬礁鐾臣屏坷辞蟹纸患推缫遄段,缺点是需要事先通过对语料的统计来获得任意两个汉字的同现概率,而这些统计量的潜力还有待进一步挖掘。文献尝试利用神经网络来模拟人脑思维处理歧义切分问题,缺点是受训练语料选取的限制,离实际应用还有很大差距。此外,文献隽撕河镒远执实淖ḿ蚁统设计原理,文献】提出了一种基于极大似然估计原则构建的汉语自动分词的零阶马尔可夫模型,并重点剖析了算法:文献【旧莺河锲义字段的长度的比例分布,有针对性的提出了一种消解中文三字长交集型歧义的算法,回避了训练代价比较高昂的词性信息,仅仅利用了词的自适应歧义切分的汉语分词系统的设计与实现
概率信息及某些具有特定性质的常用字集合,取得了较好的效果。对提高分词速度方面的算法,主要通过改进分词词表的速度以及分词过程中的匹配方法来实现的。文献⋯拇时斫峁刮4适鬃諬饕同首字词条可顺序查找,时间复杂度为N南譴利用汉语中两字词占%的统计规律,提出了两字词根和两字词簇的概念,把三音节以上的词用两字词簇来压缩处理,提高了分词的速度。文献计出‘种高效的电子词表,支持首字和标准的二分查找,进而提出一种改进的快速分词算法,在快速查找两字词的基础上,利用邻近匹配方法来查找多字词,该算法的时间复杂度理论上为N南住勘磓根据多级内码的设计理论,提出了一种并行分词方法。在汉语歧义字段的语言研究方面,文献【康淖髡吡耗显W钤缍哉庵钟言现象进行了比较系统的考察和归纳。他定义了两种基本的切分歧义类型:交集型歧义字段:汉字串、:鹤执中若、同时为词;组合型歧义字段:汉字串、:鹤执中若、同时为词。文献【】中作者进一步指出,切分歧义应区别“真歧义”和“伪歧义”并整理出一张歧义切分类型表。同时,文献作者在考察了一个极大规模汉语语料库的基础上,提出了最大交集型歧义切分字段的概念并根据其频率分布的特点,发现高频部分表现出相当强的覆盖能力和稳定性,给出了一种基于记忆的,高频最大交集型歧义切分字段的处理策略。上述研究成果加深了我们对歧义字段理解的深度,拓展了我们的视野,对歧义