文档介绍::甃Ⅱ
摘要河锏挠锓ú┐缶睿鼋隹咳斯ご恚ぷ髁肯嗟笨晒郏⑶液苣呀好地归纳其语法规则。粗糙集理论具有对大量的不完全信息进行数据挖掘,发现自世纪年代以来,计算机语料库的建设和应用,引起了许多国家信息技术领域和语言学界日益浓厚的兴趣。语料库对自然语言处理的不同方面的重要事性和蕴藏的潜力,得到了国际计算语言学会的广泛认可。语料库是否得到有效的利用很大程度上取决于对其加工一词切分及标注的质量,自动分词及词性标注成为语料库研究的重要课题。汉语不同于西文,词与词之间没有明显的分隔符,语法的复杂性等,都给汉语语料库的自动分词和标注带来困难。二十多年来,国内外研究学者提出了许多方法策略来解决这一问题,诞生了许多高效的自动分词系统,取得了显著的成绩。但离最终“放之四海而皆准庖荒勘晟杏幸欢尾罹唷以往的研究大多注重分词和标注系统本身算法的改进,取得一定成效的同时也达到了一个瓶颈,难再有很大的提高。本文研究常用的中文分词系统与基于粗糙集的后处理过程相结合,优化语料库,提高其准确性。主要内容有以下几方面:蚵缘鼗毓肆擞锪峡狻⒆远执屎痛市员曜⒓际醯姆⒄埂2隽吮究翁研究的意义。隐藏规则的能力。系统设计以它为核心部分实现的基础,按照粗糙集理论中建立决策表及数据约简的方法,构建兼类词的词性决策表并进行约简,获取精简的规则。员本┐笱Ъ扑阌镅匝а芯克淼娜嗣袢毡ㄇ蟹帧⒈曜⒂锪峡馕Q盗语料库,获取兼类词词性规则表。语料库后处理系统对粗切分的语料库结果加以比较,结合精简的兼类词词性规则判定,提高语料库准确率。实现过程中,对实验数据加以比较分析,对系统参数适当的调整。关键词:语料库租糙集自动分词词性标注‘;
,...甌硕士学位论文...,甌
..髓,.、№:;;’‘●●一●
录摘要⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.第滦髀邸第潞河镒远执始按市员曜ⅰ第掠锪峡夂蟠硐低车纳杓啤骸第掠锪峡夂蟠硐低车氖迪帧目语料库⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯二⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.锪峡獾姆⒄埂⋯.锪峡獾挠τ谩汉语语料库加工现状及分析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯自动分词⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.⒎椒ā汉语分词系统评测⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯啦狻啦狻问题的提出⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯粗糙集理论⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。.⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.锪峡夂蟠碛呕泄嬖虻挠τ谩语料库预处理⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..盗酚锪峡夤娣痘⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..硕士学位论文.’
第参考文作者攻致谢⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.
目的和编制词表而收集的书面文章库,以及为语言文化调查而收集的资料库。根据和亩ㄒ,语料库是为专门目的按照明确的设计标准收集的文章的集合。在这个定义中强调了三个侧面:锪峡馕W拍康亩ā锪峡庥忻魅飞杓票曜肌锪峡馐俏恼碌募稀一代代的语言学家、词汇学家、教育家为语料库的建设与发展奠定了雄厚的基础。其中年由⑵鹱橹占腟语料库,具有承前启后特别重要的意义,对其后取样性语料库的设计产生了长远的影响。历史上第一个计算机
籍,共恚万页,总汉字数达到诙啵氖笔攴酵瓿杀嘧耄料库的研制是呈螺旋型上升与发展的过程,这一过程既与计算机技术的发展密切的锪峡獾纳杓疲椭苯咏邮艿剿挠跋臁R虼薙既是语料库从非计算机化到计算机化的标志性的转折点,又是设计与建设口语和书面语并重、有代表性取样的语料库的真正开端。令中国人感到骄傲的是,早在嗄昵埃A吮4婧秃胙锩褡逦幕夜就收集和编修了举世闻名的《四库全书》。当时清朝的乾隆皇帝命令纪晓岚带领。名文人,于乾隆年开始纂修《四库全书》,收录了种典称中国历史上当之无愧的一部丛书巨著,世界语料库建设史上的~枚奇珍异宝。它为研究中国的哲学、历史、文学、文化提供了极其丰富的资料。缙谛」婺<扑慊锪峡根据蚖约扑慊贝锪峡飧隽巳霾愦斡煽矸到精确的定义:锪峡馐侨魏挝谋镜募稀锪峡馐强梢曰恋奈谋镜募稀锪峡馐强梢曰恋奈谋镜囊欢康募希⊙奈谋驹谧畲蟪潭壬代表一种语言或变体。随着电子技术的发展,出现了以计算机为基础的计算机语料库。计算机语料库是收集并存储在计算机中的可以用于计算