文档介绍:拷斗一洳矽一斯加作者签名:≮萎青酱学位论文原创性声明‘月岁浙江工业大学学位论文版权使用授权书闐月乡日日期:副莎月本人郑重声明:所提交的学位论文是本人在导师的指导下,独立进行研究工作所取得的研究成果。除文中已经加以标注引用的内容外,本论文不包含其他个人或集体已经发表或撰写过的研究成果,也不含为获得浙江工业大学或其它教育机构的学位证书而使用过的材料。对本文的研究作出重要贡献的个人和集体,均已在文中以明确方式标明。本人承担本声明的法律责任。本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权浙江工业大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。本学位论文属于⒈C芸冢年解密后适用本授权书。朐谝陨舷嘤Ψ娇蚰诖颉啊日期:≯者师作导日期:鞩⒉槐C艽选日名名签签,
基于词跨鏖堕尘奎壅夺关键词提取及二黼基于词跨度的中文文本关键词提取及在文本分类中的应用摘要海量的文本资源进行关键词标注,并按其归纳整理,可实现文本资源本文围绕文本关键词提取中的噪声词问题,改进了传统的基于统计的文本关键词提取方法,以提高算法精度,并将改进后的关键词提取方法应用于文本分类的特征降维和特征项权值计算中。本文的主要于词跨度的中文文本关键词提取方法。该方法在传统的关键词提取方实验结果显示:与传统算法相比,该算法在召回率和准确率上有了明显的提高,并且对于不同类型的文本,都具有较为稳定的表现。文本关键词提取是文本自动化处理常用的一项关键技术,若能对的高效管理和便捷使用。常用的关键词提取方法主要是基于统计的方法,此类方法思想简单、便于实际应用。但是,该方法过多地依赖于词频统计,因此提取的关键词中常包含一定量的高频而非关键的噪声研究内容包括:A颂岣呶谋竟丶侍崛∷惴ǖ木ǘ龋疚母隽艘恢只法中引入词跨度概念,借助词跨度实现对噪声词的准确识别和过滤。例。、一
谋痉掷嘀械奶卣鹘滴侵竿ü蕴卣飨罱猩秆。锏降低特征空间维度的目的,但由于特征项的数量庞大,对其进行筛选的计算复杂度往往很高。因此,本文采用关键词提取的方式,首先对单个文本中权重过低的特征项进行过滤,减少了参与特征选择的特征项数量。实验证明:该方法在避免大量损失有效特征的基础上,降低了特征降维的计算复杂度。谖谋痉掷嘀校既返乇泶锾卣飨疃云渌谖谋镜闹匾3度,即特征项权值,对文本类别的区分具有重要影响。因此,针对经键词权重替代词频,并考虑了特征项与类别之间的关系来对其进行改进,即木綜。实验结果表明,基于木蜟的分类计算能有效提高分类性能。关键词:词跨度,关键词提取,文本分类,特征降维,权重计算典木ㄖ导扑惴ǘ蕴卣飨畋泶锊还蝗娴娜钡悖疚耐ü霉基于词跨度的中文文本关键闶提取及在文本分类巾的应用浙江上业大学硕士学位论文
眦鷖,舢眦嬲旬緀甌锄篵仔加【觚蟾诟胁瑃骾猼锄炊,嬲、№嬲印唱阛硒畆旬,畁】佬玛甌浙江一荡笱妒垦宦畚荩下词跨度的巾文文本关键词提取及在文本分类中的应朋瓵瑃瓾’,
餰觤诧狐鹏⒘膇拳褻,篧騬痶,木瑆磆籛,加:;塔籉浙江工业大学硕七学位论文基于词跨度的中文文本关键词提取及在文本分类中的应用,..Ⅳ
.⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..诖士缍鹊闹形奈谋竟丶侍崛中文关键词提取存在的问题⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..≡⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯基于词跨度的中文文本关键词提取方法⋯⋯⋯⋯⋯⋯⋯⋯⋯.S么使恕⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯实验分析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯...⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..基于奈谋痉掷啻嬖诘奈侍狻
参考文献⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯...⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.特征降维方法研究⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.S玫奶卣鹘滴椒ā特征项权值计算方法研究⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯...⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..进一步研究展望⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..基于词跨度的中文文本关键词提取及在文本分类中的应用浙江工业大学硕士学位论文.Ⅵ
髀研究背景及意义解等领域都有分类技术的应用。意大利学者萯近年来,随着信息技术的飞速发展和国际互联网的迅速扩张,人们面对的网页、