文档介绍:要摘随着互联网的发展,系男畔⒖焖僭龀ぃ壳拔颐敲媪俚那榭鍪且荒嗣嬗户对快速、准确地获得所需要的信息的渴望,另一方面是上信息量的巨大以及信息内容结构的复杂性,使得处理这些信息具有很多困难。为了解决这个矛盾,掘技术提供了一种途径,目前诰虻难芯俊篎处在不断发展的阶段,需要在理论、实现方法与技术卜进行人量的研究。论文主要研究谋就诰蚣际酢论文依照谋就诰虻墓潭訵文本挖掘进行了详细的研究,构建了一个基于可扩展标记语占椭С窒蛄炕的谋就诰蚰P汀B畚淖胖囟谋驹ご淼墓毯头椒ń醒芯浚畚奶岢鲇肵技术将趁嫔系男畔⒔行结构化,进而再将这些谋颈硎境杉扑慊芄淮淼男问剑崛〕龆晕谋就诰有用的信息,缩减数据量,形成个文本特征库来做为谋就诰虻幕文本预处理的结果对谋就诰虻闹柿亢托视凶藕苤匾5挠跋欤虼耍琖文本预处理阶段是至关重要的,需要进行洋细而完善的研究。论文还构建了一个谋就捌模型,这个基于蚐的谋就诰虻哪P椭饕0薟文本预处理和谋就诰虻墓δ埽挠诺愦嬗谒萌ㄍ趁娴娜范ā技术以及特征提取逐步地缩小了数据量,同时得到了能够准确表达文本内容的特征词条集合,用支持向量机的方法降低高维数据的维数,使文本挖掘处理的数据更加精炼。关键词:谋就诰颍籛文本预处理;惶卣魈崛。恢С窒蛄炕人连理笱妒芯可宦畚
,甌,.,甒篧;籜;琣琗籗任爽:,,...瑀畂瑃,,’
独创性说明作者郑重声明:本硕上‘学位论文是我个人在导师指导下进行的研究工作及取得研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写的研究成果,也不包含为获得大连理工大学或者其他单位的学位或证书所使用过的材料。与我一同工作的同志对本研究所做的贡献均已在论文中做了明确的说明并表示了谢意。
べ塑荒辍蝗隆黄湃大连理工大学学位论文版权使用授权书本学位论文作者及指导教师完全了解“大连理工大学硕士、博士学位论文版权使用规定”,同意大连理工大学保留并向国家有关部门或机构送交学位论文的复印件和电予版,允许论文被查阅和借阅。本人授权大连理工大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,也可采用影印、缩印或扫描等复制手段保存和汇编学位论作者签名:大连理工大学硕十研究生学位论文文。导师签名:
髀问题的提出的网页数量在年底也已经突破了埂!薄U庑┓岣坏膚资源中蕴含了大量具随着训算机信息技术和网络技术的发展,使今天的晌P畔⒎⒉肌⒔煌吆突袢的丰要工具。万维网是一个巨人、分布广泛、全球性的信息服务中心,它涉及新闻、广告、消费信息、会融管理、教育、政府、电子商务和许多其它信息服务,然而,互联网的快速发展却给我们带来了信息爆炸的问题,据年裨盒畔⒒ぷ靼公室发布的中国互联网络信息资源数量调查报告的结果显示,年全国网页总数已经达到千万个,而的全闭网页总数为千多万个,年的全峁允荆呈空猿杀兜乃俣仍龀ぃ谇蚰有巨大的潜在价值的知识或者模式,人们迫切需要能够从峡焖佟⒂行У胤⑾种识和模式的工具,此时数据挖掘技术为解决这个问题提供了一种解决方案,而这些海量的数据源恰恰为数据挖掘提供了基本的支持。但是系男畔⒍际且熘实模虢峁化的,趁娴母丛有愿哂谌魏未车奈谋疚牡担狈ν骋坏慕峁梗绺窀饕欤且这些海量文档也没有索引化,查找起来相当困难。此外械男畔⒍约浚不仅网页数量在猛增,页面内容也在不断地更新。竦挠没禾逡彩切涡紊ǖ模用户有不同的背景,兴趣和使用目的,大部分用户并不了解畔⒔峁梗孜薹找到所需要的信息。面对前面提到的各种困难,传统的数据挖掘技术显然难以胜任,于是就推动了数据挖掘新主题诰虻姆⒄埂数据挖掘的绝大部分工作涉及的是结构化数据库,很少处理系囊熘省虢峁化的信息。凶试粗饕J琼鮥趁婀钩傻模哂邪虢峁够⒏丛有缘忍氐悖近一份的统计资料指出:“在虸ヒ陨系氖荻是以半结构化的形式存在,如技术报告、技术文档、狹⒆ḿ页率龅。”,冈此在辖型诰蚓鸵=ù车氖萃诰蚣际鹾湍芄淮戆虢峁够莸募际踅岷掀闲畔⒌奶氐阕阈畔⑹康木薮蠡⑿畔⒋嬖谛问降亩托畔⒐芾硇枨的个性化,但是传统的进行手掷嗟姆椒ㄒ丫薹ㄊ视φ庵中枰#远掷嗾诔为目前自然语言处理研究领域的一个热点,现在已经出现了许多自动分类的方法,但是由于渐进理论的条件不易满足或耆由于难以修改或者由于文本向量的维数特别大等原因,导致分类效果才焕硐搿来。犬迕理搜妒芯可宦畚
谋就诰蚋攀为了解决上面提到的这些谋景虢峁够⑼闲畔⒌睦丛幢冉瞎惴骸⑽谋鞠蛄维数特别大的问题,本文运用了际跻约癝这种数据挖掘的新的方法,建立了谋就诰虻哪P停J导实腤文本挖掘系统的开发提供了指导。谋就诰蜃阒复哟罅堪虢峁够⒁旃沟腤文档的集合蟹⑾钟行У摹⑿颖的潜在可用的及最终可理解的知识包括概;含、模式、规贝、规律、约束皌踊等形式墓梢远訵上文档集合的大量内容进行总结、分类、聚类、关联分析以及利用牡到星魇圃げ獾取谋咀芙谋咀芙崾侵