文档介绍:硕士学位论文首都经济贸易大学论文题目:基于┱顾惴ê途渚劾嗨惴ǖ诰蜓芯/学号:院系:专业:
日期:丝年上月上日独创性声明关于论文使用授权的说明日期:丝堡年』月』日本人郑重声明:今所呈交的《基于┱顾惴ê途渚劾嗨惴ǖ诰蜓芯俊仿畚氖俏腋鋈嗽诘际χ傅枷陆械难芯抗ぷ骷叭〉玫目蒲含其他人已经发表或撰写的内容及科研成果,也不包含为获得首都经济贸易大学或其它教育机构的学位或证书所使用过的材料。络索引;学校可以公布论文的全部或部分内容,可以采取影印、缩印或成果。尽我所知,文中除了特别加以标注和致谢的地方外,论文中不包作者签名:本人完全了解首都经济贸易大学有关保留、使用学位论文的有关规定,即:学校有权保留送交论文的复印件,允许论文被查阅、借阅或网其它复制手段保存论文。C艿穆畚脑诮饷芎笥ψ袷卮斯娑
中文摘要随着互联网的迅猛发展,潜藏在海量网页信息下的知识亟待被人们所发现。本文介绍了文本挖掘这一数据挖掘新兴分支的背景与起源,介绍了谋就诰虻牧鞒逃氩街瑁约癢文本挖掘中文本表达与文本处理的相关概念及经典度量算法。此外,本文还对于传统的蛄靠间模型作出了扩展,重新定义了ㄖ档募扑愎蹋⒁越ù怂惴与经典聚类算法相结合,用旧喜煌挛虐蹇榈奈恼伦鍪源进行实证研究。本文所进行的实验为对比实验,实验变量为法的不同,实验平台为开源软件,通过实验结果证明了改进算法对于聚类有效性的提升。主题词:诰颍琕模型,ㄖ担卣鞅硎荆劾嗨惴
.瓵琾甀,甅琲琁琁痸..:,琓,
录第滦髀邸国内外研究现状⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..第挛谋就诰蚋攀觥文本挖掘概述⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..谋就诰虻母拍睢诰蚋拍睢诰蛄鞒獭第耊挖掘文本表示——向量空间模型⋯⋯⋯⋯⋯⋯⋯⋯⋯..向量空间模型⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.卣魃伞目本文研究背景⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.本文主要内容⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..≡瘛董查丝鲞堡墨盘鲎塑±鲎焦迨圭堡迨叁±侗诓铞棠炕撇畈铞呙颂美萁兜媲帝照.
.卣鞒槿改进的第戮湮谋揪劾嗨惴ā惴ㄖ饕K枷搿劾嗨惴枋觥基于密度的聚类算法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.基于的文本聚类实证研究⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.笛榉治鲇虢崧邸参考文献⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.基于划分的惴ā层次聚类算法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.笛椴街杓捌拦澜峁第致谢⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯作者在攻读硕士学位期间发表的论文⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯董塑丝鲞堡墨盔堂塑±堂焦迨塞堡萑墅芏垦墨鲞墨丝差鍪差差鲞丝坠垒蕉垫堑壅堡.
第绪论本文研究背景的结构化数据中提取其中潜在信息、知识模式的科学,发展至今已经比较成熟。而随怎样使用谋就诰蚣际酰佣焖佟⒆既返卦谕缧畔⒌耐粞蟠蠛V屑焖骱头掷信息,尽量剔除无用的信息,同时保证人们在信息选择方面的个人隐私权利,也逐渐分类,有的挖掘任务所面对的数据是谋拘畔⑹荩行┩诰蛉挝裰械氖菔本文内容提出背景:对于当今生活在高节奏中的人们来说,新闻阅读与实时了解数据挖掘技术抢眉扑慊屯臣蒲Х椒ù雍A着的飞速发展,特别是τ玫牟欢掀占埃缧畔⒓本缭黾樱畔⒗嘈也越来越复杂。如何从这些大量自由、非结构化或半结构化的信息中获得所需求的知识,传统的数据挖掘技术已不适用。那么这个问题该如何解决呢鸢钢挥幸桓觯那就是将经典的数据挖掘方法与秤τ眉际跆氐阕酆掀鹄唇蠾挖掘。那么,成为学术界和企业界所关注的焦点,且具有广泛的应用前景和实用价值。对于趁婺谌萁型诰蛭颐浅浦!癢内容挖掘覹文档内容中获取相关信息,或从网页结构化描述内容中进行知识模式抽取。具体的挖掘形式有很多种,包括:文本内容归纳、聚类、分类、关联分析、趋势预测等。按网页内容形式来网页上的多媒体信息,据此便可分为谋就诰蚝蚖多媒体挖掘。而趁嫖谋灸容的分类和聚类也一直是谋就诰蜃钪匾5牧礁鲇τ梅较颉页面的分类是根据页面的不同特征,将其划分入事先建立起来的不同类别当中。趁娴木劾嘤敕掷不同,在聚类过程中并没有预先规定主题类别的信息,而是在无监督的学习下将页面集全聚簇成若干个簇,目的是使同一簇的页面内容相似性尽可能大,不同簇问页面内容尽量不同。在此,首先简要阐述一下诰虻墓蹋篧文档内容信息收集一建立文档仓库一文本预处理一文本的特征提取一文本的统计分析处理一挖掘结果评价一得出知识模式。在上述的龌方谥校苯窆谕庑矶嘌д叨既戎跃劢褂诙訵挖掘算法改进、文本的预处理与特征提取模式研究,相关研