1 / 55
文档名称:

一种文本聚类原型系统的设计与实现(可复制论文).pdf

格式:pdf   页数:55
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

一种文本聚类原型系统的设计与实现(可复制论文).pdf

上传人:mkt365 2013/11/13 文件大小:0 KB

下载得到文件列表

一种文本聚类原型系统的设计与实现(可复制论文).pdf

文档介绍

文档介绍:要摘本文提出了一种文本聚类系统原型的设计与实现。该系统的设计是针对国家自然科学基金“项目管理中项目关联分析与立项决策支持系统研究”的实际需求而产生的。在自然科学基金的评审过程中,需要由专家对大量的立项建议书进行评审,这一工作是相钊胙芯苛司劾嗨惴ㄖ械钠矫婊址ǎ捎肑镅员喑淌迪至说湫退惴╧平关键词:聚类;文本聚类;骄担籯中心点大连理工大学硕士学位论文当繁重的,而文本聚类系统的应用,可以大大减小工作强度,提高工作效率,节约评审时间。本文设计了文本聚类系统的原型框架,并在该体系框架下,详细地讨论了系统中各个子系统的分析设计和实现。本文主要在以下方面开展工作:均值算法和行牡闼惴ǎ美炊粤⑾罱ㄒ槭榻芯劾喾治觥昵胧橹写罅看嬖诘耐宕屎兔挥欣啾鹛卣鞔识跃劾嗟木ǘ扔跋旖洗螅虼耍系统中加入了同义词的合并和无特征词的去除,提高了聚类分析的准确率。诰劾喾治鼋崾院螅苑治鼋峁辛吮曜ⅲ玫搅死嗄P汀H缓罄美嗄P实现对新文本的分类。捎肑技术开发了痵模式下用户操作子系统。该子系统采用了术,实现了人机交互,方便了用户使用,并且通过程序将分析结果画成图形,给出了直观的表示。
知识水坝为您整理
血籏—籏—加撕韆也膕琾畁血餹缈舡,弘錷,母一种文本聚类原型系统的设计与实现舗簅】“,【瑂琣,.】
知识水坝为您整理
作者签名:主荟迫掌冢独创性说明作者郑重声明:本硕士学位论文是我个人在导师指导下进行的研究工作及取得研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写的研究成果,也不包含为获得大连理工大学或者其他单位的学位或证书所使用过的材料。与我一同工作的同志对本研究所做的贡献均己在论文中做了明确的说明并表示了谢意。
孑彩年查月丝日曳允许论文被查阅和借阅。本人授权大连理工大学可以将本学位论文的全部或部分内大连理工大学学位论文版权使用授权书容绱入有关数据库进行检索,也可采用影印、缩印或扫描等复制手段保存和汇编学位论本学位论文作者及指导教师完全了解“大连理工大学硕士、博士学位论文版权使用规定”,同意大连理工大学保留并向国家有关部门或机构送交学位论文的复印件和电子文。作者签名:导师签名大连理工大学硕士研究生学位论文
问题的提出图书、研究论文、数字图书馆、网页、电子邮件等等。面对大量无序的文本数据,为了文本挖掘属于数据挖掘这一交叉学科的一个具体颁域,它的主要任务是分析文档数是在分析文本内容的基础上将多篇文本分成一个或多个类别。它通常由两个阶段组成:训练阶段和分类阶段T谘盗方锥危友盗肺谋局醒胺掷嘀J叮⒎掷嗥骼嗄P停样本的代价是很大的。这时使用聚类的方法就显得很重要。随着计算机的广泛应用和钠占埃嗣敲娑缘男畔⒘考本缭龀ぁP畔⒘康增加给人们带来方便,但是同时也带来了一个信息过量的问题。数据的大量涌入,大大增加了我们获取有用信息的难度。面对浩如烟海、纷繁芜杂的信息,人们越来越希望能够在对已有的大量数据分析的基础上进行科学研究、商业决策或企业管理口】。在现实世界中,文本是信息最重要的载体,事实上,研究表明信息有%包含在文本文档中【俊L乇鹗窃诨チM希谋臼莨惴旱卮嬖谟诟髦中问剑缧挛疟ǖ馈⒌缱便于工作的展开,人们经常遇到的一个问题就是,如何对文本进行分类、比较,评估文本的相关性和重要性,以及发现众多文本的模式与趋势。很自然的,人们将解决这一问题的目光投向数据挖掘。据库的内容,发现文档数据集中概念、文档之间的相互关系和相互作用,抽取有效、新颖、有用、可理解的、散布在文本文件中的有价值知识,并利用这些知识更好地组织信息。文本挖掘处理的是非结构化的文本信息,而不是通常数据挖掘中采用的结构化数据信息。文本挖掘的主要研究内容包括关联分析、文本分类、文本聚类等【。要实现对大量文本的自动分类,可以采用文本分类和文本聚类两种方法。文本分类在分类阶段根据分类器将输入文本分到最可能的类别中。从这个过程可以看出,分类需要事先存在的人工分类好的训练数据。但是,在信息瞬息万变的今天,经常会出现新的数据很难用己有的分类体系来处理。如果重新进行分类,就必须重新建立分类好的训练文档集,而获得大量带有类别标注的聚类又称聚类分析亲钪匾5奈藿淌ρ暗姆椒ā聚类是一个将数据集划分为若干类的过程,并使得同一个类内的数据对象具有较高的相似性,而不相同类中的数据对象则具有较大的相异性。聚类与分类不同在于,在分类问题中,已经事先知道对象的分类属性,分类的工作就是根据训练样本将每一个对象分别属于哪一类标记出来,而聚类分析的输入数据集是大连理工大学硕士学位论文
聚类的研究现状一组未标记的对象,也就是说此时输入的对象还没有被进行任何分类,聚类的目的是根据一定的规则,合理地进行分组或聚类,并用显式或隐式的方法描述不同的类别【。由于分析可以采用不同的算法,所以对于相同的数据集合可能