文档介绍:(西安电子科技大学学位论文独创性(或创新性)声明秉承学校严谨的学分和优良的科学道德,本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成果;也不包含为获得西安电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中做了明确的说明并表示了谢意。申请学位论文与资料若有不实之处,本人承担一切相关的法律责任。本人签名:日期西安电子科技大学关于论文使用授权的说明本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。本人保证毕业离校后,发表论文或使用论文工作成果时署名单位仍然为西安电子科技大学。学校有权保留送交论文的复印件,允许查阅和借阅论文;学校可以公布论文的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存论文。保密的论文在解密后遵守此规定)本学位论文属于保密在本人签名:导师签名:年解密后适用本授权书。日期日期摘要如何从Web上快速准确的检索到用户所需信息成为亟待解决的问题。为应对这一问题,在信息检索领域产生了主题Web挖掘这一研究课题。它的基本思想可以概括为:根据用户定义的某一主题,用主题爬虫遍历网络,收集与主题相关的页面,然后将收集到的页面进行智能的分析,最后以友好的检索方式满足对某一特定主题的检索要求。本文在分析了主题Web挖掘的研究内容和当前研究存在问题的基础上,将重点研究三个问题:一是提出了antiSpam主题爬虫算法,主要是加强主题爬虫反***能力,增加了主题爬虫对主题相关度判定的准确率;二是通过反***主题爬虫算法,对收集到的页面集进行分析和过滤,为了研究方便,将页面的文本过滤问题转化成了文本分类。针对向量空间模型忽略文本的上下文信息,提出了基于社区发现的特征选择算法;实验结果表明,这种分类方法在查准率、查全率方面是有效的和可行的。三是为了实现对主题信息采集,在前面算法的基础上,给出了基于Web的主题信息采集系统模型。关键词:,inthefieldofinformation,:accordingtotopicsuserdefining,work,collectingthepagesrelationtotheopicones,thenpageswillbecollectedandintelligentlyanalyzed,:First,rawleralgorithmhasbeenproposed,mainlyworkistostrengthentheabilityofantispam,uracyofcorrelation;Second,rawleralgorithmimproved,,,,,toachieveautomaticacquisitionoftopicinformation,onthebasisofthepreviousalgorithm,:munityDiscovery目录第一章绪论...................