文档介绍:复旦大学
硕士学位论文
互关联后继树模型研究
姓名:申展
申请学位级别:硕士
专业:计算机软件与理论
指导教师:沈瑶英
20040522
摘要技术——全文检索和文本挖掘——合二为一。由于此挖掘算法不必生成后选频繁年在美国大学诞生到现在,全文检索技术已经在企业信息门户、媒体提出了一个针对中文的全文检索模型。互关联后继树模型将全文看成一长度的字符串等特点。本文还对互关联后继树模型从空间角度进行改进,得到了精简互关联后继树模型。在精简模型的创建算法中,我们用两遍扫描算法代替反解决了模型的匹配文章查询问题。将全文看成一个字符流的缺点是检索提出了评价全文检索模型的标准。目前,国内外还没有一套通用的评价拓展了互关联后继树模型的应用。本文将互关联后继树模型用于文本挖掘领域,提出了基于互关联后继树模型的文本挖掘算法,首次将文本检索的两大提出了基于互关联后继树模型的全文检索系统框架。本文提出的全文检索查询系统框架,由于使用了互关联后继树模型,具有比较完备的查询能力。关键词:全文检索,互关联后继树模型,精简互关联后继树模型,数据挖掘随着人类进入“信息社会”时代步伐的加快,信息的海量化和多样化使得人们必须寻求一种能够处理大规模文本数据的技术,全文检索应运而生。从网站、政府网站、数字图书馆、搜索引擎及商业网站等各领域有了广泛的应用。本文在分析国内外各种主流全文检索模型的基础上提出了一种针对中文的全文检索模型:互关联后继树模型。对单文本互关联后继树模型,多文本互关联后继树模型以及互关联后继树模型在数据挖掘领域的应用做了一定的研究。本文所做的工作和取得的创新成果体现在以下几个方面:个字符流,利用由多棵二层树组成的森林表示这个全文字符流。与其他模型相比此模型具有创建查询速度快,膨胀比小,可以进行原文生成,可以直接查询任意填算法,从而大大提高了创建速度。实验表明:互关联后继树模型比目前广泛使到某个匹配后无法及时找到该匹配所在文本。针对互关联后继树模型的特点,本文提出了两种迅速查找匹配文本的方法。一种方法将文本分段,在查询到某个匹配后,原文生成到段落末尾获取该段落所在文章号;另一种方法在互关联后继树的每个分支中直接添加文章号信息。实验证明:这两种方法都是十分有效的。全文检索模型的标准。本文提出了一套客观标准,并首次对国内外的各种主流模模式,因而具有较高的效率。另外,我们还将基于互关联后继树模型的挖掘算法扩展,应用于时间序列频繁模式挖掘中,也具有良好效果。用的倒排表模型具有更好的性能。型进行了全面的分析评价。复旦大学硕士学位论文
,..—..瑆,瓸..“保瑃篺猼瓼,瑂,甀.,:¨篒—甌瓹,琣,皉痑皌—”畉“:.矗籺篺.:琁—琒珼复旦大学硕士学位论文
“信息社会”时代步伐的加快,我们所能利用的信息越来越增长。根据发表在《科学》杂志上的《畔⒌“大海捞针”。另一方面,资料的文本的检索完全不同于对传统数据库绻叵凳菘的检索,不能通过传统数信息的海量化和多样化使得人们必须寻求一种能够处理大规模文本数据的括:企业信息门户、媒体网站、政府网站、数字图书馆、搜索引擎及商业网站。从应用需求来看,企业信息门户应用的主要内容包括建立企业网站与国际网络媒体传统媒体的话题一直为大家关注。以报业为主的传统媒体上网经历了解读文件建立主页、将内容进行分类、整合资源建立数据库、建设报刊网络版,到现在新闻信息服务、个性化信息服务及电子商务并举,逐步转向呈现出海量化和多样化的特征。一方面,因特网的快速发展带来了信息的迅猛的网页就已经超过冢行莩⑶乙悦个月翻一番的速度增长。存储方式也发生了变化。大多数信息资源己不再只以结构化资料髦掷嘈偷氖据库创嫒。且园虢峁够募琇文件绕涫欠墙峁够柿文本姆绞浇写嫒 S捎诜墙峁够萦虢峁够萦凶啪薮蟮牟钜欤蚨据库来实现,必须采取一种更加有效的方法。技术,全文检索应运而生。所谓全文检索,简单说来,就是以各类数据诸如文字、声音、图像等为主要处理对象,根据数据资料的内容,而不是外在特征来实现的信息检索手段。全文检索通过提供快捷的数据管理工具和强大的数据查询手段,帮助人们进行大量文档资料的整理和管理工作,使人们能快速方便地查到他们想要的任何信息。与其他检索技术相比,全文检索的新颖之处在于,它可以使用原文中任何一个有实际意义的词作为检索入口,而且得到的检索结果是源文献而不是文献线索。全文检索技术最早出现在美国大学年建立的法律情报检索中。进入年代以后,许多商业检索系统都开始大力推行并发展全文检索技目前,全文检索技术有了更加广泛的应用。全文检索技术应用领域主要包接轨、建立企业内部信息发布平台实现信息共享、在内部网站与互联网站之间建立安全高效的信息发布通道和交换通道