1 / 58
文档名称:

基于树匹配的交互式WEB数据抽取技术的研究(可复制毕业论文).pdf

格式:pdf   页数:58
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

基于树匹配的交互式WEB数据抽取技术的研究(可复制毕业论文).pdf

上传人:mkt365 2014/2/12 文件大小:0 KB

下载得到文件列表

基于树匹配的交互式WEB数据抽取技术的研究(可复制毕业论文).pdf

文档介绍

文档介绍:中文摘要关键词:,其局限性主要表现在:网页浏览方式很难在上定位特定的知识;而搜索引擎却很容易将所需知识淹没在大量的无关网页中。目前出现了一些全新的基于挠τ茫缂嗫毓善笔谐〉募笆毙星椋冉细鞲稣镜愕纳唐芳鄹竦等。仅凭搜索引擎和檠际跷薹阏庑┬滦说男枨蟆S胄畔⒓焖骷际不同的是,数据抽取技术更侧重于从牡导现蟹⑾窒喙匚牡怠2⒋又谐出用户关心鹩数据,即将珏劝虢峁够氖葑;怀晌=峁够氖荨大量的网上数据信息被保存在网站的后台数据库中,菘庖谰萦没У特殊的查询要求或条件动态的生成趁妫床檠喙氐腤。趁嬷的数据记录之间具有极高的代码结构相似性,菁锹级杂Φ腄子树之间自然也就具有很高的结构相似性。本文从分析牡涤隓树的对应关系入手,提出了一种基于子树匹配的交互式抽取方法,杂Φ腄树是该方法的萁峁够头治抽取的基础。方法依据菁锹己虳子树的一一对应关系,通过分析一条或几条数据记录的代码结构,实现对全部类似数据记录的发现和抽出。方法通过与用户交互的方式生成数据抽取规则,并将多序列比对算法引入到抽取规则生成过程:将子树的划分引入到数据抽取过程中,结合瓺髌ヅ渌惴ǎ实现对髦械氖菁锹嫉姆⑾旨俺槌觥应用基于组件的模式对原型系统进行了实现,试验证明,基于子树匹配的交互式抽取方法在保证抽取高效率的同时,其抽取查全率和准确率都可以达到很高的水平。
鷇狣鷓,瓾,,.甋—篧,珻畐.,.,
学位论文作者签名:℃抄焉巧刍签字同期:两年/月西日磁髫捏:文甓嘣虏蔉学位论文版权使用授权书独创性声明或撰写过的研究成果,也不包含为获得墨壅盘鲎或其他教育机构的学位或证本学位论文作者完全了解鑫盎筮鲎有关保留、使用学位论文的规定。特授权盘洼盘堂可以将学位论文的全部或部分内容编入有关数据库进行检本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的研究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的浼明并表示了谓狻索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校向国家有关部门或机构送交论文的复印件和磁盘。C艿难宦畚脑诮饷芎笫视帽臼谌ㄋ得
研究背景第一章绪论对于任何范围的话题,都有可能很容易的包含成百上千的文档,这会使得搜索随着在全球的迅猛发展,上的疽约巴车氖目前在以爆炸性的趋势增长,网上蕴藏着数量巨大的信息资料,它是一个巨大的、分布广泛的和全球性的信息服务中心,涉及新闻、广告、消费管理、金融管理、教育、政府、电子商务和许多其他信息服务领域。拱朔岣缓动态的超链接信息,以及趁娴姆梦屎褪褂眯畔ⅰH欢谝韵碌姆治觯对于广大的没В蛘咦试春椭J斗⑾郑琖都具有极大的挑战性。⑹莸奶粽剑孀臰数据信息的快速增长,匣哿思负醢何主题的数据资料,拖袷且桓鼍薮蟮氖滞际楣荩嗽侗热魏我个现实图书馆多得多的风格和内容。然而,趁嫒狈ν骋坏慕峁梗庖煌书馆中的大量文档并不根据任何有关排列次序加以组织。它没有分类索引,更没有按标题、作者、目次等的索引。在这样一个图书馆中搜索希望得到的信息是极具挑战性的。通过搜索引擎进行检索并浏览所需信息,这是从网上获取信息的最直接的方式。但是系男畔⒅挥泻苄〉囊徊糠质窍喙氐幕蛴杏玫模サ腤信息对于%的用户是无用的”虽然看起来不是很明显,但一个人只是关心的很小很小一部分信息确实是事实。目前基于关键字的搜索引擎存在一些问题,引擎返回的文档数目过于庞大,其中很多与话题的相关性并不大,用户对其并不感兴趣,但这些无用的信息却会淹没希望得到的搜索结果。而且大部分用户并不了解信息网络结构,不清楚搜索的高昂代价,极容易在网络中迷失方向,也极容易在跳跃式访问中烦乱不已和在等待一段信息中失去耐心。数据挖掘的需要,数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。发现的知识可以被用于信息管理,查询优化,决策支持和过程控制等,还可以用于数据自身的维护。萃诰蚩梢广义地定义为从蟹⑾趾头治鲇杏玫男畔ⅲ裌数据看作是知识韵源泉,从中发现与用户相关的知识和数据。而如何能将传统的数据挖掘的方法有效的应用在萃诰蛑校且桓龊苡幸庖宓难芯苛煊颉我们知道,从关系数据库可以构造数据仓库,用于为数据挖掘提供很好的多
研究内容简介从新闻文章中提取出拉丁美洲恐怖事件制造者和受害者姓名、作案工具和地点。维和层次化视图。同样的,若能将畔⒔谐槿〖桑ò虢峁够某本数据转存成为结构化的数据库数据,进而构造多层畔⒖猓糜谔峁¦的多维与层次化视图,可以极大的改善诰虻乃俣纫约爸柿俊H欢杂效的数据挖掘或数据仓库而言,坪跆哟罅恕的数据量目前以几百兆兆字节计算,而且仍然在迅速的增长。