文档介绍:硕士研究生学位论文北京工商史学期:可视化网页信息抽取系统的设计与实现科业学生姓名指导教师计算机科学与技术计算机应用技术年自月嗡号论文题目:学专日授学位单位编号:密衄:嗪
摘要抽取算法。同时实现了大量的信息抽取原子动传如文本抽取、图片抽取、提交关键字:畔⒊槿。ぷ髁鳎肿捌鳎珼球的信息海洋中快速准确的获取所需要的信息已成为一个极具现实意义的重大课分装器技术是当前畔⒊槿」惴翰捎玫囊恢旨际酰攵苑肿捌化信息抽取分装器程序的开发。所做的研究工作主要包括:抽取流程,同时系统能够模拟用户浏览网页时的一些基本动作,如翻页、提交表一个完全可视化的工作平台,让用户能够以所见即所得的方式快速完成信息抽取任务。实验表明本文构建的可视化网页信息抽取系统能够帮助用户快速、准确的构造用于从网页上抽取信息的分装器程序,是一个通用的信息抽取平台,有着很好的实用价值。随着上信息的迅猛增长,殉晌P畔⒌暮Q螅绾未诱馄椴既题。畔⒊槿〖际跽窃谡庋谋尘跋掠υ硕摹生成问题,人们提出了各种各样的方法,但这些方法都有其应用的局限性。本文在利用国内外成果的基础上,进行了一些有益的探索,提出了一种新型的基于工作流的畔⒊槿』疲庠谕ü峁┐罅康男畔⒊槿」δ茏榧醇慕舜车幕贒树的页面分析技术,从增强系统易用性的角度出发,使用一个浏览器引擎设计了一个小型的系统内嵌浏览器,使用户能够直接在样本页面中通过鼠标来灵活的定义需要抽取的各种信息,如文本、图片、表格等等。üぷ髁骷际跤τ玫叫畔⒊槿∠低持校杓屏诵畔⒊槿」ぷ髁鞯幕灸型,实现了一个可视化的信息抽取工作流模型定义工具,使用户能够定义自己的单、输入等等,使得信息抽取就像平时我们自己上网搜寻信息一样。杓剖迪至艘桓隹衫┱沟男畔⒊槿《骺蚣埽褂没芄焕┏渥约旱男畔表单、输入文字、遍历标签等等。本文的创新所在是将工作流机制引入了信息抽取系统的设计之中,并提供了北京工商大学硕士学位论文
,可视化网页信息抽取系统的设计与实现..,,瓾.:.,,瓺,甌瑂,.瑂,瑃,甀.;趀琣。
篧,甌,,甀
学位论文作者虢迸际ε擎淙掌冢〕г碌笕出倘口当年荒日期:9阩月哆日北京工商大学学位论文原创性声明本人郑重声明:所呈交的学位论文是本人在导师指导下进行的研究工作所取得的研究成果。除了文中已经注明引用的内容外,论文中不包含其他个人或集体已经发表或撰写过的研究成果。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本声明的法律后果完全由本人承担。学位论文作者签名:北京工商大学学位论文授权使用声明本人完全了解北京工商大学有关保留和使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属北京工商大学。学校有权保留并向国家有关部门或机构送交论文的复印件和电子版,允许学位论文被查阅和借阅;学校可以公布学位论文的全部或部分内容,可以采用影印、缩印或其它复制手段保存、汇编学位论文。C艿难宦畚脑诮饷芎笞袷卮斯娑学位论文电子版同意提交后,可于口二年后在学校图书馆网站上发布,供校内师生浏览。
⒊槿〉幕靖拍甒信息抽取的现实意义信息抽取领域是近十年来新发展起来的研究领域,一般是指从一个给定的文档集合中自动识别出预先设定的实体、关系和事件等类型信息,并对这些信息进行结构化存储和管理的过程。信息抽取在许多领域均有重要的应用。近年来,随着的发展,互联网上的信息越来越多,几乎所有的网上信息都是以结构化或者半结构化文本的形式呈现给用户的,因此,因特网是一个特殊的挑战,一直推动着从谋局谐槿⌒畔⒌难芯肯蚯奥踅畔⒊槿∈前淹持邪挠泄匦畔⒊槿〕隼床⒔薪峁够恚怪信息以统一的形式集成在一起的好处是方便检查和比较,例如比较不同的招掘的方法发现和解释数据模型,如对天气情况,股市行情进行分析和预测等。畔⒊槿〖际醪⒉皇酝既胬斫庹鐾常皇嵌酝持邪南喙匦息的部分进行分析和处理,至于哪些是相关的,将由系统设计时定下的领域范围也各不相同,若能将这些信息收集在一起,用结构化形式存储,那将是非常有益伴随网络信息爆炸式增长,现今已经成为一个巨大的信息资源库,这给人们带来巨大便利的同时也使得查找一条有用的信息变得异常困难。搜索引擎的出现部分缓解了信息搜索的问题,但是结果并不能经常令人满意,其不足主要表阉饕嫠阉鞣祷氐乃阉鹘峁皇窍喙赝承畔⒌囊桓黾蚨陶RR约跋变成表格一样的组织形式。网页信息抽取的主要任务是将预定的信息点从各种各样的网页中抽取出来,然后以统一的形式集成在一起。聘和商品信息。还有一个好处是能对数据做自动化的处理和分析,例如用数据挖而定。在互联网上,同一主题的信息通常分散存放在不同的网站上,表现的形式的。现在:北京工商大学硕士学位论文
.本文的工作关链接,用户需要手动点击链接浏览相关网页才能找到最终的信息。祷氐耐臣淖既沸圆⒉桓撸屑壑档耐持屑性幼挪幌喙鼗蛴没Р桓兴趣的网页,真正需要的网页湮没其中,