1 / 62
文档名称:

基于Web的新闻信息抽取系统设计与实现.pdf

格式:pdf   页数:62
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于Web的新闻信息抽取系统设计与实现.pdf

上传人:coconut 2014/2/24 文件大小:0 KB

下载得到文件列表

基于Web的新闻信息抽取系统设计与实现.pdf

文档介绍

文档介绍:西北大学
硕士学位论文
基于Web的新闻信息抽取系统设计与实现
姓名:雷佩莹
申请学位级别:硕士
专业:软件工程
指导教师:侯红
20081215
基于男挛判畔⒊槿∠低成杓朴胧迪摘要需求与要求也不断提高。人们很难有效地利用搜索引擎束发现所需的挛助人们找到符合自己所需要的特定的新闻信息资源。新闻信息抽取系统的提出,并以这个基本原理为基础设计了一种算法来通过人机交互生成指定网站的新闻抽取规则,该方法将抽取的信息存放在关系数据库中,以便支持查询以及其他各行浏览编辑处理等处理。基于这种抽取法的原型系统可直接应用于檠网站监控和搜索,也可用于其他应用的数据准备。本系统的信息抽取与传统的人工采集信息相比,自动抽取信息可以减少很多人工信息采集中的遗漏、偏差和错误,他提供了一个方便高效的信息抽取、管理因特网的飞速发展,使其成为迄今为止最密集、最一仁富的新闻信息来源。伴随着因特网的广泛应用,网络中的新闻信息迅速地积累、膨胀,新闻信息的利用信息资源。为了解决对挛判畔⒆试吹男枨笪侍猓鞔笏阉饕婢瞥隽专门针对新闻信息的搜索服务。但是,仅仅依靠传统的浏览器和搜索引擎很难帮有效地解决了准确获取甧趁嬷械男挛判畔⒆试吹哪烟狻本文在分析新闻网页结构的基础上,提出了一种基于网页文本源码标签特征匹配思想,从指定镜阒卸ㄊ弊远槎招挛判畔⒌姆椒ā8梅椒ㄊ且訵页面文档对象样本为基础,利用正则表达式表示提取信息的源码标签文本特征,种扩展应用。系统的执行过程分为三个阶段:信息源定制阶段、信息抽取阶段和信息管理阶段。在信息源定制阶段,主要是根据指定的信息源网站,定义所要抽取的信息的规则,并保存在数据库中。在信息抽耿阶段系统根据信息源定制阶段产生的规则对与之对应的网站新闻进行信息批量抽取,并将抽取出的结果保存在关系数据库中。信息管理阶段是通过墒踊缑娑孕畔⒊槿〗锥蔚慕峁论文采用此方法,设计并实现了新闻信息抽取系统曲美椿袢「网站新闻,系统经测试可定时对指定网站新闻信息进行抽取,并且抽取效果良好。重复性工作,大大缩短采集时间,节约人力物力成本,.提高效率。而且不会出现平台,有着良好的发展前景。关键词:信息抽取正则表达式
,.瑃籇,瑃瓼,產甌猰.,瓺;’,
甌琣,曲一,,琓.,,,
指导教师签名:鞋⋯一躲畅穆脚/拢慈牢隳陑月厂西北大学学位论文知识产权声明书西北大学学位论文独创性声明本人完全了解西北大学关于收集、保存、使用学位论文的规定。学校有权保留并向国家有关部门或机构送交论文的复印件和电子版。本人允许论文被查阅和借阅。本人授权西北大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。同时授权中国科学技术信息研究所等机构将本学位论文收录到《中国学位论文全文数据库》或其它相关数据库。:所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,本论文不包含其他入已经发表或撰写过的研究成果,也不包含为获得西北大学或其它教育机构的学位或证书而的说明并表示谢意.
第一章绪论诰蚋攀缩写为:作为⋯个全球化信息空痩,蕴含管人量的然而对于这一部分却难于获得。一般用户只能通过一些新闻门户网站或基于关键字的搜索引擎方式来获得所需信息,但是搜索所得的庞大结果对于用户来说己经术的提出,有效地解决了准确获取趁嬷械男挛判畔⒆试吹哪烟狻诰蚴徊嫘匝Э疲婕笆萃诰颉⒒餮啊⒛J绞侗稹⑷斯ぶ能、统计学、计算机语言学、计算机网络技术、信息学等多个领域。诰颉是使用数据挖掘技术在牡的谌荨⑼拘畔⒒蚱渌枋鍪葜蟹⑾智痹诘摹目前,根据数据源形式的不同,可以将萃诰蚍治H啵篧内容新闻信息和知识;但对于用户来说有用的新闻内容可能只是其中极小的一部分,到了无法使用的地步,从而导致闲挛判畔⒌南兄糜肜朔选NA私饩龆挛判畔⒆试吹男枨笪侍飧鞔笏阉饕婢瞥隽俗耪攵孕挛判畔⒌乃阉服务。但是,仅仅依靠传统的浏览器和搜索引擎很难帮助人们找到符合自己所需要的特定的新闻信息资源也很难扩展利用。基于男畔⑼诰蚝托畔⒊槿〖.挖掘的定义是指从大量非结构化、异构的畔⒆试粗蟹⑾钟行У摹⑿掠钡摹⑶痹诳捎的及最终可理解的知识ǜ拍、模式、规贝.⒐媛⒃际及可视化刃问降姆瞧椒补獭<淳有用的知识的过程。如果把大量的牡到峁购褪褂玫募蟘作为输入,发现的隐含模式作为输出,那么萃诰虻墓叹褪谴邮淙氲绞涑龅囊桓鲇成洹】:,:。如下图所示:沦义题痕鉻二男耼日价息抽取系统设计。迪
嵌园虢峁够腤页面,包括趁嫔系奈谋尽⑼计⑸簟视频、元数据等进行挖掘,从葜蟹⑾中畔ⅰS捎赪文档绝大部分内容是以文本形式存在,所