1 / 86
文档名称:

基于网格web信息抽取技术研究与实现.pdf

格式:pdf   页数:86
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于网格web信息抽取技术研究与实现.pdf

上传人:2028423509 2014/8/5 文件大小:0 KB

下载得到文件列表

基于网格web信息抽取技术研究与实现.pdf

文档介绍

文档介绍:纠硕士学位论文基于网格的畔⒊槿〖际醯难芯坑胧迪专业名称研究方向研究生姓名指导教师姓名论文提交日期贡正仙
基于网格的畔⒊槿〖际醯难芯坑胧迪中文摘要贰~海量数据且需要各种复杂算法支持的一种技术,因此它在一般平台上的术来开发一个自动的畔⒊槿∮τ糜凶欧浅V匾5囊庖濉本文首先介绍了畔⒊槿〉挠泄丶际酰治隽俗远槿∠低的算法和优缺点;接着,介绍了网格的相关知识,重点研究网格应用的特性。在这之后,本文重点解决两个问题:如何自动抽取信息和如何在网格中实现。在第一阶段,本文通过有效的启发规则解决自动获取一批相似页面的问题,提出并实现了二级页面噪声处理的方案和算法,完成了自动归纳抽取规则的算法,并最终实现了一个完整的面槿∮τ玫目刹⑿谢糠郑隽讼嘤Φ耐裼τ媚P秃捅喑棠J剑线程和网格服务相结合的方式能有效改善传统应用的运行效率,并为网关键词:畔⒊槿。嗨埔趁妫肷恚裼τ茫珿牡低酶髦指丛拥腍~标记来包装内部数据,但这种方式给应用系统直接使用牡抵械氖荽戳死选信息抽取是处理工作效率不是很好。网格能为复杂应用提供分布式并行环境,它面向服务的开放式结构能提高应用的灵活性和代码重用率。因此,结合网格技向数据密集型页面的畔⒊槿∠低场T诘诙锥危疚氖紫确治隽安装和配置了网格平台,开发和部署了一组相应的服务,并最终结合多线程技术解决了抽取应用的并行化问题。本课题主要有两方面的意义:从畔⒊槿》矫胬纯矗芴岣叱取系统的自动化程度和数据抽取精度;从网格应用方面来看,通过格应用开发提供了一种新的实现思路。作者:贡正仙指导老师:朱巧明土摘篮
皇坠竺一甒塑竺里型鱼竺,,.瑆猳....,,:.,琣猻甀—琯,,
觚:琖,·,·.
‰砂浚簂╃郏骸!研究生签名:么兰划:一——期:怼唬夯剩杭苏州大学学位论文独创性声明及使用授权声明学位论文独创性声明鞩蝈的法律』小学位论文使用授权声明义。本人电子文档的内容年¨纸质论文的内容柏一致。:〉玫某晒3闹幸丫⒚鱨的内容外,木论文小含其他个人ケ碧逡丫⑽一蜃垂难芯砍晒藏岔为铁得苏州大学或其它教育机构的学位让辂而使用过的材料。对本文的研究作匾9毕椎母鋈薩千壤体,。木人承担术券州人学、,隔科学技术信息研究所、家笆楣荨⑾螅浩┞义合作爿ⅰぁ璹社科院立献甶息情报·挠腥ūA舯救怂徒谎宦义的复印件年綢乜牡担梢訽乇用影印、绵印或其他复制手段保存论侏晰绝文外,允许论文铍☆。论文的公枷ǹ授权苏州大学学能办办理。导『签名:日
第一章引言课题提出迄今为止,鞘澜缟献蠲芗男畔⒗丛矗滩刈欧岣坏木哂星痹价值的知识。目前,荽蠖家訦问秸故荆庵职虢峁够恼示形式缺乏对数据的描述,没有清晰的语义和明确的模式,因此应用程序就无法直接解析并利用系暮A啃畔ⅰNA嗽銮縒数据的可用性,产生信息抽取技术“U庵旨际跬ü蕴囟ㄍ车慕峁购褪菹钐征进行分析,可以将网页预定义数据抽取出来,并为其增加一定的语义和模式信息。槿∥Sτ贸绦蛟倮肳中的数据提供了可能,因此有着明显的优势和广阔的前景,是当今多个领域的研究热点。畔⒊取具有下面两个特点:第一,它处理的对象是海量信息,这些信息所处平台是异构的,信息本身也是形态各异并被不断更新;第二,目前牡荡蠖嗍前虢峁够模狈τ镆辶院拖喙匦裕在对牡到猩畈愦未硎保枰S玫揭恍┦笨崭丛佣冉细叩拇硭法和技术。解决以上问题的一个重要途径是需要高性能的存储资源和计算资源。网格心际醯难芯靠J加兰甏⒄沟浇裉煲驯蝗衔J羌和蟮牡谌涡畔⒓际趵顺薄M窦际跤氪撤植际郊际的主要区别在于:在没有集中控制机制的情况下,通过对计算资源进行大规模共享,满足应用对高性能计算的要求。网格技术充分实现了资源共享,并且这种共享是动态的、柔性的和协作式的。网格技术不仅能提高计算的工作效率,而且更充分地利用了闲置的资源,因此,在网格平台上研究畔⒊槿∈且桓龊茏匀坏目翁猓哂泻苤匾5囊庖濉本课题首先希望实现一个自动程度较高的畔⒊槿∠低常缓笳基于问格的畔⒊槎占际醯难芯坑胧迪
对槿∮τ玫奶氐悖业揭恢帜茉谕衿教ㄉ显俗5氖凳┓桨福⒆终实现一个基于网格的畔⒊槿∠⒔帐「呒际跹芯肯目徒帐〗逃匀换资助。课题主要内容如下:芯亢褪迪忠桓鲎远腤信息抽取系统这是本课题的重点,具体分三步展开:一、分析比较前人的方法,研究】的实现算法和优缺点,提出本课题的自动抽取方案:二、根据方案提出相应的算法和解决方法,具体实现方案;三、通过实验证明抽取系统的工作效率和正确性。菇ê团渲猛窕肪安装简称芯縂ぷ骰坪凸丶?椋据网格应用的需求部署网格节点并做相应配置。芯亢褪迪滞衿教ㄉ系挠τ这是本课题的另一个重点,这一阶段要解决四方面内容:一、根据网格的分布并行特征,分析畔⒊槿∮τ貌⒄业接τ貌⑿蟹桨福