1 / 46
文档名称:

一个语义网数据采集系统的设计与实现.pdf

格式:pdf   页数:46
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

一个语义网数据采集系统的设计与实现.pdf

上传人:banana 2014/3/4 文件大小:0 KB

下载得到文件列表

一个语义网数据采集系统的设计与实现.pdf

文档介绍

文档介绍:东南大学
硕士学位论文
一个语义网数据采集系统的设计与实现
姓名:尹导
申请学位级别:硕士
专业:计算机软件与理论
指导教师:瞿裕忠
20080501
摘要元采集可以说是整个采集系统的启动采集方式,它可以为站点内采集和杉峁┲肿关键字:语义网、语义网数据采集、寄P随着语义网的发展,基于语义网数据的应用越来越多。由于语义网数据的开发与存储具有分布式的特点,为了促进语义网数据的重用和集成,语义网搜索引擎渐渐成为语义网的研究热点。且桓黾镆逋莶杉⑺饕⒓焖鞴δ苡谝惶宓挠镆逋菟阉饕擎。本文阐述了它的一个子系统一镆逋莶杉低车纳杓朴胧迪帧本文首先对语义网采集的研究现状进行了调查研究,指出了现有工作的不足之处,为了能够采集尽可能多、数据形式多样的语义网数据,本文总结出各种可行的采集方案,并设计出一个多种采集方式结合,并相互协作的采集框架来完成采集的工作,即元采集、站点内采集和杉F渲性2杉抢靡延械乃阉饕婊竦貌杉峁牟杉绞剑徽镜隳诓杉是利用并改进传统网络爬虫进行的采集方式;杉前延镆逋醋魇且桓鯮图模型,通过解析语义网文档,选择唇拥玫叫碌挠镆逋牡档牟杉绞健A硗猓疚幕构刈了采集过程中需要考虑的几点问题,如回访策略和网页重定向的问题。本文的贡献在于,通过多种采集方式结合与协作的方式,能够全面地覆盖万维网中的语义网数据,大大提高数据收集的效率,低骋蚨哺呔赫Α所支持的三种采集方式构成了一个各部分既相对独立,又相互协作、互为补充,并且可持续运行的整体。欢镜隳诓杉隦采集又可以互相为对方提供种子T谑笛榻峁糠郑恼分别给出了利用每种采集方式得到的数据量与采集的精度,并做了一些比较。最后,文章总结了全文的研究工作,提出了两点改进的建议并且对未来的工作进行了展望。东南大学硕士学位论文
隢恤旭,..胮瓼甀球,畇琖,.甀...,
扯导师签名:驰日啦日虬夸期:耍悖东南大学学位论文独创性声明东南大学学位论文使用授权声明研究生签名:期:本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得东南大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内容和纸质论文的内容相一致。除在保密期内的保密论文外,允许论文被查阅和借阅,可以公布ǹ论文的全部或部分内容。论文的公布括刊登谌ǘ洗笱а芯可喊炖怼
⒄的概念【,并把语义闯墒窍乱淮鷚曲的发展方向。其目标是为氖导市万维网虺苭曲某鱿衷诤艽蟪潭壬细谋淞宋颐堑氖澜纾人们提供了更为便捷的通讯手段以及极为丰富的信息。系男畔⒎浅7岣唬负鹾了所有的知识领域。人们可以从匣竦萌魏巫约焊行巳さ男畔ⅲ簿褪撬礧完全有可能成为一个巨大的知识库。但是由于谌莸募渑釉雍湍壳巴缧畔⒓焖鞴ぞ叩性能限制,使很多人面对鲜烤薮蟮男畔⒉恢K搿A硪环矫妫孀庞布际醯姆速发展,人们已经可以相对比较便宜地拥有强大的计算能力和海量的存储设备。同时,我们注意到,在庞大的互联网环境中,几乎所有的计算机目前所起到的作用只是存储数据、传输数据或显示数据,担当着人与信息之间的媒介。如果能够让这些计算机理解所存储和传输的数据的话,其势必可以帮助人们去选择、鉴别,并进而自动地去处理这些数据,这样将显著地提高数据的自动处理能力和现有谌莸睦寐省正是基于这个思想,拇词既薚甃在年提出了语义网息内容提供形式化的含义,以实现信息在语义层的互操作,从而使得计算机和人类能够更好地协同工作。也就是说,语义哪勘晔侨肳上的信息能够为机器所理解,从而实现畔⒌淖远如自动搜索、知识获取、逻辑推理等允视信息资源的快速增长,更好地为人类服务。年眨琖正式发布了与琑蚈语言相关的个技术规范,这标志着语义网的资源描述框架、本体描述语言等基础工作已经得到奠定。同年,闪⒘恕癝”工作组以全面支持基于语义网技术的各种τ玫难芯坑肟7⒐ぷ鳎佣媪恕癝J冀牍刈⒏髦諻应用研发的第二个阶段,引领着琫τ孟蛴镆寤ゲ僮姆较蚍⒄埂M是预测到年时万维网的演化过程【俊东南大学硕士学位论文
紫:一一怒嚓翟“翟獬,麓/%鬈季墓鳓”三鬻撼多懒‰。蕊∥勉懒锄;嚣。,,:一一,。,,,。嚣~妇茹孑讽担,/“一~”句ε騩。愀船煽~““写’■“,一‰黜/一一∥《■为了实现语义网的研究目标,甼于年提出了语义网体系结构模型【浚蝴沓赀タ统↖蝴螂静嬲黝⋯’⋯∥⋯”⋯Ⅵ”’⋯“”舅耋毒《■杂矗竺傲苛科┟闺⒑亮縧鬟⋯。缈’础R“瓮》图晖蛭难莼蹄《⋯秽、

最近更新

2025年浙江理工大学单招职业技能测试题库附答.. 45页

2025年深圳北理莫斯科大学马克思主义基本原理.. 13页

2025年湖南幼儿师范高等专科学校马克思主义基.. 12页

2026年中医住培带教师资理论考核题库100道附答.. 40页

2025年烟台卫生健康职业学院马克思主义基本原.. 12页

2026年医学微生物学习题集附参考答案【达标题.. 40页

小学历史与文化知识竞赛题库100道及答案(易错.. 37页

2025年西昌学院马克思主义基本原理概论期末考.. 13页

2025年辽阳职业技术学院马克思主义基本原理概.. 12页

2026年包头铁道职业技术学院单招职业技能考试.. 42页

2026年中医住培带教师资理论考核题库100道附参.. 39页

2026年江苏信息职业技术学院单招职业技能测试.. 43页

2026年网络安全知识竞赛题库【黄金题型】 40页

2026年网络安全知识竞赛题库附答案(预热题).. 39页

最新煤气操作证考试题100道附参考答案(考试直.. 39页

最新全国政法队伍教育整顿知识竞赛试题库学生.. 40页

社区宣传方案 4页

2025年冷拔钢项目建议书 78页

2025年重庆电信职业学院单招职业技能考试模拟.. 43页

2025年青岛海建投资有限公司及全资子公司公开.. 45页

2025广东广州市黄埔区人民政府黄埔街道办事处.. 49页

2025广西玉林市玉州区仁东中心卫生院招聘编外.. 44页

2025浙江嘉兴市海宁中国皮革城网络科技有限公.. 45页

2026中国东方航空技术有限公司招聘参考题库附.. 49页

2026山西省面向河海大学选调优秀高校毕业生考.. 46页

2026年c语言知识测试题及答案(夺冠系列) 13页

2026年专升本C语言真题(全优) 13页

2026年安徽城市管理职业学院单招职业适应性考.. 37页

2025年湖南省建设工程工程量清单计价办法(新).. 51页

2025年江西信息应用职业技术学院单招职业适应.. 127页