文档介绍:东南大学
硕士学位论文
一个语义网数据采集系统的设计与实现
姓名:尹导
申请学位级别:硕士
专业:计算机软件与理论
指导教师:瞿裕忠
20080501
摘要元采集可以说是整个采集系统的启动采集方式,它可以为站点内采集和杉峁┲肿关键字:语义网、语义网数据采集、寄P随着语义网的发展,基于语义网数据的应用越来越多。由于语义网数据的开发与存储具有分布式的特点,为了促进语义网数据的重用和集成,语义网搜索引擎渐渐成为语义网的研究热点。且桓黾镆逋莶杉⑺饕⒓焖鞴δ苡谝惶宓挠镆逋菟阉饕擎。本文阐述了它的一个子系统一镆逋莶杉低车纳杓朴胧迪帧本文首先对语义网采集的研究现状进行了调查研究,指出了现有工作的不足之处,为了能够采集尽可能多、数据形式多样的语义网数据,本文总结出各种可行的采集方案,并设计出一个多种采集方式结合,并相互协作的采集框架来完成采集的工作,即元采集、站点内采集和杉F渲性2杉抢靡延械乃阉饕婊竦貌杉峁牟杉绞剑徽镜隳诓杉是利用并改进传统网络爬虫进行的采集方式;杉前延镆逋醋魇且桓鯮图模型,通过解析语义网文档,选择唇拥玫叫碌挠镆逋牡档牟杉绞健A硗猓疚幕构刈了采集过程中需要考虑的几点问题,如回访策略和网页重定向的问题。本文的贡献在于,通过多种采集方式结合与协作的方式,能够全面地覆盖万维网中的语义网数据,大大提高数据收集的效率,低骋蚨哺呔赫Α所支持的三种采集方式构成了一个各部分既相对独立,又相互协作、互为补充,并且可持续运行的整体。欢镜隳诓杉隦采集又可以互相为对方提供种子T谑笛榻峁糠郑恼分别给出了利用每种采集方式得到的数据量与采集的精度,并做了一些比较。最后,文章总结了全文的研究工作,提出了两点改进的建议并且对未来的工作进行了展望。东南大学硕士学位论文
隢恤旭,..胮瓼甀球,畇琖,.甀...,
扯导师签名:驰日啦日虬夸期:耍悖东南大学学位论文独创性声明东南大学学位论文使用授权声明研究生签名:期:本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得东南大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内容和纸质论文的内容相一致。除在保密期内的保密论文外,允许论文被查阅和借阅,可以公布ǹ论文的全部或部分内容。论文的公布括刊登谌ǘ洗笱а芯可喊炖怼
⒄的概念【,并把语义闯墒窍乱淮鷚曲的发展方向。其目标是为氖导市万维网虺苭曲某鱿衷诤艽蟪潭壬细谋淞宋颐堑氖澜纾人们提供了更为便捷的通讯手段以及极为丰富的信息。系男畔⒎浅7岣唬负鹾了所有的知识领域。人们可以从匣竦萌魏巫约焊行巳さ男畔ⅲ簿褪撬礧完全有可能成为一个巨大的知识库。但是由于谌莸募渑釉雍湍壳巴缧畔⒓焖鞴ぞ叩性能限制,使很多人面对鲜烤薮蟮男畔⒉恢K搿A硪环矫妫孀庞布际醯姆速发展,人们已经可以相对比较便宜地拥有强大的计算能力和海量的存储设备。同时,我们注意到,在庞大的互联网环境中,几乎所有的计算机目前所起到的作用只是存储数据、传输数据或显示数据,担当着人与信息之间的媒介。如果能够让这些计算机理解所存储和传输的数据的话,其势必可以帮助人们去选择、鉴别,并进而自动地去处理这些数据,这样将显著地提高数据的自动处理能力和现有谌莸睦寐省正是基于这个思想,拇词既薚甃在年提出了语义网息内容提供形式化的含义,以实现信息在语义层的互操作,从而使得计算机和人类能够更好地协同工作。也就是说,语义哪勘晔侨肳上的信息能够为机器所理解,从而实现畔⒌淖远如自动搜索、知识获取、逻辑推理等允视信息资源的快速增长,更好地为人类服务。年眨琖正式发布了与琑蚈语言相关的个技术规范,这标志着语义网的资源描述框架、本体描述语言等基础工作已经得到奠定。同年,闪⒘恕癝”工作组以全面支持基于语义网技术的各种τ玫难芯坑肟7⒐ぷ鳎佣媪恕癝J冀牍刈⒏髦諻应用研发的第二个阶段,引领着琫τ孟蛴镆寤ゲ僮姆较蚍⒄埂M是预测到年时万维网的演化过程【俊东南大学硕士学位论文
紫:一一怒嚓翟“翟獬,麓/%鬈季墓鳓”三鬻撼多懒‰。蕊∥勉懒锄;嚣。,,:一一,。,,,。嚣~妇茹孑讽担,/“一~”句ε騩。愀船煽~““写’■“,一‰黜/一一∥《■为了实现语义网的研究目标,甼于年提出了语义网体系结构模型【浚蝴沓赀タ统↖蝴螂静嬲黝⋯’⋯∥⋯”⋯Ⅵ”’⋯“”舅耋毒《■杂矗竺傲苛科┟闺⒑亮縧鬟⋯。缈’础R“瓮》图晖蛭难莼蹄《⋯秽、