文档介绍:摘要随着万维网的迅速发展,性滩刈藕A啃畔ⅰQ芯勘砻鳎滩氐男畔⒘渴荢多倍。因此,对中的信息进行处理并加以整合为用户所用已经成为畔⒓焖髁域的一个新兴研究热点。本文介绍了甧畔⒓闪煊虻难芯勘尘啊⒀芯肯肿矗畔⒓傻募赶罟丶际踅辛搜芯俊首先对聚焦爬虫进行改进,设计一个基于主题的查询接口发现聚焦爬虫对械牟檠涌诮蟹⑾郑蝗缓蟛捎没谌ㄖ刂导算的方法对胁檠涌诮屑桑直鹛致哿薼:蚽:两种匹配情况,对匹配过程中的权重值计算方法进行了改进,采用《知网》概念模型中的词语相似度计算方法对匹配过程中遇到的标签及属性名进行相似度计算,解决了一般方法无法考虑词语概念相似度的问题;最后将移动际跻氲紻檠碇欣矗杓屏一个基于移动牟檠砜蚣埽捎靡贫疉技术降低了查询处理模块对带宽和网络延时的要求,同时为植际讲檠处理提供了新思路。关键词檠涌诜⑾郑檠涌诩桑檠·
知识水坝***@pologoogle为您整理
.,瑃,甌琣猲—.琲,’琣.
知识水坝***@pologoogle为您整理
作者签名:盘塑’导师签名血痉嗍醴年』月丑日日期:兰旦年三月一学位论文版权使用授权书原创性声明本人声明,所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了论文中特别加以标注和致谢的地方外,论文中不包含其它人已经发表或撰写过的研究成果,也不包含为获得中南大学或其它单位的学位或证书而使用过的材料。与我共同工作的同志对本研究所作的贡献均己在论文中作了明确的说明。作者签名:本人了解中南大学有关保留、使用学位论文的规定,即:学校有权保留学位论文并根据国家或湖南省有关部门规定送交学位论文,允许学位论文被查阅和借阅;学校可以公布学位论文的全部或部分内容,可以采用复印、缩印或其它手段保存学位论文。同时授权中国科学技术信息研究所将本学位论文收录到《中国学位论文全文数据库》,并通过网络向社会公众提供信息服务。
蠡∈ⅰⅰ!!第一章绪论甽磊彭隆一课题研究背景酱蟛糠帧R郧埃嗣且恢卑汛蟛糠肿⒁饬Ψ旁谕ü乘阉饕嫠阉鳎騃层网络研究始于年,和轿幻拦畔⒐芾碜ḿ姨岢隽素⒎随着万维网的迅速发展,其中蕴含了海量的信息可供我们利用。根据文献『最新的调查,目前整个械男畔⒘砍于年路⒉嫉摹兜沃泄チM绶⒄棺纯鐾臣票ǜ妗贰砻鳎壳爸泄站的总字节数已经达到,而且仍在飞速地增长。对械男畔⒔行集成,帮助用户快速、准确地利用乇鹗荄械暮A啃畔⒁丫成为信息检索领域的一个新兴研究热点。整个凑掌渌毯畔⒌摹吧疃取笨梢曰治猄虳采用超链接可以到达的静态网页为主的稀5浅薙互联网上有更多因为传统搜索引擎受到技术限制而不能或不做索引的信息,它们存储在数据库中,只有在被查询时力会由琫衿鞫梢面将结果返回给访问者缤.,通常是高质量、权威的信息,称之为。。菘釯用户对姆梦手饕J峭ü湓赪曲页面中提供的具有特定查询能力的接口来获取所需要的结果。┑谋始潜静檠涌://...硕七学位论文图覦谢袢∈莸墓结果负血填写浏览存线
篿国斓/H绻没胍2榭幢始潜镜男畔ⅲ恍柙谔钚锤貌檠涌诓⒔刑峤唬网站就会动态生成包含符合该查询条件的查询结果的网页返回给用户。在图中的查询接口中,共有六个元素:品牌选择、价格、尺寸、嘈汀⒛诖嫒量、硬盘容量。其中价格元素由两个下拉列表框控件组成。尺寸、内存容量和硬盘容量元素由多个单选框控件组成。.嘈驮K赜筛囱】蚩丶槌伞羃亘至二匿,妻机中心厦甥虎‘日萜洳脑颍煞治R韵种类型:ü钚幢淼バ纬啥院筇ㄔ谙呤菘獾牟檠玫降亩趁妫捎谌狈Ρ恢赶虻某唇佣挥斜凰阉饕嫠饕降囊趁妫枰W⒉峄蚱渌拗撇拍芊梦实哪谌荩上可访问的非网页文件,比如图片文件、蚖牡档取在实际中应用中,人们更关注于械牡谝徊糠帜谌荩蛭U獠分内容对结构化数据的集成更有意义,可以采用的技术也更丰富。数据集成也主要是指对结构化信息的集成。在年拢珺对隽艘淮谓衔H娴暮旯弁臣疲发布了的白皮书訢亩ㄒ逯饕V傅氖荄菘,并从宏观上对隽硕康牡鞑橥臣疲旅媪谐銎渲胁分的调查结果:毯男畔⒘渴荢的倍。莸姆梦柿勘萐8叱ァサ腄哪谌菔翘囟ㄓ谀掣鲇虻模疵嫦蚰掣隽煊颉覆盖了现实世界中的各个领域,比如商业、教育、政府等。サ男畔⑹强梢怨ǹ7梦实模疵夥鸦袢大学在年露哉鯠隽艘淮谓衔W既返墓浪恪推测整个嫌鎏峁〥曲数据库的网站、个数据库,比在年估计的鍪菘馔驹龀ち倍多。根据牡鞑楸ǜ妗】,截止年月同,全国网站总数为,在线数据库的总量为个,全国网站中拥有在线数据库的网站数为个,⒒ぷ靼旃以诒本┓⒉曛泄訢硕士学位论文第一章绪论嘈停嚎诳犷口酷睿仁奔腾谌飉口姗图檠涌谑纠≤≥暌韵寸硬盘容量:;抟陨控件内存容量:
各类在线数据库的收费睛况如表所示。联网络信息资源数量调查报告》【。报告显示:ü谙呤菘馐全国在线数