文档介绍:西安电子科技大学
硕士学位论文
基于大众标注的对等网语义检索系统模型研究
姓名:苏山佳
申请学位级别:硕士
专业:情报学
指导教师:窦永香
20100301
。网语义检索系统模型的国内外研究现状,指出对等网语义检索系统模型的研究是近年来国内外信息检索领域研究的热点之一,基于大众标注的对等网语义检索系由于对等网上数据的分布性、无结构化和缺乏面向语义的表达与描述,导致其检索效率低下,检索成本也随着网络信息量的飞速增加而爆炸性增长。大众标社区,能够降低信息检索的成本,而且大众标注本身带有一定的语义性,将其应用到肪诚碌挠镆寮焖髂芪7植际叫畔⒌挠镆寮焖餮芯看葱碌钠羰尽R虼耍首先,收集整理中国知网、万方数据库关于对等网信息检索的相关文献及对届畔⒓焖鞔蠡岬穆畚闹魈夥治觯槟勺芙崃嘶诖笾诒曜⒌亩缘统研究是一个新的研究方向。接着,利用大众标注能够体现用户语义、有助于形成用户及资源社区等特性,研究了在旌夏P拖拢诖笾诒曜⒌纳缜试春蜕缜没Ч芾砘疲菇了基于大众标注的镆寮焖飨低衬P停⑾晗覆隽讼低车母髂?楣δ芎图索流程,重点探讨了其中资源搜索模块的两种搜索方法。最后,针对系统模型的标签处理模块,引入著名的算法对英文标签进行词根提取,在此基础上提出了可以根据用户需要进行精度选择的英文标签聚类算法,并利用标签云进行了模拟实验。实验表明,采用此聚类算法有利于根据用户的需要组织标签并更准确地描述资源。关键词:大众标注对等网语义检索标签处理摘要
痗畁瑆..Ⅺ、.痗琧.,畐瑃.,.痳篎’痟琣甋,..,·’
关于论文使用授权的说明创新性声明本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做申请学位论文与资料若有不实之处,本人承担一切的法律责任。成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成果;也不包含为获得西安电子科技大学或的任何贡献均已在论文中做了明确的说明并表示了谢意。本人签名:本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。学校有权保留送交论文的复印件,允许查阅和借阅论文;学校可以公布论文的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存论文。导师签名:
,、\∞鯥阿民规模增长率㈣奈㈣●■■队姗岫舢哪姗哪砌。第一章绪论!!!!!!!!!!!!!!!!!!!!猐√獗尘月日己发布报告称,全球网民数接近亿。不过,无拧<一一近几年来,随着网络技术的日臻成熟,网络建设成本的逐渐下降,网络的应用已经得到了广泛的普及。如令,从遍及全球的广域网络,到某一地区的城域网的每一个角落。现代信息检索环境也经历了一系列演变发展:从最早的单用户、单机系统,到客户机/服务器系统,再到浏览器/服务器系统,晟近又出现去中心化根据调研机构涨肮ú。,都说明了目前全球网民人数的显著增加。另外,据中国互联网信息中心月旋布的《第次中国互联网络发展状况统计报告》,赶上并超过了全球平均水平。固给出了曛泄窆模与增长率,从图中我们可以看出,近晡夜竦氖恐鹉暝龀ぃ龀ぢ试年以后虽然有所回落,但依然保持在%左右。,再到某个企业单位之中的局域网络,大大小小的网络已经深入到了人们生活的J健,互联网普及率达到率仍接近%。廿舯卅抖蚌】年中围阿婺S朐鯧半削纾●口∞。“/一
与年同期相比增长%。网站数为个,同期相比增长%。网页总字节数增长最快,,同期相比增长%。在线数据库数用户提供服务,从而起到信息共享的目的。搜索技术的出现为人们快速查找所需,完成数据的存储和处理。而客户端贝羌虻サ耐ü绱臃衿及传统的网络搜索引擎。在这种结构下,随着用户数量的增加,服务器的负载也年眨珹】统计显示:新浪网站的日均访问量约为,次,日均浏览量约为,P矶嗳蛑C疚A耸迪制浞窆婺#追投入巨资用于基础设备的建设,而与此形成鲜明的对比,众多分布在网络中客户端计算机的计算能力却被大量的闲置,大多数的客户机只被用于网页显示之类的模的应用。其中一个典型的例子就是大量基于对等网的文件共享程序,如著名的了“共享知识娣诺奈恢茫蛊浯印爸行摹弊呦颉氨咴怠畔⒛谌莘植荚诟鞲亢5镣逍疲统计,年中国网民中月均有蛉送ü齈流媒体观看节目,占中国网民的%;年髅教逵没Ч婺