1 / 22
文档名称:

搬运机械手PLC控制系统.doc

格式:doc   页数:22
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

搬运机械手PLC控制系统.doc

上传人:策划大师 2011/11/13 文件大小:0 KB

下载得到文件列表

搬运机械手PLC控制系统.doc

文档介绍

文档介绍:搜索引擎的信息覆盖率评测模型研究
摘要 本文从引擎搜集子系统网页搜集不完全性的若干因素,指出信息覆盖率这一概念的研究意义,由此提出了三类比较重要的信息覆盖率概念。在对信息覆盖率建立量化研究模型之后,本文以北大天网WebInfomall平台为考察对象,以不同的方式对中国Web进行取样,用PageRank和HITS这两类典型的权值算法计算出其中的重要网页作为样本,从量和质的角度上考察webinfomall的信息覆盖率,得到合理的数量覆盖率和质量覆盖率实验数据,从而验证了WebInfomall信息覆盖率结论的合理性和信息覆盖率评测模型的可靠性。
关键词 搜索引擎,信息覆盖率,取样,权值计算,验证,数量覆盖率,质量覆盖率
研究背景
e Web)自1989年诞生并于次年开始运行以来,在迄今为止的十多年里发展迅猛,已逐渐成为人类社会信息资源中的一个重要组成部分。它以超文本和超媒体为核心技术,将文本、图形、图像、音频和视频等信息有机结合起来,给人们以丰富的信息表示空间。技术和应用的不断发展,社会的信息化进程不断加快,越来越多的社会信息资源开始选择Web作为其载体。
当前,个网站,约2,500,000,000网页,包含了至少19TB以上的数据,而且这些网页正以每天净增7,500,000的速度膨胀[1] [2] 。而在中国,NIC)于2002年1月进行的互联网统计报告[3],CN下注册的域名数为127,319个,共有277,100个Web站点。到2002年为止,中国境内的Web站点共有53,432,598个网页,主要分布在约49,146个网站中[4]。
面对浩瀚的互联网络资源,人们若不借助其他工具很难快速的查找到自己所需要的信息,这带来了搜索引擎的诞生。从1994年诞生的第一代搜索引擎Lycos和InfoSeek等开始,发展到当前流行的Google、Altavista等系统,它们已逐渐成为人们进行网际冲浪的重要工具之一。根据弗吉尼亚理工大学GVU中心的调查报告[5] ,%的用之一斑。
我们将每一条独立的资源定位地址称为URL(Uniform Resource Location)。搜索引擎便是利用URL之间的连接关系,搜集其对应的网页信息,建立索引,供用户查询。因此,搜索引擎搜集的网页集合便是用户所能得到查询结果的最大范围;这个范围越接近何一个搜索引擎能搜集完Google系统和WiseNut系统,搜集到并提供给用户查询的网页数量分别是2,073,418,204个[6]和1,571,413,207[7]个,最多不过静态网页总数的80%。而根据Greg ?年3月发表的搜索引擎统计数据
[8]??,这两个系统的网页数据量是最大的。
网络上的信息数量巨大而且种类繁多,任何一个实际运行的搜集系统都不可能将其全部搜尽。优秀的搜索引擎总会搜集尽量多的网页,更好的满足用户的查询要求。考察搜索引擎对搜集系统的根据,对评价搜索引擎的性能好坏具有积极的作用。
另一方面,随着社会信息化程度的不断提高,的历史发展进程。基于搜索引擎技术开发的网络信息博物馆正以此为目的,力图通过搜索引擎的网页搜集系统不断搜集时在时间和空间上展示索引擎的信息覆盖率对验证网络信息博物馆网页资源的有效性也有着十分重大的意义。
本文的研究工作基于上述目的,针对北京大学计算机系网络与分布式系统实验室开发的为基础开发的网上信息博物馆WebInfomall[9],采取多种方法从多个角度计算其信息覆盖率,证明了该网页搜集系统获得的中国网络信息资源是基本有效的。
模型概述
网页搜集的不完全性
如果把RL作为它的唯一标记;又由于网页中存在其它网页的URL,可以把这种网页间的链接看作连接顶点的边,则整个示。相应的,每一个顶点的入度和出度对应着链向该网页的网页数量和该网页链向其他网页的数量。显然,这是一张不完全图,因为里面存在很多入度或出度为0的顶点。
当前的网页搜集系统都是基于对这种链接关系,从某一个种子URL开始,不断的从新搜到的网页中提取出URL,从而到达其它的网页。搜集过程中,通常需要对网页重要性作初步的判断,优先搜集相对有价值的网页。在这种搜集机制里面,存在着下列问题,导致无法遍历所有的网页。
部分网页的入度为0,即从任何一个网页开始,都不存在到它的路径,这类网页的数量约占全体网页数量的10%[10] 。
选择的种子URL集合中,任何一个网页都不存在到该网页的路径。.3%的顶点能被选取作为起始点去遍历剩下的约90%的顶点[10]。
由于在网页搜集的过程中出现了优先排序,搜集系统资源本身的限制(磁盘容量和时间限量)导致部分网页直到搜集过程中止都没有被搜集,出现Starve的情况[11]。
页来不及搜集。搜集系统自身一般都有搜集周期,

最近更新

2026年公司军训总结报告 30页

养老护理员常见问题解答 35页

2026年公司会议的主持人的开场白 5页

2026年八年级语文拓展教案 19页

2026年八字弱起名字怎么补救 3页

2023年三亚航空旅游职业学院单招职业倾向性考.. 40页

2023年三明医学科技职业学院单招职业技能测试.. 41页

2023年上海中侨职业技术大学单招职业技能考试.. 40页

2023年上海大学单招职业适应性考试模拟测试卷.. 41页

2023年上海师范大学单招职业倾向性考试题库完.. 42页

2023年上海杉达学院单招职业技能考试模拟测试.. 40页

2023年上饶职业技术学院单招职业适应性考试题.. 39页

2023年义乌工商职业技术学院单招职业倾向性考.. 41页

2023年云南交通职业技术学院单招职业技能考试.. 39页

2023年云南农业职业技术学院单招职业适应性考.. 40页

2023年云南城市建设职业学院单招职业技能测试.. 41页

2023年云南工贸职业技术学院单招职业技能考试.. 40页

2026年全国交通安全日600字作文 15页

2023年云南省思茅市单招职业倾向性考试模拟测.. 39页

2023年云南省楚雄彝族自治州单招职业适应性考.. 40页

2023年仰恩大学单招职业倾向性测试题库推荐 40页

2023年佳木斯职业学院单招职业倾向性测试题库.. 39页

美团代运营业务委托合同 6页

新概念青少版2A各单元重点归纳 15页

足球竞彩项目招股说明书 7页

护理薪资计划书 28页

九年级家长会课件PPT下载(初三2班) 25页

湘少版小学英语单词表格级 10页

DB61∕T 926-2014 火灾高危单位消防安全管理与.. 45页

AQ 7011-2018《高温熔融金属吊运安全规程》 11页