文档介绍:Google搜索引擎的核心一PageRank算法综述
余小兵
(南京审计学院信息科学学院,江苏南京210029)
[摘K]搜索引券技术的发展是随着电子技术不斯进步而形成的信息裳字化和敦携网络化的必然
产物,Google 引李依叢其PageRank机辆及收效算法一直处于该领城的领先电位。本丈介绍了 PageR-
ak算法的起簿和发展,时其槪念■与方法进行了阐述,并讨论了它的越用情况“
[关■词]PageRank;搜索引髭算法 ..
引盲
随着计算机技术的普及和Internet网络技术 的发展,信息数字化和数据网络化已成为现代 经济社会发展的客观要求和必然趋势‘Internet 网络已名副其实地成为世界最大的信息中心。 作为一个Internet用户,自然希望能够最大程度 地使用如此庞大而全面的信息资源,网络搜索 引录正是应这种需求而产生的。
一个出色的搜索引擎能够及时向用户提供 所需要的信息,而要做到这点就需要一个快速. 优质、高效的搜索算法予以支持。Google搜索 引擎依靠其PageRank机制及收敛算法一直处于 该领域的领先地位。现如今它已取得了很大的 市场和好评,它的优点不仅仅在于去除无用的 标语构成单一页面的功能、独自的Cache系统、 动态制成摘要信息、为实现高速检索而设置的 分散系统等,更在于它检索结果的正确性。
PageRank 的起源
1993年,雅虎将它找到的每一个网站,按 照所属的分类目录进行划分组织,建立起一个 整洁的、可以逐级査找的数据库,同时也在网 站上置入一个搜索引華,可以根据数据库中存 在的“关键词”搜索到网站。后来产生的搜索 引学大多数也是根据找到的元标识中的关键词 来识别网站的相关性的。
但是网站在元标识中插入行业关键词或其 他站点代码就可以巧妙的得到搜索结果页面上 的较高位置的内容时,搜索引華的正确性受到 质疑,因而必须采取更好的措施精确的为用户 输出搜索结果。
Google意识到了传统搜索引擎所面临的这 种问题,即如果相关性由网管来控制的话,那 么排名必将被他们所利用,掩蔽了真正的相关 性。根据上面的逻辑推理,Google的两位创始 人Sergey Brin和Larry Page建立了一种搜索引 笨算法公式,该公式将排名的比重与一些与网 页相关的因素相联系。该算法公式命名为 “PageRank”。它利用这一公式计算链接到某一 网页的网站数量,然后按照从1到10分别给予 表示更要度的分数。链接到这个网页的站点越 多,PageRank的分数就会越高。
1998年PageRank技术配置进Google搜索 引擎中并将其推岀,Google用这种控制算法得 出的相关结果的准确性大大超过了其竞争对手。 这种新算法不仅有助于提岀权威的高质量的信 息,而且很难利用***手段取得较高网络排名, Page Rank以其权威性被广泛的研究与应用。
作者简介:余小兵,男,安徽安庆人,序士,南京审计学忧信息科学学忱讲师。 —4 —
—6 —
—5 —
—6 —
—5 —
—6 —
—5 —
3. PageRank的概念与算法
PageRank依靠的是网民对站点的支持率, 利用大童的链接结构表明某个单独页面的价值。 它就像是一个由互联网上所有其他页面发起的 投