1 / 38
文档名称:

SEO教程:搜索引擎优化-第1章-搜索引擎简述课件.pptx

格式:pptx   大小:1,604KB   页数:38页
下载后只包含 1 个 PPTX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

SEO教程:搜索引擎优化-第1章-搜索引擎简述课件.pptx

上传人:gxngqvk 2022/7/26 文件大小:1.57 MB

下载得到文件列表

SEO教程:搜索引擎优化-第1章-搜索引擎简述课件.pptx

相关文档

文档介绍

文档介绍:SEO 教程:搜索引擎优化
基础实战入门
第1章 搜索引擎简述
本章导读
本章主要讲解了搜索引擎的种类和 搜索引擎的工作原理
通过本章学****读者对搜索引擎的 工作流程将有一个大概的了解
学****目标
了解搜索引擎
掌握搜索引擎工抓取模块
1.蜘蛛
搜索引擎为了抓取互联网中的各种页面,必须有一个 24 小时自动抓取页面的程序,我们称这个程序为“蜘蛛” ,它在互联网中也被称为“机器人” 。
百度的抓取程序我们一般称为百度蜘蛛,常见的有 Baiduspider、Baiduspider-mobile(抓取 wap) Baiduspider-image(抓取图片)Baiduspider-video(抓取视频)Baiduspider-news(抓取新闻) 。
谷歌的抓取程序我们一般称为谷歌机器人,常见的有 Googlebot、Googlebot-Mobile(抓取 wap) 。
360 的抓取程序我们一般称为 360 蜘蛛,常见的只有一个:360Spider。
蜘蛛访问任何一个站点的时候都会访问网站根目录中的 文件。这个文件限制了搜索引擎蜘蛛的抓取范围,所有的蜘蛛都必须遵守这个文件中的协议。另外,我们可以从一些站点中的 。
2.跟踪链接(蜘蛛抓取顺序)
为了抓取互联网中更多的页面,搜索引擎会根据网页中的链接从一个页面抓向另一个页面,就像蜘蛛在蜘蛛网上爬行一样,这也就是搜索引擎蜘蛛这个名字的由来。
如图 1-3 所示,蜘蛛顺着一个 A 页面爬行到 A1、A2、A3、A4,直到页面没有链接之后就会返回 A页面,然后爬行到另外一个页面;同样按照 B1、B2、B3、B4 的顺序抓取,有点类似于不撞南墙不回头的样子。这就是我们说的深度优先策略。
图 1-3 深度优先策略
如图 1-4 所示,蜘蛛从 A 页面开始顺着链接爬行到 A1、B1、C1 页面,直到 A 页面上的链接都爬完之后,再从 A1 页面开始抓取下一层的链接页面,分别爬行到 A2、A3、A4……这就是我们说的广度优先策略。
图 1-4 广度优先策略
在实际应用中,两种策略通常是互相混合使用的,这样可以抓取到互联网中更多的页面,特别是网站中内页深度比较深的一些页面。
3.如何吸引蜘蛛来抓取网站中的页面
(1)权重越高、蜘蛛来得越频繁;
(2)更新越快,蜘蛛来得越频繁;
(3)导入链接越多,蜘蛛来得越频繁;
(4)与首页点击距离越小,蜘蛛收录得越快。
网站建立初期,搜索引擎有可能是不知道咱们站点的,我们需要通过以下两个方法来告诉搜索引擎。
(1)加入百度站长平台,提交网址链接并在网站布置自动推送代码(见图 1-5) 。
(2)外部链接:我们可以在一些已经被收录的站点中放置我们自己的站点链接以此来吸引蜘蛛访问, 可以发布软文也可以交换友情链接。
图 1-5 百度站长平台提交网址链接
4.如何查看蜘蛛是否访问过站点
(1)百度站长平台蜘蛛抓取频次工具(见图 1-6) 。
工具地址:
图 1-6 百度站长平台蜘蛛抓取频次工具
(2)服务器日志。
如果你的服务器开启了日志功能,通过网站日志可以清楚地得知用户在什么 IP、什么时间、什么操作系统、什么浏览器、什么分辨率显示器的情况下访问了你网站的哪个页面,是否访问成功(见图 1-7) 。
图 1-7 服务器日志
过滤模块
由于互联网中存在大量的垃圾页面、复制内容页面和无内容页面,这些页面大大浪费了搜索引擎的服务器资源,对用户来说也是无用的。
所有搜索引擎为了避免这些垃圾页面占用自己的资源,同时也为了更好的用户体验,搜索引擎需要将蜘蛛抓取回来的这些页面进行过滤。
搜索引擎在后台通过提取文字、中文分词、去停止词、去除重复内容等方法过滤掉垃圾页面。其中的去重大家尤为留意一下,同一篇文章重复出现在不同的站点中或者同一个站点的不同网址中,搜索引擎是非常讨厌这样的内容页面的,甚至会被认为是垃圾页面。
收录模块
凡是被搜索引擎认为有价值、对用户有用的页面,搜索引擎会将其存储到索引数据中,我们称之为收录模块。只有被搜索引擎存储到索引数据库中的网址才有可能参加排名。
1.如何查看一个页面是否被收录
如图 1-8 所示,最常见的办法将页面的网址(URL)放到百度搜索框中,如果出现了该页面的搜索结果,那么就证明该页面已经被百度收录了(其他搜索引擎同理) 。
图 1-8 百度搜索框
2.如何查看一个站点的收录量
(1)最准确的方法就是通过百度站长平台查询。此种方法一般查询自己管理的