1 / 6
文档名称:

seo数据分析.pdf

格式:pdf   页数:6页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

seo数据分析.pdf

上传人:xwhan305 2014/10/10 文件大小:0 KB

下载得到文件列表

seo数据分析.pdf

文档介绍

文档介绍:先明确一些基本点,一个网页被收录与否,有两个因素
是否被爬虫爬过
页面质量是否过关
上一篇文章已经提过了收录率这么一个指标,很多网站都懒得去做这个指标, “我看看
site 的数据不就行了!”,事实上没有这个指标,很多工作就无从下手。从数据中找出问题,
利用数据指导解决方案,分析数据验证工作成果。最近看了《深入浅出数据分析》这个本,
觉得不错,把数据分析的方法讲得很生动,建议有兴趣的从事数据分析的同学可以买本看看。
任何数据分析由,目标->分析->评估->决策,四个环节组成。
目标:我们想看一下网站的收录情况如何,在 SEO 方面是否还有提高的机会。
分析:收录情况什么算好什么算坏,是不是用一些指标来衡量?网站的收录情况是不是
过于笼统,是不是应该细分下各个页面的收录情况?
评估:于是我们需要下面一些数据
网站的页面层级关系
各个层级页面带来的 SEO 流量
各个层级页面的收录情况如何
SEO 流量的占比可以从 Google Analytics 中过滤出来。
页面数量可以从数据库获得,或者通过火车头 or 自制小脚本抓取统计。
收录率可以将获取的页面通过工具进行搜索,火车头也可以。
问题立马凸显!
1+2级目录页带来了大量的流量,收录率不是很好,优化收录的流量提升突破口在此!
产品页面数量很多,收录也不是很理想,但是带来的流量有限,除了收录问题,还有页面内
容的问题,本文中先不管它了。
决策:我们的结论是立刻展开行动对目录页面进行收录的优化。
看到这边,似乎刚开始的目标: “通过优化收录提升流量”
演变成了新的目标:“如何提高目录页面的收录量”
这边能不能再次通过数据分析的方法进行 SEO 呢?
答案是肯定的!
我们再来重新走一遍目标->分析->评估->决策的过程
目标:提高目录页面的收录量
分析:通过本文开始的有关收录的两个因素,我们需要检查一下,网页是否被爬虫爬行
过,网页的质量是不是过关。
1. 关于爬虫的情况,我们需要分析日志,才能确定。于是我们从日志中拆分一系列数
据看看页面是否真的被爬行过。
2. 由于页面质量似乎是一个很难衡量的值,于是我们可以用相同模板下的:
已被爬行的页面数量/已被爬行并且被收录页面数量
来评估该模板页面质量对收录的影响大小。如果被爬的页面都被收录了,那至少说明这
套页面的内容搜索引擎还算认可。(实际情况远比这个复杂,而且收录后也有可能因为质量
问题被删除,但总比什么参照都没有要好,对吧!)
评估:(敏感信息用编号代替,均为真实数据)
先看一下爬虫日志的情况,通过 Shell 脚本,我们可以分析出。
目录总计被爬行的次数为13000次左右
不重复的目录爬行次数为5500次左右
频道 A 下的目录几乎被 100%抓取过至少 1次,频道 B 的目录抓取也不错,有 70%被至
少抓过一次。
其余频道下的目录被抓取的覆盖率不到 30%
不要觉得这个结果很神奇,其实很多网站都会面对这样的糟糕问题,只要你把数据不断的细
分,细分,再细分,总会观察出一些端倪的。
关于日志分析,不要迷信任何的日志分析软件,那都是给懒人用的,自制脚本+Excel
才是王道,可以拆分显示出任何你想