文档名称：

网页消重.ppt

格式：ppt 大小：559KB 页数：17页

下载后只包含 1 个 PPT 格式的文档，没有任何的图纸或源代码，查看文件列表

如果您已付费下载过本站文档，您可以点这里二次下载

预览

下载此文档

网页消重.ppt

上传人:文库旗舰店 2022/7/2 文件大小：559 KB

下载得到文件列表

网页消重.ppt

相关文档

文档介绍

文档介绍：网页消重
Speaker：Ronalnie
在爬虫的过程中，我们常常会遇到主题内容相同的网页。
由于标题不一样，内容有细微的偏差，也许我们的爬虫会误认为两个网页是不同的。
神马是网页消重？？
俺就是网页消重技术！！
网页消重
Speaker：Ronalnie
在爬虫的过程中，我们常常会遇到主题内容相同的网页。
由于标题不一样，内容有细微的偏差，也许我们的爬虫会误认为两个网页是不同的。
神马是网页消重？？
俺就是网页消重技术！！
网页消重技术是指对内容重复的网页进行识别，处理和合并，以节省网页数据库的存储空间和在网页，数据库上进行操作的时间的过程。
为神马要进行网页消重
它们不仅会影响用户搜索结果,而且会严重影响爬虫系统的执行效率。
不仅占用网络带宽，又浪费存储资源
网页净化与消重是大规模搜索引擎系统预处理环节的重要组成部分
重复网页的两种类型
一种是通过各网站间的直接转载而形成的内容基本一致的网页----可以在服务器端，在搜索引擎采集网页的过程中进行消重处理
一种是对网页进行了适度的加工后而形成的重复网页----根据客户的不同要求提供是否在客户端上对网页进行消重服务
几种消重算法
排除相同的URL方法
基于聚类的方法
基于特征码的方法
基于签名的方法
排除相同URL的网页消重方法
它分析来自不同搜索引擎的网页URL
相同的URL认为是相同的网页
或是不同的URL
但是IP相同也认为是相同网页
特点：
简单以实现，可以消除一部分相同网页
缺点：
没有利用网页的文本内容信息
不能对转载造成的内容重复的网页消重
基于聚类的网页消重方法
基于网页文本内容的算法
A
用基于文本中汉字的字频来来构造网页文本的空间向量，由于每个汉字对内容表达的重要性不一样，因此对不同的汉字赋予不同的权重
B
汉字在网页中的字频乘以权重表示该汉字分量的大小
基于聚类的网页消重方法
C
所有汉字的分量构成了网页文本的空间向量
D
通过计算两个网页文本空间向量的夹角来评估两个网页的相似度
E
当两个网页的夹角小于某一个值时，就认为他们是同一类别
几种常用的聚类方法
单遍聚类法
逆中心聚类法
密度测试法
图聚类法
百度大叔
谷歌大婶
聚类的网页消重方法的特点
简单易于实现
不足之处是聚类复杂度为O（n^2）
对于大规模网页的聚类，计算量过大
只利用了字频，没有利用文本的结构信息
实时性很差，每加入新的网页都要重新聚类
基于特征码的方法
利用汉字中的标点符号信息，以句号前后的各五个汉字信息作为特征码来唯一标示网页
这种方法利用汉语言表达的特点来取得特征码，将特征码的精确匹配与先进的搜索技术联系起来，消重率较高
基于特征码的方法的缺点
特征码的精确匹配不能抵抗网页转载时产生的噪声，这样的噪声会导致文本的结构信息不同
只利用标点的位置来提取特征码，没有利用网页的段落结构信息，使得标识网页的特征串提取与匹配效率过低
基于签名的方法
这种算法把一篇网页按一定的原则分成N段（如每n行作为一段），然后对每一段进行签名（即计算指纹），于是每一篇文档就可以用 N 个签名后的指纹来表示。
对于两篇文档，当它们的 N 个签名中有 M 个相同时（m是系统定义的阈值），则认为它们是互为转载的网页。
基于Map/Reduce的网页消重并行算法
基于元搜索的网页消重算法
XX算法
(*^__^*) 谢谢
(*^__^*)