1 / 17
文档名称:

网页消重.ppt

格式:ppt   大小:559KB   页数:17页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

网页消重.ppt

上传人:文库旗舰店 2022/7/2 文件大小:559 KB

下载得到文件列表

网页消重.ppt

相关文档

文档介绍

文档介绍:网页消重
Speaker:Ronalnie
在爬虫的过程中,我们常常会遇到主题内容相同的网页。
由于标题不一样,内容有细微的偏差,也许我们的爬虫会误认为两个网页是不同的。
神马是网页消重??
俺就是网页消重技术!!
网页消重
Speaker:Ronalnie
在爬虫的过程中,我们常常会遇到主题内容相同的网页。
由于标题不一样,内容有细微的偏差,也许我们的爬虫会误认为两个网页是不同的。
神马是网页消重??
俺就是网页消重技术!!
网页消重技术是指对内容重复的网页进行识别,处理和合并, 以节省网页数据库的存储空间和在网页,数据库上进行操作的时间的过程。
为神马要进行网页消重
它们不仅会影响用户搜索结果,而且会严重影响爬虫系统的执行效率。
不仅占用网络带宽,又浪费存储资源
网页净化与消重是大规模搜索引擎系统预处理环节的重要组成部分
重复网页的两种类型
一种是通过各网站间的直接转载而形成的内容基本一致的网页----可以在服务器端,在搜索引擎采集网页的过程中进行消重处理
一种是对网页进行了适度的加工后而形成的重复网页----根据客户的不同要求提供是否在客户端上对网页进行消重服务
几种消重算法
排除相同的URL方法
基于聚类的方法
基于特征码的方法
基于签名的方法
排除相同URL的网页消重方法
它分析来自不同搜索引擎的网页URL
相同的URL认为是相同的网页
或是不同的URL
但是IP相同也认为是相同网页
特点:
简单以实现,可以消除一部分相同网页
缺点:
没有利用网页的文本内容信息
不能对转载造成的内容重复的网页消重
基于聚类的网页消重方法
基于网页文本内容的算法
A
用基于文本中汉字的字频来来构造网页文本的空间向量,由于每个汉字对内容表达的重要性不一样,因此对不同的汉字赋予不同的权重
B
汉字在网页中的字频乘以权重表示该汉字分量的大小
基于聚类的网页消重方法
C
所有汉字的分量构成了网页文本的空间向量
D
通过计算两个网页文本空间向量的夹角来评估两个网页的相似度
E
当两个网页的夹角小于某一个值时,就认为他们是同一类别
几种常用的聚类方法
单遍聚类法
逆中心聚类法
密度测试法
图聚类法
百度大叔
谷歌大婶
聚类的网页消重方法的特点
简单易于实现
不足之处是聚类复杂度为O(n^2)
对于大规模网页的聚类,计算量过大
只利用了字频,没有利用文本的结构信息
实时性很差,每加入新的网页都要重新聚类
基于特征码的方法
利用汉字中的标点符号信息,以句号前后 的各五个汉字信息作为特征码来唯一标示网页
这种方法利用汉语言表达的特点来取得特征码,将特征码的精确匹配与先进的搜索技术联系起来,消重率较高
基于特征码的方法的缺点
特征码的精确匹配不能抵抗网页转载时产生的噪声,这样的噪声会导致文本的结构信息不同
只利用标点的位置来提取特征码,没有利用网页的段落结构信息,使得标识网页的特征串提取与匹配效率过低
基于签名的方法
这种算法把一篇网页按一定的原则分成N段(如每n行作为一段),然后对每一段进行签名(即计算指纹),于是每一篇文档就可以用 N 个签名后的指纹来表示。
对于两篇文档,当它们的 N 个签名中有 M 个相同时(m是系统定义的阈值),则认为它们是互为转载的网页。
基于Map/Reduce的网页消重并行算法
基于元搜索的网页消重算法
XX算法
(*^__^*) 谢谢
(*^__^*)