文档介绍:基于链接聚类的 Shark-Search算法
目录
引言
Fish-Search算法与Shark-Search算法
链接聚类算法
基于链接聚类的Shark-Search算法
实验与评估
结论
引言
网页爬取是搜索引擎工作的重要步骤
网页的静态搜集
-时新性较差,不能保证链接的有效性
-不具有可定制性
网页的主题爬取
-指定主题,即时定向,对待访问链接进行评价
-较好的时新性,大量节约硬件和网络资源
要点:与主题最相关的链接优先爬取
根据网页的半结构化特征对其中的链接进行聚类
Fish-Search算法
Web爬取-鱼群的觅食过程
动态建立一个优先爬取的URL列表
鱼-URL
食物-相关网页
找到食物:鱼繁殖αω后代,保持生命力D继续觅食(沿该方向继续跟踪链接),潜在相关得分1
没有找到食物:繁殖ω后代,生命力-1,潜在相关得分
Shark-Search算法
在Fish-Search算法基础上的改进
网页与主题的相关性
-相关/不相关 0,1
-VSM模糊评分 [0,1]
潜在相关得分
-父结点相关性的继承
-链接文本
-链接上下文
Shark-Search算法
上下文范围
内容
<html><head><title>hello</title></head>
<body>
<div><table>
<tr><td><a href=””>1</a></td></tr>
</table></div>
<div><table>
<tr><
<td><a href=””>2</a></td>
<td><table>
<tr><td><a href=””>3</td></tr>
<tr><td><a href=””>3</td></tr>
<tr><td><a href=””>3</td></tr>
</table></td>
</tr>
</table></div>
</body>
</html>
Link 9 1-4-5-6-7-8-9
Link 14 1-4-10-11-12-13-14
Link 19 1-4-10-11-12-15-16-17-18-19
Link 22 1-4-10-11-12-15-16-20-21-22
Link 25 1-4-10-11-12-15-16-23-24-25
步骤3
14
25
22
19
24
21
18
23
20
17
16
9
8
6
7
15
13
12
5
1
2
4
3
10
11
a
a
a
a
td
td
td
tr
tr
tr
table
a
td
table
tr
td
td
tr
div
html
head
body
title
div
table
步骤2
步骤1
链接聚类算法