1 / 14
文档名称:

爬虫关键算法.pdf

格式:pdf   大小:573KB   页数:14页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

爬虫关键算法.pdf

上传人:Bonnacon 2022/4/23 文件大小:573 KB

下载得到文件列表

爬虫关键算法.pdf

相关文档

文档介绍

文档介绍:: .
硕士论文 值。如果这个文
件不相关,那么将这个文件中出现的�� 的����声��赋值为。万或。两种值,获得
的���值将减少,具体赋值情况如③中维护方法所述。
��③将此文件中的��按下面的方法加入到��列表中���
��》 如果这个文件相关,则把这个文件前������个孩子 ��是预定义的大于�的
���常量�加入到�������的前端。
��》 如果这个文件不相关,则把这个文件前��� 个孩子的�� 加入到��������
����队列中紧挨着相关网页的孩子节点后面。
��》 剩下的孩子��加入到�甩����的尾部 �也就是说只有在时间允许的情况
����下才有可能被爬行��
��④在获取文件的时候,对��服务器的传输速度进行监测,如果速率很低,则将
文件中的�� 的�� 设为�。
��⑤在经过一段特定的时间之后,或�������己为空时,停止运行。
��算法伪代码如下【��
�����‘���������������,����,初���,��
���厦
������ ���让����,�� 认���甩 �,�� �将种子�� 入栈,深度为�
����� �����������。�
���认飞������ ����������������� �������
������,�������������刀���’��一��� ��
��������,�� 吵�������
������� ������十十�
�������������������������������������������������������������������������硕士论文 搜索引擎中主题爬虫的研究与实现
�。������“����������,���
���二��������� 印��
�� �������。��,���� �计算相似度,判断当前节点是否相关
�����能伪�月七���夕��,���,��������� �保留结果
�����������
�������当前页面不相关�
���对��仁���的前��� 个孩子节点 ����������,�����������。次
对剩余孩子节点, �����一����,�

��的前 ��������个节点 �口等于预先设置的常量,一般为
���������� �
对所有剩余的孩子节点,��而�����‘认
����
������ � �������������夏
���������������
��比较 ��仁��� 中的