1 / 5
文档名称:

网络爬虫技术研究.pdf

格式:pdf   大小:315KB   页数:5页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

网络爬虫技术研究.pdf

上传人:黛玉文档 2022/3/5 文件大小:315 KB

下载得到文件列表

网络爬虫技术研究.pdf

文档介绍

文档介绍:东 莞 理 工 学 院 学 报
第 卷第 期 ..
年 月 逻辑分组算法和向量空间模型 ,提出了一种网页�
主题管理系统 ����系统。�.�����等学者� 提出了一种基于计算 ��������相关度的主题爬虫 ,并设计�
了其体系结构和框架。�.�����������提 出了一种新的 ���资源爬行 系统 ,即 �������������������。。�系�
统 ,它对主题的定义既不是采用关键词也不是加权 向量 ,而是一组具有相 同主题的网页。国内南京大学�
的张 福炎 、潘 金贵 教授 等设 计 了一个 数 据采集 系 统 ���� ����������������������������,该 系统 主要是 对�
���上 中英文技术资料进行 自动搜集。�
�� 网络爬 虫的分类及工作原理�
网络爬虫按照系统结构和实现技术 ,大致可 以分为 以下几种类型:通用 网络爬虫 �����������������
������������、主题网络爬虫 ���������������������、深层 网络爬虫 ������������������。实际应用 中�
通常是将系统几种爬虫技术相互结合� 。�
�.�� 通 用 网络爬 虫 ������������������������������
通用网络爬虫根据预先设定的一个或若干初始种子 ���开始 ,以此获得初始 网页上的 ���列表 ,�
在爬行过程中不断从 ���队列 中获一个 的 ���,进而访 问并下载该页面。页面下载后页面解析器去掉�
页面上的 ����标记后得到页面内容 ,将摘要 、���等信息保存 到 ���数据库 中,同时抽取 当前页面�
收稿 日期 :����一��— ���
作者简介 :于成龙 �����一 �,男 ,黑龙 江牡丹 江人 ,讲师 ,硕士,主要从 事计算机视觉 和图像处理研究 。���� 东 莞 理 工 学 院 学 报�
上新 的 ���,保存 到 ���队列 ,直 到满 足系 统停止 条件