1 / 6
文档名称:

一种网页收藏方法、装置及系统的制作方法.docx

格式:docx   大小:22KB   页数:6页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

一种网页收藏方法、装置及系统的制作方法.docx

上传人:421989820 2022/6/28 文件大小:22 KB

下载得到文件列表

一种网页收藏方法、装置及系统的制作方法.docx

文档介绍

文档介绍:一种网页收藏方法、装置及系统的制作方法
专利名称:一种网页收藏方法、装置及系统的制作方法
技术领域:
本发明涉及网络数据处理领域,特别是涉及ー种网页收藏方法、装置及系统。
背景技术:
收藏网页,是指互联网用户将感兴趣的网页进行保存页内容的脚本代码。其中,所述代码注入単元,包括框架添加子単元,用于在用户所浏览的网页中添加内嵌框架;代码写入子単元,用于在所述内嵌框架中写入所述脚本代码。其中,所述描述信息抓
取単元,具体用于在接收到用户的收藏操作指令后,利用预先写入的脚本代码,抓取所述网页的文档对象模型信息。其中,所述网页内容保存単元,具体用于根据所述网页的文档对象模型信息,将所抓取的网页内容以结构化样式进行保存。其中,所述网页内容抓取单元,具体用于根据预设的规则对网页内容中包含的不具有收藏意义的内容进行过滤,根据过滤结果抓取所述网页的内容。其中,所述网页内容抓取单元,具体用于在网页内容包括图片的情况下,判断网页中的图片数量是否大于预设的阈值,如果是,则采用异步方式下载所述网页的图片内容。本发明实施例所提供的技术方案,由于通过预先写入所述网页的脚本代码对网页的描述信息进行抓取,一方面保证了抓取的网页内容的全面性;另一方面,由于网页的描述信息中携帯有网页的样式信息,因此在保存网页内容时,可以根据样式信息对网页内容进行排版,从而提高了网页收藏结果的有序性,便于用户进行阅读。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图I为本发明的网页收藏方法一种实施例的流程图; 图2为本发明的网页收藏方法另ー种实施例的流程图3为本发明的网页收藏装置实施例的结构示意图;图4为本发明的网页收藏系统实施例的结构示意图。
具体实施例方式下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例 ,都属于本发明保护的范围。首先对本发明实施例所提供的ー种网页收藏方法进行说明,该方法可以包括以下步骤接收到用户对所浏览的网页执行的收藏操作指令后,利用写入所述网页的用于抓取网页内容的脚本代码,抓取所述网页的内容描述信息;对所述内容描述信息进行解析,根据解析结果抓取所述网页的内容;对所抓取的网页内容进行保存。在本发明的一种实施方式中,上述步骤可以全部在客户端设备中实现,例如在浏览器本身、浏览器插件或者专用的网页收藏软件中实现。在本发明的一种实施方式中,上述步骤中写入脚本代码步骤以及抓取网页内容描述信息的步骤在客户端设备中实现,客户端抓取到网页内容描述信息后发送至服务器端设备,由服务器完成后续步骤。首先,如图I所示,该网页收藏方法包括步骤SlOl :接收到用户对所浏览的网页执行的收藏操作指令后,利用写入所述网页的用于抓取网页内容的脚本代码,抓取所述网页的内容描述信息;在本发明实施例中,并不是采用服务器直接抓取网页页面内容,这是因为对于一部分网页,服务器无法直接抓取,比如某些页面必须登录后才能展现,如果客户端没有登录,则服务器端也无法抓取