1 / 8
文档名称:

抓取页面的方法和装置的制作方法.docx

格式:docx   大小:25KB   页数:8页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

抓取页面的方法和装置的制作方法.docx

上传人:421989820 2022/6/25 文件大小:25 KB

下载得到文件列表

抓取页面的方法和装置的制作方法.docx

文档介绍

文档介绍:抓取页面的方法和装置的制作方法
专利名称:抓取页面的方法和装置的制作方法
技术领域:
本发明涉及信息技术领域,并且更具体地,涉及抓取页面的方法和装置。
背景技术:
传统的网络爬虫技木,即抓取页面的技木,主要应用于抓取静态Web网页态转换图模型;在该规约后的Xpath元素中确定训练样本,包括在该状态转换图模型中确定训练样本;通过该分类器对该规约后的Xpath元素进行分类,获取有效Xpath元素集合,包括将该状态转换图模型输入该分类器,获取该有效Xpath元素集合。在第五种可能的实现方式中,结合第一方面或第一方面的第一至四种可能的实现方式中的任一种可能的实现方式,获取页面的Xpath元素,包括通过嵌入浏览器技术获取该Xpath元素。第二方面,提供了一种抓取页面的装置,包括获取模块,用于获取页面的Xpath元素,并通过对该Xpath元素进行规约获取规约后的Xpath元素;确定模块,用于在该规约后的Xpath元素中确定训练样本;训练模块,用于执行该训练样本中的每个Xpath元素的事件,根据该训练样本中的每个Xpath元素的事件产生的DOM树与原DOM树的编辑距离确定该训练样本中的每个Xpath元素是否有效,根据该训练样本中的
每个Xpath元素是否有效训练分类器;分类模块,用于通过该分类器对该规约后的Xpath元素进行分类,获取有效Xpath元素集合;抓取模块,用于执行该有效Xpath元素集合中的每个Xpath元素的事件,根据该有效Xpath元素集合中的每个Xpath元素的事件产生的DOM树与原DOM树的编辑距离抓取页面。在第一种可能的实现方式中,该装置还包括定制模块,用于获取业务定制信息,根据该业务定制信息确定定制规则;该训练模块具体用于根据该训练样本中的每个Xpath元素是否有效和该定制规则,训练该分类器。在第二种可能的实现方式中,结合第二方面或第二方面的第一种可能的实现方式,该训练模块具体用于,若该训练样本中的第一 Xpath元素的事件产生的DOM树与原DOM树的编辑距离大于预定阈值,则确定该第一 Xpath元素有效,若该训练样本中的第二 Xpath元素的事件产生的DOM树与原DOM树的编辑距离不大于该预定阈值,则确定该第二 Xpath元素无效;该抓取模块具体用于,若该有效Xpath元素集合中的第三Xpath元素的事件产生的DOM树与原DOM树的编辑距离大于该预定阈值,则保存该第三Xpath元素的事件产生的DOM树,若该有效Xpath元素集合中的第四Xpath元素的事件产生的DOM树与原DOM树的编辑距离不大于该预定阈值,则不保存该第四Xpath元素的事件产生的DOM树。在第三种可能的实现方式中,结合第二方面或第二方面的第一种或第二种可能的实现方式,该抓取模块还用于在该训练模块根据该训练样本中的每个Xpath元素的事件产生的DOM树与原DOM树的编辑距离确定该训练样本中的每个Xpath元素是否有效之后,保存该训练样本中的有效Xpath元素的事件产生的DOM树;该分类模块具体用于通过该分类器对该规约后的Xpath元素中除该训练样本之外的Xpath元素进行分类,获取该有效Xpath元素集合。在第四种可能的实现方式中,结合第二方面或第二方面的第一至三种可能的实现方式中的任一种可能的实现方式,该装置还包括生成模块,用于在该获取模块获取规约后的Xpa