文档介绍：一种网页信息探测方法及系统的制作方法
专利名称：一种网页信息探测方法及系统的制作方法
技术领域：
本发明属于数据监控技术领域，具体涉及一种网页信息探测方法及系统。
背景技术：
随着国际互联网在全球范围内的迅猛发展，利用互联网传播和数据库中检索出与待探测网页相同URL的关键词，用所述关键词与待探测网页的源文件内容进行匹配，根据匹配程度确定待探测网页信息是否存在。图2示出了采用图1所示系统探测网页信息的方法流程。如图2所示，该方法包括以下步骤(1)获取装置13获取待探测网页的HTML源文件。
(2)过滤装置15过滤待探测网页源文件中的无用信息，包括标题，获取一个较为干净的文字信息源文件。先预定义无用HTML标签库，存储无用的HTML标签。所述无用的HTML标签包括头标签类、程式语句类、多媒体语句类、修饰类、表单输入类、链接类等类型标签。根据源文件信息并结合无用HTML标签库，通过组织特定的正则表达式语句的方式删除无用标签及标签所修饰的内容，只保留可划分区域类的标签及标签中的内容。此处过滤掉标题标签内的内容，是为了防止页面信息被删除、标题存在的情况干扰探测。(3)匹配装置14从数据库中读取与待探测网页相同URL的关键词，然后匹配读取的关键词与过滤后的待探测网页源文件信息。用数据库中留存的关键词证据与文字信息源文件进行匹配，根据匹配程度P探测网页信息是否存在。匹配程度P可以根据具体应用环境来决定是完全匹配还是部分匹配。图3示出了本实施方式中抽取网页信息关键词的方法流程。如图3所示，抽取过程包括以下步骤(a)读取网页的源文件信息。读取网页源文件时，首先通过模拟HTTP请求返回信息状态码。如果状态码非200 或有异常出现，则可以直接断定该URL的网页信息已被删除；如果正常返回200，则通过 HttpMethodBase的getResponseBody ()方法获取网页源文件的字节数组及其编码格式，通过编码格式将源文件字节数组转化为字符形式的源文件信息。(b)从源文件信息中获取网页的标题信息。根据源文件信息，通过标签匹配或者正则表达式的方式获取标题标签中的标题信息，并用Lucene “庖丁解牛”的分词方法，对标题进行分词。如果无标题，或者标题简短、无法分词，则后续探测操作可以不用标题作为参照，返回的标题可以为空。(c)从源文件信息中提取正文，具体过程如下(i)过滤源文件中的无用信息。根据源文件信息并结合无用HTML标签库，通过组织特定的正则表达式语句的方式删除无用标签及标签所修饰的内容，依次删除头标签类、程式语句类、多媒体语句类、修饰类、表单输入类、链接类等标签及标签中信息内容，只保留可划分区域类的标签及标签中信息内容。(ii)拆分过滤后的源文件信息。根据划分区域类标签对过滤后的源文件信息执行现有的字符截取算法，截取过滤后的源文件信息为各个文字块，并可获取任意两相邻文字块之间各种划分区域类标签的数量。例如假设过滤后源文件A仅由A1和A2两文字块组成,A1和A2之间仅随机排列B1 和化两种划分区域类标签，数量分别为H1和n2。根据字符截取算法，可先依据标签B1截取 A，获取Abi和Ab2两块，以及两块之间标签B1数Ii1，组合Abi和Ab2两块，得到无标签B1的源文件块A，继续依据标签化截取A，获取新的Abi和Ab2两块，以及两块之间标签化数n2，依此类