1 / 51
文档名称:

网页的预处理技术.pdf

格式:pdf   大小:1,598KB   页数:51页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

网页的预处理技术.pdf

上传人:wxc6688 2021/10/26 文件大小:1.56 MB

下载得到文件列表

网页的预处理技术.pdf

相关文档

文档介绍

文档介绍:提 要
本文系统的阐述了网页的预处理技术,它包括:网页的正则化、网页
去重、网页去噪。网页正则化统一网页的表示形式;网页去重找出并去除
网页集合中类似的网页,本文论述了当前网页去重的两个主要方法:即基
于 shingle-encoding 的方法和基于随机映射的方法,并且比较了这两个方
法的优劣。网页去噪也是预处理技术中的重要内容,它有三类方法:基于
网页结构的方法、基于模版的方法和基于可视化信息的方法。本文对这些
方法都做出了系统的阐述。基于前人的工作,作者提出了一种基于主题的
网页去噪算法,通过构造网页 DOM(Document Object Model)树的一个
变种,即内容块树,利用分类器判断网页的噪音块。实验表明,本方法噪
音去除精度是 87%,而以前的方法仅有 42%。

关键词:Web 网页;噪音去除;信息提取;预处理;算法;
目 录
第一章 引言 ..................................................................................................... 1
第二章 网页正则化 ......................................................................................... 2
编码的自动发现..................................................................................... 2
全角转半角............................................................................................. 3
第三章 网页去重技术 ..................................................................................... 9
引言......................................................................................................... 9
相关工作................................................................................................. 9
基于 SHINGLING 的网页去重算法........................................................ 11
shingle 编码..................................................................................... 12
网页去重算法描述 ........................................................................ 14
基于随机映射的网页去重算法........................................................... 15
理论基础 ........................................................................................ 15
算法描述 ........................................................................................ 16
两个算法的比较................................................................................... 17
第四章 网页去噪技术 ................