1 / 5
文档名称:

基于页面分类的web 信息抽取方法研究.pdf

格式:pdf   大小:600KB   页数:5页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于页面分类的web 信息抽取方法研究.pdf

上传人:1017848967 2017/8/17 文件大小:600 KB

下载得到文件列表

基于页面分类的web 信息抽取方法研究.pdf

相关文档

文档介绍

文档介绍:计算机技术与发展
第 23 卷第 1 期 Vol. 23 No. 1
年月
2013 PUTER TECHNOLOGY AND DEVELOPMENT Jan. 2013
基于页面分类的 Web 信息抽取方法研究
成卫青,于静,杨晶,杨龙
( 南京邮电大学计算机学院,江苏南京 210003)
,
摘要通过对现有 Web 信息抽取方法和当前 Web 网页特点的分析发现现有抽取技术存在抽取页面类型固定和抽取结
, , ,
果不准确的问题为了弥补以上两个不足文中提出了一种基于页面分类的 Web 信息抽取方法此方法能够完成对互联网
,
上主流信息的提取。通过对页面进行分类和对页面主体的提取分别克服传统方法抽取页面类型固定和抽取结果不够准
,
确的问题。文中设计了一个完整的 Web 信息抽取模型并给出了各功能模块的实现方法。该模型包含页面主体提取、页
, ,
面分类和信息抽取等模块并利用正则表达式自动生成抽取规则提高了抽取方法的通用性和准确性。最后用实验证实
了文中方法的有效性与正确性。

关键词 Web 信息抽取正则表达式页面分类 HTMLParser 结点树
中图分类号 TP31 文献标识码 A 文章编号 1673 - 629X 2013 01 - 0054 - 05

doi 10. 3969 /j. issn. 1673 - 629X. 2013. 01. 014
Web Information Extraction Research Based on Page Classification
, , ,
CHENG Wei - qing YU Jing YANG Jing YANG Long
, , ,
School puter Science & Techn. Nanjing University of Posts and m. Nanjing 210003 China
,
Abstract By means of analysis of existing Web information extraction and the current Web page characteristics current extraction tech-
niques are found to have problems that the types of extract page fixed and the extract results are not accurate. In order to make up for the
,
deficiency mentioned above propose a Web information extraction method based on page classification. This method is able plete
the extraction of the mainstream of information on the page. By classifying the Web page and extracting the main body of the