文档介绍:第 27 卷第 12 期计算机应用研究畅27 畅12
2010 年 12 月 Vol 畅2010No
Application Research puters Dec
基于 HTML 树和模板的文献信息提取方法研究倡
李文立, 王乐超, 宋春雷
(大连理工大学管理学院系统工程研究所, 辽宁大连 116024)
摘要: 教师科研文献信息的自动搜集是科研成果有效管理的重要手段,将网页信息的提取方法用于网络数据
库中文献信息的自动搜集有广大的应用前景。提出基于树和模板的文献信息提取方法,利用标记
DOM HTML
间的嵌套关系将网页表示成一棵树,将树结构用于网页相似度的度量和自动分类,相似度高的
Web DOM DOM
网页应用同一模板进行信息提取。实验结果表明该方法在提取网络数据库中文献信息的准确率在 94%以上。
关键词: 网页信息提取; 文档对象模型树; 模板; 文献信息搜集
中图分类号: 311畅13 文献标志码: 文章编号: 1001唱3695(2010)12唱4615唱03
TP A
: /. .
doi j issn
Method of paper information extraction based on HTML tree and template
唱, 唱, 唱
LI Wen li WANG Le chao SONG Chun lei
(Institute of Systems Engineering, School of Management, Dalian University of Technology, Dalian Liaoning 116024, China)
Abstract:
The automatic, collection of the teacher research paper information is an important means of effective management of
scientific research there. is a broad application prospects to apply the method of Web page information extraction to the paper.
information collection This paper proposed a method of paper information collection based on the HTML tree, and template
This method would represent the Web page into a DOM tree using the hierarchy relationship of. the HTML tags then the DOM
tree would be used to the measure of the page similarity and the. classification of Web pages The information of Web