文档介绍:华中科技大学
硕士学位论文
基于DOM的Web信息抽取系统设计与实现
姓名:连小刚
申请学位级别:硕士
专业:软件工程
指导教师:刘小峰
20090527
华中科技大学硕士学位论文
摘要
的快速发展使 Web 已经成为人们获取信息的主要途径,但是随着网页
数量的激增和无关信息的充斥,使得人们想快速准确地获取自己需要的信息变得十
分困难。同时随着“模板+数据库”型网页的大量出现, 上出现了被称为“暗藏
网”(the hidden web)的巨大信息资源库,据估计因特网上 80%的内容存在于这种看不
见的因特网中,这些网页是搜索引擎的“网络爬虫”抓不到的。加之, 上的各
个网站的信息相互独立,收集起来十分困难,在这种情况下,通常的搜索引擎发挥
的作用微乎其微,而 Web 信息抽取技术显得十分必要。
通过对现有信息抽取技术的总结和分析,结合“模板+数据库”型网页的特点,
提出了基于 DOM 结构,利用 XPath 表述网页待抽取信息点的位置,用 XSLT 描述
抽取规则的半自动化的抽取方案。并在此基础上,实现了一个抽取规则适用性较强,
自动化程度较高的 Web 信息抽取系统。系统的实现分为样本学习、信息抽取和数据
库存储三个阶段来完成。其中学习阶段是系统实现的关键点和难点,在该阶段,通
过叶子节点路径获取算法、数据区域获取算法、语义获取算法和路径优化算法的设
计与实现,同时利用强大而灵活的 XSLT,生成健壮、适应性强的抽取规则文件。
在信息抽取阶段,系统利用 URL 模式匹配和 DOM 相似性算法,实现待抽取网页和
抽取规则文件的自动匹配。同时为了解决自动化和准确度的平衡问题,系统提供操
作简单的 GUI 界面,支持人工的指导训练,经过测试,系统对于“模板+数据库”型
网页有较好的抽取效果。
关键词:Web 信息抽取可扩展标记语言扩展样式表语言文档对象模型
I
华中科技大学硕士学位论文
Abstract
With 's rapid development ,Web has e the main way to access
information. It is ing more difficlut for people to get information they need ,just
because the explosive and full of irrelevant information pages. At the same time as the
"template + database" type web pages increased, has emerged known as the
"work" ,the great warehouse of information resources. It is estimated that 80%
of content exist in this invisible , the web crawler of the search engine
can’t grasp of. In addition, various sites on are independent of each other, it is
very difficult to be this case, the usual search engines play a negligible role
and Web information extraction technology is ingvery necessary.
Based on the summary and analysis of the existing information extraction
techniques, combined with this dissertation for the "template + Database" page, the
dissertation proposed a resolvent based on the structure of DOM, using XPath
expressions to locate information points, using XSLT to describe extraction of rules. On
this basis, a Web Information Extraction System with higher degree of automation and