1 / 61
文档名称:

基于DOM的Web信息抽取系统设计与实现.pdf

格式:pdf   页数:61
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于DOM的Web信息抽取系统设计与实现.pdf

上传人:minzo 2014/2/28 文件大小:0 KB

下载得到文件列表

基于DOM的Web信息抽取系统设计与实现.pdf

文档介绍

文档介绍:华中科技大学
硕士学位论文
基于DOM的Web信息抽取系统设计与实现
姓名:连小刚
申请学位级别:硕士
专业:软件工程
指导教师:刘小峰
20090527
华中科技大学硕士学位论文
摘要
的快速发展使 Web 已经成为人们获取信息的主要途径,但是随着网页
数量的激增和无关信息的充斥,使得人们想快速准确地获取自己需要的信息变得十
分困难。同时随着“模板+数据库”型网页的大量出现, 上出现了被称为“暗藏
网”(the hidden web)的巨大信息资源库,据估计因特网上 80%的内容存在于这种看不
见的因特网中,这些网页是搜索引擎的“网络爬虫”抓不到的。加之, 上的各
个网站的信息相互独立,收集起来十分困难,在这种情况下,通常的搜索引擎发挥
的作用微乎其微,而 Web 信息抽取技术显得十分必要。
通过对现有信息抽取技术的总结和分析,结合“模板+数据库”型网页的特点,
提出了基于 DOM 结构,利用 XPath 表述网页待抽取信息点的位置,用 XSLT 描述
抽取规则的半自动化的抽取方案。并在此基础上,实现了一个抽取规则适用性较强,
自动化程度较高的 Web 信息抽取系统。系统的实现分为样本学习、信息抽取和数据
库存储三个阶段来完成。其中学习阶段是系统实现的关键点和难点,在该阶段,通
过叶子节点路径获取算法、数据区域获取算法、语义获取算法和路径优化算法的设
计与实现,同时利用强大而灵活的 XSLT,生成健壮、适应性强的抽取规则文件。
在信息抽取阶段,系统利用 URL 模式匹配和 DOM 相似性算法,实现待抽取网页和
抽取规则文件的自动匹配。同时为了解决自动化和准确度的平衡问题,系统提供操
作简单的 GUI 界面,支持人工的指导训练,经过测试,系统对于“模板+数据库”型
网页有较好的抽取效果。

关键词:Web 信息抽取可扩展标记语言扩展样式表语言文档对象模型
I
华中科技大学硕士学位论文
Abstract
With 's rapid development ,Web has e the main way to access
information. It is ing more difficlut for people to get information they need ,just
because the explosive and full of irrelevant information pages. At the same time as the
"template + database" type web pages increased, has emerged known as the
"work" ,the great warehouse of information resources. It is estimated that 80%
of content exist in this invisible , the web crawler of the search engine
can’t grasp of. In addition, various sites on are independent of each other, it is
very difficult to be this case, the usual search engines play a negligible role
and Web information extraction technology is ingvery necessary.
Based on the summary and analysis of the existing information extraction
techniques, combined with this dissertation for the "template + Database" page, the
dissertation proposed a resolvent based on the structure of DOM, using XPath
expressions to locate information points, using XSLT to describe extraction of rules. On
this basis, a Web Information Extraction System with higher degree of automation and

最近更新

2026年哈尔滨铁道职业技术学院单招职业倾向性.. 45页

2025年望奎县招教考试备考题库附答案解析(必.. 31页

2025年淅川县幼儿园教师招教考试备考题库带答.. 30页

2025年竹溪县招教考试备考题库附答案解析(必.. 30页

2026年安庆医药高等专科学校单招职业适应性测.. 44页

2026年岳阳职业技术学院单招职业适应性考试模.. 44页

2026中国农业科学院第一批统一招聘359人参考题.. 47页

2026年廉政准则条例知识测试题新版 14页

2026年文明礼仪知识竞赛奥运医护常识试卷100道.. 40页

2026年叉车叉车科目一考试题库(典优) 14页

2026年湘中幼儿师范高等专科学校单招职业适应.. 44页

2026年幼教笔试题库(各地真题) 42页

2026年心理c中证笔试题库附答案 40页

2026年桓台摩托车考试历年真题(全优) 29页

2026年自考专业(营销)考试题库2000道附完整答.. 82页

2026年江门安全生产考试试题完整参考答案 28页

项目绩效评估优化建议书 5页

2026年注册会计师考试财务成本管理真题100道附.. 47页

青少年法治教育建议书 6页

陪诊师职业发展建议书 5页

防洪区工程建议书 6页

长者营养优化建议书 6页

银行员工职业素养建议书 6页

重庆大学管理优化建议书 6页

部门编辑部优化建议书 6页

选校专家建议书 5页

车间主任培训建议书 5页

资金节约计划建议书 5页

六年级英语上册第一单元测试题-(含答案) 9页

喝酒给老婆的检讨书 6页