1 / 71
文档名称:

面向信息抽取web页面结构挖掘技术地研究.pdf

格式:pdf   页数:71页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

面向信息抽取web页面结构挖掘技术地研究.pdf

上传人:2024678321 2016/1/12 文件大小:0 KB

下载得到文件列表

面向信息抽取web页面结构挖掘技术地研究.pdf

相关文档

文档介绍

文档介绍:国内图书分类号:TP181 学校代码:10213 国际图书分类号: 密级:公开工学硕士学位论文面向信息抽取的Web页面结构挖掘技术研究硕士研究生:刘江导 师:徐晓飞教授申请学位:工学硕士学科:计算机科学与技术所在单位:深圳研究生院答辩日期:2010年6月授予学位单位:哈尔滨工业大学 Classified Index: TP181 : Dissertation for the Master Degree of Engineering RESEARCH ON MINING STRUCTURE OF WEB PAGE FOR INFORMATION EXTRACTION Candidate:Liu Jiang Supervisor:Prof. Xu Xiaofei Academic Degree Applied for:Master of EngineeringSpecialty: Computer Science and TechnologyAffiliation: Shenzhen Graduate SchoolDate of Defence:June, 2010Degree-Conferring-Institution:Harbin Institute of Technology哈尔滨工业大学工学硕士学位论文摘 要信息抽取是解决从海量Web页面中提取有价值的信息和知识的重要技术手段,而页面结构特征的挖掘和提取是信息抽取过程的关键步骤。然而,已有的页面结构挖掘方法大多数依赖于启发式规则和人工标注,这对于海量、异构的Web页面来说,不管是效率还是可扩展性都难以满足实际应用的要求。因此,信息抽取应用的发展迫切要求更智能化、自动化的页面结构挖掘技术。基于以上背景,针对Web页面结构挖掘中的两个关键技术——页面聚类和页面分块技术,本文进行了深入分析和研究,指出了现有方法对标签的理解基本上都停留在启发式规则的层次上这一问题。针对该问题提出了基于统计信息的标签向量,作为本文的页面聚类算法和页面分块算法的技术基础。本文取得了以下一些研究成果::即MSPC(Matrix Structure Based Page Clustering)算法。MSPC算法把所有页面表示成为统一大小的矩阵,它的时间复杂度仅受排序算法的影响。本文不仅从理论上证明了MSPC是个快速的算法,同时在实验中也证明了MSPC算法相较于具有相同复杂度的页面聚类算法具有更好的聚类效果。:即GSPS(Graph and Statistic Based Page Segment)算法。GSPS算法摒弃启发式和标注等一系列有人工参与的半监督或全监督的方法,结合标签的统计信息和图分割算法(GN算法)实现无监督的非启发式的页面分割算法。在实验中证明GSPS能得到很好的分割效果,从整体上与VIPS算法相当,但是GSPS算法解决了VIPS算法中同类页面分割后的结构不稳定性的缺陷。本文也设计了实验用以比较同类页面分割效果的优劣,实验证明GSPS算法在对同类页面进行分割时较VIPS算法效果更好。(包装器原型系统),它能够实现基于站点的信息抽取。除此之外,页面聚类子系统能够应用于信息检索技术,页面分块子系统也能够独立应用于信息检索技术和移动设备的WEB页面分块技术。关键词:包装器;网页分块;页面聚类;DOM树-I-哈尔滨工业大学工学硕士学位论文Abstract Information extraction is an important technology of extracting valuable information and knowledge from massive Web pages, within which Web page structure mining and extraction is a key step. However, most of existing page structure mining algorithms rely on heuristic rules or manually labeling, which makes that either the efficiency or the scalability can not meet the requirements of practical application for the massive and heterogeneous Web page