文档介绍:硕士学位论文
基于页面分块的论坛信息抽取技术研究
BBS INFORMATION EXTRACTION
TECHNIQUES BASED ON PAGE
SEGMENTATION
许钺
哈尔滨工业大学
2011 年 12 月
国内图书分类号: 学校代码:10213
国际图书分类号: 密级:公开
工学硕士学位论文
基于页面分块的论坛信息抽取技术研究
硕士研究生: 许钺
导师: 叶允明教授
申请学位: 工学硕士
学科: 计算机科学与技术
所在单位: 深圳研究生院
答辩日期: 2011 年 12 月
授予学位单位: 哈尔滨工业大学
Classified Index:
:
Thesis for the Master Degree in Engineering
BBS INFORMATION EXTRACTION
TECHNIQUES BASED ON PAGE
SEGMENTATION
Candidate: Yue Xu
Supervisor: Prof. Yunming Ye
Academic Degree Applied for: Master of Engineering
Specialty: Computer Science and Technology
Affiliation: Shenzhen Graduate School
Date of Defence: Dec, 2011
Degree-Conferring-Institution: Harbin Institute of Technology
哈尔滨工业大学工学硕士学位论文
摘要
当今互联网技术的发展非常快速,网上论坛的功能也越来越强大和完善。
各大门户网站几乎都建立了自己的论坛,而从门户网站的论坛板块细分上可以
看出,论坛资源正在逐步完善,以适应各种不同需求的人群。每时每刻都有人
在论坛上发表言论,探讨问题等。论坛已经成为一个重要的信息库,论坛数据
已经是许多应用(如舆情分析与监控、论坛搜索引擎、社区发现等)的重要信
息来源,因此,针对论坛页面信息抽取技术的研究十分重要。
本文围绕论坛数据抽取这一核心技术,首先对论坛页面进行了深入的统计
和分析,从而发现论坛页面所特有的结构信息和可视化信息,针对这些特点定
义了一些启发性规则。由于每个不同的论坛都会有自己的一套模板来组织自己
的数据,信息抽取面对的数据源也会不统一。为解决这些问题,本文提出了基
于子树可视化信息的论坛页面分块算法,该算法通过逐层地对 DOM 节点进行筛
选和合并,最终能够提取出论坛页面中的主体模块,过滤了许多垃圾模块,让
后续的信息抽取算法只需要在主体模块上进行抽取即可。实验表明该算法具有
很高的准确性。
在页面分块的基础上,本文提出了基于决策树分类的页面信息抽取算法。
该算法将信息抽取问题转换为分类问题,通过对页面的再分块、特征提取、预
处理、分类等过程实现了信息抽取。从分类的过程看,需要有一个训练过程,
即人工标注的过程,本文从工程上实现了一个简易操作的可视化标注工具,因
此该分类算法是半监督的。通过实验与分析,该算法能很好地抽取出作者、正
文、时间等结构化信息。
最后在上述的理论研究成果的基础上,本文设计和实现了论坛信息抽取的
原型系统,为本文进行的算法实验和应用研究提供了一个基础平台。
关键词:页面分块;论坛信息抽取;决策树;可视化信息
- I -
哈尔滨工业大学工学硕士学位论文
Abstract
With the rapid development of technology, web forum is ing
more and more powerful and perfect. Almost every web portal have built their own
web forum. We can see from the sub-board division of these forum that web forum
is mean to feed all kinds of people's need. Every moment there are people m