1 / 61
文档名称:

基于Web的信息抽取策略设计与实现.pdf

格式:pdf   页数:61
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于Web的信息抽取策略设计与实现.pdf

上传人:banana 2014/2/26 文件大小:0 KB

下载得到文件列表

基于Web的信息抽取策略设计与实现.pdf

文档介绍

文档介绍:南京师范大学
硕士学位论文
基于Web 的信息抽取策略设计与实现
姓名:邵斌
申请学位级别:硕士
专业:教育学;教育技术学
指导教师:杨晓江
2009-05-16
摘要
摘要
随着 的快速发展,互联网已经发展成为一个巨大的分布式信息空间,
为用户提供了一个极具价值的信息源。然而,在利用搜索引擎进行 信息
检索时,返回的搜索结果数目非常庞大,用户常常还是难以快速、准确地从纷繁
复杂的海量信息中寻找到自己所需的且比较一致的信息。Web 信息抽取就是解决
如何准确有效方便地从 Web 网页中抽取出所需要信息内容的一项技术,是解决
该问题的重要途径之一。
具有的海量、异构、动态变化等特性使 Web 信息抽取不同于传统信
息抽取,同时带来了新的挑战。抽取技术随着需求的增加而不断丰富,近年来国
内外涌现了多种信息抽取策略。这些策略各有侧重地解决了 Web 信息抽取中面
临的一些问题,但在某些方面存在不同程度的局限或缺陷。针对特定领域数据源,
如何选择或设计更有针对性且更高效准确的抽取策略尚不明确。因此,有必要对
针对特定领域数据源的 Web 信息抽取策略问题作进一步研究。
论文首先介绍了信息抽取技术的发展现状、相关知识、存在的问题和评价标
准,对几种典型的 Web 信息抽取策略进行了综合分析比较。接着,针对特定领
域数据源,论文在分析该数据源特点的基础上设计了半人工规则的信息抽取策
略,同时详细论述了该策略涉及的主题式蜘蛛、网页净化、半人工抽取规则的定
义和抽取规则的执行方法等关键技术。在此基础上,论文设计并实现了一个基于
半人工规则策略的信息抽取系统,并以招聘信息领域数据源为例做了相关实验。
实验证明,针对满足一定条件的特定领域数据源,该抽取策略具有很好的抽取效
果。








关键词:Web 信息抽取,抽取策略,抽取规则,半人工规则




I
Abstract
ABSTRACT
With the fast development of the , the World Wide Web, which can
provide a massive and valuable information resource, has e a huge distributed
information space. However, users may often find it difficult to seek the quite
consistent and useful information they want from plex magnanimous
information because the returned results are extremely huge. The technology of web
information extraction, which can help the users to get the exact information
effectively and conveniently from websites, is one of the important ways to solve this
problem.
The characteristics, Magnanimity, different constructing and dynamic change,
that has, made Web information extraction different from traditional
information extraction, brought the new challenge at the same time. Extraction
technology is enriching constantly with the increase of demand. Recently, many kinds
of information extraction strategies have emerged both at home and abroad. Although
these methods can solve part of the problems that Web information extraction is now
confronting, there are limitations or flaws on other side.