1 / 171
文档名称:

历史网页的持续收藏及其再访问的关键技术研究.doc

格式:doc   页数:171
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

历史网页的持续收藏及其再访问的关键技术研究.doc

上传人:机械CAD论坛 2011/12/26 文件大小:0 KB

下载得到文件列表

历史网页的持续收藏及其再访问的关键技术研究.doc

文档介绍

文档介绍:学位论文
题目:
历史网页的持续收藏及其再访问的关键技术研究
姓名:
学号:
院系: 信息科学技术学院
专业: 计算机系统结构
研究方向: 网络与分布式系统
导师姓名:
二00八年五月
版权声明
任何收存和保管本论文各种版本的单位和个人,未经本论文作者同意,不得将本论文转借他人,亦不得随意复制、抄录、拍照或以任何方式传播。否则,引起有碍作者著作权之问题,将可能承担法律责任。
摘要
网页是一种易逝的信息资源,在新网页不断涌现的同时旧网页也在逐步消失。如果没有专门的机构来对网页进行收集和保存,它们就会在不经意之间消失。而随着互联网成为一种不可忽视的新媒体,网页内容的重要性已经不言而喻。因此,持续收藏并永久保存出现过的网页具有重要的意义,可以为后人提供珍贵的历史资料。显然,人们还希望能够以一种比较方便的方式来再访问这些保存下来的海量网页,从而才能体现出这种收藏的价值。这里所说的“再访问”可以有多方面的含义,包括根据URL和链接关系来浏览历史网页,像搜索引擎那样查询相关网页,等等。
不难想到,这项工作可以大致分成两个部分,一是有计划地进行网页的持续搜集,二是将搜集到的网页适当地组织起来,以便再访问。本文的工作属于后者。即我们假定有一个搜集系统源源不断地将网页搜集下来,我们需要对它们进行有效地组织和存储,并提供对它们有意义的访问方式。
针对这种需求,本文确定了四个关键技术问题,对它们分别进行了深入的研究,并基于研究的成果设计并实现了两个系统。本文的主要贡献包括:
1)提出了一种带有时间标签的链接图的存储及压缩方法。链接图是表达网页之间关系的一种重要数据结构,它是链接分析技术的基础,广泛应用于Web数据的分析、挖掘、检索领域。通常,链接图上是没有时间信息的。而由于本文工作所针对的是长时间持续搜集的历史网页,对应同一个URL的网页的不同版本会在不同时间被搜集下来,于是网页的链接关系会随着时间发生改变,因而就形成了带有时间标签的链接图。本文研究了带有时间标签的链接图新型表示模型,详细设计了存储格式和压缩方法。这方面的研究成果的有效性在我们所收藏的24亿历史网页集合上得到验证,从该集合我们构造了一个包含有1546亿条带有时间标签链接的链接图系统,并得到一些初步应用。
2)提出了一种从杂乱无章的网页集合中筛选出文章型网页的方法。我们称新闻报道、分析评论、论坛帖子、博客日记等由人创作完成的作品,具有标题以及一段逻辑上连续的正文,为网络文章。文章型网页指的是包含网络文章的网页。直觉上,它们具有较高的挖掘和检索价值。本文提出的方法基于对文章一般性规律的认识,具有通用性和较好的效果。简要地说,首先从网页内容中提取出标题,然后从标题位置后面的文字内容中提取出正文来。实验表明精度和召回率都很高。根据这一方法(但在大规模数据条件下因个别技术难点没有完整实现),本文从

3)提出了一种新型的相似网页检测算法,同时具备高准确率与高覆盖率的优点。该算法采用基于LCS(mon subsequence)的相似性度量方法,设计了一个包含了三个步骤的检测过程框架,保证了算法的效率。综合实验表明本文的算法同时获得了高准确率与高覆盖率。该算法成功应用于上述网络文章的消重,(),整个过程使用6台Linux服务器仅花费了5天的时间。
4)提出了一种网络文章发表时间的估计方法。发表时间是文章的一个重要属性。比较容易想到的方法是通过从网页文字内容中提取出来的时间、网页的Last-Modified-Time和网页搜集时间这三种信息来推断文章发表时间。然而其效果并不足够理想。因而在此之上本文进一步提出了利用链接分析和检测相同文章的方法来提高计算精度。综合实验表明,前者可以提高约35%的计算精度,而后者的作用更加显著,如果能够检测到文章的多个其它拷贝,则有很大的概率计算出来的文章发表时间是准确的。
5)设计并实现了一个大规模历史网页仓储系统,并提供历史网页回放服务,称为WebInfomall()。它用于存储搜集系统持续不断搜集来的历史网页,用户可以在上面使用URL来获取和浏览历史网页。可扩展和增量存储是本系统的两个重要特性。对此,本文设计了相应的存储组织结构和索引结构,它们经历了海量网页数据的考验并具备较好的性能。到目前为止,已经收藏了近六年来在中国互联网上出现过的近30亿网页,压缩以后的数据量超过20TB。此外,本文还设计了一种适合网页长期保存的存储格式。
6)在上述研究成果的基础上,设计并初步实现了一种面向历史事件报道踪迹的搜索引擎系统,称为HisTrace(http://hist.)。它用于检索在历史网页中所记录、

最近更新

2025年山东力明科技职业学院单招职业适应性测.. 39页

2025年山东圣翰财贸职业学院单招职业倾向性测.. 40页

2025年山东城市服务职业学院单招职业技能测试.. 39页

2025年山东外国语职业技术大学单招职业适应性.. 40页

2025年山东文化产业职业学院单招职业倾向性测.. 40页

2025年山东服装职业学院单招职业适应性测试模.. 40页

2025年山东理工职业学院单招职业倾向性测试题.. 40页

2025年山东畜牧兽医职业学院单招职业适应性测.. 40页

2025年山东省枣庄市单招职业倾向性考试模拟测.. 38页

2025年山东省潍坊市单招职业倾向性测试模拟测.. 40页

2025年山东省青岛市单招职业适应性考试模拟测.. 41页

2025年山东职业学院单招职业技能测试题库带答.. 41页

2025年山东艺术设计职业学院单招职业适应性考.. 39页

2025年山西体育职业学院单招职业适应性测试模.. 40页

2025年山西机电职业技术学院单招职业适应性考.. 38页

2025年山西电力职业技术学院单招综合素质考试.. 41页

2025年山西管理职业学院单招职业适应性测试模.. 41页

2025年山西金融职业学院单招综合素质考试模拟.. 40页

2025年川南幼儿师范高等专科学校单招职业倾向.. 39页

2025年巴音郭楞职业技术学院单招职业适应性测.. 40页

2025年常州工业职业技术学院单招职业适应性测.. 41页

2025年常州纺织服装职业技术学院单招综合素质.. 41页

2025年常德职业技术学院单招职业技能测试题库.. 39页

2025年广东农工商职业技术学院单招职业倾向性.. 40页

2025年广东工程职业技术学院单招职业适应性考.. 39页

2025年广东水利电力职业技术学院单招职业倾向.. 40页

2025年广东环境保护工程职业学院单招职业适应.. 40页

2023年四川省凉山州数学中考真题试卷【含答案.. 32页

铁路钢轨探伤车运用管理办法 21页

青岛市电梯安全运行服务规范 20页