1 / 168
文档名称:

历史网页的持续收藏及其再访问的关键技术研究.doc

格式:doc   页数:168
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

历史网页的持续收藏及其再访问的关键技术研究.doc

上传人:策划大师 2011/11/13 文件大小:0 KB

下载得到文件列表

历史网页的持续收藏及其再访问的关键技术研究.doc

文档介绍

文档介绍:学位论文
题目:
历史网页的持续收藏及其再访问的关键技术研究
姓名:
学号:
院系: 信息科学技术学院
专业: 计算机系统结构
研究方向: 网络与分布式系统
导师姓名:
二00八年五月
版权声明
任何收存和保管本论文各种版本的单位和个人,未经本论文作者同意,不得将本论文转借他人,亦不得随意复制、抄录、拍照或以任何方式传播。否则,引起有碍作者著作权之问题,将可能承担法律责任。
摘要
网页是一种易逝的信息资源,在新网页不断涌现的同时旧网页也在逐步消失。如果没有专门的机构来对网页进行收集和保存,它们就会在不经意之间消失。而随着互联网成为一种不可忽视的新媒体,网页内容的重要性已经不言而喻。因此,持续收藏并永久保存出现过的网页具有重要的意义,可以为后人提供珍贵的历史资料。显然,人们还希望能够以一种比较方便的方式来再访问这些保存下来的海量网页,从而才能体现出这种收藏的价值。这里所说的“再访问”可以有多方面的含义,包括根据URL和链接关系来浏览历史网页,像搜索引擎那样查询相关网页,等等。
不难想到,这项工作可以大致分成两个部分,一是有计划地进行网页的持续搜集,二是将搜集到的网页适当地组织起来,以便再访问。本文的工作属于后者。即我们假定有一个搜集系统源源不断地将网页搜集下来,我们需要对它们进行有效地组织和存储,并提供对它们有意义的访问方式。
针对这种需求,本文确定了四个关键技术问题,对它们分别进行了深入的研究,并基于研究的成果设计并实现了两个系统。本文的主要贡献包括:
1)提出了一种带有时间标签的链接图的存储及压缩方法。链接图是表达网页之间关系的一种重要数据结构,它是链接分析技术的基础,广泛应用于Web数据的分析、挖掘、检索领域。通常,链接图上是没有时间信息的。而由于本文工作所针对的是长时间持续搜集的历史网页,对应同一个URL的网页的不同版本会在不同时间被搜集下来,于是网页的链接关系会随着时间发生改变,因而就形成了带有时间标签的链接图。本文研究了带有时间标签的链接图新型表示模型,详细设计了存储格式和压缩方法。这方面的研究成果的有效性在我们所收藏的24亿历史网页集合上得到验证,从该集合我们构造了一个包含有1546亿条带有时间标签链接的链接图系统,并得到一些初步应用。
2)提出了一种从杂乱无章的网页集合中筛选出文章型网页的方法。我们称新闻报道、分析评论、论坛帖子、博客日记等由人创作完成的作品,具有标题以及一段逻辑上连续的正文,为网络文章。文章型网页指的是包含网络文章的网页。直觉上,它们具有较高的挖掘和检索价值。本文提出的方法基于对文章一般性规律的认识,具有通用性和较好的效果。简要地说,首先从网页内容中提取出标题,然后从标题位置后面的文字内容中提取出正文来。实验表明精度和召回率都很高。根据这一方法(但在大规模数据条件下因个别技术难点没有完整实现),本文从

3)提出了一种新型的相似网页检测算法,同时具备高准确率与高覆盖率的优点。该算法采用基于LCS(mon subsequence)的相似性度量方法,设计了一个包含了三个步骤的检测过程框架,保证了算法的效率。综合实验表明本文的算法同时获得了高准确率与高覆盖率。该算法成功应用于上述网络文章的消重,(),整个过程使用6台Linux服务器仅花费了5天的时间。
4)提出了一种网络文章发表时间的估计方法。发表时间是文章的一个重要属性。比较容易想到的方法是通过从网页文字内容中提取出来的时间、网页的Last-Modified-Time和网页搜集时间这三种信息来推断文章发表时间。然而其效果并不足够理想。因而在此之上本文进一步提出了利用链接分析和检测相同文章的方法来提高计算精度。综合实验表明,前者可以提高约35%的计算精度,而后者的作用更加显著,如果能够检测到文章的多个其它拷贝,则有很大的概率计算出来的文章发表时间是准确的。
5)设计并实现了一个大规模历史网页仓储系统,并提供历史网页回放服务,称为WebInfomall()。它用于存储搜集系统持续不断搜集来的历史网页,用户可以在上面使用URL来获取和浏览历史网页。可扩展和增量存储是本系统的两个重要特性。对此,本文设计了相应的存储组织结构和索引结构,它们经历了海量网页数据的考验并具备较好的性能。到目前为止,已经收藏了近六年来在中国互联网上出现过的近30亿网页,压缩以后的数据量超过20TB。此外,本文还设计了一种适合网页长期保存的存储格式。
6)在上述研究成果的基础上,设计并初步实现了一种面向历史事件报道踪迹的搜索引擎系统,称为HisTrace(http://hist.)。它用于检索在历史网页中所记录、

最近更新

2024年重庆轻工职业学院单招职业适应性测试题.. 38页

2024年锡林郭勒职业学院单招职业适应性测试模.. 40页

2024年长春医学高等专科学校单招职业倾向性测.. 41页

2024年长江师范学院单招职业倾向性测试题库带.. 40页

2024年长沙文创艺术职业学院单招职业倾向性测.. 40页

2024年阜新高等专科学校单招职业倾向性测试模.. 41页

2024年陕西旅游烹饪职业学院单招职业技能考试.. 40页

2024年青岛航空科技职业学院单招职业倾向性考.. 41页

2024年青海建筑职业技术学院单招职业倾向性考.. 39页

2024年青海省西宁市单招职业倾向性考试题库含.. 41页

2024年马鞍山职业技术学院单招职业技能测试题.. 40页

2024年黑龙江商业职业学院单招职业适应性测试.. 41页

2024年黑龙江生态工程职业学院单招职业技能考.. 39页

2025年三亚城市职业学院单招职业倾向性测试题.. 40页

2025年上海应用技术大学单招综合素质考试题库.. 41页

2025年上海电机学院单招综合素质考试题库完美.. 41页

2025年乌兰察布职业学院单招综合素质考试模拟.. 40页

2025年云南工贸职业技术学院单招职业技能考试.. 41页

2025年云南省临沧地区单招职业倾向性测试模拟.. 40页

2025年云南财经职业学院单招职业倾向性考试模.. 40页

2025年克孜勒苏职业技术学院单招综合素质考试.. 41页

2025年内蒙古丰州职业学院单招综合素质考试题.. 41页

2025年广州卫生职业技术学院单招职业技能测试.. 64页

美团代运营业务委托合同 6页

新概念青少版2A各单元重点归纳 15页

九年级家长会课件PPT下载(初三2班) 25页

年产3000万片硝苯地平缓释片车间设计 40页

DB61∕T 926-2014 火灾高危单位消防安全管理与.. 45页

AQ 7011-2018《高温熔融金属吊运安全规程》 11页

保洁外包单位月度考评表 3页