文档介绍:浅谈网页长期保存的策略与方法探讨
摘要:网页作为网络信息的重要表现形式,承载了海量的信息资源,有着非常大的价值。但是网页自身却非常容易变更或者消失,给网络信息资源的安全造成了威胁。有必要对网页进行长期保存,以保护网络信息资源。笔者通过对国内外众多网页长期保存项目的对比分析,提出了我国在网页长期保存上的策略以及评估、选择、收集、整理、存储和利用的方法,以期对我国的网页长期保存项目提供建设性意见。
关键词:网页;长期保存;策略;方法
网络信息作为数字信息的一种,随着互联网技术的应用和发展而飞速地增长。网页对于网络信息而言,具有非常重要的作用。如何妥善地保存和维护这些网页,使这些含有海量信息的网页能够长久地存在,并能被人们获取利用,是摆在我们面前的一道难题。
1 网页长期保存的必要性
网页数量骤增
据中国互联网络信息中心(NIC)的统计,自2003年开始,中国的网页规模基本保持翻番增长,2009年网页数量达到336亿个,年增长率超过100%(见图1)。而Google在2008年宣称,其索引的网页数量已经突破1万亿,并且其数量还在以每天数以亿计的速度在增长,“互联网上的网页已经多得无法计算了”。大量网页的背后是海量的信息资源,它们不仅是人类知识的宝库,也是人类记忆的财富。我们有必要将其妥善保存。 br>
网页信息变化快
网页信息的变化体现在两个方面:
一是网页内容的变更,通常是管理员定期或不定期地更新网页,以便增加新信息或修改之前的信息。这并不会引起网页数量的变化,但是一定程度上更新了网页的信息,因此原网页的部分信息可以认为是丢失了。
二是网页的新增或删除,通常由网站管理者新增某些网页或者删除某些网页。一旦删除,该网页便从互联网上消失,其他用户无法再访问。网页的增删会引起网页数量的变动。
相关学者研究发现,在6个月内近50%的网页会发生变化,68%的网页1年内将被从网上移除。
而INERVA项目:始于2000年,由国会图书馆负责,其目的是评价、选择、收集、编目以及保存数字材料,为将来的研究者提供利用。项目主要收集互联网上重要的政治事件、重特大事件,采集工作由网络机器人完成,并将结果分专题进行收集和存储,目前国会图书馆已经完成13个专题的收集。
美国的IA项目:开始于1996年,由非营利组织Inter Archive发起,其目的是建成“网络图书馆”,存储历史上曾经存在过的数字资源,使现在和以后的学者和研究人员能够永久访问。其收集的内容涉及音频、视频、软件、文本以及Web等领域,采用网页快照的方式,通过网络机器人程序自动抓取或接收Alexa公司和其他机构的捐赠。到目前共收集了自1996年以来的1500亿个网页、470709个音频记录以及1859523个文本等。
英国的UKWA项目:开始于2004年,大英图书馆和其他法定送存图书馆共同合作,主要收集英国范围内的网站。其目标是收集、保存重要的英国网站并提供长期利用,采取定期回访网页并保存快照的方式。自2004年以来已收集了上千个网站。
奥地利的AOLA项目:开始于1999年,由奥地利国家图书馆与维也纳科技大学软件学院合作,主要收集奥地利地域范围内和关系到本国利益并且是公开的网站,其目标