1 / 12
文档名称:

学科信息门户建设中深层网页资源采集的方法与策略.doc

格式:doc   页数:12
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

学科信息门户建设中深层网页资源采集的方法与策略.doc

上传人:gumumeiying 2014/2/1 文件大小:0 KB

下载得到文件列表

学科信息门户建设中深层网页资源采集的方法与策略.doc

文档介绍

文档介绍:学科信息门户建设中深层网页资源采集的方法与策略
随着网络技术的日益发展,网络信息资源正以人们难以想象的速度增长,网络也日渐成为人们获取信息的主要途径之一。搜索引擎为人们从海量网络信息资源中查找所需信息提供了便捷途径,但由于其返回的信息资源在查准率和查全率上都无法得到保证,人们经常会得到许多无用信息,反而降低了信息资源的使用效能。因此学科信息门户顺应时代发展需要应运而生,用户可通过学科信息门户快捷、有效地发现高质量的网络信息,同时使他们尽可能多地获得有价值的信息和信息资源。本文认为高质量学科信息门户建设应注重深层网页资源的收集与整合利用,并应重视深层网页资源采集的方法与策略。
1 学科门户网站建设现状
学科信息门户(Subject Information Gateway,SIG)是“提供可检索和可浏览的互联网资源目录的联机服务系统,一般集中于某一相关的学科领域,提供对经图书馆工作人员遴选和按学科组织的互联网资源的利用。”[1]它致力于将特定学科领域的信息资源、工具与服务集成到一个整体中,为用户提供一个方便的信息检索和服务入口。从本质上讲,学科信息门户是含有不同分类主题的网页及相关链接的网上图书馆。主要特点是有较多的人工参与,通过质量标准规范资源的选择,并提供对资源的丰富描述;提供依据学科体系结构和资源类型分类的浏览和检索入口;有对资源的管理和长期发展的政策、元数据应用与标引规范、资源共享与互操作机制等[2]。
自1996年DESIRE一期工程开始,学科信息门户就在欧洲范围内逐渐普及,一大批面向数学、工程科学、医学、社会科学的学科信息门户相继建立,到2001年DESIRE项目进入第二期时,学科信息门户已经在世界范围内呈“燎原”之势,在美洲、欧洲、大洋洲广泛实施。并且在2000年以后逐渐从单个的研究项目向大规模的建设项目转化,模块化的功能组件又使学科信息门户呈现出丰富多彩的形态,并且在组织上、商业模式上同其他的企业信息门户、知识门户相互交融,出现了形式和内容的统一态势[3]。国际上比较权威的学科信息门户网站有英国的RDN、SOSIG,欧洲的RENARDUS,美国的LII等。
随着国外大规模的学科信息门户建设以及国内学者对学科信息门户的研究,学科信息门户建设的思想和理念逐步为国内业界接受。国内最早是上海图书馆于1999年开始建设的“数字图书馆资源总汇表”,现在已发展成为“数字图书馆”资源门户。2002年3月开始至今,在中科院知识创新工程科技基础设施建设专项“国家科学数字图书馆(CSDL)项目”的子项目资助下,我国已建成的有生命科学、化学、数字物理、资源环境、图书情报、长江流域资源生态环境、天然药物、微生物、科技政策与管理等9个学科信息门户和中心门户[4]。热点门户是国家科技图书文献中心组织建设的一个网络信息资源门户类服务栏目,目前已建成纳米科技、认知科学、食物与营养、艾滋病预防与控制等四个热点门户。其它的学科信息门户还有武汉理工大学图书馆的“材料复合新技术信息门户”,中国林业科学研究院科技信息所和中国林科院图书馆合作建设的
“林业学科信息门户”等。<br台的完善性、数据标准化、数据共享性、高质量信息资源数量、描述对象数量等方面存在着一定的不足[5],有些学科信息门户缺乏高质量的有效网络信息资源。除材料复合新技术信息门户、数字图书馆资源门户、微生物特色学科信息门户、青藏高原研究专题信息门户等能管理网络信息资源和本地实体信息资源外,其它门户均只链接网络信息资源。这种现状不利于信息资源的整合、服务和信息资源开发,不能适应数字图书馆集成服务的发展方向,也不能满足用户对信息资源一站式服务的要求。
2 深层网页资源的价值
由于目前标准的搜索引擎只能发现互联网上的静态网页并建立索引,无法对被深埋在动态产生的网站之下的大量信息资源进行搜索。因此,有许多信息由于其身处网络深层而无法被发现。对于这些处在网络深层的信息资源,有学者称其为不可视网络、隐蔽网络[6](invisible web,hidden web)、深层网页资源(Deep Web,Deep )[7]。
Ellswonh提出Invisible web这个概念以来,国外针对深层网页资源的研究相当热烈,且成果众多。内容涉及理论研究、检索软件、搜索引擎等,形式有专著、论文、软件及博客等。深层网页资源的潜在价值及商机还引起了商界的重视,2004年9月14日下午,微软亚洲研究院负责互联网搜索和数据挖掘的马维英向记者演示微软在网络搜索技术方面的三大新近展,其中一个就是从表层万维网到深层万维网,充分利用大量隐藏的高质量信息[7]。雅虎推出了“内容获取项目
”,该项目意在为公共数据库中的数十亿个网页提供搜索索引[8]。与此