文档介绍:化学信息资源导航系统开发
马良
(理学院应用化学系材料化学专业 19961209)
前言
众所周知, 在我国已经取得了蓬勃的发展。如今,大大小小的网络公司有如雨
后春笋,竞相涌现。不计其数的企业、公司甚至政府部门纷纷上网。
的飞速发展使其正在成为各种信息全新的载体。上的化学信息资源从 90
年代初开始发展,特别是在最近两三年内的进展日新月异。这种信息媒体的革命已经开始对
化学工作者日常的工作和学习方式产生深刻的影响。
作为信息的媒体与传统的印刷媒体相比较,具有如下主要的优势:信息量丰富;
发布(更新)周期短;具有互动性;支持多媒体。它为化学工作者们提供了前所未有方便的学术
交流环境。
但由于 在管理上的开放性以及 上的信息资源在组织上的松散性,也给
人们充分利用网络信息资源带来了一定的困难:信息太多太杂;分布杂乱无章;不断在发展
变化;检索困难是互联网上信息资源四个显著特征。如何帮助用户在互联网上方便快捷地查
找和利用信息资源,是一个暨待解决的重要课题。基于这种认识,本研究希望设计出一种系
统,能从网上已有的多个搜索引擎库中下载我们指定方向的信息资源,通过合理的信息资源
组织方式在本地建立可供使用的信息资源站,即化学信息资源导航站点。
一、信息的挖掘和采集
目前获取 化学资源可以利用的工具主要分为四类:万维网目录服务类型网站、
搜索引擎(Search Engine)网站、元搜索引擎(Meta Search Engine)工具类网站 化学资
源导航网站和其他化学网站。
万维网目录服务类型网站的搜索方式是先将各种网站按类别进行分组,然后通过逐步缩
小搜索范围来指引用户找到他所要查询的网页,例如 Yahoo!和 Sohu 就是万维网目录服务
类网站,它们通过人工对信息进行分类处理来建立和维护自己庞大的站点信息数据库,用户
查找时显示的分类目录就是它们数据库中的信息。万维网目录服务类网站的使用方法是这样
的:比如你现在想查找化学电解的信息,你可以在 Yahoo!中逐步选择“科学”>“化学”>“化学
电解”.但是,通常在这些目录中未必能找到你所关心的内容.
万维网目录服务类网站除了提供目录检索外,还可以进行关键词查询,此时它们就调用
AltaVista 的搜索引擎、Sohu 则用的是 Snap 的索引擎。象 Alta Vista、Excite、Infoseek、
Lycos、Opentext、Webcrawler、Hotbot、Northern Light、Google 和 DirectHit 等都属于搜
”蜘蛛”的自动代理软件在网址中爬行,访问网络中公开区
域的每一个站点并记录其网址, Web 页面以便
更新其关键词索引。搜索引擎一般是关键词进行网络查询的,除搜
索引擎还可以查找其他:项目:如网页、新闻讨论组或是名人录(电子邮件地址等)。
随着 的极度膨胀,利用以上搜索引擎所查到的结果数量也不断增加。但是根据
专家的评测,目前主要的搜索引擎返回的相关结果的比率不足 45%,而且由于原理、范围、
算法的不同,导致同样一个搜索请求在不同的搜索引擎中的查询结果的重复率不足 34%。
1