1 / 26
文档名称:

“天网”系统中的信息统计子系统.doc

格式:doc   页数:26页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

“天网”系统中的信息统计子系统.doc

上传人:策划大师 2011/11/13 文件大小:0 KB

下载得到文件列表

“天网”系统中的信息统计子系统.doc

文档介绍

文档介绍:论文摘要
信息资源的特点。在介绍已有的搜索引擎之后,分析了这些搜索引擎的特点。
随后,本文对“天网”搜索引擎系统进行了介绍,给出了该系统的总体结构、技术特征,并分析了该系统的性能。
然后,文章介绍了“天网”系统中的信息统计子系统。信息统计子系统是为系统管理人员评估系统性能、维护系统效率、更好满足用户的查询要求而设计实现的。本文给出了信息统计子系统的总体结构,并详细介绍了该子系统的两个重要部分,数据库信息处理和日志文件信息处理的设计目标和实现算法,并介绍了如何让机器自动学习新词。
关键词: 搜索引擎、信息统计、机器学习新词
目录
目录 2
第一章背景介绍 3
§ 和
§ 搜索引擎技术的发展与现状 5
第二章系统概述 6
§ 系统的总体结构 6
§ 6
§ 8
第三章信息统计子系统 10
§ 系统的改进需求 10
§ 信息统计子系统的总体结构 10
§ 运行条件 11
§ 使用界面 11
第四章数据库信息处理的实现 14
§ 设计目标 14
§ 数据库处理 14
§ 引用次数排行表 15
§ HASH 表 16
§ 统计各个域内的主机数目 18
§ 主机情况查询 19
第五章日志文件信息处理的实现 20
§ 设计目标 20
§ 文件处理 20
§ 新词学习 22
致谢 25
参考文献 26
第一章背景介绍
§ 和
是一个规模巨大、自治性强、发展变化快,用户访问频繁的国际互联网络。
的前身是60年代末,。的最初原因是当时计算机的价格非常昂贵,所以科研工作者们想通过网络进行远程计算。后来,人们才逐渐认识到它作为通讯手段的好处。1983年后,。其后,的发展起了划时代的作用。
90年代初到现在,增长最迅速的时期。1993年,的增长速度是341%。截止到1996年7月,已连接了134336个网络,入网主机1228万台,以及数以亿计的用户。的发展也呈现出以下特点:
信息量大而且分散
自治性强
信息资源多种多样
信息变化快
不一致和不完整性
这些特点对网络软件的性能提出了很高的要求。
World Wide Web(,位于瑞士的European Laboratory for Particle Physics(CERN)首先开始了它的研究机构、大学和公司也加入自的的运行平台覆盖了目前主流的计算机硬件和操作系统。在此过程中,证不同议和标准也正在使用和完善之中。
xt)和超媒体(Hypermedia)的分布式信息系统。超文本和超媒体是信息的一种组织形式,:

Xxxxxxx
Xxxxxxxxxxx
Xxxxxx
Xxxxxxxxx
Xxxxxxxxxxx
Xxxxxxxx
......
Xxxxxxxxxxx
Xxxxxxxxxxxxx
Xxxxxx
xxxxxxxxxxx
Xxxxxxxxxx
Xxxxxxxxxxxxx
......
Xxxxxxx
Xxxxxxxxxxxx
Xxxxxxx
Xxxxxxxxxxx
Xxxxxxxxxxxxx
xxxxxxxxx
......
在超文本文件中,包含有许多指针,这些指针被称为超文本链(Hyperlink)。每一个超文本链都指向其它的超文本信息。这些超文本信息可能存放在同一台计算机中,也可能存放在些超文本信息存放在何处,如果他们想了解这些信息,他们就可以通过超文本链得到。超媒体是对超文本的扩展。在超媒体系统中,超媒体链可以指向任何媒体信息,包括图象、音频、视频等等。超文本和超媒体为用户进行信息检索提供了极大的方便。
§ 搜索引擎技术的发展与现状
随着t上出现了搜索引擎。这些搜索引擎一般是预先由程序自动地在网上递归地访问入数据库。然后将数据库中的信息建立索引,并提供给用户户的请求查询数据库,并将结果按相关程度排序后输出给用户。
目前的搜索引擎大致可分为三大类:分类编目搜索引擎(Directory Search Engine)、机器人搜索引擎(Robots Search Engine)和元搜索引擎(Meta Search Engine)。分类编目搜索引擎以Yahoo公司的Yahoo!为代表,机器人搜索引擎以Digital的AltaVista、Inktomi公司的HotBot为代表, 的MetaCrawler为代表。
国外搜索引擎起步较早,功能全面,性能良好,但是它们的共同缺点是都不能很好地支持中文信息的发现和查询。虽然AltaVista、Yahoo等搜索引擎在1998年上半年宣布支持中文,但在对