1 / 15
文档名称:

信息检索论文.doc

格式:doc   大小:893KB   页数:15页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

信息检索论文.doc

上传人:文库旗舰店 2018/6/6 文件大小:893 KB

下载得到文件列表

信息检索论文.doc

文档介绍

文档介绍:TRS 企业搜索引擎
数学与计算机科学学院信息管理与信息系统专业 070304060 付艳
指导教师曾蔚助教
[摘要]: TRS 搜索引擎框架中,很好地利用模块化的软件解决了企业搜索引擎应用中的四个心环节:内容实时发现索引,内容海量安全管理,内容智能个性搜索, 内容挖掘分析利用以便有利于企业更好的视线企业信息化.
[关键字]企业搜索;应用模式;企业信息化;安全

互联网的出现,信息的高速膨胀,搜索成为互联网上信息获取的主要手段。自1994年YAHOO推出了超级目录索引,从而成功地使搜索引擎的概念深入人心。如今,搜索引擎进入了高速发展时期,目前互联网上的搜索引擎已达数百家,其检索的信息量也与从前不可同日而语。
“搜索引擎”这个词也成为流行词语,媒体、大众、资本也狂热得无搜不欢。并且,业界又大胆地提出“互联网已经从注意力经济过渡到搜索力经济”了。在互联网上搜索引擎服务热潮一浪高过一浪的同时,我们也注意到另外一个现象,就是组织机构内部信息化浪潮,催生了大量的信息内容。据统计,企业数据每年以200%的速度增长,其中80%的数据以文件、邮件、图片等非结构化数据形式存放在企业内计算机系统中的各个角落,而这些数据总量远远超过了互联网信息的总量。
有数字表明,企业发布到互联网的信息只占到信息量的1%-2%,而98%以上的信息是存储在企业内部的。自从有了信息和内容,那么“搜索”就会成为人们永远避不开的宿命。由此,如何方便、快捷、安全地获取企业内部的信息内容,造就了一个新的,但实际上非常传统的应用——“企业搜索引擎”。似乎业界也看到未来企业级搜索引擎的庞大技术市场,各大IT巨头都纷纷推出了其相对应的软件产品和技术。
我们可以从下表看到,搜索引擎全方位的理解:
从上表中,我们可以看到,互联网搜索引擎和企业级搜索引擎的搜索目标和应用特点都有着截然不同的区别。因此,其在实现的技术机制和手段上也存在着非常大的差异。长期以来,因为传媒关注的总是热点,造成了市场上混淆这三者的区别。一提到搜索引擎,就自然对照到互联网搜索引擎,更加上一些厂商的刻意推波助澜,造成了互联网搜索引擎取代所有搜索引擎的概念。而实际上我们可以看到其间的差别非常大.

我们所说的企业搜索引擎(Enterprise Search Engine,简称ESE)中的企业并非指单纯的企业,政府、教育、科研、媒体、医疗、军队、安全部门都有类似的应用需求,这里的“企业”可以理解为“企业级”,即企业级搜索引擎。那么,对于企业级搜索,我们对“搜索”的诉求又是什么呢?和互联网搜索引擎相比,它又有哪些不同呢?
实际上,搜索引擎服务是内容管理技术的一个典型应用。我们不妨从内容管理的框架来看搜索引擎的各个环节,即从信息内容的采集,加工,管理,到服务,以至到信息内容的“发现”来比对一下企业级搜索引擎的不同。


互联网上搜索的数据一般都是网页形式的,尽管这几年网上丰富起来的图片、MP3等信息形式,但其组织形式仍是基于HTML组成的网页。而企业级用户需要搜索的数据既有互联网站上的,也有内部网站上的;既有网页形式的,又有各种数据库形式的;既有结构化数据,又更多的是各种电子文件格式的非结构化及半结构化数据,如Word、Excel、Lotus Notes、PDF、XML等;既有文本形式的数据,又有多媒体形式的数据;而且,同一机构的数据还可能分布在不同介质的载体上。
然而,不管数据的形式、来源、位置、平台如何不同,企业用户总是希望内外数据能无缝结合,用一个搜索工具和统一的界面,发出几个简单的检索请求就能对所有资源进行检索,并很快就能有满意的结果。并且,互联网搜索内容对于用户来说都是未知的,而企业级搜索的对象基本上是已知信息源,其中包括企业资料库、目录、帮助文本、源代码信息库、新闻组等,在对这些信息进行索引时,用户需要按照内容而不是通过比较源链接来进行排列。

很多业内人士在谈到搜索安全的话题就忧心忡忡,他们普遍认为搜索环境并没有为企业级应用做好足够的准备,未来充满太多的变数。而在一些实际的应用中,我们看到,即便为数据定义了文档级和数据库级的双重安全保障,搜索引擎的"魔爪"还能透过授权的索引文档来"搜索"它们。
因此,针对企业网中不同的用户对不同的资源,其使用权限都可能不一样,需要企业搜索引擎能够对用户、资源、权限分级管理和控制,确保系统的安全。

作为专业用户,企业用户需要查找的信息专业性强、概念复杂,而对查询的查全率和查准率有着非常高的要求。因此,需要利用各种手段来提高搜索引擎的查准率和查全率。从查全率来看,互联网搜索引擎无从谈起查全率,