1 / 5
文档名称:

关于垂直搜索引擎的研究与思考.doc

格式:doc   大小:61KB   页数:5页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

关于垂直搜索引擎的研究与思考.doc

上传人:小雄 2021/3/2 文件大小:61 KB

下载得到文件列表

关于垂直搜索引擎的研究与思考.doc

相关文档

文档介绍

文档介绍:关于垂直搜索引擎的研究与思考
关于垂直搜索引擎的研究与思考
摘要 本文介绍了垂直搜索引擎的相关知识和主要技 术,通过了解垂直搜索引擎,能够让软件开发人员更好地掌 握应用该技术,以满足用户对信息搜索的要求。
关键词垂直搜索引擎;垂直搜索引擎技术;准则
中图分类号TP3文献标识码A文章编号
1674-670849-0206-01
0引言
近几年来,随着信息技术的迅速发展,互联网上数据量 也在急剧增长。在这样的海量数据面前,如何让用户快速准 。垂直搜索 引擎正是用于解决这类问题的。
1垂直搜索与垂直搜索引擎
垂直搜索的本质是对垂直门户信息提供方式的一次简 化性的整合。垂直搜索的本质是对垂直门户信息提供方式的 一次简化性的整合。它服务于某项功能的。而垂直搜索引擎 是为垂直搜索服务,对网页中某类信息进行一次简化性的整 合,通过关键词抽取出有用的数据进行处理,然后再返回给 用户。垂直搜索引擎的工作原理:垂直搜索通过网络蜘蛛将 网页的非结构化数据抽取成特定的结构化信息数据,进而获
得元数据,然后将这些数据存储到数据库,进行进一步的分 析处理,最后分成各个关键词,根据关键词的权重,来列出 网页的重要度,存入数据库。整个过程中,数据由非结构化 数据抽取成结构化数据,经过深度加工处理后以非结构化的 方式和结构化的方式返回给用户。
垂直搜索引擎的现况
垂直搜索引擎是搜索引擎行业保持高增长的重要力量。 据调查,目前中国互联网中的垂直搜索引擎日益发展壮大, 不断有面向新行业的垂直搜索引擎网站出现,例如,有面向 房子的搜房网,有面向求职的职业搜索,有面向学术的学术 搜索等。
目前垂直搜索引擎的主要盈利模式是基于竞价排名的 广告模式,具体广告主在购买垂直搜索引擎服务后,通过注 册一定数量的关键词,付费最高者排名靠前,购买了同一关 键词的网站按不同的顺序进行排名,出现最终的搜索结果。
垂直搜索引擎主要特点技术
1)网页信息采集技术网页信息采集技术通过网络蜘蛛 实现。网络蜘蛛可定向性的采集和垂直搜索范围相关的网 页,通过网页的链接地址来寻找网页,读取网页内容并索引 到其他网页,网络蜘蛛再访问这些web页面,通过无休止的 重复以上过程,直到把这个网站所有的网页都抓取完为止;
2) 从非结构化信息抽取到web结构化信息抽取,垂直 搜索引擎和普通搜索引擎的区别就是对Web页面信息进行深 度的分析和处理,从而提供专业的搜索服务。可以将HTML元 素分为以下几类:简单对象:不包含其他HTML元素的元素; 容器对象:有至少一个简单对象和其他容器对象组成的HTML 元素;分组对象:该方法分析了简单对象的视觉特征,然后 从里到外以此分析分组对象或容器对象;
3) 索引技术垂直搜索能够支持全文索引,并提供多种 结果排序方式。Web页面被网络蜘蛛储存在页面存储器中, 通过分析索引软件对采集的信息进行分析和处理,建立可供 查询的、可靠的索引数据库。有的建立WWW页面内容的全文 索引,有的只对页面中按分类或特征对信息进行抽取。
垂直搜索引擎的优势
1) 使用的范围广。垂直搜索引擎依赖于互联网,而互 联网的快速发展带动了垂直搜索引擎的发展。行业的信息量 变大,信息过滤的重要性突显出来,垂直搜索引擎提髙了好 的工具,为想了