文档介绍:论文评定
意见评语:
“面向主题的搜索引擎”,是我们“天网”搜索引擎下一步发展的重要方向之一。同学的毕业论文,是这一新方向的良好开端。
论文所涉及的工作包含了对搜索引擎技术的一般认识,通用搜索引擎和面向主题搜索引擎的对比,面向主题搜索引擎的基本工作方式,以及在各个环节中所涉及的有关算法对比与分析;而且,将上述知识和认识有效地应用到了程序设计实践中,高质量地完成了一个面向影视主题的搜索引擎系统,搜集了几十多万影视信息,在影视信息方面提供着比“天网”通用搜索引擎更有效的服务;论文内容丰富,所涉及的工作量大,且有较强的系统性,是一篇优秀的本科毕业论文。
在毕业设计工作的过程中,龚笔宏同学态度端正,积极努力,精力集中,独立思考,表现出很强的进取精神和踏实的工作作风,为“天网”的发展做出了贡献。
老师签名:____
摘要
“天网”中英文搜索引擎是具有中文特色的搜索引擎,但是随着当前网络的不断增长,以及用户应用的不停变化,通用的搜索引擎已经不能应付各种不同的检索请求. 面向主题的搜集系统是针对一个主题,一类网页的搜集系统,也就是说只搜集整个网络的一个特定子集. 所谓主题,可以用一系列例子页面来确定,也可以用一系列的特征词来确定. 搜集的目标就是与例子页面在内容上类似的页面.
我们对目前所采用的各种面向主题的搜集算法进行了研究,, 确定了一套搜集算法. 这套算法是基于原有的天网搜索引擎,,准确的进行同主题搜集.,根据实现的结果说明面向主题搜集的优势所在,以及其发展的可能性.
本文的大纲如下:
本文首先说明了什么是通用的搜索引擎, 什么是面向主题的搜集系统,以及此二者的区别.
接着提出了几种搜集策略, 总的来说,把面向主题的搜集系统分为三个部分: 搜集例子, 特征提取,根据特征进行搜集. 对这三部分各分析了几种策略,同时进行了分析,评估.
然后介绍了目前我们所实现的策略. 我们主要采用的是基于向量空间模型, 结合天网的特点的特征提取. 搜集方面我们主要加入了对连接关系的考虑,对出度入度的考虑,
接着对我们的工作进行了总结,评价了所实现的系统,说明面向主题比通用搜索引擎的区别,以及其优势.
最后是对未来工作的展望, 现有系统的不足以及改进
关键词:搜索引擎,主题,文本分类,特征提取,连接关系,信息挖掘
目录
论文载要………….…………………………………………………………………………………...2
目录……………………………………………………………………………………………….…..3
第一章面向主题的搜索引擎………………………………………………………………………4
§……………………………………………………………………..….…4
搜索引擎的使用
搜索引擎的分类
搜索引擎的未来
§…………………………………………………………………….. 6
§……………………………………………………………………………8
天网搜索引擎的介绍…………………………………………………….……………….10
§ 天网系统简介…………………………………………………………………………….10
§……………………………………………………………………………..11
搜集策略的研究和比较………………………………………………………………..…12
§ 概述……………………………………………………………………………….………..12
§…………………………………………………………………..…………13
§………………………………………..………………………13
§…………………………………………………………………………...14
§………………………………………………………………………………………...20
我们的实现…………………………………………………………………………………21
§ 系统结构……………………………………………………………………………………21
§………………………………………………………………………22
§…………………………………………………………………………… 24
§ 工作结果及对结果的评价………………………………………………………………… 27
总结………….………………………………………………………………………………28
参考文献………………………………