1 / 67
文档名称:

主题搜索引擎搜索策略的研究及算法设计.pdf

格式:pdf   大小:1,509KB   页数:67页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

主题搜索引擎搜索策略的研究及算法设计.pdf

上传人:iris028 2021/11/24 文件大小:1.47 MB

下载得到文件列表

主题搜索引擎搜索策略的研究及算法设计.pdf

相关文档

文档介绍

文档介绍:分类号:TP31 密级:

专 业 学 位 研 究 生 学 位 论 文
论文题目(中文) 主题搜索引擎搜索策略的研究及算法设计
THE STUDY ON SEARCH STRATEGY AND
论文题目(外文)
ALGORITHM DESIGN OF THEME SEARCH ENGINE
研 究 生 姓 名 高庆芳
学 位 类 别 工程硕士
专 业 学 位 领 域 计算机技术
学 位 级 别 硕 士
校内导师姓名、职称 郑光 副教授
校外导师单位、姓名 甘肃信息中心 闫加元
论文工作起止年月 2016 年 3 月至 2017 年 5 月
论 文 提 交 日 期 2017 年 5 月
论 文 答 辩 日 期 2017 年 5 月
学 位 授 予 日 期
校址:甘肃省兰州市
学 院: 信息科学与工程学院 学 号: 136201000989
学生姓名: 高庆芳 导师姓名:
学科名称: 计算机技术
论文题目: 主题搜索引擎搜索策略的研究及算法设计
原 创 性 声 明
本人郑重声明:本人所呈交的学位论文,是在导师的指导下独立进行研究所
取得的成果。学位论文中凡引用他人已经发表或未发表的成果、数据、观点等,
均已明确注明出处。除文中已经注明引用的内容外,不包含任何其他个人或集体
已经发表或撰写过的科研成果。对本文的研究成果做出重要贡献的个人和集体,
均已在文中以明确方式标明。
本声明的法律责任由本人承担。
论文作者签名: 日 期:
主题搜索引擎搜索策略的研究及算法设计
中文摘要
当前互联网应用中网站的搜索正变得越来越普及,一个网站要想做大做强,
其内容必定要丰富,用户想要找到的内容,不管是最新的还是以前的(比如一段
时间以前就见过的新闻报道,因为不再是最新的内容而没有出现在首页上),我
们都可以借助搜索引擎来查找它。
通过搜索引擎,用户可以享受快速获得资源的服务,几乎足不出户,搜索引
擎就可以使人们更有效的从互联网络获取各种信息了,所以一个搜索引擎的好坏
直接决定了人们的互联网生活。
本文通过分析了主流搜索策略及算法,对搜索引擎的分类、技术架构及原理
结构进行了深度的剖析,同时研究了基于主题爬虫系统的设计和模型的建立,在
现有的技术支持上融入了机器学****算法,具体的讨论了文档的特征选择算法思
想,并阐述了目前主流的 TF-IDF 改进算法,以 Python 为开发平台,设计实
现了基于 Context Graph 的主题爬虫系统。最终以国内各大汽车网站为例,将“汽
车”设为主题词进行分类爬取,以查全率、查准率、F1 值来评价所涉及的系统
性能的好坏。通过实验结果,说明本文设计的算法在文档的主题词分类及网页爬
取的效率上具有较好的性能。
关键词:搜索引擎,主题爬虫,文本分析,机器学****br/> I
THE STUDY ON SEARCH STRATEGY AND
ALGORITHM DESIGN OF THEME SEARCH ENGINE
Abstract
Site sear