1 / 51
文档名称:

搜索引擎及搜索引擎优化(seo)实验.doc

格式:doc   大小:905KB   页数:51页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

搜索引擎及搜索引擎优化(seo)实验.doc

上传人:tswng35 2018/10/13 文件大小:905 KB

下载得到文件列表

搜索引擎及搜索引擎优化(seo)实验.doc

文档介绍

文档介绍:实验三搜索引擎及SEO实验
一、实验目的
研究并学习几种常见的搜索引擎算法,包括网络蜘蛛爬行策略、中文分词算法、网页正文提取算法、网页去重算法、PageRank和MapReduce算法,了解它们的基本实现原理;运用所学SEO技术对网页进行优化。
二、实验内容
1. 研究常用的网络蜘蛛爬行策略,如深度优先策略、广度优先策略、网页选择策略、重访策略和并行策略等,了解其实现原理;
2. 研究至少两种中文分词算法,了解其实现原理;
3. 研究至少两种网页正文提取算法,了解其实现原理;
4. 研究至少两种网页去重算法,了解其实现原理;
5. 研究Google的PageRank和MapReduce算法,了解它们的实现原理;
6. 使用所学的SEO技术,对实验二所设计的网站静态首页实施SEO,在实施过程中需采用如下技术:
(1) 网页标题(title)的优化;
(2) 选取合适的关键词并对关键词进行优化;
(3) 元标签的优化;
(4) 网站结构和URL的优化;
(5) ,禁止蜘蛛抓取网站后台页面;
(6) 网页内部链接的优化;
(7) Heading标签的优化;
(8) 图片优化;
(9) 网页减肥技术。
7. 使用C++、C#和Java等任意一种编程语言,设计并实现一个简单的网络蜘蛛爬行程序,要求在输入关键词、设置爬行深度和初始网页URL之后能够实现网页搜索,输出包含关键词的网页的URL和网页标题。【注:实验7为补充实验,不要求每个同学都完成,感兴趣者可自行实现该程序,不计入实验报告评分。】
三、实验要求
1. 研究几种常用的网络蜘蛛爬行策略,填写相应的表格,表格必须填写完整;
2. 研究两种中文分词算法,填写相应的表格,表格必须填写完整;
3. 研究两种网页正文提取算法,填写相应的表格,表格必须填写完整;
4. 研究两种网页去重算法,填写相应的表格,表格必须填写完整;
5. 研究PageRank算法和MapReduce算法,填写相应的表格,表格必须填写完整;
6. 提供实施SEO之后的网站静态首页界面和HTML代码,尽量多地使用所学SEO技术;
7. 严禁大面积拷贝互联网上已有文字资料,尽量用自己的理解来阐述算法原理,必要时可以通过图形来描述算法;
8. 使用任意一种编程语言实现一个简单的网络蜘蛛程序,需提供网络蜘蛛程序完整源代码及实际运行结果。
四、实验步骤
1. 通过使用搜索引擎并查阅相关资料,研究并整理几种常用的网络蜘蛛爬行策略相关资料,填写相应的表格;
2. 通过使用搜索引擎并查阅相关资料,研究并整理两种中文分词算法的基本原理,填写相应的表格;
3. 通过使用搜索引擎并查阅相关资料,研究并整理两种网页正文提取算法的基本原理,填写相应的表格;
4. 通过使用搜索引擎并查阅相关资料,研究并整理两种网页去重算法的基本原理,填写相应的表格;
5. 通过使用搜索引擎并查阅相关资料,研究并整理PageRank算法和MapReduce算法的基本原理,填写相应的表格;
6. 对实验二所设计的网站静态首页实施SEO;
7. 使用任意一种编程语言,设计并实现一个简单的网络蜘蛛爬行程序。
五、实验报告要求
1. 研究几种常用的网络蜘蛛爬行策略并填写如下表格:
策略名称
基本原理
参考资料
深度优先策略
深度优先搜索是一种在开发爬虫早期使用较多的方法。它的目的是要达到被搜索结构的叶结点(即那些不包含任何超链的HTML文件) 。在一个HTML文件中,当一个超链被选择后,被链接的HTML文件将执行深度优先搜索,即在搜索其余的超链结果之前必须先完整地搜索单独的一条链。深度优先搜索沿着HTML文件上的超链走到不能再深入为止,然后返回到某一个HTML文件,再继续选择该HTML文件中的其他超链。当不再有其他超链可选择时,说明搜索已经结束。
百度百科深度优先搜索:http://baike./view/
广度优先策略
宽度优先搜索算法(又称广度优先搜索)是最简便的图的搜索算法之一,这一算法也是很多重要的图的算法的原型。Dijkstra单源最短路径算法和Prim最小生成树算法都采用了和宽度优先搜索类似的思想。其别名又叫BFS,属于一种盲目搜寻法,目的是系统地展开并检查图中的所有节点,以找寻结果。换句话说,它并不考虑结果的可能位址,彻底地搜索整张图,直到找到结果为止。
百度百科广度优先搜索:http://baike./view/
网页选择策略
对搜索引擎而言,要搜索互联网上所有的网页几乎不可能,网页的30%左右。其中的原因主要有两方面,一是抓取技术的瓶颈。网络爬虫无法遍历所有的网页;二是存储技术和处理技

最近更新

财务结算报告范文5篇 14页

西游记读书心得总结2025最新精选范文3篇 4页

精选试用期工作总结范文锦集9篇 14页

第二学期班主任优秀工作总结(通用22篇) 41页

班主任数学教学工作计划5篇 13页

毕业生实习总结的模板5篇 9页

有关月度个人工作总结汇总6篇 11页

有关于数学教师的工作总结(通用7篇) 14页

暑假开学班主任讲话稿5篇 9页

鸿门宴获奖公开课PPT课件一等奖新名师优质课获.. 85页

护士辞职申请书锦集4篇 4页

畜禽解剖生理运动系统骨骼 35页

幼儿园教师优秀的工作总结范文(精选8篇) 8页

少先队教师国旗下讲话稿5篇 6页

小学期末班主任工作总结(精选7篇) 17页

小学优秀少先队员代表发言稿5篇 5页

实用的学生会年终工作总结范文集合7篇 16页

学生会部门工作总结范文合集6篇 11页

大学生重视安全教育演讲稿5篇 7页

劳动创造世界演讲稿材料大全5篇 7页

初三决战六十天中考演讲稿7篇 11页

军训去拉练体会心得4篇范文 6页

关于新教师年度工作总结模板汇编6篇 12页

关于国防安全教育的演讲稿5篇范文 11页

公司财务年度个人工作总结模板6篇 14页

体育教研组的工作总结(通用12篇) 26页

二年级语文工作总结范文(通用16篇) 36页

个人帮扶工作总结(精选17篇) 21页

【精选】年度个人工作总结范文(通用11篇) 20页

【精华】销售年度个人工作总结模板集合8篇 22页