1 / 3
文档名称:

读书笔记范例.doc

格式:doc   大小:17KB   页数:3页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

读书笔记范例.doc

上传人:zxwziyou9 2019/5/29 文件大小:17 KB

下载得到文件列表

读书笔记范例.doc

相关文档

文档介绍

文档介绍:读书笔记姓名:xiaoming学号:130601班级:15级电子商务1541班前言:我通过查阅图书馆书籍,搜索图书馆数据库资料,查阅有关期刊和查找网页上相关的资料四种方式,为我的论文——《基于分布式系统的网络爬虫设计与研究》寻找相关的信息资料,并从20XX年4月1日——20XX年4月24日根据所收集的资料完成的读书笔记,以下即为我此次的读书笔记。《主题网络爬虫的研究与设计》之读书笔记索引:南京理工大学,控制理论与控制工程,2008,硕士:《主题网络爬虫的研究与设计》原文的摘要:随着网络资源的急剧增长,在庞大的网络上,快、准、全地找到相关信息,变得越来越困难。此时,搜索引擎应运而生。搜索引擎是人们从网上查找信息最方便快捷的方式,也因此超过E-mail等常见web服务,成为用户使用量最多的服务。通用搜素引擎,面向所有的web信息检索者,由于庞大的网络信息规模和高速响应要求,使其检索结果的相关性不尽人意。主题搜索引擎,是为进一步提高相关性而发展起来的新一代搜索引擎。本文的研究对象是主题搜索引擎中的主题爬虫。首先概述了搜索引擎的发展概况和网络爬虫研究现状;然后分析了集中式主题网络爬虫的体系结构,将其分成5个组成部分:数据存储、下载模块、网页预处理、网页分类和链接分析,并阐述了各部分的功能。本文的具体工作如下:(1)在搜索策略中,结合内容分析和链接分析,利用URL字符串、锚文本、父页面和兄弟页面等启发信息,设计出一种链接评分方法。(2)网页预处理过程,包括分词、HTML解释和网页消噪。在对树节点进行裁剪的基础上,设计了基于样式的网页消噪方法,进一步提高网页消噪效果。(3)网页分类包括两个阶段:特征提取和权值计算阶段。在特征提取阶段,通过组合文档频率、改进后的CHI特征和互信息,得到新的特征,达到降维和提高分类精度的效果。在权值计算阶段,结合信息增益、传统TFIDF和重要信息标签的权值,得到了更适应网页分类的权值计算方法。(4)最后,,实现了一个简易的爬虫系统,并简要分析了爬虫的运行结果,达到了令人满意的效果。原文的关键字:搜索引擎;网络爬虫;主题爬虫;网页消噪;特征提取;作者的观点:为了获得较高的网页覆盖率,通用爬虫通常按照广度或深度优先原则遍历web有向图,在爬行过程中不太在意采集顺序和网页主题,对网页的内容缺乏细致的分析,过多的无关或无意义的页面被采集,严重浪费了系统资源和网络带宽并降低了爬虫的采集效率。为了满足应用的个性化和提高爬虫效率的需求,主题爬虫应运而生。相对于通用网络爬虫的搜索策略,主题网络爬虫是通过结合已知的启发信息而形成的启发式搜索策略。因此主题网络爬虫的研究主要集中在搜索策略的研究上。通常可以利用的启发信息有网页内容和链接结构,因此也就形成了基于内容的搜索策略和基于链接的搜索策略本人的观点:网络爬虫是一个功能很强的自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成部分。它遍历Web空间,不断从一个站点移动到另一个站点,自动建立索引,并加入到网页数据库中。网络爬虫分析某个网页时,利用HTML语言的标记结构来获取指向其他网页的URL地址,可以完全不依赖用户干预,实现网络上的自动爬行和搜索。正是这种行为方式,这些程序才被称为爬虫机器人。总结:该篇文章说明的数据爬虫的基本原理,及运