1 / 93
文档名称:

面向医疗主题的智能网络爬虫研究和实现.pdf

格式:pdf   页数:93页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

面向医疗主题的智能网络爬虫研究和实现.pdf

上传人:w3332654 2016/1/4 文件大小:0 KB

下载得到文件列表

面向医疗主题的智能网络爬虫研究和实现.pdf

相关文档

文档介绍

文档介绍:面向医疗主题的智能网络爬虫的研究与实现学 位类型:学术型学位学科(专业学位类别):计算机科学与技术作 者姓名:陈祖德作者学号:**********导师姓名及职称:刘建勋教授实践导师姓名及职称:学 院名称:计算机科学与工程学院论文提交日期:2013年6月6日学位授予单位:湖南科技大学Research and Implementation of Intelligent Web Crawler for Medical ThemeType of DegreeAcademic puter Scienceand Technology CandidateZudeChenStudent Number**********Supervisor and Professional TitleProf. Jianxun LiuPractice Mentorand Professional puter Science and EngineeringDateJune 6th, 2013UniversityHunan University of Science and Technology学位论文原创性声明本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。作者签名:日期:年月日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权湖南科技大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。涉密论文按学校规定处理。作者签名:日期:年月日导师签名:日期:年月日i摘要随着网络信息技术的向前发展,尤其是互联网应用的不断增加和网页信息的指数级增长,要在互联网中准确、快速地找到自己所需要的信息,搜索引擎是一种必不可少的工具。但是,百度、Google等全文搜索引擎都不是专门为检索特定领域信息而设计的。当人们需要搜索特定领域的信息的时候,搜索结果中却出现了很多用户不需要的信息,不能满足一些特定用户的需求。针对这个问题,针对特定领域的主题搜索引擎应运而生。主题搜索引擎的运转则很需要智能网络爬虫在后台高效地运行。现在主流主题爬虫,智能化程度不高,大多都是基于人工给定目标数据源进行抓取,或使用一些简单的半自动方法进行爬取,这些方法智能化程度低,还处于非常初级的阶段,远没有达到真正实际应用的要求。Map/Reduce是Google公司提出的用于大规模数据处理的软件架构,在其基础上写出来的应用程序可以在计算机集群上对海量的信息进行处理,而且Map/Reduce架构可扩展性强、容错性好,其得到了学术界和工业界的广泛认可。随着我国医疗行业的发展以及医疗信息的大众化,网络中的医疗信息成为了人们关注的热点。如何识别并获取网络中的医疗信息,如何对这些医疗信息进行有效的加工处理成为了大家研究的焦点。本文通过Map/Reduce构建面向医疗主题的智能网络爬虫,这充分发挥了计算机集群强大的计算、处理能力,使得面向医疗主题的智能网络爬虫可以更加快速地抓取医疗主题的网页,这为面向医疗主题的搜索引擎提供了大量医疗主题相关的网页,且为后续的网页排序等研究提供了重要的数据保障。本文的主要工作如下:(1)提出了一种用于解决主题网页识别问题的基于链接分析的网页识别算法。该算法的主要思想是通过结合链接分析方法和主题URL知识库,基于统计和社会网络分析的思想来对网页进行识别,得出相关的网页识别模型。理论分析和实验结果表明了该算法的可行性和有效性。(2)提出了基于LDA和语料库的网页信息去噪算法,该算法通过LDA模型检测出文档词语的各个主题类别后,然后利用主题语料库对这些词语进行过滤,去除主题不相关的词语,从而达到网页去噪的目的。通过对实验结果的评价和分析,表明了该算法的可行性和有效性。(3)分析了基于Map/Reduce的面向医疗主题的智能网络爬虫的体系架构,并对相应的模块做了详细的介绍。(4)通过Map/Reduce技术构建面向医疗主题的智能网络爬虫,这充分发挥了ii计算机集群强大的计算、处理能力,并通过实验证明了该网络爬虫的抓取效率优于传统单机式的网络爬虫。关键词:网络爬虫;主题爬虫;医疗主题爬虫;网页识别;网页去噪;Map/Reduce;搜索引擎iiiABSTRACTWith the development of network information technology, especia