1 / 6
文档名称:

基于大数据的招聘信息爬虫技术研究与实现.doc

格式:doc   大小:15KB   页数:6页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于大数据的招聘信息爬虫技术研究与实现.doc

上传人:学习好资料 2022/6/25 文件大小:15 KB

下载得到文件列表

基于大数据的招聘信息爬虫技术研究与实现.doc

文档介绍

文档介绍:基于大数据的招聘信息爬虫技术研究与实现
摘 要:網络招聘中信息量巨大,数据冗余较多,导致很多求职者在浏览招聘信息时往往不知道如何选择。网络爬虫,一种基于python语言的专有性搜索工具,能够将网络上的信息下载保存到本地,还能将基于大数据的招聘信息爬虫技术研究与实现
摘 要:網络招聘中信息量巨大,数据冗余较多,导致很多求职者在浏览招聘信息时往往不知道如何选择。网络爬虫,一种基于python语言的专有性搜索工具,能够将网络上的信息下载保存到本地,还能将网页爬取到的大量信息用于数据分析和大数据研究。
本文实现了Scrapy爬虫对招聘网站的数据爬取,通过搭建Flask框架对采集的数据进行可视化分析。其分析结果可以帮助求职者在浏览招聘信息时更好地评估工资水平,有效地判断招聘信息是否合理,进而有效提高求职者在寻求招聘岗位时的效率。
关键词:网络爬虫;Scrapy框架;网络招聘信息
随着互联网的高速发展和大数据时代的来临,网络招聘已经成为企业之间人才竞争的主要手段。相对于传统的线下招聘而言,网络招聘成本低、覆盖面广、易于发布信息、招聘信息种类众多[1],通过网络平台求职者还可以更快地与招聘者进行沟通联系,节约了彼此之间的时间成本。同时由于“互联网+”经济的蓬勃发展,使得网络招聘成为我国招聘市场的主流趋势[2]。招聘信息本身存在不同时段的时效性,不同政策的工资变化不同,冗余度大,成效低,让求职者很难匹配到自己心仪的工作。
本文使用网络爬虫技术爬取三个招聘网站的招聘信息,将爬取下来的招聘数据进行智能可视化分析,发掘数据中隐藏的价值,摸索网站招聘规律。通过得出结论,可以更有效地帮助求职者找到适合自己的工作。
一、网络爬虫技术概述
随着大数据时代的来临,互联网上的数据容量爆炸性地增长,高性能的网络搜索引擎以及定向的信息获取的需求,使得网络爬虫技术逐渐成为人们研究的对象。网络爬虫就是通过模拟浏览器发出网络请求,获取网站服务器返回的响应,并按照一定需求爬取数据的脚本程序。网络爬虫可以分为两类:通用爬虫和聚焦爬虫。
通用爬虫概述
通过用户初始规定的一个待爬取URL地址列表,爬虫从中按顺序爬取URL地址,通过DNS解析获得到主机网页的ip地址,然后交给下载器去下载网页,将采集成功的网页保存到本地磁盘中,并且将已爬取的URL地址做出标志防止二次爬取,保存到磁盘中的网页又存在许多链接信息,再从中抓取URL地址放入待爬取列表中去进行分析。如果发现有未下的url就放在待抓取url队列的列尾,从而等待调度下载。如此循环下载,待抓取队列为空时,爬虫就完成了对网页的下载。
聚焦爬虫概述
通用网络爬虫所采集的网页数据和正常用户在浏览器中访问的数据是一样的,而在大多数情况在,这些网页数据中有90%是对用户来说是不需要的。聚焦爬虫则可以根据用户的需求而去爬取特定的一些内容,是一种面向主题、面向需求的爬虫。本次论文所使用的爬虫就是聚焦爬虫。
二、搭建Scrapy框架
Scrapy框架
Scrapy框架是Python语言开发的,基于Twisted异步网络框架的开源爬虫框架。用户可以根据需求在Scrapy框架各个模块中编写好要爬虫的规则、存储的结构,