1 / 13
文档名称:

Python网络爬虫实习报告.doc

格式:doc   大小:156KB   页数:13页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

Python网络爬虫实习报告.doc

上传人:bai1968104 2019/9/5 文件大小:156 KB

下载得到文件列表

Python网络爬虫实习报告.doc

文档介绍

文档介绍::..Python网络爬虫实****报告在能力与知识结构方面,要求学生应具有扎实的专业和日语语言基础,熟练掌握日语听、说、读、写、译的基本技能;了解日本社会及日本文化等方面的基本知识,熟悉日本国情,具有一定的日本人文知识及运用这些知识与日本人进行交流的能力。Python网络爬虫实****报告)目录HYPERLINK\l"_Toc"一、选题背景 -2-HYPERLINK\l"_Toc"二、爬虫原理 -2-HYPERLINK\l"_Toc"三、爬虫历史和分类 -2-HYPERLINK\l"_Toc"四、常用爬虫框架比较 -5-HYPERLINK\l"_Toc"五、数据爬取实战(豆瓣网爬取电影数据) -6-HYPERLINK\l"_Toc"1分析网页 -6-HYPERLINK\l"_Toc"2爬取数据 -7-HYPERLINK\l"_Toc"3数据整理、转换 -10-HYPERLINK\l"_Toc"4数据保存、展示 -12-HYPERLINK\l"_Toc"5技术难点关键点 -12-HYPERLINK\l"_Toc"六、总结 -14-一、选题背景二、爬虫原理三、爬虫历史和分类四、常用爬虫框架比较Scrapy框架:Scrapy框架是一套比较成熟的Python爬虫框架,是使用Python开发的快速、高层次的信息爬取框架,可以高效的爬取web页面并提取出结构化数据。Scrapy应用范围很广,爬虫开发、数据挖掘、数据监测、自动化测试等。Crawley框架:Crawley也是Python开发出的爬虫框架,该框架致力于改变人们从互联网中提取数据的方式。Portia框架:Portia框架是一款允许没有任何编程基础的用户可视化地爬取网页的爬虫框架。newspaper框架:newspaper框架是一个用来提取新闻、文章以及内容分析的Python爬虫框架。Python-goose框架:Python-goose框架可提取的信息包括:<1>文章主体内容;<2>文章主要图片;<3>文章中嵌入的任heYoutube/Vimeo视频;<4>元描述;<5>元标签五、数据爬取实战(豆瓣网爬取电影数据)1分析网页#获取html源代码def__getHtml():data=[]pageNum=1pageSize=0try:while(pageSize<=125):#headers={'User-Agent':'Mozilla/()AppleWebKit/(KHTML,likeGecko)Chrome/',#'Referer':None#注意如果依然不能抓取的话,这里可以设置抓取网站的host#}#opener=()#=[headers]url="https://movie./top250?start="+str(pageSize)+"&filter="+str(pageNum)#data['html%s'%i]=(url).read().decode("utf-8")((url).read().decode("utf-8"))pageSize+=25pageNum+=1print(pageSize,pageNum)exceptExceptionase:raiseereturndata2爬取数据def__getData(html):title=[]#电影标题#rating_num=[]#评分range_num=[]#排名#rating_people_num=[]#评价人数movie_author=[]#导演data={}#bs4解析htmlsoup=BeautifulSoup(html,"")("ol",attrs={'class':'grid_view'}).find_all("li"):(("span",class_="title").text)#(("div",class_='star').find("span",class_='rating_num').text)(("div",class_='pic').find("em").text)#spans=("div",class_='star').fi

最近更新

人工智能辅助精密制造 35页

基于Django的数据收集系统的设计与实现的开题.. 2页

基于CATIA的水利水电工程三维地质建模技术研究.. 2页

基于ADINA的织物与风场流固耦合数值模拟的开题.. 2页

2024年少先队员申请书模板通用 13页

2024年小黑裙配什么颜色的鞋子好看 4页

2024年小苏打可以祛斑吗 5页

2024年小班语言教案七彩象 10页

2024年小班班务工作计划3篇 9页

地衣芽胞杆菌木糖利用代谢工程的开题报告 2页

2024年小班德育工作计划(通用18篇) 48页

土壤生物工程技术植物材料的筛选和施工方式研.. 2页

2024年小王子读后感(精选45篇) 44页

2024年小狗200字作文 10页

图像与数据的复合无线传输技术研究的开题报告.. 2页

2024年小学音乐说课稿范文 51页

2024年小学非遗文化进校园活动总结 4页

园林驳岸的设计研究的开题报告 2页

回填材料对U型管换热器换热效果影响分析的开题.. 2页

四川字库塔的文化遗产价值与保护修复研究的开.. 2页

嘶声波与合声波传播角对波粒回旋共振作用的影.. 2页

喷油器生产过程的生命周期影响评价的开题报告.. 2页

幼儿园野炊炒菜观察记录 2页

2021年大班体能龙舟中国高校龙舟优异运动员体.. 9页

企业要发展,我为企业做什么 5页

挂篮悬臂浇筑施作业安全检查表 3页

万家岭镇中小学排球校本课程教材 27页

雅歌书查经 8页

以旧换新操作流程 2页

中国成人肥胖症防治专家共识 7页