1 / 13
文档名称:

python爬虫实战.doc

格式:doc   大小:146KB   页数:13页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

python爬虫实战.doc

上传人:Seiryu 2021/10/5 文件大小:146 KB

下载得到文件列表

python爬虫实战.doc

文档介绍

文档介绍:python爬虫实战
Python爬虫实战
本篇目标
,头像,年龄

,熟练Python

在这里我们用到的URL是 ,问号前面是基地址,后面的参数page
是代表第几页,可以随意更换地址。点击开之后,会发现有一些淘宝MM的简介,并附有超链接链接到个人详情页面。
我们需要抓取本页面的头像地址,MM姓名,MM年龄,MM居住地,以及MM的个人详情页面地址。

相信大家经过上几次的实战,对抓取和提取页面的地址已经非常熟悉了,这里没有什么难度了,我们首先抓取本页面的MM详情
页面地址,姓名,年龄等等的信息打印出来,直接贴代码如下 Python
1__author__ = 'CQC'
2# -*- coding:utf-8 -*-
3
4 urllib import
5 urllib2 import
6 re import
7
8 Spider: class
9
10 __init__(): defself
11 .siteURL = '' self
12
13 getPage(,pageIndex): defself
14 url = .siteURL + "?page=" + str(pageIndex) self
15 print url
16 request = (url)
17 response = (request) 18 ().decode('gbk') return
19
20 getContents(,pageIndex): defself
21 page = .getPage(pageIndex) self
22 pattern = ('<div class="list-item".*?pic-word.*?<a href="(.*?)".*?<img
23src="(.*?)".*?<a
24class="lady -name.*?>(.*?)</a>.*?<strong>(.*?)</strong>.*?<span>(.*?)</span>',)
25 items = (pattern,page) 26 item items: forin
27 print item[0],item[1],item[2],item[3],item[4]
28
spider = Spider()
(1)
运行结果如下

在这里,我们有写入图片和写入文本两种方式 1,写入图片
Python
1 运行结果如下
2
3 QQ截图20150220234132
4
5
6 在这里,我们有写入图片和写入文本两种方式 7 1)写入图片
2,写入文本
Python
1 saveBrief(,content,name): defself
2 fileName = name + "/" + name + ".txt"
3 f = open(fileName,"w+") 4 print u"正在偷偷保存她的个人信息为",fileName
5 (('utf-8'))
3,创建新目录
Python
1 #创建新目录
2 mkdir(,path): defself
3 path = () 4 # 判断路径是否存在
5 # 存在 True
6 # 不存在 False
7 isExists=(path)
8 # 判断结果
9 isExists: ifnot
10 # 如果不存在则创建目录 11 # 创建目录操作函数12 (path) 13 returnTrue
14 : else
15 # 如果目录存在则不创建,并提示目录已存在
16
主要的知识点已经在前面都涉及到了,如果大家前面的章节都已经看了,完成这个爬虫不在话下,具体的详情在此不再赘述,直接
帖代码啦。
Python
1
Python
1__author__ = 'CQC'
2# -*- coding:u