1 / 5
文档名称:

python几个实例.docx

格式:docx   大小:103KB   页数:5页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

python几个实例.docx

上传人:Bonnacon 2022/5/13 文件大小:103 KB

下载得到文件列表

python几个实例.docx

文档介绍

文档介绍:
import urllib2
content = ('http://XXXX').read()
-
***
这在某些情况下比较有用,比如IP被封了,或者比如IP访问的次数项,其中fk是随机生 成的(其实不太随机,看上去像是把epoch时间经过简单的编码生成的),需要从网页获取,也就是说得先访问一次网页,用正则表达式等工具截取返回数据中 的fk项。continueURI顾名思义可以随便写,login_submit是固定的,这从源码可以看出。还有username,password那 就很显然了。
-
好的,有了要填写的数据,我们就要生成postdata
import urllib
postdata=({
    'username':'XXXXX',
    '
password':'XXXXX',
    'continueURI':'/',
    'fk':fk,
    'login_submit':'登录'
})
-
然后生成http请求,再发送请求:
req = (
    url = '/*//',
    data = postdata
)
result = (req).read()
-
伪装成浏览器访问
某些网站反感爬虫的到访,于是对爬虫一律拒绝请求
这时候我们需要伪装成浏览器,这可以通过修改http包中的header来实现
#…
headers = {
    'User-Agent':'Mozilla/ (Windows; U; Windows NT ; en-US; rv:) Gecko/20091201 Firefox/'
}
req = (
    url = '/*//',
    data = postdata,
    headers = headers
)
#...
-
反”反盗链”
某些站点有所谓的反盗链设置,其实说穿了很简单,就是检查你发送请求的header里面,referer站点是不是他自己,, 把headers的referer改成该网站即可,以黑幕著称地cnbeta为例:
#...
headers = {
    'Referer':''
}
#...
headers是一个dict数据结构,你可以放入任何想要的header,来做一些伪装。例如,有些自作聪明的网站总喜欢窥人隐私,别人通过代理 访问,他偏偏要读取header中的X-Forwarded-For来看看人家的真实IP,没话说,那就直接把X-Forwarde-For改了吧,可以 改成随便什么好玩的东东来