1 / 11
文档名称:

python实现网络爬虫、蜘蛛.doc

格式:doc   大小:69KB   页数:11页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

python实现网络爬虫、蜘蛛.doc

上传人:350678539 2020/11/16 文件大小:69 KB

下载得到文件列表

python实现网络爬虫、蜘蛛.doc

文档介绍

文档介绍:python 中如何提取网页正文啊 谢谢
import  
url=""  
response=(url)  
page=()  
python提取网页中的文本
import os,sys,datetime   
import httplib,urllib, re   
from sgmllib import SGMLParser   
  
import types   
  
class Html2txt(SGMLParser):   
    def reset(self):   
         = ''  
         = True  
         (self)   
    def handle_data(self,text):   
        if :   
             += text   
  
    def start_head(self,text):   
         = False  
    def end_head(self):   
         = True  
  
  
if __name__ == "__main__":   
     parser = Html2txt()   
     (("").read())   
     ()   
    print ()  
python 下载网页
import httplib  
conn=("")
("GET","/")
r1=()
print ,
data=()
print data

用python下载网页,超级简单!
from urllib import urlopen
webdata = urlopen("").read()
print webdata
深入python里面有
python 下载网页内容,用python的pycurl模块实现
用python 下载网页内容还是很不错的,之前是使用urllib模块实验的,但听说有pycurl这个模块,而且比urllib好,所以尝试下,废话不说,以下是代码
#!/usr/bin/env python
# -*- coding: utf-8 -*-
import StringIO
import pycurl
def write):
  f=open(x,'w')
  (fstr)
 
html = ()
c = ()
myurl=''
 
(, myurl)
 
#写的回调
(, )
 
(, 1)
 
#最大重定向次数,可以预防重定向陷阱
(, 5)
 
#连接超时设置
(, 60)
(, 300)
 
#模拟浏览器
(, "Mozilla/ (compatible; MSIE ; Windows NT ; SV1; .NET CLR )")
 
 
 
#访问,阻塞到访问结束
()
 
#打印出 200(HTTP状态码,可以不需要)
print ()
 
#输出网页的内容
print ()
#
write(),"")